智算中心,就是以人工智能計(jì)算任務(wù)為主的數(shù)據(jù)中心。
數(shù)據(jù)中心通常包括三種類別,除了智算中心以外,另外兩種分別是以通用計(jì)算任務(wù)為主的通算中心,以及以超級計(jì)算任務(wù)為主的超算中心。
2023年以來,以ChatCPT、Sora為代表的AIGC大模型橫空出世,掀起了一股席卷全球的AI浪潮。
想要在AI浪潮中占據(jù)優(yōu)勢,就必須擁有強(qiáng)勁的AI算力支撐。智算中心,作為AI算力的核心基礎(chǔ)設(shè)施,逐漸成為人們關(guān)注的焦點(diǎn),也是行業(yè)重點(diǎn)建設(shè)的對象。
根據(jù)數(shù)據(jù)顯示,我國目前已經(jīng)有包括武漢、成都、長沙、南京、呼和浩特等在內(nèi)的20多個(gè)城市建設(shè)了智算中心。到2025年,國內(nèi)智算中心數(shù)量將超過50個(gè)。
這些智算中心采用專門的AI算力硬件,適合高效運(yùn)行AI算法。它們可以應(yīng)用于計(jì)算機(jī)視覺、自然語言處理、機(jī)器學(xué)習(xí)等領(lǐng)域,處理圖像識別、語音識別、文本分析、模型訓(xùn)練推理等任務(wù)。
█ 智算服務(wù)器,到底有什么不同?
智算服務(wù)器是智算中心的主要算力硬件。它和傳統(tǒng)通用服務(wù)器最大的區(qū)別,在于算力芯片的不同。
傳統(tǒng)通用服務(wù)器以CPU作為主要芯片,有的配置了GPU(圖形處理單元)卡,也有的沒配。即便配置了,也數(shù)量不多(1-2塊),以完成傳統(tǒng)圖形處理任務(wù)(3D圖形渲染等)為主。
智算服務(wù)器,為了保證的操作系統(tǒng)運(yùn)行,也配置了CPU。但是,為了更好地完成AI計(jì)算任務(wù),所以配置了更多的GPU、NPU(神經(jīng)網(wǎng)絡(luò)處理單元)、TPU(張量處理單元)等計(jì)算芯片(4塊或8塊),以這些芯片輸出的算力為主。
這種“CPU+GPU”、“CPU+NPU”的架構(gòu),也被稱為“異構(gòu)計(jì)算”架構(gòu),能夠充分發(fā)揮不同算力芯片在性能、成本和能耗上的優(yōu)勢。
GPU、NPU、TPU的內(nèi)核數(shù)量多,擅長并行計(jì)算。AI算法涉及到大量的簡單矩陣運(yùn)算任務(wù),需要強(qiáng)大的并行計(jì)算能力。
在實(shí)際使用中,GPU、NPU、TPU會(huì)做成板卡的形態(tài),插入到智算服務(wù)器的插槽中。等服務(wù)器上電啟動(dòng)后,再根據(jù)調(diào)度執(zhí)行計(jì)算任務(wù)。
除了芯片不同之外,為了充分發(fā)揮性能以及保障穩(wěn)定運(yùn)行,AI服務(wù)器在架構(gòu)、存儲(chǔ)、散熱、拓?fù)涞确矫嬉策M(jìn)行了強(qiáng)化設(shè)計(jì)。
例如,智算服務(wù)器的DRAM容量通常是普通服務(wù)器的8倍,NAND容量是普通服務(wù)器的3倍。甚至它的PCB電路板層數(shù)也明顯多于傳統(tǒng)服務(wù)器。
瘋狂堆料,肯定也會(huì)帶來兩者之間的成本差異。一臺智算服務(wù)器的價(jià)格,可能會(huì)達(dá)到傳統(tǒng)通用服務(wù)器的數(shù)十倍以上。
不久前,中國移動(dòng)公示了2024年至2025年新型智算中心集采中標(biāo)結(jié)果,采購智算服務(wù)器總規(guī)模達(dá)到8054臺,中標(biāo)總金額達(dá)到了約191.04億元人民幣(不含稅)。平均下來,每臺的價(jià)格是237.2萬元。通用服務(wù)器的價(jià)格,根據(jù)品牌和配置的不同,大約在1到10萬元之間。
受算力板卡的影響,智算服務(wù)器的功耗也明顯大于通用服務(wù)器。
以英偉達(dá)GPU為例,A100單卡功耗400W,H100單卡功耗700W。配置了8張GPU的智算服務(wù)器,僅GPU的熱功耗就能達(dá)到3.2~5.6 kW。傳統(tǒng)通用服務(wù)器的話,也就0.3~0.5 kW左右。
從外型上來看,智算服務(wù)器和通用服務(wù)器并沒有很大的區(qū)別。兩者都是標(biāo)準(zhǔn)架構(gòu),可以放入42U標(biāo)準(zhǔn)機(jī)架。如果內(nèi)置了較多的AI算力板卡,智算服務(wù)器的厚度可能會(huì)稍微大一些,達(dá)到4U、5U甚至10U。
這里需要注意,根據(jù)工作任務(wù)的不同,智算服務(wù)器也會(huì)分為訓(xùn)練服務(wù)器、推理服務(wù)器或者訓(xùn)推一體服務(wù)器。這些服務(wù)器在架構(gòu)和體型上會(huì)存在一些差異。一般來說,訓(xùn)練服務(wù)器會(huì)比推理服務(wù)器更龐大一些(AI算力板卡更多)。