英偉達(dá)的GPU又升級(jí)了。3月19日,英偉達(dá)CEO黃仁勛發(fā)布了最新的B200算力芯片GPU,F(xiàn)P8精度下的訓(xùn)練性能是上一代的2.5倍,F(xiàn)P4精度下的推理性能更是達(dá)到了上一代的5倍。然而,這場(chǎng)技術(shù)狂歡背后,卻令A(yù)I領(lǐng)域算力的“貧富差距”更加凸顯。
大模型獲得突破以來(lái),無(wú)論是產(chǎn)業(yè)巨頭還是學(xué)術(shù)界,都在為獲取足夠的算力資源而苦苦掙扎。去年9月,甲骨文董事長(zhǎng)埃里森和特斯拉CEO馬斯克在硅谷一家豪華餐廳中向黃仁勛“乞求”GPU的場(chǎng)景還歷歷在目。近日,人工智能領(lǐng)域知名學(xué)者、斯坦福大學(xué)教授李飛飛再次表達(dá)擔(dān)憂:高校的AI研究已經(jīng)被高昂的GPU成本所拖累,逐漸被產(chǎn)業(yè)界甩在身后。
Meta可以為模型訓(xùn)練采購(gòu)高達(dá)35萬(wàn)個(gè)GPU,而斯坦福大學(xué)的自然語(yǔ)言處理小組,卻總共只有68個(gè)GPU——這種“萬(wàn)”與“個(gè)”的懸殊對(duì)比,揭示了算力鴻溝的殘酷現(xiàn)實(shí)。為此,李飛飛提出建立“國(guó)家級(jí)算力與數(shù)據(jù)集倉(cāng)庫(kù)”的計(jì)劃,并稱其重要性堪比“登月投資”。
對(duì)我國(guó)而言,情況同樣嚴(yán)峻。以GPU等AI芯片為代表的稀缺算力資源,優(yōu)先向少數(shù)大型企業(yè)供給,高校、中小微企業(yè)苦于高昂成本難以參與其中。
在此背景下,超大規(guī)模智算中心的建設(shè)或許能為解決算力短缺問(wèn)題提供一個(gè)思路,成為我國(guó)在全球AI競(jìng)爭(zhēng)中取得優(yōu)勢(shì)的重要一環(huán)。
事實(shí)上,我國(guó)早已在算力基礎(chǔ)設(shè)施上展開(kāi)積極布局。“東數(shù)西算”工程作為國(guó)家級(jí)的工程項(xiàng)目,在全國(guó)范圍內(nèi)規(guī)劃了八大樞紐節(jié)點(diǎn)和十大數(shù)據(jù)集群,并且已經(jīng)取得顯著進(jìn)展。
以十大集群之一的韶關(guān)集群為例,前不久,其首批上線運(yùn)營(yíng)的華南數(shù)谷智算中心,一期規(guī)劃算力16000P(1P約等于每秒1000萬(wàn)億次計(jì)算速度),規(guī)模居粵港澳大灣區(qū)首位。預(yù)計(jì)到2025年初,韶關(guān)集群的智能算力規(guī)模將達(dá)到50000P,成為大灣區(qū)、廣東省乃至整個(gè)華南地區(qū)的最大體量。這些算力資源,不僅可以滿足高校的科研需求,還可以為中小企業(yè)等各行各業(yè)提供實(shí)時(shí)、高效的算力支持。
然而,超大規(guī)模智算中心的建設(shè)并非易事。它需要突破一系列核心技術(shù),其中異構(gòu)算力的統(tǒng)籌和調(diào)度尤為關(guān)鍵。異構(gòu)計(jì)算,即多種算力的混合使用,對(duì)于實(shí)現(xiàn)全國(guó)算力中心的大一統(tǒng)和優(yōu)化資源利用至關(guān)重要。在多個(gè)數(shù)據(jù)中心或智算中心互聯(lián)互通的復(fù)雜場(chǎng)景下,異構(gòu)計(jì)算的挑戰(zhàn)前所未有。傳播內(nèi)容認(rèn)知全國(guó)重點(diǎn)實(shí)驗(yàn)室研究員張冬明表示,在異構(gòu)算力的建設(shè)和發(fā)展過(guò)程中,國(guó)產(chǎn)AI芯片必將扮演越來(lái)越重要的角色。然而就目前來(lái)說(shuō),受配套軟件、固件支持等生態(tài)系統(tǒng)方面的制約,真正能夠有效支撐大模型訓(xùn)練的國(guó)產(chǎn)算力集群并不多。
這些情況已被有關(guān)部門敏銳捕捉到。今年年初,工業(yè)和信息化部等七部門聯(lián)合印發(fā)的《關(guān)于推動(dòng)未來(lái)產(chǎn)業(yè)創(chuàng)新發(fā)展的實(shí)施意見(jiàn)》中提到:“加快突破GPU芯片、集群低時(shí)延互連網(wǎng)絡(luò)、異構(gòu)資源管理等技術(shù),建設(shè)超大規(guī)模智算中心,滿足大模型迭代訓(xùn)練和應(yīng)用推理需求。”
專家認(rèn)為,在當(dāng)前階段,大部分算力性能的提升主要來(lái)自“系統(tǒng)集成”。既有基于小芯粒技術(shù)的芯片級(jí)集成,也有基于一卡多芯技術(shù)的板卡級(jí)集成,還有基于液冷和高互聯(lián)的機(jī)架級(jí)集成。因此,建議在加強(qiáng)單芯片能力的同時(shí),應(yīng)注重提升AI算力的系統(tǒng)集成能力,從單點(diǎn)突破轉(zhuǎn)向橫向拓展,對(duì)芯粒、液冷、互聯(lián)等相關(guān)技術(shù)持續(xù)投入,進(jìn)一步實(shí)現(xiàn)AI算力系統(tǒng)的高算力、高效能、高穩(wěn)定、高性價(jià)比。
當(dāng)前,智算中心正在成為通用人工智能發(fā)展的關(guān)鍵。而超大規(guī)模智算中心,正在成為智算中心持續(xù)演進(jìn)的未來(lái)形態(tài)。隨著智算中心的發(fā)展成熟,“開(kāi)箱即用”的智能計(jì)算服務(wù)有望成為主流。當(dāng)然,這需要產(chǎn)業(yè)界、學(xué)術(shù)界和政府的通力合作。
在算力資源的統(tǒng)籌配置方面,業(yè)內(nèi)人士建議,政府可以通過(guò)行政手段,以統(tǒng)籌建設(shè)的方式集中采購(gòu),通過(guò)“云化”將算力按P銷售,再以“算力券”等的方式補(bǔ)貼中小型科研機(jī)構(gòu),以促進(jìn)AI的研究和應(yīng)用發(fā)展。
來(lái)源:人民網(wǎng) | 撰稿:辛文 | 責(zé)編:陳曉菲 審核:張淵
新聞投稿:184042016@qq.com 新聞熱線:135 8189 2583