由啟明創(chuàng)投主辦的2025世界人工智能大會(huì)(WAIC)“啟明創(chuàng)投·創(chuàng)業(yè)與投資論壇——?jiǎng)?chuàng)業(yè)投資開啟AI技術(shù)與應(yīng)用共振周期”于7月28日在上海世博中心藍(lán)廳成功舉辦。
在本次論壇上,清華大學(xué)電子工程系長聘教授、系主任,無問芯穹發(fā)起人汪玉發(fā)表了主題為《軟硬協(xié)同推進(jìn)AI基礎(chǔ)設(shè)施演進(jìn)》的演講。
清華大學(xué)電子工程系長聘教授、系主任,無問芯穹發(fā)起人汪玉
汪玉指出,將人工智能真正轉(zhuǎn)化為實(shí)際生產(chǎn)力的過程中,Token作為大模型輸入輸出的基本單元,已成為智能時(shí)代最核心的生產(chǎn)要素之一。過去的價(jià)值鏈路是由電能驅(qū)動(dòng)算力提升,以完成簡(jiǎn)單任務(wù),而現(xiàn)在則演變?yōu)閷㈦娔苻D(zhuǎn)化為算力,再由算力生成Token,最終支撐復(fù)雜任務(wù)的執(zhí)行。伴隨這一轉(zhuǎn)變,評(píng)價(jià)基礎(chǔ)設(shè)施效能的核心指標(biāo)也正隨之變化——傳統(tǒng)的“每焦耳能量所能支持的計(jì)算次數(shù)(TOPS/J)”正被“每焦耳能量所能處理的有效Token數(shù)量(Tokens/J)”所取代。如何優(yōu)化單位能耗下的Token效率,將是AI 2.0時(shí)代基礎(chǔ)設(shè)施與系統(tǒng)設(shè)計(jì)的核心命題。
以下系汪玉的演講精選。
非常感謝啟明創(chuàng)投的邀請(qǐng),我最初是從AI基礎(chǔ)設(shè)施或AI硬件領(lǐng)域起步,之后慢慢開始做系統(tǒng)層面的工作,所以今天主要想和大家分享我們過去一段時(shí)間的實(shí)踐,以及對(duì)未來的一些預(yù)測(cè)。我們沒法像AI一樣做到精細(xì)化預(yù)測(cè),主要還是從技術(shù)角度來談?wù)劇?/span>
我們深刻地認(rèn)識(shí)到,真正的AI確實(shí)是可以形成生產(chǎn)力的。在生產(chǎn)力提升的過程中,有一個(gè)非常重要的維度叫作“數(shù)據(jù)”,我們就在思考,對(duì)于AI基礎(chǔ)設(shè)施而言,它所消耗的是什么?Token是一個(gè)非常重要的單元。在智能革命時(shí)代,如果說投入的是算力和數(shù)據(jù),而支撐它們運(yùn)行的主要是電,那么最終處理的到底是什么?我們現(xiàn)在看到了一個(gè)通用的基礎(chǔ)單元——Token,Token作為人工智能模型的輸入和輸出,其實(shí)是非常關(guān)鍵的。雖然從宏觀層面而言,當(dāng)前的生產(chǎn)要素被稱為數(shù)據(jù)要素,但在大模型時(shí)代,核心生產(chǎn)要素可能是Token。
AI 1.0時(shí)代,每個(gè)不同的垂類數(shù)據(jù)可以訓(xùn)練一個(gè)垂類模型,而現(xiàn)在人們把全世界的數(shù)據(jù)都轉(zhuǎn)化成Token,用這些Token來訓(xùn)練出一個(gè)Next Token Prediction的大模型,再輸出成Token,之后這些Token再被轉(zhuǎn)換成不同的模態(tài),如此才能支持所謂的多模態(tài)應(yīng)用,所以Token的輸入和輸出變得很關(guān)鍵。相應(yīng)的范式也會(huì)發(fā)生變化:過去是從電能到算力,來完成簡(jiǎn)單任務(wù);現(xiàn)在則轉(zhuǎn)變成了從電能到算力,再到處理Token,最終完成復(fù)雜任務(wù)。
對(duì)于基礎(chǔ)設(shè)施的評(píng)價(jià)角度也隨之改變:原來關(guān)注的是從每秒鐘或者每焦耳能夠輸出的計(jì)算次數(shù),現(xiàn)在變成了每焦耳或者每瓦特能夠支撐的Token數(shù)量,所以在AI 2.0時(shí)代,需要思考的是單位功耗或單位能量消耗下Token的變化。
在AI 1.0時(shí)代,所有的芯片的評(píng)價(jià)標(biāo)準(zhǔn)都是按照每焦耳的TOPS,或者是每瓦特的TOPS;而現(xiàn)在,我們認(rèn)為從AI 1.0到2.0評(píng)價(jià)指標(biāo)需要發(fā)生變化,因?yàn)樽鰧W(xué)術(shù)的總是想用一個(gè)統(tǒng)一標(biāo)準(zhǔn)來評(píng)價(jià),進(jìn)而牽引整個(gè)系統(tǒng)的發(fā)展,而Token正是這樣一個(gè)合適的標(biāo)準(zhǔn)。
隨著人工智能或者AGI發(fā)展的不同階段,問題的定義也隨之演變:在保證智能水平超過一定閾值的前提下,盡可能優(yōu)化Tokens/J,作為下一步在基礎(chǔ)設(shè)施和系統(tǒng)設(shè)計(jì)維度上的一個(gè)重要牽引指標(biāo)。
比如剛才所提到的,能效需求有幾個(gè)不同的智能等級(jí),從最初的智能對(duì)話助手,到邏輯問答解答,再到具身智能控制,目前我們看到部分工作已經(jīng)達(dá)到了10Tokens/J,當(dāng)對(duì)于智能要求越來越高的時(shí)候,Tokens/J的能效需求差別其實(shí)是很大的,到level2差1-2個(gè)數(shù)量級(jí),到level3差2-3個(gè)數(shù)量級(jí),要填補(bǔ)這些差距就需要從技術(shù)層面發(fā)力,通過軟件和硬件的協(xié)同優(yōu)化來解決這一問題。
從簡(jiǎn)單對(duì)話,到奧數(shù)解題、交互場(chǎng)景,再到科學(xué)研究領(lǐng)域的AI應(yīng)用(AI for Science),乃至群體智能的涌現(xiàn),隨著能力的逐級(jí)提升,我們需要在確保大模型推理性能提升不受影響的前提下,實(shí)現(xiàn)“高質(zhì)量 Tokens/J ”的持續(xù)演進(jìn)。
有一本書叫《思考,快與慢》,書中把人的認(rèn)知系統(tǒng)分為兩類:System1是負(fù)責(zé)直覺與感知的,給一個(gè)輸入馬上就有一個(gè)輸出。另外一個(gè)系統(tǒng)是System2,它更像是一個(gè)慢速思考的過程。所以在大模型剛出來的時(shí)候,我就在思考這到底是不是System2?后來想了想不是,到Open AI o1出來以后,才感覺它似乎接近System2,因?yàn)樗谢谒季S鏈的推理,所以我們看第二類系統(tǒng)其實(shí)是action by action的一個(gè)推理的過程。
先來看第一類系統(tǒng),這是我們之前研究了很久的一類系統(tǒng),從圖像識(shí)別、人臉識(shí)別開始,給一張圖輸出一個(gè)結(jié)果,這個(gè)時(shí)候如果希望有Tokens/J的提升怎么辦?我們知道,無論過去還是現(xiàn)在,大模型本質(zhì)上都是神經(jīng)網(wǎng)絡(luò),而神經(jīng)網(wǎng)絡(luò)的核心就是矩陣的運(yùn)算,總計(jì)算開銷等于計(jì)算量×單次運(yùn)算開銷,這里的計(jì)算量是指矩陣中的非零元數(shù)量,非零元才是需要進(jìn)行乘法和加法運(yùn)算的,另外一類因素則是每一個(gè)非零元的描述需要用多長的向量來進(jìn)行存儲(chǔ),這是當(dāng)時(shí)看到的兩個(gè)非常重要的基本優(yōu)化方向。
為什么大模型/神經(jīng)網(wǎng)絡(luò)可以被優(yōu)化?傳統(tǒng)模式是先做算法設(shè)計(jì),設(shè)計(jì)完了以后再去做硬件設(shè)計(jì)。但是由于神經(jīng)網(wǎng)絡(luò)有可學(xué)習(xí)特性,因此可以兩個(gè)階段一起優(yōu)化,從而在保證算法精度不變的情況下,讓矩陣中更多的元素變成0,或者讓矩陣?yán)锏脑刈兂筛痰南蛄浚ū忍兀?,這是我們過去很長一段時(shí)間在做的工作。人腦中神經(jīng)元的連接數(shù)看起來不多,每個(gè)神經(jīng)元大概只與不到10%的其他神經(jīng)元相連,也就是說即便有數(shù)十億個(gè)參數(shù),實(shí)際有效連接只有不到億量級(jí)。所以我們希望借鑒生物的發(fā)展,讓模型的矩陣變得稀疏。當(dāng)然,在進(jìn)行稀疏化的探索中,我們后來看到三個(gè)趨勢(shì):
第一個(gè),是稀疏對(duì)象從權(quán)重稀疏發(fā)展到激活稀疏,這是因?yàn)樵诖竽P蜁r(shí)代,模型的主要瓶頸轉(zhuǎn)化為注意力機(jī)制中的激活值計(jì)算,激活值稀疏成為研究重心;其次是稀疏模式從非結(jié)構(gòu)化發(fā)展到結(jié)構(gòu)化稀疏,因?yàn)橛布旧硎浅砻芙Y(jié)構(gòu)化的,對(duì)于結(jié)構(gòu)化的稀疏數(shù)據(jù)才能算得好,不能是隨機(jī)出現(xiàn)的非零元,而必須是規(guī)整的非零元;第三個(gè)趨勢(shì)是從后訓(xùn)練稀疏發(fā)展到稀疏訓(xùn)練,DeepSeek也在做這塊的嘗試,一邊訓(xùn)練一邊讓矩陣變稀疏,使得零元數(shù)量可以從50%進(jìn)一步增加到75%。
另一個(gè)重要的方向是量化。因?yàn)槿四X的運(yùn)作依賴一個(gè)個(gè)脈沖,脈沖其實(shí)就是0和1,這與我們現(xiàn)實(shí)計(jì)算系統(tǒng)中常用的32位浮點(diǎn)或64位浮點(diǎn)存在巨大差異。因?yàn)橐粋€(gè)是64位長度的,一個(gè)是簡(jiǎn)單的0/1信號(hào),所以現(xiàn)在在神經(jīng)網(wǎng)絡(luò)優(yōu)化中,可以進(jìn)一步變成8比特、4比特等。我們也看過去的10多年,從32比特浮點(diǎn)到8比特定點(diǎn),這是在2015、2016年的時(shí)候大家就形成的共識(shí)。再從INT8到INT4或者二值,當(dāng)然二值的方案業(yè)界還在努力過程中,效果不是那么好。所以大家現(xiàn)在看到的基本上都是FP8、FP4,這也是英偉達(dá)芯片里都支持的數(shù)據(jù)表示。
現(xiàn)在國產(chǎn)芯片也在慢慢支持FP8、FP4,以此來支撐更高效的訓(xùn)練和推理工作。從第一類系統(tǒng)最核心的矩陣維度來看,矩陣運(yùn)算實(shí)際上是模型推理的基礎(chǔ),而無論是模型訓(xùn)練還是大規(guī)模Agent推理,都需要整個(gè)計(jì)算系統(tǒng)的支持。整個(gè)系統(tǒng)的有效算力,取決于集群的總卡數(shù)和單芯片的算力。具體來看,目前的技術(shù)路徑是從晶圓級(jí)別(on-wafer)的集成開始,將多個(gè)芯片集成在同一硅基板(silicon)上。如果一個(gè)硅基板上面做的是一個(gè)獨(dú)立芯片的話,那么下一步就是在單臺(tái)機(jī)器內(nèi)實(shí)現(xiàn)芯片間的互聯(lián),然后再進(jìn)一步實(shí)現(xiàn)服務(wù)器之間的互聯(lián)。通過把多個(gè)超節(jié)點(diǎn)組合起來,最終變成一個(gè)整體的服務(wù)器集群。因此,構(gòu)建出具備高總算力的集群,是一個(gè)從底層芯片到上層架構(gòu)逐級(jí)集成和互聯(lián)的過程。其中每一個(gè)環(huán)節(jié)——從芯片設(shè)計(jì)、互聯(lián)技術(shù)到集群架構(gòu)——都存在顯著的優(yōu)化空間,這也為整體算力提升提供了多種可能性。
我們一直在說要做“小盒子”、“中盒子、“大盒子”的優(yōu)化,每個(gè)層面關(guān)注的重點(diǎn)不同。在小盒子層面,優(yōu)化主要集中在計(jì)算本身;到了中盒子,重點(diǎn)轉(zhuǎn)向不同芯片之間的連接與協(xié)同,包括計(jì)算流水的優(yōu)化,以及多維并行策略的優(yōu)化;在大盒子(千卡、萬卡乃至十萬卡)的維度,更重要的是怎么做到很好的資源調(diào)度,以及怎樣保證系統(tǒng)穩(wěn)定性,例如在萬卡甚至十萬卡規(guī)模的時(shí)候,如何確保任務(wù)執(zhí)行的正確性、故障發(fā)生時(shí)能否快速檢測(cè)與恢復(fù),以及如何實(shí)現(xiàn)有效的容錯(cuò)管理。因此在系統(tǒng)的優(yōu)化方面,還有很多需要解決的問題,行業(yè)內(nèi)大家都在很努力地前進(jìn),不斷推進(jìn)相關(guān)工作。
在端側(cè),我們的應(yīng)用需求和現(xiàn)實(shí)能力之間,基本上還有10倍左右的差距,當(dāng)然我們看到今年WAIC上已經(jīng)有峰值200Tokens/s的端側(cè)方案提出,非常期待能盡快看到這些突破在實(shí)際使用中真正滿足人們?nèi)粘I畹男枨螅?strong>在云側(cè),行業(yè)也正很積極地從能效角度推進(jìn)優(yōu)化,提升每節(jié)點(diǎn)的Tokens/J能效,從而實(shí)現(xiàn)更加高效和可持續(xù)的計(jì)算。
從基礎(chǔ)設(shè)施層來看,一方面我們要去優(yōu)化生態(tài)的差異,做到多元異構(gòu)生態(tài)現(xiàn)狀的優(yōu)化;另一方面,需要在不同的層級(jí),從底層的基礎(chǔ)設(shè)施層,到中間的模型層,再到上面的應(yīng)用層,都要做聯(lián)合的優(yōu)化,才能打造出更好的AI基礎(chǔ)設(shè)施設(shè)計(jì)。
在這里,我們也展示一下無問芯穹所實(shí)現(xiàn)和支持的,從底層基礎(chǔ)設(shè)施到上層人工智能應(yīng)用的多元算力調(diào)度和優(yōu)化工作。目前,我們的集群在全中國多個(gè)省市都能為主要的算力消耗方提供服務(wù),包括北京、上海等,我們希望下一步能在這些公共平臺(tái)的基礎(chǔ)上,進(jìn)一步提升算力應(yīng)用的高效性。
在實(shí)際應(yīng)用的過程中,也會(huì)衍生出很多不一樣的問題。剛才我們討論的是單個(gè)模型的訓(xùn)練或者推理,而當(dāng)下游任務(wù)從單個(gè)大模型發(fā)展到智能體協(xié)作時(shí),會(huì)有多個(gè)模型同時(shí)出現(xiàn)在一個(gè)集群上,而且是單次任務(wù)調(diào)度或者多次任務(wù)調(diào)度的時(shí)候都會(huì)出現(xiàn),所以GPU的利用率會(huì)降低,動(dòng)態(tài)性會(huì)變強(qiáng),開銷也會(huì)很大,這些都是我們正在解決的問題。
第二個(gè)方面,從單個(gè)智能體發(fā)展到多個(gè)智能體的時(shí)候,也會(huì)產(chǎn)生很多問題。包括并行性、上下文處理、工具復(fù)雜度等,在各個(gè)不同的窗口、容量和能量的上限都會(huì)面臨挑戰(zhàn),所以系統(tǒng)需要有進(jìn)一步的工具和系統(tǒng)優(yōu)化,支持單智能體到多智能體的發(fā)展。
第三個(gè)方面,今天的論壇后面會(huì)討論具身智能,具身智能將推動(dòng)研究重心從云側(cè)芯片到端側(cè)推理演進(jìn),這標(biāo)志著智能系統(tǒng)將從數(shù)字世界邁向物理世界,真正對(duì)物理世界產(chǎn)生作用。若要在端側(cè)實(shí)現(xiàn)非常好的效果,例如部署7B參數(shù)規(guī)模的模型,其在能效上基本需要做到20Tokens/J以上,同時(shí)推理速度還要做到100-200Tokens/s,這是非常難的技術(shù)挑戰(zhàn),也是智能系統(tǒng)從數(shù)字邁向物理世界過程中所面臨的重大難題。
最后,我們希望無問芯穹能夠聯(lián)動(dòng)產(chǎn)業(yè)鏈上下游的伙伴,共同打造新一代的云端和終端設(shè)備。目前,我們正在積極適配各類端側(cè)芯片,持續(xù)服務(wù)包括聯(lián)想在內(nèi)的眾多合作伙伴。未來,我們希望既能借助AI云能力賦能千行百業(yè),也助力新終端走入千家萬戶。
來源 | IPO早知道