农村强奸一级网站|久草京热在线视频|色五月桃花综合激情|亚洲人妻精品主播|欧美无限码中文在线|国产午夜伦理三级|亚洲男女在线播放|欧美日韩成人香蕉视频|全球无码AV1区|中文字幕亚洲五月

Portfolio News

啟明星 | 無問芯穹汪玉:Token已成為智能時代最核心的生產(chǎn)要素之一

02/09/2025 | IPO早知道

啟明創(chuàng)投主辦的2025世界人工智能大會(WAIC)“啟明創(chuàng)投·創(chuàng)業(yè)與投資論壇——創(chuàng)業(yè)投資開啟AI技術與應用共振周期”于7月28日在上海世博中心藍廳成功舉辦。

在本次論壇上,清華大學電子工程系長聘教授、系主任,無問芯穹發(fā)起人汪玉發(fā)表了主題為《軟硬協(xié)同推進AI基礎設施演進》的演講。


清華大學電子工程系長聘教授、系主任,無問芯穹發(fā)起人汪玉

汪玉指出,將人工智能真正轉化為實際生產(chǎn)力的過程中,Token作為大模型輸入輸出的基本單元,已成為智能時代最核心的生產(chǎn)要素之一。過去的價值鏈路是由電能驅動算力提升,以完成簡單任務,而現(xiàn)在則演變?yōu)閷㈦娔苻D化為算力,再由算力生成Token,最終支撐復雜任務的執(zhí)行。伴隨這一轉變,評價基礎設施效能的核心指標也正隨之變化——傳統(tǒng)的“每焦耳能量所能支持的計算次數(shù)(TOPS/J)”正被“每焦耳能量所能處理的有效Token數(shù)量(Tokens/J)”所取代。如何優(yōu)化單位能耗下的Token效率,將是AI 2.0時代基礎設施與系統(tǒng)設計的核心命題。

以下系汪玉的演講精選。

非常感謝啟明創(chuàng)投的邀請,我最初是從AI基礎設施或AI硬件領域起步,之后慢慢開始做系統(tǒng)層面的工作,所以今天主要想和大家分享我們過去一段時間的實踐,以及對未來的一些預測。我們沒法像AI一樣做到精細化預測,主要還是從技術角度來談談。

我們深刻地認識到,真正的AI確實是可以形成生產(chǎn)力的。在生產(chǎn)力提升的過程中,有一個非常重要的維度叫作“數(shù)據(jù)”,我們就在思考,對于AI基礎設施而言,它所消耗的是什么?Token是一個非常重要的單元。在智能革命時代,如果說投入的是算力和數(shù)據(jù),而支撐它們運行的主要是電,那么最終處理的到底是什么?我們現(xiàn)在看到了一個通用的基礎單元——Token,Token作為人工智能模型的輸入和輸出,其實是非常關鍵的。雖然從宏觀層面而言,當前的生產(chǎn)要素被稱為數(shù)據(jù)要素,但在大模型時代,核心生產(chǎn)要素可能是Token。

AI 1.0時代,每個不同的垂類數(shù)據(jù)可以訓練一個垂類模型,而現(xiàn)在人們把全世界的數(shù)據(jù)都轉化成Token,用這些Token來訓練出一個Next Token Prediction的大模型,再輸出成Token,之后這些Token再被轉換成不同的模態(tài),如此才能支持所謂的多模態(tài)應用,所以Token的輸入和輸出變得很關鍵。相應的范式也會發(fā)生變化:過去是從電能到算力,來完成簡單任務;現(xiàn)在則轉變成了從電能到算力,再到處理Token,最終完成復雜任務。

對于基礎設施的評價角度也隨之改變:原來關注的是從每秒鐘或者每焦耳能夠輸出的計算次數(shù),現(xiàn)在變成了每焦耳或者每瓦特能夠支撐的Token數(shù)量,所以在AI 2.0時代,需要思考的是單位功耗或單位能量消耗下Token的變化。

在AI 1.0時代,所有的芯片的評價標準都是按照每焦耳的TOPS,或者是每瓦特的TOPS;而現(xiàn)在,我們認為從AI 1.0到2.0評價指標需要發(fā)生變化,因為做學術的總是想用一個統(tǒng)一標準來評價,進而牽引整個系統(tǒng)的發(fā)展,而Token正是這樣一個合適的標準。

隨著人工智能或者AGI發(fā)展的不同階段,問題的定義也隨之演變:在保證智能水平超過一定閾值的前提下,盡可能優(yōu)化Tokens/J,作為下一步在基礎設施和系統(tǒng)設計維度上的一個重要牽引指標。

比如剛才所提到的,能效需求有幾個不同的智能等級,從最初的智能對話助手,到邏輯問答解答,再到具身智能控制,目前我們看到部分工作已經(jīng)達到了10Tokens/J,當對于智能要求越來越高的時候,Tokens/J的能效需求差別其實是很大的,到level2差1-2個數(shù)量級,到level3差2-3個數(shù)量級,要填補這些差距就需要從技術層面發(fā)力,通過軟件和硬件的協(xié)同優(yōu)化來解決這一問題。

從簡單對話,到奧數(shù)解題、交互場景,再到科學研究領域的AI應用(AI for Science),乃至群體智能的涌現(xiàn),隨著能力的逐級提升,我們需要在確保大模型推理性能提升不受影響的前提下,實現(xiàn)“高質量 Tokens/J ”的持續(xù)演進。

有一本書叫《思考,快與慢》,書中把人的認知系統(tǒng)分為兩類:System1是負責直覺與感知的,給一個輸入馬上就有一個輸出。另外一個系統(tǒng)是System2,它更像是一個慢速思考的過程。所以在大模型剛出來的時候,我就在思考這到底是不是System2?后來想了想不是,到Open AI o1出來以后,才感覺它似乎接近System2,因為它有基于思維鏈的推理,所以我們看第二類系統(tǒng)其實是action by action的一個推理的過程。

先來看第一類系統(tǒng),這是我們之前研究了很久的一類系統(tǒng),從圖像識別、人臉識別開始,給一張圖輸出一個結果,這個時候如果希望有Tokens/J的提升怎么辦?我們知道,無論過去還是現(xiàn)在,大模型本質上都是神經(jīng)網(wǎng)絡,而神經(jīng)網(wǎng)絡的核心就是矩陣的運算,總計算開銷等于計算量×單次運算開銷,這里的計算量是指矩陣中的非零元數(shù)量,非零元才是需要進行乘法和加法運算的,另外一類因素則是每一個非零元的描述需要用多長的向量來進行存儲,這是當時看到的兩個非常重要的基本優(yōu)化方向。

為什么大模型/神經(jīng)網(wǎng)絡可以被優(yōu)化?傳統(tǒng)模式是先做算法設計,設計完了以后再去做硬件設計。但是由于神經(jīng)網(wǎng)絡有可學習特性,因此可以兩個階段一起優(yōu)化,從而在保證算法精度不變的情況下,讓矩陣中更多的元素變成0,或者讓矩陣里的元素變成更短的向量(比特),這是我們過去很長一段時間在做的工作。人腦中神經(jīng)元的連接數(shù)看起來不多,每個神經(jīng)元大概只與不到10%的其他神經(jīng)元相連,也就是說即便有數(shù)十億個參數(shù),實際有效連接只有不到億量級。所以我們希望借鑒生物的發(fā)展,讓模型的矩陣變得稀疏。當然,在進行稀疏化的探索中,我們后來看到三個趨勢:

第一個,是稀疏對象從權重稀疏發(fā)展到激活稀疏,這是因為在大模型時代,模型的主要瓶頸轉化為注意力機制中的激活值計算,激活值稀疏成為研究重心;其次是稀疏模式從非結構化發(fā)展到結構化稀疏,因為硬件本身是稠密結構化的,對于結構化的稀疏數(shù)據(jù)才能算得好,不能是隨機出現(xiàn)的非零元,而必須是規(guī)整的非零元;第三個趨勢是從后訓練稀疏發(fā)展到稀疏訓練,DeepSeek也在做這塊的嘗試,一邊訓練一邊讓矩陣變稀疏,使得零元數(shù)量可以從50%進一步增加到75%。

另一個重要的方向是量化。因為人腦的運作依賴一個個脈沖,脈沖其實就是0和1,這與我們現(xiàn)實計算系統(tǒng)中常用的32位浮點或64位浮點存在巨大差異。因為一個是64位長度的,一個是簡單的0/1信號,所以現(xiàn)在在神經(jīng)網(wǎng)絡優(yōu)化中,可以進一步變成8比特、4比特等。我們也看過去的10多年,從32比特浮點到8比特定點,這是在2015、2016年的時候大家就形成的共識。再從INT8到INT4或者二值,當然二值的方案業(yè)界還在努力過程中,效果不是那么好。所以大家現(xiàn)在看到的基本上都是FP8、FP4,這也是英偉達芯片里都支持的數(shù)據(jù)表示。

現(xiàn)在國產(chǎn)芯片也在慢慢支持FP8、FP4,以此來支撐更高效的訓練和推理工作。從第一類系統(tǒng)最核心的矩陣維度來看,矩陣運算實際上是模型推理的基礎,而無論是模型訓練還是大規(guī)模Agent推理,都需要整個計算系統(tǒng)的支持。整個系統(tǒng)的有效算力,取決于集群的總卡數(shù)和單芯片的算力。具體來看,目前的技術路徑是從晶圓級別(on-wafer)的集成開始,將多個芯片集成在同一硅基板(silicon)上。如果一個硅基板上面做的是一個獨立芯片的話,那么下一步就是在單臺機器內(nèi)實現(xiàn)芯片間的互聯(lián),然后再進一步實現(xiàn)服務器之間的互聯(lián)。通過把多個超節(jié)點組合起來,最終變成一個整體的服務器集群。因此,構建出具備高總算力的集群,是一個從底層芯片到上層架構逐級集成和互聯(lián)的過程。其中每一個環(huán)節(jié)——從芯片設計、互聯(lián)技術到集群架構——都存在顯著的優(yōu)化空間,這也為整體算力提升提供了多種可能性。

我們一直在說要做“小盒子”、“中盒子、“大盒子”的優(yōu)化,每個層面關注的重點不同。在小盒子層面,優(yōu)化主要集中在計算本身;到了中盒子,重點轉向不同芯片之間的連接與協(xié)同,包括計算流水的優(yōu)化,以及多維并行策略的優(yōu)化;在大盒子(千卡、萬卡乃至十萬卡)的維度,更重要的是怎么做到很好的資源調(diào)度,以及怎樣保證系統(tǒng)穩(wěn)定性,例如在萬卡甚至十萬卡規(guī)模的時候,如何確保任務執(zhí)行的正確性、故障發(fā)生時能否快速檢測與恢復,以及如何實現(xiàn)有效的容錯管理。因此在系統(tǒng)的優(yōu)化方面,還有很多需要解決的問題,行業(yè)內(nèi)大家都在很努力地前進,不斷推進相關工作。

在端側,我們的應用需求和現(xiàn)實能力之間,基本上還有10倍左右的差距,當然我們看到今年WAIC上已經(jīng)有峰值200Tokens/s的端側方案提出,非常期待能盡快看到這些突破在實際使用中真正滿足人們?nèi)粘I畹男枨螅?strong>在云側,行業(yè)也正很積極地從能效角度推進優(yōu)化,提升每節(jié)點的Tokens/J能效,從而實現(xiàn)更加高效和可持續(xù)的計算。

從基礎設施層來看,一方面我們要去優(yōu)化生態(tài)的差異,做到多元異構生態(tài)現(xiàn)狀的優(yōu)化;另一方面,需要在不同的層級,從底層的基礎設施層,到中間的模型層,再到上面的應用層,都要做聯(lián)合的優(yōu)化,才能打造出更好的AI基礎設施設計。

在這里,我們也展示一下無問芯穹所實現(xiàn)和支持的,從底層基礎設施到上層人工智能應用的多元算力調(diào)度和優(yōu)化工作。目前,我們的集群在全中國多個省市都能為主要的算力消耗方提供服務,包括北京、上海等,我們希望下一步能在這些公共平臺的基礎上,進一步提升算力應用的高效性。

在實際應用的過程中,也會衍生出很多不一樣的問題。剛才我們討論的是單個模型的訓練或者推理,而當下游任務從單個大模型發(fā)展到智能體協(xié)作時,會有多個模型同時出現(xiàn)在一個集群上,而且是單次任務調(diào)度或者多次任務調(diào)度的時候都會出現(xiàn),所以GPU的利用率會降低,動態(tài)性會變強,開銷也會很大,這些都是我們正在解決的問題。

第二個方面,從單個智能體發(fā)展到多個智能體的時候,也會產(chǎn)生很多問題。包括并行性、上下文處理、工具復雜度等,在各個不同的窗口、容量和能量的上限都會面臨挑戰(zhàn),所以系統(tǒng)需要有進一步的工具和系統(tǒng)優(yōu)化,支持單智能體到多智能體的發(fā)展。

第三個方面,今天的論壇后面會討論具身智能,具身智能將推動研究重心從云側芯片到端側推理演進,這標志著智能系統(tǒng)將從數(shù)字世界邁向物理世界,真正對物理世界產(chǎn)生作用。若要在端側實現(xiàn)非常好的效果,例如部署7B參數(shù)規(guī)模的模型,其在能效上基本需要做到20Tokens/J以上,同時推理速度還要做到100-200Tokens/s,這是非常難的技術挑戰(zhàn),也是智能系統(tǒng)從數(shù)字邁向物理世界過程中所面臨的重大難題。

最后,我們希望無問芯穹能夠聯(lián)動產(chǎn)業(yè)鏈上下游的伙伴,共同打造新一代的云端和終端設備。目前,我們正在積極適配各類端側芯片,持續(xù)服務包括聯(lián)想在內(nèi)的眾多合作伙伴。未來,我們希望既能借助AI云能力賦能千行百業(yè),也助力新終端走入千家萬戶。

 

來源 | IPO早知道