由啟明創(chuàng)投主辦的2025世界人工智能大會(WAIC)“啟明創(chuàng)投·創(chuàng)業(yè)與投資論壇——創(chuàng)業(yè)投資開啟AI技術與應用共振周期”于7月28日在上海世博中心藍廳成功舉辦。
在本次論壇上,前騰訊杰出科學家、混元大模型技術負責人,Video Rebirth首席執(zhí)行官劉威以《從視頻生成到世界模型》為題發(fā)表主旨演講。
前騰訊杰出科學家、混元大模型技術負責人,Video Rebirth首席執(zhí)行官劉威
劉威表示,視頻生成模型是構建世界模型的最佳路徑,這一技術方向有望成為AI從感知向認知躍遷的關鍵突破口。
劉威認為,AI技術發(fā)展正經(jīng)歷從符號主義到連接主義,再到現(xiàn)實主義和生成主義的四個重要階段。特別值得關注的是,OpenAI在2024年9月發(fā)布的o1模型首次讓AI獲得了真正的推理能力,標志著連接主義40年探索的重要突破。當前2025年AI正處于關鍵拐點,軟件正向智能體過渡,智能硬件向物理AI演進。
在技術框架上,劉威提出世界模型應具備三大核心能力:模擬能力對應仿真功能,預測能力實現(xiàn)因果推理,探索能力支撐規(guī)劃決策。其中模擬屬于快思考的感知層面,預測進入了慢思考的認知層面,而探索則是主動思考,這三大能力正是世界模型的關鍵所在。
盡管GPT-4o等多模態(tài)模型能夠處理文本、語音、圖片的輸入輸出,但這類模型仍處于被動響應模式,缺乏對環(huán)境的整體建模和預測能力。相比之下,世界模型需要從被動思考轉向主動思考,從用戶問才思考變成能夠主動進行系列化思考。
SORA的出現(xiàn)為世界模型提供了重要啟發(fā)。劉威指出,SORA首次證明了世界模型的可行性,通過視頻生成實現(xiàn)了高度的時空變化模擬能力。雖然當前版本存在一定局限,但已經(jīng)為世界模型的構建提供了實際的技術起點和可行路徑。
Video Rebirth將視頻原生世界模型定義為世界模擬器加世界預測器的組合。當前主流的DiT架構雖然具備強大的時空模擬能力,但存在缺乏因果推理、無法交互干預等關鍵問題。未來公司致力于技術升級路徑解決上述問題,構建獨有的技術主張和模型范式,迎來屬于視頻生成領域的“ChatGPT Moment”,推出首個真正的視頻原生世界模型。
劉威強調,AI不僅需要宏大敘事,更要創(chuàng)造逼真的現(xiàn)實。Video Rebirth通過視頻生成切入世界模型這一技術路徑,有望在AI認知能力突破的關鍵時期實現(xiàn)重要技術創(chuàng)新,為通用人工智能的發(fā)展提供重要支撐。
來源 | IPO早知道