农村强奸一级网站|久草京热在线视频|色五月桃花综合激情|亚洲人妻精品主播|欧美无限码中文在线|国产午夜伦理三级|亚洲男女在线播放|欧美日韩成人香蕉视频|全球无码AV1区|中文字幕亚洲五月

啟明新聞

對(duì)話 | 啟明創(chuàng)投周志峰對(duì)話它石智航陳亦倫、原力靈機(jī)唐文斌:關(guān)于具身智能的宏觀共識(shí)與微觀非共識(shí)

2025/08/11 | IPO早知道

由啟明創(chuàng)投主辦的2025世界人工智能大會(huì)(WAIC)“啟明創(chuàng)投·創(chuàng)業(yè)與投資論壇——?jiǎng)?chuàng)業(yè)投資開啟AI技術(shù)與應(yīng)用共振周期”于7月28日在上海世博中心藍(lán)廳成功舉辦。

在對(duì)話環(huán)節(jié)中,啟明創(chuàng)投主管合伙人周志峰擔(dān)任主持人,與它石智航創(chuàng)始人兼首席執(zhí)行官陳亦倫,以及原力靈機(jī)聯(lián)合創(chuàng)始人兼首席執(zhí)行官、曠視科技聯(lián)合創(chuàng)始人唐文斌圍繞“具身智能的奇點(diǎn)時(shí)刻”展開討論。


啟明創(chuàng)投主管合伙人周志峰(左),它石智航創(chuàng)始人兼首席執(zhí)行官陳亦倫(中)和原力靈機(jī)聯(lián)合創(chuàng)始人兼首席執(zhí)行官、曠視科技聯(lián)合創(chuàng)始人唐文斌(右)

陳亦倫表示:“具身智能是當(dāng)下AI市場(chǎng)最火爆的子領(lǐng)域,具身技術(shù)正以指數(shù)級(jí)速度進(jìn)步發(fā)展,我們已經(jīng)站在奇點(diǎn)到來(lái)的早期窗口。”他指出目前具身智能技術(shù)有四大趨勢(shì):機(jī)器人本體控制技術(shù)逐漸成熟、端到端技術(shù)正從自動(dòng)駕駛領(lǐng)域擴(kuò)展到機(jī)器人、數(shù)據(jù)不斷積累即將發(fā)揮Scaling Law、高自由度靈巧手方案已經(jīng)出現(xiàn)。同時(shí)他認(rèn)為具身智能和自動(dòng)駕駛在任務(wù)場(chǎng)景和底層技術(shù)上同宗同源,模型技術(shù)可以復(fù)用,工程能力可以遷移,自動(dòng)駕駛行業(yè)的經(jīng)驗(yàn)與認(rèn)知也能幫助具身智能領(lǐng)域的探索與落地。最后在賽道選擇上,它石智航遵循高價(jià)值、有規(guī)模、有難度的“黃金三角”邏輯,會(huì)選擇用戶非常在意的真實(shí)需求、存在較大市場(chǎng)空間且上一代機(jī)器人技術(shù)難以解決的問題,最終實(shí)現(xiàn)通用機(jī)器人的AGI終極目標(biāo)。

唐文斌圍繞具身智能領(lǐng)域的技術(shù)發(fā)展、創(chuàng)業(yè)邏輯及場(chǎng)景落地等話題分享了核心觀點(diǎn),展現(xiàn)了對(duì)具身智能這一新興賽道的深刻洞察。他強(qiáng)調(diào)其創(chuàng)業(yè)的初心一直是機(jī)器人,從早前以物流機(jī)器人切入,到現(xiàn)在投身具身智能,最大的信心還是來(lái)自于對(duì)技術(shù)的深刻信仰,尤其是大模型、CoT和Agent能力的顯著進(jìn)步。唐文斌認(rèn)為機(jī)器人從專用走向通用有兩個(gè)必要條件,一個(gè)是對(duì)物理世界的精確感知能力,一個(gè)是對(duì)復(fù)雜任務(wù)的規(guī)劃和推理能力。唐文斌指出,最終機(jī)器人能不能用得起來(lái)其實(shí)核心看兩點(diǎn),能用、好用是第一點(diǎn),因?yàn)橐嬲芙鉀Q問題;第二點(diǎn)是它的經(jīng)濟(jì)模型得成立,這兩點(diǎn)大概率還是會(huì)從后端開始,再走向一些偏商用,最后走向民用的狀態(tài)。

以下系對(duì)話精選:

01/
具身智能技術(shù)發(fā)展得越來(lái)越快

周志峰:感謝亦倫和文斌來(lái)參加這個(gè)論壇。我還記得2015年啟明創(chuàng)投在投優(yōu)必選的時(shí)候,市場(chǎng)上沒有太多投資人關(guān)注人形機(jī)器人、工業(yè)機(jī)器臂以外的泛機(jī)器人行業(yè)。我記得有一個(gè)機(jī)器人創(chuàng)始人群,很長(zhǎng)時(shí)間內(nèi)群里就幾十位極客。但從兩年前開始,我們統(tǒng)計(jì)中國(guó)出現(xiàn)了100多家做具身智能和通用人形機(jī)器人的企業(yè)。我們論壇討論的AI這么多細(xì)分領(lǐng)域中,從創(chuàng)業(yè)公司的數(shù)量來(lái)講,熱度沒有比具身智能領(lǐng)域更熱的,所以今天大家肯定很關(guān)注這個(gè)對(duì)話。

請(qǐng)先簡(jiǎn)單介紹一下自己和公司。

陳亦倫:各位來(lái)賓好,我是陳亦倫,我是它石智航的創(chuàng)始人。在過去的十年我和團(tuán)隊(duì)比較幸運(yùn)的是能夠參與一些比較領(lǐng)先的自動(dòng)駕駛核心技術(shù)的開發(fā),作為一個(gè)具身智能的子命題,我們經(jīng)歷了10年完整的過程,從最開始的實(shí)驗(yàn)室原理樣機(jī),到現(xiàn)在來(lái)說(shuō),我身邊很多朋友也能夠在日常生活中體驗(yàn)到我們的產(chǎn)品,并且它每天在改善每個(gè)人的出行體驗(yàn)。

在未來(lái)十年,我們希望能夠打造更加通用的機(jī)器人形態(tài),以及更加強(qiáng)大的物理世界的AI,能夠加速這些技術(shù)更快、規(guī)?;厝谌氲饺说纳a(chǎn)和生活之中,我們希望具身智能技術(shù)能夠成為未來(lái)十年產(chǎn)業(yè)升級(jí)的一個(gè)重要引擎,謝謝。

唐文斌:大家好,我是唐文斌,我創(chuàng)業(yè)的第一家公司是曠視科技,今天我代表的是原力靈機(jī),原力靈機(jī)是一家比較新的公司,專注具身智能領(lǐng)域的研發(fā)和落地。

我們做機(jī)器人的時(shí)間已經(jīng)很長(zhǎng)了,從曠視科技成立的第一天,我就想說(shuō)先給機(jī)器人安上一雙眼睛,讓它能夠看到世界,但我們創(chuàng)業(yè)的初心其實(shí)一直是要做機(jī)器人。曠視科技最早從物流場(chǎng)景切入,第一次做了機(jī)器人的嘗試。像亦倫師兄一樣,我們今年看到了很多的技術(shù)變量,有可能能夠從專用的機(jī)器人走向通用的機(jī)器人,我們希望能夠真正用大模型、機(jī)器人的能力,為物理世界帶來(lái)終極AI的形態(tài),這是我們現(xiàn)在在努力做的事情。

周志峰:第一個(gè)問題,作為這個(gè)行業(yè)中的領(lǐng)軍人物,您二位看到具身智能、人形機(jī)器人、通用機(jī)器人在過去一年有哪些大的變化、大的進(jìn)展?可以和大家分享一下,對(duì)這個(gè)領(lǐng)域的發(fā)展更有信心了嗎?

陳亦倫:我個(gè)人對(duì)這個(gè)領(lǐng)域一直非常有信心,我覺得大家可以在每年的WAIC上看到,過去這兩年整個(gè)具身智能或者機(jī)器人的技術(shù)前進(jìn)的速度已經(jīng)超過了此前累積下來(lái)的前進(jìn)速度,這還是非常能夠振奮人心的,作為從業(yè)者,我們自己預(yù)判之后它的發(fā)展速度會(huì)越來(lái)越快。

現(xiàn)在,在一年之前整個(gè)WAIC的各個(gè)機(jī)器人展都以靜態(tài)展示為主,現(xiàn)在在機(jī)器人的全身域控制上,locomotion和WBC上,這個(gè)領(lǐng)域我認(rèn)為已經(jīng)接近于收斂的形態(tài)了。另外一個(gè)重要的AI,比如說(shuō)端到端,我認(rèn)為可能在一兩年前,學(xué)術(shù)界會(huì)有一個(gè)比較強(qiáng)烈的信心,但工業(yè)界的人還是有疑慮的,但至少現(xiàn)在,在機(jī)器人的移動(dòng)領(lǐng)域,可能在它最大的場(chǎng)景自動(dòng)駕駛領(lǐng)域上已經(jīng)充分產(chǎn)品化了,而且大家可以在日常生活中體驗(yàn)它的能力。在操作領(lǐng)域,其實(shí)大家在實(shí)驗(yàn)室級(jí)別的產(chǎn)品樣機(jī)上已經(jīng)看到巨大的飛升潛力。

第三個(gè),我覺得非常重要的一件事情是多模態(tài)的大模型,它的整個(gè)基礎(chǔ)能力一直在顯著提升,而且不同于純語(yǔ)言模態(tài)的大模型,多模態(tài)包括視覺、語(yǔ)言形式,整個(gè)數(shù)據(jù)的Scaling Law還是沒有見頂,還是有巨大的提升空間,這幾個(gè)因素綜合下來(lái),我覺得在具身智能AI領(lǐng)域,這幾年會(huì)處在一個(gè)越跑越快的時(shí)間。

同時(shí)硬件技術(shù)也在高速成熟,我們看到一些非常高自由度的終端形態(tài),比如靈巧手,一些接近于量產(chǎn)形態(tài)的方案已經(jīng)開始出現(xiàn),這些飛速發(fā)展都是比較振奮人心的。

唐文斌:我覺得本質(zhì)來(lái)講,最大的信心其實(shí)是來(lái)自于大模型上CoT和Agent的能力達(dá)到了一定的臨界值。我認(rèn)為機(jī)器人真正走向通用有兩個(gè)必要條件:

第一個(gè)是對(duì)物理世界的精確感知能力,這其實(shí)也是曠視科技在過去很多年一直在做的事情,我們也看到不管是從小模型還是到大模型,其實(shí)整個(gè)多模態(tài)的感知能力是在不斷加強(qiáng)的,而且現(xiàn)在已經(jīng)可以做得非常好了;第二個(gè)是復(fù)雜的規(guī)劃和推理能力。

只有這兩件事情結(jié)合起來(lái),機(jī)器人才能夠走向一個(gè)通用的狀態(tài),而我們今天看到Agent的發(fā)展、CoT的發(fā)展,其實(shí)都給我們帶來(lái)非常多的驚喜,所以我覺得這兩點(diǎn)結(jié)合起來(lái),從技術(shù)判斷上,我們覺得這其實(shí)是在非常快速地朝著可行的方向發(fā)展。

02/
宏觀逐漸形成共識(shí)
微觀仍顯多元化

周志峰:非常好,關(guān)于技術(shù)這塊剛才也提到很多,我想多聊兩句。

我記得2014年、2015年投資曠視科技的時(shí)候,啟明創(chuàng)投有自己的投資思考和邏輯。當(dāng)時(shí)我們認(rèn)為2012年ImageNet其實(shí)是深度學(xué)習(xí)的一個(gè)轉(zhuǎn)折點(diǎn)或者是一個(gè)技術(shù)的突破點(diǎn),因?yàn)槟侵蠡旧霞夹g(shù)開始收斂,全行業(yè)最優(yōu)秀、最出色的人都向著一個(gè)大方向去奮斗,所以我們認(rèn)為可以布局曠視科技這樣的深度學(xué)習(xí)技術(shù)驅(qū)動(dòng)的企業(yè)。

我們?cè)?022年投資智譜AI,后來(lái)投資階躍星辰,也是認(rèn)為2020年的GPT-3是大模型技術(shù)的突破點(diǎn),那之后技術(shù)相對(duì)收斂,大家都朝著共同的方向努力,肯定能夠看到很好的結(jié)果。

在投資它石智航和原力靈機(jī)的時(shí)候,我們內(nèi)部一直有很多爭(zhēng)論,具身智能的技術(shù)到底有沒有收斂?還是依然處于百花齊放?如果百花齊放的話,投資人的風(fēng)險(xiǎn)是很大的,今天投資的公司,有可能

隊(duì)很優(yōu)秀,但是三年后技術(shù)沒有收斂到這家公司所在的方向上,那是不是一個(gè)很大的風(fēng)險(xiǎn)?我們聊聊,到底具身智能技術(shù)有沒有收斂?以前大模型技術(shù)發(fā)展受限于數(shù)據(jù)、算力,現(xiàn)在具身智能這個(gè)領(lǐng)域,有沒有一些大的瓶頸阻礙技術(shù)更快速往前走?

唐文斌:我的判斷是技術(shù)并沒有收斂,因?yàn)榻裉觳还苁菑乃惴ǖ目蚣苌希€是從數(shù)據(jù)的來(lái)源上,還是從硬件的形態(tài)和穩(wěn)定性上,以及最后場(chǎng)景落地的先后順序,每一個(gè)問題仍是開放問題。

目前大家普遍認(rèn)為技術(shù)逐漸收斂,應(yīng)該走端到端、純數(shù)據(jù)驅(qū)動(dòng)這條路線,用類似于VLA的技術(shù)框架,這是逐漸形成的共識(shí),并且我覺得大家對(duì)于未來(lái)的技術(shù)發(fā)展也有一些共識(shí)。

比方說(shuō)多模態(tài),大家今天都會(huì)覺得光靠視覺引導(dǎo)很難走向智能,因?yàn)槿嗽谖锢硎澜绲臅r(shí)候,不僅是通過眼睛去感知物理世界,還通過觸覺,看不到的東西還會(huì)通過腦袋探一探,比如說(shuō)能不能學(xué)習(xí)自動(dòng)駕駛,如何能夠直接把有深度的信息用在VLA里面,這一系列的多模態(tài)數(shù)據(jù)如何灌入大模型?我覺得在逐漸形成共識(shí)。

但這個(gè)模型架構(gòu)長(zhǎng)什么樣子?其實(shí)現(xiàn)在并不知道。

我們現(xiàn)在其實(shí)還在探索的一些技術(shù)方向,包括今天的VLA大部分是單幀模型,如果用VLA去驅(qū)動(dòng)機(jī)器人炒菜,讓它放三勺鹽,它其實(shí)放不了三勺鹽,因?yàn)樗磐甑谝簧}以后很快就不記得有沒有放過鹽了,從視覺的角度來(lái)講,放過鹽和沒放過鹽的狀態(tài)是一樣的。由于這個(gè)模型現(xiàn)在并沒有memory(記憶)的機(jī)制,當(dāng)然我們也可以在外部做一個(gè)規(guī)則引導(dǎo)的機(jī)制,但是如何讓模型具備原生的記憶機(jī)制?我認(rèn)為也是一個(gè)非常重要的問題。

第三,我們內(nèi)部在研究的問題是,今天很多公司,比如從Figure開始,大家都在提大小腦模型,但我認(rèn)為大小腦模型并不是一個(gè)終極的狀態(tài)。

大小腦模型其實(shí)是人為按照頻率把模型做了切分,因?yàn)榇竽X區(qū)在思考,小腦區(qū)做執(zhí)行,它輸出的頻率不一樣,所以我們?nèi)藶榍谐蓛蓚€(gè)模型。

但這樣的人為切分是一個(gè)好的方式嗎?它智能嗎?其實(shí)不智能,因?yàn)槿瞬僮鞯臅r(shí)候會(huì)想一想再做,做完之后這個(gè)狀態(tài)發(fā)生改變了,我再想一想。所以機(jī)器人怎么才能像人一樣形成一個(gè)動(dòng)態(tài)的、柔性的思考和決策鏈?它其實(shí)可能還是基于一個(gè)模型,然后變成一種動(dòng)態(tài)頻率和柔性頻率對(duì)模型的輸出,這可能又是一個(gè)開放性的問題。

那么回答剛才的問題,我認(rèn)為今天的模型框架遠(yuǎn)沒有收斂,有非常多的問題等待我們解決,但正是因?yàn)檫@些開放性的問題,我認(rèn)為這件事情才讓我們對(duì)未來(lái)充滿激情和想象力。

周志峰:印奇(編者注:千里科技董事長(zhǎng))說(shuō),2011年創(chuàng)立曠視科技的時(shí)候是學(xué)生創(chuàng)業(yè),當(dāng)時(shí)是大學(xué)生創(chuàng)業(yè)的熱潮,講得最多的一句話是“先跳下懸崖,然后在墜落過程中組裝飛機(jī)式的創(chuàng)業(yè)”。但今天的總結(jié)是,如果沒有先想清楚一個(gè)完整的技術(shù)和商業(yè)閉環(huán),這種創(chuàng)業(yè)可能是很難成功的。

這個(gè)問題比較挑戰(zhàn),您剛才說(shuō)確實(shí)現(xiàn)在還有這么多的不確定性,技術(shù)也沒有完全收斂,那您今天選擇具身智能機(jī)器人創(chuàng)業(yè)會(huì)不會(huì)是跳下懸崖、組裝飛機(jī)的過程?

唐文斌:我認(rèn)為這是一個(gè)“技術(shù)信仰、價(jià)值務(wù)實(shí)”辯證統(tǒng)一的問題。因?yàn)楫?dāng)我們做這個(gè)大模型也好,或者最早做深度學(xué)習(xí)的時(shí)候也好,如果沒有技術(shù)信仰,沒有任何一個(gè)技術(shù)可以在誕生的第一天就給你確定性,如果他已經(jīng)有一個(gè)非常明確的確定性,那這件事情也已經(jīng)結(jié)束了,沒有留給創(chuàng)業(yè)公司任何機(jī)會(huì)。

所以我認(rèn)為正是這種不確定性和技術(shù)信仰才使得創(chuàng)業(yè)公司有機(jī)會(huì)。因此我認(rèn)為在團(tuán)隊(duì)內(nèi)部,大家真正信這件事情,對(duì)技術(shù)抱有真正的熱情和信仰,極其重要。

第二,這個(gè)過程中不只有信仰,要能夠沿著真正的登山之路,在中間找到營(yíng)地獲得補(bǔ)給,有階段性的商業(yè)化,能夠形成成果。所以我覺得對(duì)于這個(gè)問題,我既同意也不同意,這是一個(gè)辯證統(tǒng)一的過程。

周志峰:請(qǐng)亦倫也聊聊這個(gè)話題。

陳亦倫:我基本贊成文斌的說(shuō)法,但是可以從另外的角度詮釋一下,我的觀點(diǎn)是目前具身智能在宏觀的層面上,或者是長(zhǎng)線的層面上,我認(rèn)為大家是取得了高度的共識(shí)。但是在具體怎么做的層面上,每一家都會(huì)有自己的多元化思考,我可以分享一下為什么我覺得這件事情在宏觀層面上取得高度共識(shí)是非常重要的。

之前我走過十年的自動(dòng)駕駛周期,在宏觀層面上很長(zhǎng)時(shí)間都是高度的非共識(shí),體現(xiàn)在例如機(jī)器人的模塊需要決策和規(guī)劃是否應(yīng)該用AI?是否應(yīng)該和感知分別處理?大家是否應(yīng)該用地圖?這其實(shí)都是非共識(shí),而且爭(zhēng)論了很久,這是宏觀層面上的。

現(xiàn)在對(duì)于具身智能,其實(shí)在宏觀長(zhǎng)線上大家的認(rèn)知是非常統(tǒng)一的,比如說(shuō)我們都認(rèn)為數(shù)據(jù)是非常重要的,我們都認(rèn)為這個(gè)模型最終部署的形態(tài)大概率是端到端的形態(tài),是一個(gè)多模態(tài)的,可能視覺上還有其他的傳感器都有非常重要的作用,可能一個(gè)模仿學(xué)習(xí)是不夠的,還需要強(qiáng)化學(xué)習(xí),甚至需要一些世界模型的加持,對(duì)于這些,大家有共同點(diǎn)。

但在具體實(shí)踐的角度,其實(shí)區(qū)別很大,比如數(shù)據(jù),有人認(rèn)為可能需要部署很多臺(tái)機(jī)器人,有很多要操作的數(shù)據(jù),有的認(rèn)為可能需要通過仿真生成很多數(shù)據(jù),有的認(rèn)為真機(jī)數(shù)據(jù)更重要,應(yīng)該要通過更好的方式“多快好省”地收集真機(jī)數(shù)據(jù)。再具體來(lái)說(shuō),比如剛才提到了VLA,我也非常同意,我認(rèn)為VLA是三種模態(tài)的代表,它是代表感知V,語(yǔ)言L,到A的動(dòng)作輸出,其實(shí)VLA是確定了這個(gè)網(wǎng)絡(luò)的任務(wù)輸入和輸出,所以網(wǎng)絡(luò)中間需要用什么樣的架構(gòu)來(lái)設(shè)計(jì),是不是需要一張網(wǎng)絡(luò)直接從頭穿到尾?還是中間有一些隱變量層?是否是模仿學(xué)習(xí)就足夠了?是否要采用強(qiáng)化學(xué)習(xí)?用什么樣的強(qiáng)化學(xué)習(xí)?是否需要世界模型的加持?這些是大家不斷探索的。

其實(shí)不僅是這些在算法層面上的,硬件層面上也是一樣的,是在一個(gè)宏觀共識(shí)、微觀非共識(shí)的層面操作。

比如現(xiàn)在通用機(jī)器人的形態(tài),基本上是兩類,一類是雙足,一類是輪式,代表大家在不一樣的應(yīng)用領(lǐng)域上的局部趨勢(shì),但即使對(duì)于雙足機(jī)器人來(lái)說(shuō),它有直驅(qū)關(guān)節(jié)的,也有用一些更加復(fù)雜的傳動(dòng)機(jī)構(gòu),能夠?qū)崿F(xiàn)電機(jī)和它的傳動(dòng)機(jī)構(gòu)更加均衡的設(shè)計(jì),這些都會(huì)有。

但我覺得一個(gè)宏觀的共識(shí),加上微觀的多元化,對(duì)于這個(gè)行業(yè)來(lái)說(shuō)是比較健康的,意味著大家在一個(gè)基本確定的方向上可以迅速迭代,彼此界定自己的認(rèn)知,這樣會(huì)讓行業(yè)走得比較快。

03/
過去的行業(yè)認(rèn)知和經(jīng)驗(yàn)積累能高度復(fù)用

周志峰:您以前主導(dǎo)了華為第一代完全從零開始的智能駕駛技術(shù)自研體系,也塑造了今天華為智能駕駛在全球的地位,您提到了認(rèn)知,有什么認(rèn)知是能夠在智能駕駛領(lǐng)域和今天的具身智能領(lǐng)域共享的?

陳亦倫:我覺得這是特別好的問題。首先自動(dòng)駕駛技術(shù)和機(jī)器人技術(shù)一開始就是同宗同源的,事實(shí)上很長(zhǎng)一段時(shí)間內(nèi),自動(dòng)駕駛的主體技術(shù)主要來(lái)源于美國(guó)兩個(gè)機(jī)器人實(shí)驗(yàn)室,斯坦福的Sebastian Thrun(《概率機(jī)器人》的作者)的實(shí)驗(yàn)室,和卡耐基梅隆的Red Whittaker(探月機(jī)器人)的實(shí)驗(yàn)室,這兩個(gè)實(shí)驗(yàn)室通過DARPA挑戰(zhàn)賽,匯聚成了Waymo的主體方案,一直延續(xù)到了今天。2018年之后,自動(dòng)駕駛技術(shù)開始大規(guī)模AI化,把傳統(tǒng)的機(jī)器人算法棧從逐個(gè)模塊的AI化,到分層端到端,到徹底的端到端AI化,使得自動(dòng)駕駛成為具身智能首個(gè)大規(guī)模應(yīng)用的商業(yè)系統(tǒng)。

我覺得在自動(dòng)駕駛的從業(yè)經(jīng)驗(yàn),包括技術(shù)經(jīng)驗(yàn),對(duì)于在機(jī)器人領(lǐng)域的復(fù)用,我是從這三方面理解的:

第一個(gè),技術(shù)的直接復(fù)用,因?yàn)闄C(jī)器人和汽車一樣,也是自動(dòng)駕駛非常好的一個(gè)具身平臺(tái),本身也需要移動(dòng)能力,而且它的移動(dòng)能力對(duì)整個(gè)機(jī)器人的應(yīng)用至關(guān)重要??紤]到現(xiàn)在日常能夠見到的一些商用機(jī)器人系統(tǒng),里面的一些移動(dòng)技術(shù)更多類似于家用掃地機(jī)器人的技術(shù),我認(rèn)為從這些技術(shù)直接升級(jí)到更現(xiàn)代的一些端到端的技術(shù),對(duì)于它的應(yīng)用價(jià)值、技術(shù)價(jià)值而言都是一件非常重要的事情。

第二個(gè),一些認(rèn)知層面上的幫助,自動(dòng)駕駛這么多年的行業(yè)投入非常大,其實(shí)有一點(diǎn)是“交了學(xué)費(fèi)”的,在自動(dòng)駕駛所有AI一定要被定義在時(shí)間和空間里,而不是定義在二維的圖片里,這點(diǎn)其實(shí)非常重要。

在自動(dòng)駕駛里有個(gè)有名的名詞是BEV,本質(zhì)上來(lái)說(shuō)就是一個(gè)時(shí)空概念,定義在時(shí)空概念有很多好處,不管任意一個(gè)模態(tài)的輸入和輸出,都是在時(shí)間和空間這些非常本質(zhì)的物理量上對(duì)齊。

從這個(gè)角度來(lái)說(shuō),像我團(tuán)隊(duì)更喜歡把具身智能叫做物理世界AI,剛才我們聽到的有些做醫(yī)藥的挖掘,可能是化學(xué)或者生物世界,但具身智能天生是在一個(gè)物理世界里存在的AI,處理的基本變量就是時(shí)間、空間、作用力,我們覺得具身智能能夠往前快速推進(jìn)非常關(guān)鍵的一點(diǎn)可能是認(rèn)知。

另外自動(dòng)駕駛是作為第一個(gè)大規(guī)模應(yīng)用落地的具身智能系統(tǒng),中間經(jīng)歷過海量數(shù)據(jù)的沖刷,所以對(duì)于每種方法的能力邊界,比如說(shuō)模仿學(xué)習(xí)的能力邊界、強(qiáng)化學(xué)習(xí)的能力邊界,可能會(huì)有一些更清晰的認(rèn)知。

第三個(gè),工程能力的直接遷移,其實(shí)機(jī)器人的硬件系統(tǒng)和自動(dòng)駕駛的很多硬件系統(tǒng)基本上是完全類似的設(shè)計(jì),或者說(shuō)一些基礎(chǔ)軟件系統(tǒng),比如從芯片、底層軟件到通訊中間件,基本上高度趨同。以及剛才文斌提到的快慢雙系統(tǒng),我個(gè)人非常同意文斌的觀點(diǎn),快慢雙系統(tǒng)不是終局,但它是在現(xiàn)有芯片存在內(nèi)存墻的情況下的一個(gè)務(wù)實(shí)考慮。所以快慢雙系統(tǒng)的異步部署,包括對(duì)于AI企業(yè)最重要的兩件事情,一是數(shù)據(jù)的管道,另外是訓(xùn)練的一些基礎(chǔ)設(shè)施,這些都是可以高度復(fù)用的。

周志峰:這個(gè)問題也請(qǐng)文斌回答一下,您在曠視科技搭建了物流機(jī)器人的大規(guī)模落地,當(dāng)時(shí)的經(jīng)驗(yàn)對(duì)比今天研發(fā)的新一代機(jī)器人,您覺得有什么是可以轉(zhuǎn)移過來(lái)的?

唐文斌:我們當(dāng)年研發(fā)物流機(jī)器人的時(shí)候,坦白講更多還是在市場(chǎng)需求和技術(shù)可達(dá)性之間,尋求一個(gè)焦點(diǎn)。而物流行業(yè)是一個(gè)非常典型的場(chǎng)景,一方面能夠承載和驗(yàn)證我們的技術(shù),另一方面有足夠的規(guī)模和明確的需求。

剛剛講到曠視科技成立的時(shí)候我們就想做機(jī)器人,創(chuàng)業(yè)之初我們先從眼睛開始,希望未來(lái)能夠有手和腿真正去影響物理世界。我們其實(shí)也看了很多場(chǎng)景,發(fā)現(xiàn)物流的場(chǎng)景有幾個(gè)好處,在一定程度上被標(biāo)準(zhǔn)化了,例如集裝箱是物流史上最偉大的發(fā)明,因?yàn)樗押芏鄸|西封裝了,標(biāo)準(zhǔn)化了,而這個(gè)標(biāo)準(zhǔn)化使得自動(dòng)化和機(jī)器人變得可行。

物流其實(shí)是機(jī)器人能夠發(fā)揮作用的極佳場(chǎng)景,它有非常大的市場(chǎng)需求,全球有幾千萬(wàn)人在倉(cāng)庫(kù)里干活,所以它的需求非常大,同時(shí)因?yàn)樗臉?biāo)準(zhǔn)化使得技術(shù)具備可達(dá)性,所以我覺得這是物流場(chǎng)景第一個(gè)非常吸引人的點(diǎn)。

其次,我們做物流機(jī)器人的過程中其實(shí)也交了很多學(xué)費(fèi),或者說(shuō)也學(xué)到了很多。一個(gè)是做機(jī)器人的時(shí)候,我們發(fā)現(xiàn)很多流程環(huán)節(jié)都是嵌入型的,在物理空間上其實(shí)是有前道工序和后道工序的,在這樣的流程環(huán)節(jié)里非常重要的一點(diǎn)是異常閉環(huán)。比如在數(shù)字世界里,一個(gè)虛擬Agent或者一款A(yù)pp,當(dāng)你發(fā)現(xiàn)它遇到了一個(gè)異常,可以靠重啟App再來(lái)一次,但物理世界里是做不了這件事的,拿了一款貨品出來(lái),機(jī)器人在運(yùn)輸這款商品時(shí),我們的程序出故障了,這時(shí)如何恢復(fù)狀態(tài)?它的異常不能通過程序員截獲來(lái)解決,所以我們必須要為整個(gè)流程去設(shè)計(jì)所有的異常閉環(huán)。當(dāng)你遇到這個(gè)問題之后,如何能夠處理,使得生產(chǎn)環(huán)節(jié)一定能夠順暢、完整地進(jìn)行下去,這件事情實(shí)際所付出的代價(jià)可能比我們想象中的要大得多,這是一個(gè)從POC到實(shí)際應(yīng)用的巨大鴻溝,這是我們?cè)谖锪鳈C(jī)器人上學(xué)到的第一點(diǎn)。

大家今天看到很多機(jī)器人的構(gòu)型,內(nèi)部其實(shí)也在做硬件的形態(tài)。我覺得在物流機(jī)器人上還學(xué)到一點(diǎn)——快不一定是“快”,穩(wěn)可能才是真的“快”。我們采購(gòu)了很多機(jī)器人,但它們的MTBF(平均無(wú)故障工作時(shí)間)可能還沒達(dá)到在場(chǎng)景中真正長(zhǎng)期穩(wěn)定運(yùn)行的要求。

而在這種情況下的大規(guī)模部署,可能會(huì)導(dǎo)致運(yùn)維災(zāi)難,技術(shù)的不成熟靠服務(wù)去補(bǔ),這樣的服務(wù)是非?!跋摹眻F(tuán)隊(duì)的,大量的技術(shù)人員和算法工程師需要前往現(xiàn)場(chǎng)做一系列的運(yùn)維,這件事情我們經(jīng)歷過一次。

最后回到機(jī)器人,落地到場(chǎng)景中,這些問題其實(shí)同樣需要認(rèn)真對(duì)待,因此我也很感謝這一段物流機(jī)器人的相關(guān)經(jīng)歷。

04/
后端的制造業(yè)場(chǎng)景最有希望
率先實(shí)現(xiàn)規(guī)模化落地

周志峰:非常好。大家肯定很關(guān)心,WAIC這次集合了150臺(tái)機(jī)器人,看似很熱鬧,但其實(shí)大部分停留在舞臺(tái)展示的狀態(tài),從行業(yè)領(lǐng)軍者的角度看,第一批或者第一個(gè)落地的真實(shí)場(chǎng)景會(huì)是什么?

陳亦倫:其實(shí)我覺得很多機(jī)器人場(chǎng)景都是好場(chǎng)景,我分享一下它石智航挑選場(chǎng)景的方法論,基本上就是三句話:

1. 高價(jià)值。

2. 有規(guī)模。

3. 有難度。

我們認(rèn)為這三個(gè)是自洽的。

周志峰:高價(jià)值、有規(guī)模、有難度。

陳亦倫:高價(jià)值,就是用戶有剛需,痛點(diǎn)明確,我們希望存在一個(gè)更大的產(chǎn)品空間,這樣我們才能聚合一些優(yōu)秀的人來(lái)做事。而有難度是基本邏輯閉環(huán)的事情,大概率高價(jià)值、有規(guī)模,如果上一代機(jī)器人還能解決問題,可能這一代機(jī)器人也沒有機(jī)會(huì),我們重點(diǎn)也是在解決上一代機(jī)器人解決得不好的技術(shù)難題,站在應(yīng)用空間的角度,現(xiàn)在機(jī)器人的從業(yè)者和使用方對(duì)于機(jī)器人的興趣已經(jīng)從炫技轉(zhuǎn)向?qū)κ褂脙r(jià)值的深度思考,我認(rèn)為這是一件非常好的事情。

能夠有規(guī)模化落地的都是好領(lǐng)域,都能觸發(fā)市場(chǎng)的“奇點(diǎn)”。

周志峰:能具體給一個(gè)落地的領(lǐng)域嗎?可以透露嗎?

陳亦倫:從我的角度來(lái)說(shuō),第一個(gè)有剛需且明顯能夠落地的一定是制造業(yè),因?yàn)樵谠撔袠I(yè)中已經(jīng)存在了大量機(jī)器人,而且它的痛點(diǎn)非常明確。

唐文斌:我們對(duì)場(chǎng)景的選擇也有一些思考,有幾個(gè)標(biāo)準(zhǔn):

第一個(gè)是在技術(shù)發(fā)展的路線上梯度為正。今天到底要不要特別深入到一個(gè)垂直場(chǎng)景中?我們內(nèi)部認(rèn)為不要,一定要走在技術(shù)發(fā)展的正確路線上,因?yàn)榻裉斓募夹g(shù)上很多方面沒有收斂,如果太早固化技術(shù)的形態(tài),讓它固化到一個(gè)場(chǎng)景中去,某種程度上是犧牲了泛化性,這并不是我們想要做的事情,所以我們非常堅(jiān)持用一個(gè)模型在技術(shù)發(fā)展的正向梯度上推進(jìn)。

第二,我們同時(shí)考慮技術(shù)的可達(dá)性,就像印奇說(shuō)的,在跳懸崖的過程中組裝飛機(jī),有些飛機(jī)是組裝得出來(lái),有些飛機(jī)其實(shí)不見得能在今天組裝出來(lái),具身智能用端到端純數(shù)據(jù)驅(qū)動(dòng)的方式,一步到100%是很難的,所以我們大概率會(huì)逐漸從90%到95%、100%,所以如何尋找一些容錯(cuò)率相對(duì)較高、容忍操作時(shí)間的場(chǎng)景,我們認(rèn)為是非常重要的。

第三,就像亦倫師兄說(shuō)的,它得是規(guī)模大、需求強(qiáng)的場(chǎng)景。

具體而言,志峰演講的最后一個(gè)預(yù)測(cè)很對(duì),我們也覺得會(huì)是更靠后端的場(chǎng)景,例如工業(yè)、物流場(chǎng)景,因?yàn)樗笠?guī)模、更密集、勞動(dòng)力更多,所以它所產(chǎn)生的價(jià)值更大。最終機(jī)器人能不能用得起來(lái)其實(shí)核心看兩點(diǎn),能用、好用是第一點(diǎn),因?yàn)橐嬲芙鉀Q問題;第二點(diǎn)是它的經(jīng)濟(jì)模型得成立,這兩點(diǎn)大概率還是會(huì)從后端開始,再走向一些偏商用,最后走向民用的狀態(tài)。

周志峰:特別感謝,也期待兩位在具身智能領(lǐng)域大展宏圖!