“具身智能是否新瓶裝舊酒?”
灣區(qū)時(shí)訊 具身智能通過多種類型的智能體在真實(shí)物理環(huán)境中執(zhí)行任務(wù),實(shí)現(xiàn)了人工智能進(jìn)化,具備自感知、自認(rèn)知、自決策、自執(zhí)行和自學(xué)習(xí)等特性,被視為AI發(fā)展的下一波浪潮,同時(shí),具身智能研究的興起也代表著人工智能發(fā)展的一個(gè)新的里程碑,預(yù)示著我們即將進(jìn)入一個(gè)“知行合一”的新時(shí)代。在這個(gè)時(shí)代,智能將不再局限于冰冷的算法和數(shù)據(jù),而是現(xiàn)實(shí)世界緊密交織、共生共進(jìn)。然而具身智能的演進(jìn)過程中也形成了由AI專家推崇的“智能+具身”和以機(jī)器人專家主導(dǎo)的“具身+智能”兩種派系,不乏有質(zhì)疑“具身智能是否新瓶裝舊酒”的聲音。前者認(rèn)為其是AI算法套上機(jī)器人的形態(tài),后者認(rèn)為是機(jī)器人控制添加更強(qiáng)的智能算法。具身智能的技術(shù)革新如何,最佳形態(tài)幾何,是否通往AGI的必由之路成為值得行業(yè)專家深入研討的新話題。
由CCF主辦的第二十一屆中國(guó)計(jì)算機(jī)大會(huì)(CNCC 2024)于2024年10月24日至26日在浙江省東陽市橫店鎮(zhèn)圓明新園舉行。10月24日下午,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)青年計(jì)算機(jī)科技論壇(YOCSEF)廣州學(xué)術(shù)委員會(huì)在CNCC大會(huì)分會(huì)場(chǎng)舉辦了“具身智能是否新瓶裝舊酒?”觀點(diǎn)論壇。YOCSEF廣州主席李冠彬(中山大學(xué))與YOCSEF總部副主席陳小軍(深圳大學(xué))共同擔(dān)任執(zhí)行主席。論壇邀請(qǐng)中山大學(xué)教授,鵬城實(shí)驗(yàn)室具身智能研究所所長(zhǎng)林倞、北京大學(xué)助理教授王鶴與中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員蔣樹強(qiáng)擔(dān)任引導(dǎo)發(fā)言嘉賓;智元新創(chuàng)技術(shù)有限公司研究院執(zhí)行院長(zhǎng),具身業(yè)務(wù)部部長(zhǎng)姚卯青、華南理工大學(xué)軟件學(xué)院教授吳慶耀,YOCSEF 總部副主席,北京交通大學(xué)教授金一擔(dān)任思辨嘉賓。
廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院院長(zhǎng)李小平教授、副院長(zhǎng)陳平華教授、YOCSEF總部副主席陳小軍(深圳大學(xué))、金一(北京交通大學(xué)), YOCSEF廣州往屆主席譚臺(tái)哲(廣東工業(yè)大學(xué))、黃書強(qiáng)(暨南大學(xué))、黃棟(華南農(nóng)業(yè)大學(xué)),現(xiàn)任主席李冠彬(中山大學(xué)),現(xiàn)任學(xué)術(shù)秘書姜思羽(廣東外語外貿(mào)大學(xué)), YOCSEF上海分論壇秘書長(zhǎng)劉斐(擎朗智能),往屆AC委員曾安(廣東工業(yè)大學(xué))以及來自全國(guó)多所高校及企事業(yè)單位共60多人參加了此次論壇。
論壇現(xiàn)場(chǎng)
首先,由論壇執(zhí)行主席李冠彬主持論壇開場(chǎng)環(huán)節(jié),介紹了出席論壇嘉賓和關(guān)于此次論壇的背景和意義。論壇共同執(zhí)行主席陳小軍介紹CCF YOCSEF文化與發(fā)展歷程。
論壇引導(dǎo)發(fā)言環(huán)節(jié)邀請(qǐng)到的三位引導(dǎo)發(fā)言嘉賓分別作了題為“從多模態(tài)大模型到具身智能:前沿與展望”、“面向通用機(jī)器人的具身多模態(tài)大模型系統(tǒng)”、“淺談具身智能中的具身機(jī)理與智能體現(xiàn)”的分享。
首先,中山大學(xué)林倞教授以“從多模態(tài)大模型到具身智能:前沿與展望”為主題,深入探討了具身智能在多模態(tài)感知、任務(wù)規(guī)劃與決策、虛實(shí)遷移等方面的前沿研究和未來發(fā)展方向。林教授分析了具身智能在環(huán)境主動(dòng)感知、數(shù)據(jù)與仿真平臺(tái)并行發(fā)展等關(guān)鍵挑戰(zhàn),重點(diǎn)介紹了多模態(tài)主動(dòng)感知技術(shù)的進(jìn)展,包括主動(dòng)目標(biāo)搜索、3D空間文本對(duì)齊和復(fù)雜場(chǎng)景的語義地圖構(gòu)建等。此外,他還介紹了基于大模型的具身任務(wù)規(guī)劃和決策框架,以及具身智能體虛實(shí)遷移的研究進(jìn)展,并展示了具身智能在復(fù)雜真實(shí)環(huán)境中的應(yīng)用和探索。
中山大學(xué)林倞教授引導(dǎo)發(fā)言
隨后,北京大學(xué)的王鶴助理教授以“面向通用機(jī)器人的具身多模態(tài)大模型系統(tǒng)”為主題,分享了其團(tuán)隊(duì)在推動(dòng)通用機(jī)器人技術(shù)發(fā)展方面的前沿研究進(jìn)展。他從應(yīng)用與手段兩個(gè)角度出發(fā),分析了通用機(jī)器人如何通過自然的溝通交互代替繁瑣代碼操作,具備跨領(lǐng)域任務(wù)執(zhí)行能力。盡管谷歌的Vision-Language-Action(VLA)模型和特斯拉的解決方案在泛化能力上尚有不足,其團(tuán)隊(duì)提出的D3RoMA則通過合成數(shù)據(jù)與sim2real技術(shù)進(jìn)行數(shù)據(jù)擴(kuò)展,顯著提升了通用機(jī)器人在復(fù)雜環(huán)境中的適應(yīng)性。此外,他們構(gòu)建了超大規(guī)模數(shù)據(jù)集,使機(jī)器人能夠在透明、高反光等復(fù)雜材料下完成精細(xì)靈巧手操作任務(wù),為未來通用機(jī)器人的泛化能力提供了新的研究思路和實(shí)踐路徑。
北京大學(xué)王鶴助理教授引導(dǎo)發(fā)言
最后,中國(guó)科學(xué)院計(jì)算技術(shù)研究所蔣樹強(qiáng)研究員以“具身智能中的具身機(jī)理與智能體現(xiàn)”為主題,深入介紹了具身智能的核心概念和特點(diǎn)。報(bào)告提到具身智能是通過智能體與環(huán)境互動(dòng)而產(chǎn)生的智能形式,在真實(shí)環(huán)境中受到信息獲取的限制和外部干擾的挑戰(zhàn)。其本質(zhì)在于多部件的相互作用,具有涉身性、情景性、自主性和交互性等特征。值得注意的是,類比于自然界生物,智能的發(fā)展應(yīng)不局限于腦部,而是應(yīng)思考如何通過整個(gè)身體實(shí)現(xiàn)。他還指出,具身智能涉及倫理、社會(huì)和法律等問題,為未來的發(fā)展提出了深刻的思考,強(qiáng)調(diào)具身智能需要在任務(wù)完成過程中展現(xiàn)更為本能化的行為,為具身智能的實(shí)踐和應(yīng)用提供了新的視角。
中國(guó)科學(xué)院計(jì)算技術(shù)研究所蔣樹強(qiáng)研究員引導(dǎo)發(fā)言
引導(dǎo)發(fā)言之后,由兩位論壇執(zhí)行主席分別為三位引導(dǎo)發(fā)言嘉賓頒發(fā)感謝狀,論壇進(jìn)入思辨環(huán)節(jié)。思辨環(huán)節(jié)由論壇執(zhí)行主席李冠彬與論壇共同執(zhí)行主席陳小軍主持。會(huì)場(chǎng)嘉賓圍繞“具身智能,是機(jī)器人的’冷飯熱炒’嗎?”、“具身智能的技術(shù)路徑:’具身智能‘vs’身具智能‘ ”和“具身智能是通往AGI的必由之路嗎?”三個(gè)核心議題,展開激烈思辨。
思辨議題1:具身智能,是機(jī)器人的“冷飯熱炒”嗎?
在“具身智能,是機(jī)器人的‘冷飯熱炒’嗎?”議題討論中,多位專家學(xué)者圍繞具身智能在機(jī)器人領(lǐng)域的創(chuàng)新價(jià)值與未來應(yīng)用前景展開了深入探討。思辨嘉賓智元研究院姚卯青首先發(fā)言,他認(rèn)為具身智能并非“新瓶裝舊酒”,其為傳統(tǒng)機(jī)器人注入了新的生命力,不僅是機(jī)器人的延續(xù),更是一個(gè)嶄新的方向,具有廣闊的發(fā)展空間和應(yīng)用前景。盡管該領(lǐng)域存在部分炒作成分,但仍值得深入探索,并應(yīng)通過這種“炒作”使本領(lǐng)域工作獲得公眾的關(guān)注和支持,推動(dòng)這一前沿科技走向應(yīng)用實(shí)踐。擎朗智能劉斐總監(jiān)對(duì)此也表示贊同,他認(rèn)為具身智能的出現(xiàn)為機(jī)器人行業(yè)帶來了質(zhì)的提升,使其從單純的執(zhí)行角色轉(zhuǎn)向更加通用、自主且靈活的智能操作。劉斐指出,具身智能不僅僅是機(jī)器人技術(shù)加上大模型,而是賦予機(jī)器人更高的通用性和適應(yīng)性,能夠在多樣化環(huán)境中獨(dú)立完成任務(wù)。北京交通大學(xué)金一教授補(bǔ)充指出,具身智能的崛起得益于AI for Science和大模型的發(fā)展,賦予了機(jī)器人在智能導(dǎo)航、虛擬人等新興領(lǐng)域的深度應(yīng)用潛力。金一認(rèn)為,具身智能在新的研究范式下實(shí)現(xiàn)了對(duì)傳統(tǒng)機(jī)器人的超越,為機(jī)器人行業(yè)帶來了跨越式的進(jìn)步。
譚臺(tái)哲則從技術(shù)傳承的角度進(jìn)行了反駁,他認(rèn)為具身智能在某種程度上是“新瓶裝舊酒”,即盡管具身智能的概念得到了新的方法和技術(shù)的支持,但其核心目標(biāo)與早期智能的設(shè)想相似,都是通過不同技術(shù)手段來實(shí)現(xiàn)智能化。因此,他強(qiáng)調(diào)具身智能仍然是技術(shù)傳承的延續(xù),并提醒大家看到當(dāng)前方法的局限性,以開放的態(tài)度迎接未來的技術(shù)突破。而北京大學(xué)王鶴助理教授則提出了新的觀點(diǎn)。他指出,具身智能的發(fā)展路徑應(yīng)是“新瓶裝新酒”的關(guān)系,“瓶”(硬件)和“酒”(算法)兩者在共同演化中達(dá)成高度融合,逐步實(shí)現(xiàn)更高智能。他提到,現(xiàn)代機(jī)器人不僅在智能算法上不斷提升,其“瓶”——機(jī)器人硬件本身也在不斷優(yōu)化,例如模擬真實(shí)觸覺的新型觸覺元件等的硬件模塊引入,使得機(jī)器人能夠更適應(yīng)多樣化任務(wù)的需求。
與會(huì)其他專家則從實(shí)際應(yīng)用的角度看待具身智能的發(fā)展,他們認(rèn)為無論“新瓶”或“舊酒”,關(guān)鍵在于具身智能是否能推動(dòng)技術(shù)應(yīng)用落地。許多與會(huì)專家指出具身智能有望在通用社會(huì)應(yīng)用中實(shí)現(xiàn)更多突破,通過智能技術(shù)與身體控制的融合,逐步走向高度智能化的未來。另一方面,與會(huì)者一致認(rèn)為具身智能在機(jī)器人技術(shù)的應(yīng)用潛力巨大,兩者互相協(xié)作,最終可以達(dá)到技術(shù)互補(bǔ),呈現(xiàn)螺旋上升,但要實(shí)現(xiàn)這一愿景,仍需克服技術(shù)創(chuàng)新和場(chǎng)景應(yīng)用中的諸多挑戰(zhàn)。
與會(huì)嘉賓激烈思辨
思辨議題2:具身智能的技術(shù)路徑:“具身智能”vs“身具智能”
在“具身智能的技術(shù)路徑:‘具身智能’ vs ‘身具智能’”議題討論中,與會(huì)者聚焦于“本體先行 vs 智能先行”以及“端到端架構(gòu) vs 模塊化設(shè)計(jì)”兩大核心問題,對(duì)具身智能技術(shù)的未來方向進(jìn)行了深入剖析。華南理工大學(xué)吳慶耀教授率先發(fā)言,他指出具身智能與身具智能的區(qū)別在于前者更強(qiáng)調(diào)與環(huán)境的互動(dòng),屬于靈活適應(yīng)的“柔性智能”;而“身具智能”更偏向智能本體的應(yīng)用,側(cè)重升級(jí)傳統(tǒng)設(shè)備,屬于較為固定的“剛性智能”。吳慶耀教授認(rèn)為,本體的設(shè)計(jì)應(yīng)優(yōu)先發(fā)展,以確保具身智能在多樣環(huán)境下的穩(wěn)定性。同時(shí),他鼓勵(lì)高校在端到端架構(gòu)方面進(jìn)行探索,盡管模塊化設(shè)計(jì)可以解決部分問題,但長(zhǎng)遠(yuǎn)來看端到端架構(gòu)更具潛力。
廣東工業(yè)大學(xué)譚臺(tái)哲則提出了“智能先行”的觀點(diǎn),他認(rèn)為具身智能的發(fā)展得益于大模型的突破,這些智能模型為機(jī)器人本體帶來了新一輪的進(jìn)步。同時(shí),端到端設(shè)計(jì)盡管理想,但對(duì)資源投入要求高,模塊化設(shè)計(jì)反而更具實(shí)際,尤其適用于科研資源相對(duì)有限的場(chǎng)景。這個(gè)觀點(diǎn)得到部分與會(huì)專家的支持,他們認(rèn)為當(dāng)前模塊化在實(shí)際應(yīng)用中的落地更快,適合推動(dòng)短期成果轉(zhuǎn)化。華南農(nóng)業(yè)大學(xué)黃棟副教授從自然界演化的角度為具身智能的路徑選擇提供了新的視角補(bǔ)充。他指出,生物界的本質(zhì)是高度模塊化的端到端,每一層都有獨(dú)立的端到端特性,同時(shí)也共享模塊化的共性。他建議可以借鑒自然界的分層設(shè)計(jì),將具身智能的各模塊逐步優(yōu)化,以便在未來實(shí)現(xiàn)真正的端到端應(yīng)用。
隨后在討論如何在本體和智能、端到端和模塊化之間實(shí)現(xiàn)平衡時(shí),北京大學(xué)的王鶴助理教授提出了一種折衷觀點(diǎn)。他認(rèn)為,“本體和智能應(yīng)同步發(fā)展,端到端與模塊化也可以并行探索”。他解釋說,隨著智能技術(shù)的發(fā)展,本體硬件的需求也會(huì)隨之上升,而本體的進(jìn)步又能進(jìn)一步促進(jìn)智能水平的提升。因此,模塊化可以作為端到端的起點(diǎn),模塊積累的數(shù)據(jù)也能為未來的端到端架構(gòu)提供重要支撐。這個(gè)觀點(diǎn)得到了大多與會(huì)專家的贊同。中山大學(xué)的林倞教授總結(jié)道,端到端設(shè)計(jì)是具身智能的未來趨勢(shì),但目前在定義上尚不明確。他指出,當(dāng)前的具身智能仍然需要軟件適應(yīng)硬件的約束,隨著技術(shù)的成熟,端到端架構(gòu)的實(shí)現(xiàn)或?qū)⒊蔀榫呱碇悄馨l(fā)展的下一步。
在本次論壇中,與會(huì)專家達(dá)成共識(shí),具身智能的發(fā)展路徑需要根據(jù)不同應(yīng)用場(chǎng)景逐步優(yōu)化,模塊化設(shè)計(jì)在當(dāng)前階段具有重要意義,但端到端架構(gòu)是未來的理想目標(biāo)。專家們一致認(rèn)為,通過本體和智能的協(xié)同發(fā)展以及模塊化和端到端架構(gòu)的結(jié)合,具身智能將實(shí)現(xiàn)更高的自適應(yīng)性,為推動(dòng)具身智能在機(jī)器人和各領(lǐng)域的實(shí)際應(yīng)用提供堅(jiān)實(shí)基礎(chǔ)。
思辨議題3:具身智能是通往AGI的必由之路嗎?
在“具身智能是通往AGI的必由之路嗎?”的議題討論中,多位專家從不同角度探討了具身智能與通用人工智能(AGI)的關(guān)系,為具身智能未來的發(fā)展提供了新的啟示。思辨嘉賓北京交通大學(xué)金一教授首先指出,具身智能雖然是通往AGI的重要途徑之一,但并非唯一,具身智能的泛化能力在于如何將底層邏輯應(yīng)用于不同的機(jī)器本體,從而在實(shí)際操作中實(shí)現(xiàn)泛化。她提出具身智能的進(jìn)化可能還需要與腦科學(xué)的研究聯(lián)動(dòng),以提升其在復(fù)雜環(huán)境下的適應(yīng)能力。對(duì)此,華南農(nóng)業(yè)大學(xué)黃棟副教授提出了不同視角,他指出,具身智能的發(fā)展首先需要明確通用本體的定義以及最終目標(biāo)。他解釋說,如果目標(biāo)是一個(gè)完成具體任務(wù)的“工具型”智能,應(yīng)該采用最低成本完成任務(wù);而如果目標(biāo)是一個(gè)具有類似人類屬性的“智能體”,其工具性要求就不再是優(yōu)先考慮的問題。因此,不同應(yīng)用目標(biāo)將決定具身智能在AGI進(jìn)程中扮演的角色。
對(duì)此,中山大學(xué)的林倞教授持有不同觀點(diǎn),認(rèn)為具身智能未必是通往AGI的唯一路徑。他指出,當(dāng)前算法框架的局限性使得具身智能看起來是必經(jīng)之路,但未來可能會(huì)有不同的技術(shù)框架出現(xiàn),提供新的AGI途徑。林倞建議當(dāng)前的研究可以聚焦于應(yīng)用場(chǎng)景的構(gòu)建并在這些場(chǎng)景中逐步實(shí)現(xiàn)泛化,這樣有望更有效地推動(dòng)AGI的實(shí)際應(yīng)用。
智元研究院姚卯青則從數(shù)據(jù)驅(qū)動(dòng)的角度分析了具身智能與AGI的關(guān)系。他指出,具身智能在數(shù)據(jù)量方面仍然遠(yuǎn)遠(yuǎn)不及一個(gè)普通四歲兒童所接觸的數(shù)據(jù),這使得具身智能的泛化能力受限。而北京大學(xué)的王鶴助理教授進(jìn)一步強(qiáng)調(diào)了數(shù)據(jù)在實(shí)現(xiàn)AGI中的重要性。他認(rèn)為,AGI的核心不在于“全能”,而在于zero-shot和few-shot的泛化能力。然而,目前具身智能和語言模型的推理能力仍然受限于數(shù)據(jù)規(guī)模。王鶴指出,當(dāng)前具身智能的發(fā)展缺乏中心化的數(shù)據(jù)平臺(tái),若能構(gòu)建此平臺(tái)集成更多數(shù)據(jù)集,有望為通用模型的形成奠定基礎(chǔ),從而接近AGI的目標(biāo)。
與會(huì)專家一致認(rèn)為,具身智能在AGI發(fā)展中具備重要潛力,但其是否為唯一路徑仍需進(jìn)一步探索。專家們呼吁通過多學(xué)科協(xié)作,以推動(dòng)具身智能和AGI的共生發(fā)展,同時(shí)注重應(yīng)對(duì)社會(huì)倫理等現(xiàn)實(shí)問題。通過不同技術(shù)途徑的交叉創(chuàng)新,AGI的實(shí)現(xiàn)或?qū)木呱碇悄苤蝎@得新的啟示。
論壇主席為思辨嘉賓頒發(fā)感謝狀
在思辨環(huán)節(jié)的最后,由兩位論壇執(zhí)行主席為思辨嘉賓頒發(fā)感謝狀。
與會(huì)嘉賓合影
YOCSEF總部副主席兼本次論壇執(zhí)行主席陳小軍對(duì)論壇進(jìn)行了總結(jié)。他感謝各位嘉賓帶來的精彩報(bào)告,充分肯定了本次論壇的討論成果,并指出具身智能作為熱門話題,盡管吸引了廣泛關(guān)注,但在定義和發(fā)展方向上仍存在諸多不確定性。陳小軍充分肯定了本次論壇的討論成果,并希望此次交流能夠引發(fā)更多思考,最終將成果整理輸出,為學(xué)術(shù)界提供新的啟發(fā),促進(jìn)多方深入交流,共同探索具身智能的前景與潛力。
通訊員/李冠彬 陳小軍 譚雙翼 王甜甜
責(zé)任編輯/劉秀
評(píng)論 0