“具身智能是否新瓶裝舊酒?”
灣區(qū)時訊 具身智能通過多種類型的智能體在真實物理環(huán)境中執(zhí)行任務,實現(xiàn)了人工智能進化,具備自感知、自認知、自決策、自執(zhí)行和自學習等特性,被視為AI發(fā)展的下一波浪潮,同時,具身智能研究的興起也代表著人工智能發(fā)展的一個新的里程碑,預示著我們即將進入一個“知行合一”的新時代。在這個時代,智能將不再局限于冰冷的算法和數(shù)據(jù),而是現(xiàn)實世界緊密交織、共生共進。然而具身智能的演進過程中也形成了由AI專家推崇的“智能+具身”和以機器人專家主導的“具身+智能”兩種派系,不乏有質(zhì)疑“具身智能是否新瓶裝舊酒”的聲音。前者認為其是AI算法套上機器人的形態(tài),后者認為是機器人控制添加更強的智能算法。具身智能的技術(shù)革新如何,最佳形態(tài)幾何,是否通往AGI的必由之路成為值得行業(yè)專家深入研討的新話題。
由CCF主辦的第二十一屆中國計算機大會(CNCC 2024)于2024年10月24日至26日在浙江省東陽市橫店鎮(zhèn)圓明新園舉行。10月24日下午,中國計算機學會(CCF)青年計算機科技論壇(YOCSEF)廣州學術(shù)委員會在CNCC大會分會場舉辦了“具身智能是否新瓶裝舊酒?”觀點論壇。YOCSEF廣州主席李冠彬(中山大學)與YOCSEF總部副主席陳小軍(深圳大學)共同擔任執(zhí)行主席。論壇邀請中山大學教授,鵬城實驗室具身智能研究所所長林倞、北京大學助理教授王鶴與中國科學院計算技術(shù)研究所研究員蔣樹強擔任引導發(fā)言嘉賓;智元新創(chuàng)技術(shù)有限公司研究院執(zhí)行院長,具身業(yè)務部部長姚卯青、華南理工大學軟件學院教授吳慶耀,YOCSEF 總部副主席,北京交通大學教授金一擔任思辨嘉賓。
廣東工業(yè)大學計算機學院院長李小平教授、副院長陳平華教授、YOCSEF總部副主席陳小軍(深圳大學)、金一(北京交通大學), YOCSEF廣州往屆主席譚臺哲(廣東工業(yè)大學)、黃書強(暨南大學)、黃棟(華南農(nóng)業(yè)大學),現(xiàn)任主席李冠彬(中山大學),現(xiàn)任學術(shù)秘書姜思羽(廣東外語外貿(mào)大學), YOCSEF上海分論壇秘書長劉斐(擎朗智能),往屆AC委員曾安(廣東工業(yè)大學)以及來自全國多所高校及企事業(yè)單位共60多人參加了此次論壇。
論壇現(xiàn)場
首先,由論壇執(zhí)行主席李冠彬主持論壇開場環(huán)節(jié),介紹了出席論壇嘉賓和關(guān)于此次論壇的背景和意義。論壇共同執(zhí)行主席陳小軍介紹CCF YOCSEF文化與發(fā)展歷程。
論壇引導發(fā)言環(huán)節(jié)邀請到的三位引導發(fā)言嘉賓分別作了題為“從多模態(tài)大模型到具身智能:前沿與展望”、“面向通用機器人的具身多模態(tài)大模型系統(tǒng)”、“淺談具身智能中的具身機理與智能體現(xiàn)”的分享。
首先,中山大學林倞教授以“從多模態(tài)大模型到具身智能:前沿與展望”為主題,深入探討了具身智能在多模態(tài)感知、任務規(guī)劃與決策、虛實遷移等方面的前沿研究和未來發(fā)展方向。林教授分析了具身智能在環(huán)境主動感知、數(shù)據(jù)與仿真平臺并行發(fā)展等關(guān)鍵挑戰(zhàn),重點介紹了多模態(tài)主動感知技術(shù)的進展,包括主動目標搜索、3D空間文本對齊和復雜場景的語義地圖構(gòu)建等。此外,他還介紹了基于大模型的具身任務規(guī)劃和決策框架,以及具身智能體虛實遷移的研究進展,并展示了具身智能在復雜真實環(huán)境中的應用和探索。
中山大學林倞教授引導發(fā)言
隨后,北京大學的王鶴助理教授以“面向通用機器人的具身多模態(tài)大模型系統(tǒng)”為主題,分享了其團隊在推動通用機器人技術(shù)發(fā)展方面的前沿研究進展。他從應用與手段兩個角度出發(fā),分析了通用機器人如何通過自然的溝通交互代替繁瑣代碼操作,具備跨領(lǐng)域任務執(zhí)行能力。盡管谷歌的Vision-Language-Action(VLA)模型和特斯拉的解決方案在泛化能力上尚有不足,其團隊提出的D3RoMA則通過合成數(shù)據(jù)與sim2real技術(shù)進行數(shù)據(jù)擴展,顯著提升了通用機器人在復雜環(huán)境中的適應性。此外,他們構(gòu)建了超大規(guī)模數(shù)據(jù)集,使機器人能夠在透明、高反光等復雜材料下完成精細靈巧手操作任務,為未來通用機器人的泛化能力提供了新的研究思路和實踐路徑。
北京大學王鶴助理教授引導發(fā)言
最后,中國科學院計算技術(shù)研究所蔣樹強研究員以“具身智能中的具身機理與智能體現(xiàn)”為主題,深入介紹了具身智能的核心概念和特點。報告提到具身智能是通過智能體與環(huán)境互動而產(chǎn)生的智能形式,在真實環(huán)境中受到信息獲取的限制和外部干擾的挑戰(zhàn)。其本質(zhì)在于多部件的相互作用,具有涉身性、情景性、自主性和交互性等特征。值得注意的是,類比于自然界生物,智能的發(fā)展應不局限于腦部,而是應思考如何通過整個身體實現(xiàn)。他還指出,具身智能涉及倫理、社會和法律等問題,為未來的發(fā)展提出了深刻的思考,強調(diào)具身智能需要在任務完成過程中展現(xiàn)更為本能化的行為,為具身智能的實踐和應用提供了新的視角。
中國科學院計算技術(shù)研究所蔣樹強研究員引導發(fā)言
引導發(fā)言之后,由兩位論壇執(zhí)行主席分別為三位引導發(fā)言嘉賓頒發(fā)感謝狀,論壇進入思辨環(huán)節(jié)。思辨環(huán)節(jié)由論壇執(zhí)行主席李冠彬與論壇共同執(zhí)行主席陳小軍主持。會場嘉賓圍繞“具身智能,是機器人的’冷飯熱炒’嗎?”、“具身智能的技術(shù)路徑:’具身智能‘vs’身具智能‘ ”和“具身智能是通往AGI的必由之路嗎?”三個核心議題,展開激烈思辨。
思辨議題1:具身智能,是機器人的“冷飯熱炒”嗎?
在“具身智能,是機器人的‘冷飯熱炒’嗎?”議題討論中,多位專家學者圍繞具身智能在機器人領(lǐng)域的創(chuàng)新價值與未來應用前景展開了深入探討。思辨嘉賓智元研究院姚卯青首先發(fā)言,他認為具身智能并非“新瓶裝舊酒”,其為傳統(tǒng)機器人注入了新的生命力,不僅是機器人的延續(xù),更是一個嶄新的方向,具有廣闊的發(fā)展空間和應用前景。盡管該領(lǐng)域存在部分炒作成分,但仍值得深入探索,并應通過這種“炒作”使本領(lǐng)域工作獲得公眾的關(guān)注和支持,推動這一前沿科技走向應用實踐。擎朗智能劉斐總監(jiān)對此也表示贊同,他認為具身智能的出現(xiàn)為機器人行業(yè)帶來了質(zhì)的提升,使其從單純的執(zhí)行角色轉(zhuǎn)向更加通用、自主且靈活的智能操作。劉斐指出,具身智能不僅僅是機器人技術(shù)加上大模型,而是賦予機器人更高的通用性和適應性,能夠在多樣化環(huán)境中獨立完成任務。北京交通大學金一教授補充指出,具身智能的崛起得益于AI for Science和大模型的發(fā)展,賦予了機器人在智能導航、虛擬人等新興領(lǐng)域的深度應用潛力。金一認為,具身智能在新的研究范式下實現(xiàn)了對傳統(tǒng)機器人的超越,為機器人行業(yè)帶來了跨越式的進步。
譚臺哲則從技術(shù)傳承的角度進行了反駁,他認為具身智能在某種程度上是“新瓶裝舊酒”,即盡管具身智能的概念得到了新的方法和技術(shù)的支持,但其核心目標與早期智能的設(shè)想相似,都是通過不同技術(shù)手段來實現(xiàn)智能化。因此,他強調(diào)具身智能仍然是技術(shù)傳承的延續(xù),并提醒大家看到當前方法的局限性,以開放的態(tài)度迎接未來的技術(shù)突破。而北京大學王鶴助理教授則提出了新的觀點。他指出,具身智能的發(fā)展路徑應是“新瓶裝新酒”的關(guān)系,“瓶”(硬件)和“酒”(算法)兩者在共同演化中達成高度融合,逐步實現(xiàn)更高智能。他提到,現(xiàn)代機器人不僅在智能算法上不斷提升,其“瓶”——機器人硬件本身也在不斷優(yōu)化,例如模擬真實觸覺的新型觸覺元件等的硬件模塊引入,使得機器人能夠更適應多樣化任務的需求。
與會其他專家則從實際應用的角度看待具身智能的發(fā)展,他們認為無論“新瓶”或“舊酒”,關(guān)鍵在于具身智能是否能推動技術(shù)應用落地。許多與會專家指出具身智能有望在通用社會應用中實現(xiàn)更多突破,通過智能技術(shù)與身體控制的融合,逐步走向高度智能化的未來。另一方面,與會者一致認為具身智能在機器人技術(shù)的應用潛力巨大,兩者互相協(xié)作,最終可以達到技術(shù)互補,呈現(xiàn)螺旋上升,但要實現(xiàn)這一愿景,仍需克服技術(shù)創(chuàng)新和場景應用中的諸多挑戰(zhàn)。
與會嘉賓激烈思辨
思辨議題2:具身智能的技術(shù)路徑:“具身智能”vs“身具智能”
在“具身智能的技術(shù)路徑:‘具身智能’ vs ‘身具智能’”議題討論中,與會者聚焦于“本體先行 vs 智能先行”以及“端到端架構(gòu) vs 模塊化設(shè)計”兩大核心問題,對具身智能技術(shù)的未來方向進行了深入剖析。華南理工大學吳慶耀教授率先發(fā)言,他指出具身智能與身具智能的區(qū)別在于前者更強調(diào)與環(huán)境的互動,屬于靈活適應的“柔性智能”;而“身具智能”更偏向智能本體的應用,側(cè)重升級傳統(tǒng)設(shè)備,屬于較為固定的“剛性智能”。吳慶耀教授認為,本體的設(shè)計應優(yōu)先發(fā)展,以確保具身智能在多樣環(huán)境下的穩(wěn)定性。同時,他鼓勵高校在端到端架構(gòu)方面進行探索,盡管模塊化設(shè)計可以解決部分問題,但長遠來看端到端架構(gòu)更具潛力。
廣東工業(yè)大學譚臺哲則提出了“智能先行”的觀點,他認為具身智能的發(fā)展得益于大模型的突破,這些智能模型為機器人本體帶來了新一輪的進步。同時,端到端設(shè)計盡管理想,但對資源投入要求高,模塊化設(shè)計反而更具實際,尤其適用于科研資源相對有限的場景。這個觀點得到部分與會專家的支持,他們認為當前模塊化在實際應用中的落地更快,適合推動短期成果轉(zhuǎn)化。華南農(nóng)業(yè)大學黃棟副教授從自然界演化的角度為具身智能的路徑選擇提供了新的視角補充。他指出,生物界的本質(zhì)是高度模塊化的端到端,每一層都有獨立的端到端特性,同時也共享模塊化的共性。他建議可以借鑒自然界的分層設(shè)計,將具身智能的各模塊逐步優(yōu)化,以便在未來實現(xiàn)真正的端到端應用。
隨后在討論如何在本體和智能、端到端和模塊化之間實現(xiàn)平衡時,北京大學的王鶴助理教授提出了一種折衷觀點。他認為,“本體和智能應同步發(fā)展,端到端與模塊化也可以并行探索”。他解釋說,隨著智能技術(shù)的發(fā)展,本體硬件的需求也會隨之上升,而本體的進步又能進一步促進智能水平的提升。因此,模塊化可以作為端到端的起點,模塊積累的數(shù)據(jù)也能為未來的端到端架構(gòu)提供重要支撐。這個觀點得到了大多與會專家的贊同。中山大學的林倞教授總結(jié)道,端到端設(shè)計是具身智能的未來趨勢,但目前在定義上尚不明確。他指出,當前的具身智能仍然需要軟件適應硬件的約束,隨著技術(shù)的成熟,端到端架構(gòu)的實現(xiàn)或?qū)⒊蔀榫呱碇悄馨l(fā)展的下一步。
在本次論壇中,與會專家達成共識,具身智能的發(fā)展路徑需要根據(jù)不同應用場景逐步優(yōu)化,模塊化設(shè)計在當前階段具有重要意義,但端到端架構(gòu)是未來的理想目標。專家們一致認為,通過本體和智能的協(xié)同發(fā)展以及模塊化和端到端架構(gòu)的結(jié)合,具身智能將實現(xiàn)更高的自適應性,為推動具身智能在機器人和各領(lǐng)域的實際應用提供堅實基礎(chǔ)。
思辨議題3:具身智能是通往AGI的必由之路嗎?
在“具身智能是通往AGI的必由之路嗎?”的議題討論中,多位專家從不同角度探討了具身智能與通用人工智能(AGI)的關(guān)系,為具身智能未來的發(fā)展提供了新的啟示。思辨嘉賓北京交通大學金一教授首先指出,具身智能雖然是通往AGI的重要途徑之一,但并非唯一,具身智能的泛化能力在于如何將底層邏輯應用于不同的機器本體,從而在實際操作中實現(xiàn)泛化。她提出具身智能的進化可能還需要與腦科學的研究聯(lián)動,以提升其在復雜環(huán)境下的適應能力。對此,華南農(nóng)業(yè)大學黃棟副教授提出了不同視角,他指出,具身智能的發(fā)展首先需要明確通用本體的定義以及最終目標。他解釋說,如果目標是一個完成具體任務的“工具型”智能,應該采用最低成本完成任務;而如果目標是一個具有類似人類屬性的“智能體”,其工具性要求就不再是優(yōu)先考慮的問題。因此,不同應用目標將決定具身智能在AGI進程中扮演的角色。
對此,中山大學的林倞教授持有不同觀點,認為具身智能未必是通往AGI的唯一路徑。他指出,當前算法框架的局限性使得具身智能看起來是必經(jīng)之路,但未來可能會有不同的技術(shù)框架出現(xiàn),提供新的AGI途徑。林倞建議當前的研究可以聚焦于應用場景的構(gòu)建并在這些場景中逐步實現(xiàn)泛化,這樣有望更有效地推動AGI的實際應用。
智元研究院姚卯青則從數(shù)據(jù)驅(qū)動的角度分析了具身智能與AGI的關(guān)系。他指出,具身智能在數(shù)據(jù)量方面仍然遠遠不及一個普通四歲兒童所接觸的數(shù)據(jù),這使得具身智能的泛化能力受限。而北京大學的王鶴助理教授進一步強調(diào)了數(shù)據(jù)在實現(xiàn)AGI中的重要性。他認為,AGI的核心不在于“全能”,而在于zero-shot和few-shot的泛化能力。然而,目前具身智能和語言模型的推理能力仍然受限于數(shù)據(jù)規(guī)模。王鶴指出,當前具身智能的發(fā)展缺乏中心化的數(shù)據(jù)平臺,若能構(gòu)建此平臺集成更多數(shù)據(jù)集,有望為通用模型的形成奠定基礎(chǔ),從而接近AGI的目標。
與會專家一致認為,具身智能在AGI發(fā)展中具備重要潛力,但其是否為唯一路徑仍需進一步探索。專家們呼吁通過多學科協(xié)作,以推動具身智能和AGI的共生發(fā)展,同時注重應對社會倫理等現(xiàn)實問題。通過不同技術(shù)途徑的交叉創(chuàng)新,AGI的實現(xiàn)或?qū)木呱碇悄苤蝎@得新的啟示。
論壇主席為思辨嘉賓頒發(fā)感謝狀
在思辨環(huán)節(jié)的最后,由兩位論壇執(zhí)行主席為思辨嘉賓頒發(fā)感謝狀。
與會嘉賓合影
YOCSEF總部副主席兼本次論壇執(zhí)行主席陳小軍對論壇進行了總結(jié)。他感謝各位嘉賓帶來的精彩報告,充分肯定了本次論壇的討論成果,并指出具身智能作為熱門話題,盡管吸引了廣泛關(guān)注,但在定義和發(fā)展方向上仍存在諸多不確定性。陳小軍充分肯定了本次論壇的討論成果,并希望此次交流能夠引發(fā)更多思考,最終將成果整理輸出,為學術(shù)界提供新的啟發(fā),促進多方深入交流,共同探索具身智能的前景與潛力。
通訊員/李冠彬 陳小軍 譚雙翼 王甜甜
責任編輯/劉秀
評論 0