具身智能以不同形態(tài)機器人在真實物理環(huán)境下執(zhí)行任務(wù)為主要方式實現(xiàn)AI進化,具備自感知、自認知、自決策、自執(zhí)行、自學(xué)習(xí)等特征,被認為是AI發(fā)展的下一個浪潮。由中國計算機學(xué)會(CCF)主辦,CCF學(xué)生分會工作組以及CCF YOCSEF廣州分論壇聯(lián)合指導(dǎo)CCF中山大學(xué)學(xué)生分會,特別舉辦了“智繪具身智能:解鎖具身智能科研新思路(學(xué)生分會前站論壇)”,本次論壇旨在從學(xué)生一線科研視角,探討具身智能技術(shù)的最新發(fā)展、未來研究趨勢以及不同方向的研究者如何從人工智能研究切入具身智能前沿方向等關(guān)鍵問題,為啟發(fā)具身智能核心技術(shù)創(chuàng)新與突破提供前瞻性的思考和建議?;顒佑?0月20日在中山大學(xué)計算機學(xué)院成功舉行。
出席本次活動的嘉賓包括中山大學(xué)計算機學(xué)院教授、國家優(yōu)秀青年基金獲得者、CCF YOCSEF廣州主席李冠彬,中山大學(xué)計算機學(xué)院副教授、CCF中大學(xué)生分會督導(dǎo)主任王昌棟,中山大學(xué)計算機學(xué)院副教授胡建芳,香港科技大學(xué)(廣州)人工智能學(xué)域助理教授梁俊衛(wèi)以及上??萍即髮W(xué)研究員、助理教授楊思蓓。本次活動邀請了香港大學(xué)博士生趙贛龍、香港科技大學(xué)(廣州)博士生馬特立、中山大學(xué)博士生衛(wèi)奕霖作為引導(dǎo)發(fā)言嘉賓,邀請了中山大學(xué)博士生曾逸明、香港科技大學(xué)(廣州)博士生周佳明、香港中文大學(xué)(深圳)博士后韓亞潼作為論壇思辨嘉賓。借由三位引導(dǎo)發(fā)言嘉賓的分享以及三位論壇思辨嘉賓的精彩發(fā)言,為同學(xué)們共同呈現(xiàn)了一場內(nèi)容豐富、思辨激烈、干貨滿滿的學(xué)術(shù)論壇。參與本次活動的學(xué)生分會有華南農(nóng)業(yè)大學(xué)學(xué)生分會、廣東工業(yè)大學(xué)學(xué)生分會、華南理工大學(xué)學(xué)生分會、中山大學(xué)學(xué)生分會、華南師范大學(xué)學(xué)生分會、廣東外語外貿(mào)大學(xué)學(xué)生分會等。本次論壇的主持人為CCF中山大學(xué)學(xué)生分會主席陳曼笙和中山大學(xué)計算機學(xué)院博士生陳衛(wèi)興。
論壇的開場由中山大學(xué)計算機學(xué)院副教授、CCF中大學(xué)生分會督導(dǎo)主任王昌棟致辭。他提出雖然CCF中山大學(xué)學(xué)生分會的成立時間只有四年多時間,但是在這四年時間里,成功舉辦了多個由廣州推廣至全國的活動,例如CCF優(yōu)秀大學(xué)生學(xué)術(shù)秀以及二級論壇聯(lián)動模式等。他對所有與會嘉賓、教授表示熱烈的歡迎和衷心感謝,希望通過本次論壇,深入探討具身智能科研的新思路,為即將到來的中國計算機大會CNCC主論壇做好預(yù)熱鋪墊。
在致辭環(huán)節(jié)之后,論壇進入引導(dǎo)發(fā)言環(huán)節(jié)。本次論壇邀請到的三位引導(dǎo)發(fā)言嘉賓分別作了題為“迭代式視覺語言導(dǎo)航中的結(jié)構(gòu)化場景記憶”、“自然語言驅(qū)動的機械臂操作——從多任務(wù)到開放式任務(wù)”、“機器人靈巧抓取生成”的分享。
來自香港大學(xué)的博士生趙贛龍以“迭代式視覺語言導(dǎo)航中的結(jié)構(gòu)化場景記憶”為題,從迭代式視覺語言導(dǎo)航(IVLN)的發(fā)展歷程到IVLN的智能體等技術(shù)細節(jié)進行了介紹。迭代式視覺語言導(dǎo)航認為,在人類工作環(huán)境中持續(xù)工作的智能體應(yīng)當(dāng)隨著時間的推移和經(jīng)驗的積累逐步提高性能表現(xiàn)。因此,IVLN智能體需要利用當(dāng)前旅程中的導(dǎo)航歷史幫助當(dāng)前指令的導(dǎo)航任務(wù)執(zhí)行。引導(dǎo)發(fā)言嘉賓趙贛龍討論了結(jié)構(gòu)化場景記憶對于模型性能的重要性,以及如何通過結(jié)構(gòu)化記憶來提高模型的學(xué)習(xí)和表達能力。他提出拋棄傳統(tǒng)基于封閉詞匯表檢測分割的范式,轉(zhuǎn)為基于開放詞匯表的Omnigraph構(gòu)建方法,借助大語言模型抽取指令中的關(guān)鍵詞后在全景中發(fā)現(xiàn)關(guān)鍵詞對應(yīng)的物體輔助導(dǎo)航。
來自香港科技大學(xué)(廣州)的博士生馬特立以“自然語言驅(qū)動的機械臂操作——從多任務(wù)到開放式任務(wù)”為題,從自然語言的重要性引入,講述了自然語言驅(qū)動的機械臂操作的可行性以及具體實現(xiàn)方法。他提出,自然語言驅(qū)動的機械臂操作有著重要的研究意義和應(yīng)用價值,因為通過自然語言對機器人發(fā)出指令能夠更好地對齊用戶的習(xí)慣和需求。引導(dǎo)發(fā)言嘉賓馬特立分享了他們團隊的兩篇工作。第一篇是基于對比模仿學(xué)習(xí)的語言驅(qū)動多任務(wù)機器人操作。該工作通過將自然語言指令和深度相機觀測數(shù)據(jù)訓(xùn)練機器人學(xué)習(xí)一個操作策略,以此控制關(guān)節(jié)的輸出和夾爪狀態(tài)。第二篇工作在前一篇的基礎(chǔ)上,借助大語言模型使得機器人能夠和人類一樣精準(zhǔn)地區(qū)分物體的種類、定位物體位置、判斷需要抓取的物體局部部件。
來自中山大學(xué)的博士生衛(wèi)奕霖以“機器人靈巧抓取生成”為題,分享了機器人靈巧抓取的相關(guān)研究進展。引導(dǎo)發(fā)言嘉賓衛(wèi)奕霖團隊的一篇工作聚焦于判別式的靈巧抓取生成任務(wù)?,F(xiàn)有的主流方法采用生成模型來生成不同的抓取位姿,而他們創(chuàng)新性地提出利用判別式的框架,將抓取生成建模為一個集合預(yù)測問題,通過一個兩階段優(yōu)化策略訓(xùn)練機械臂。該團隊的另一篇工作提出,現(xiàn)有的靈巧抓取主要集中于無語義的穩(wěn)定抓取,或者固定任務(wù)導(dǎo)向的功能性抓取,這種方式不夠靈活,人機交互不夠友好。因此,他們提出一個新任務(wù),即語言引導(dǎo)的靈巧抓取生成。提出的方法采用兩階段框架,生成式模型負責(zé)意圖對齊和多樣性生成,而判別式模型負責(zé)提高抓取質(zhì)量。最后,他還總結(jié)了靈巧抓取生成未來的五個熱點研究方向。
接著,參與論壇的各位老師、嘉賓以及各個學(xué)生分會代表對于三個思辨點充分發(fā)表了自己的看法,深入交流了自己對于具身智能科研選題、解題和創(chuàng)新的思考和見解。
思辨點1:遇見“具身智能”,研究者應(yīng)如何選題?
對于這個議題,大部分博士生認為,對于一個新入門具身智能想要發(fā)表學(xué)術(shù)論文的研究者,可以先跟隨大組的研究方向和最新發(fā)表的成果,通過復(fù)現(xiàn)他們的工作來上手,總結(jié)過去的研究經(jīng)驗,然后再從實際問題出發(fā)找到適合自己的選題。對此,梁俊衛(wèi)老師補充道,在學(xué)術(shù)界與工業(yè)界做研究不同。學(xué)術(shù)界的研究周期一般比較長,而工業(yè)界則需要做快速落地的工業(yè)場景應(yīng)用。二者的需求不同,因此也需要用不同的方法。
引導(dǎo)發(fā)言嘉賓馬特立提出,目前具身智能領(lǐng)域主要有兩類研究者,做計算機視覺的人更傾向于從“智能”方面入手,而做傳統(tǒng)機器人的研究者更容易從“具身”角度切入。這兩個領(lǐng)域的研究者應(yīng)該加強相互交流、相互借鑒學(xué)習(xí)。
在這個議題上,參會的各位老師和博士生代表們討論了如何選擇合適的課題,包括考慮自身的研究背景、國內(nèi)外知名大組的研究方向等。參會者分享了各自的研究方向和思考,同時也探討了在學(xué)術(shù)界和企業(yè)中選題的不同方式。
思辨點2:借力“具身智能”,如何做出開創(chuàng)性的工作?
對于這個議題,楊思蓓老師首先提出,如何發(fā)現(xiàn)和定義一個新問題是能否做出開創(chuàng)性工作的關(guān)鍵。思辨嘉賓曾逸明對楊老師的觀點表示高度認同。他提出做研究不僅要追求新穎度,更需要注重于研發(fā)基礎(chǔ)模型的通用性,能夠解決一系列的問題。現(xiàn)有的開創(chuàng)性工作都是很難啃的硬骨頭,想要解決的問題都比較難,因此需要長期的積累和努力。
思辨嘉賓周佳明補充道,我們更應(yīng)該追求做出有意義的工作。一個有意義的工作首先是問題要足夠大、足夠有影響力,能夠啟發(fā)這個領(lǐng)域的后續(xù)研究。比如說,具身智能領(lǐng)域目前缺乏一個通用的數(shù)據(jù)集,如果能夠構(gòu)建一個好用的數(shù)據(jù)集,能夠助力更多優(yōu)秀研究出現(xiàn)就是非常有意義的工作。
在這個議題上,與會嘉賓們針對開創(chuàng)性這個話題進行了深入討論。大家一致同意的是,具身智能是一個非常有潛力的研究方向,是當(dāng)前的研究熱點。然而正因為是熱點,想要做出具有開創(chuàng)性的工作也很有挑戰(zhàn)。各位老師和博士生代表們對想要進入具身智能領(lǐng)域的同學(xué)提出了非常多具有建設(shè)性的意見,讓新入門的研究者們可以少走彎路,做出有意義、有創(chuàng)新、有影響力的工作。
思辨點3:如何解鎖具身智能追熱點的正確姿勢?
對于這個議題,在場的博士生們大多認為,判斷一個熱點該不該追、值不值得追,必須要首先要對整個研究領(lǐng)域有整體的了解,并判斷能否用以解決自己工作中的問題和挑戰(zhàn)。
引導(dǎo)發(fā)言嘉賓趙贛龍表示,現(xiàn)在的科研工作需要多領(lǐng)域合作,用多種方法共同解決挑戰(zhàn)。即使是不熟悉具身智能的人,也能在其中找到自己熟悉領(lǐng)域的用武之地。這對于研究者來說既是挑戰(zhàn)也是優(yōu)勢,可以通過一個不同的視角來切入到具身智能這個領(lǐng)域。
李冠彬老師對各位博士生的發(fā)言做了總結(jié),并補充道如果想要追上具身智能這個熱點,首先需要充分了解具身智能這個領(lǐng)域,比如說可以通過閱讀綜述等相關(guān)文獻。在決定要進入這個領(lǐng)域之后,就要去思考這個領(lǐng)域還有什么更深入的、尚未解決且自己可以做的問題,一旦選定了問題之后就要專注不斷深入,不要經(jīng)常中途換方向。在一段時間后要形成自己一系列的問題和工作,開創(chuàng)自己研究的一個系統(tǒng)體系,慢慢地讓自己的研究被更多人跟隨,擴大自己的影響力。當(dāng)我們一直在這個領(lǐng)域深耕、一直思考這個領(lǐng)域有哪些問題、有什么特點,我們就越能做出有影響力、有開創(chuàng)性的工作。最后,梁俊衛(wèi)老師還補充道,除了閱讀綜述論文,積極在網(wǎng)上搜尋咨詢也是入門具身智能科研的好方法。
參與論壇的每位嘉賓都對本次論壇議題發(fā)表了各自的看法,論壇思辨現(xiàn)場討論熱烈。此次論壇歷時近兩小時,廣州分論壇主席李冠彬對此次論壇進行了總結(jié)并再次對與會嘉賓表示感謝。他總結(jié)到本次論壇深入討論了具身智能的三個方面,并且各位與會嘉賓結(jié)合自身的研究經(jīng)驗對具身智能領(lǐng)域的前沿研究選題和科研方法提出了深入的見解。最后,論壇在一片熱烈的討論氛圍中圓滿結(jié)束。
評論 0