轉(zhuǎn)載自微信公眾號:AI前線
近日,清華 KEG 實驗室與智譜 AI 聯(lián)合推出了視覺 GUI Agent——CogAgent,CogAgent 是一個通用的視覺理解大模型,具備視覺問答、視覺定位(Grounding)、GUI Agent 等多種能力,可接受 1120×1120 的高分辨率圖像輸入。在 9 個經(jīng)典的圖像理解榜單上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成績,并在涵蓋電腦、手機的 GUI Agent 數(shù)據(jù)集上(含 Mind2Web,AITW 等),大幅超過基于 LLM 的 Agent,取得第一。
圖1 在網(wǎng)頁 Agent 數(shù)據(jù)集 Mind2Web 上的性能
圖2 在手機 Agent 數(shù)據(jù)集 AITW 上的性能
為了更好地促進多模態(tài)大模型、Agent 社區(qū)的發(fā)展,目前團隊已將 CogAgent-18B 開源至 GitHub 倉庫,并提供了網(wǎng)頁版 Demo。
-
GitHub 項目地址(含開源模型、網(wǎng)頁版 Demo):https://github.com/THUDM/CogVLM
視覺 GUI Agent
基于語言預(yù)訓練模型(LLM)的 Agent 是當下熱門的研究話題,其具備良好的應(yīng)用前景。但受限于 LLM 的模態(tài),它只能接受語言形式的輸入。拿網(wǎng)頁 Aagent 為例,WebAgent 等工作將網(wǎng)頁 HTML 連同用戶目標(例如“Can you search for CogAgent on google”)作為 LLM 的輸入,從而獲得 LLM 對下一步動作的預(yù)測(例如點擊按鈕,輸入文本)。
然而,一個有趣的觀察是,人類是通過視覺與 GUI 交互的。比如,面對一個網(wǎng)頁,當給定一個操作目標時,人類會先觀察他的 GUI 界面,然后決定下一步做什么;與此同時,GUI 天然是為了人機交互設(shè)計的,相比于 HTML 等文本模態(tài)的表征,GUI 更為直接簡潔,易于獲取有效信息。也就是說,在 GUI 場景下,視覺是一種更為直接、本質(zhì)的交互模態(tài),能更高效完整提供環(huán)境信息;更進一步地,很多 GUI 界面并沒有對應(yīng)的源碼,也難以用語言表示。因此,若能將大模型改進為視覺 Agent,將 GUI 界面以視覺的形式直接輸入大模型中用于理解、規(guī)劃和決策,將是一個更為直接有效、具備極大提升空間的方法。
CogAgent 可以實現(xiàn)基于視覺的 GUI Agent,其工作路徑與能力如下:
圖4 CogAgent工作路徑與能力
CogAgent 模型同時接受當前 GUI 截圖(圖像形式)和用戶操作目標(文本形式,例如“search for the best paper in CVPR 2023”)作為輸入,就能預(yù)測詳細的動作,和對應(yīng)操作元素的位置坐標??梢詰?yīng)用于包括電腦、手機的各種場景。受益于 GUI Agent 的可泛化性,CogAgent 能在各類沒見過的場景與任務(wù)上都取得良好的性能。論文中展示了更多示例,覆蓋了 PPT、手機系統(tǒng)、社交軟件、游戲等各類場景
CogAgent 的模型結(jié)構(gòu)及訓練方法
據(jù)介紹,CogAgent 的模型結(jié)構(gòu)基于 CogVLM。為了使模型具備對高分辨率圖片的理解能力,可以看清 720p 的 GUI 屏幕輸入,團隊將圖像輸入的分辨率大幅提升至 1120×1120(以往的模型通常小于 500×500,包括 CogVLM,Qwen-VL 等)。然而,分辨率的提升會導致圖像序列急劇增長,帶來難以承受的計算和顯存開銷——這也是現(xiàn)有多模態(tài)預(yù)訓練模型通常采用較小分辨率圖像輸入的原因之一。
對此,團隊設(shè)計了輕量級的“高分辨率交叉注意力模塊”,在原有低分辨率大圖像編碼器(4.4 B)的基礎(chǔ)上,增加了高分辨率的小圖像編碼器 (0.3 B),并使用交叉注意力機制與原有的 VLM 交互。在交叉注意力中,團隊也使用了較小的 hidden size,從而進一步降低顯存與計算開銷。
圖5 高分辨率交叉注意力模塊設(shè)計
結(jié)果表明,該方法可以使模型成功理解高分辨率的圖片,并有效降低了顯存與計算開銷。在消融實驗中,團隊還比較了該結(jié)構(gòu)與 CogVLM 原始方法的計算量。結(jié)果表明,當分辨率提升時,使用文中提出的方案(with cross-module,橙色)將會帶來極少量的計算量增加,并與圖像序列的增長成線性關(guān)系。特別的,1120×1120 分辨率的 CogAgent 的計算開銷(FLOPs),甚至比 490×490 分辨率的 CogVLM 的 1/2 還要小。在 INT4 單卡推理測試中,1120×1120 分辨率的 CogAgent 模型占用約 12.6GB 的顯存,相較于 224×224 分辨率的 CogVLM 僅高出不到 2GB。
圖5 CogAgent 模型理解高分辨率圖片結(jié)果圖
在數(shù)據(jù)方面,除了 CogVLM 用到的 image caption 數(shù)據(jù)集之外,團隊在文本識別、視覺定位、GUI 圖像理解方面進行了數(shù)據(jù)擴充與增強,從而有效提升了 GUI Agent 場景下的性能。(CogAgent 的預(yù)訓練和微調(diào)數(shù)據(jù)的采集、生成方法詳細介紹于論文的 2.2 和 2.3 部分。)
來源:AI前線(編輯:凌敏 )
評論 0