91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制

團(tuán)隊(duì)成員鄭梓瀚和崔天樂(lè)等在CCF A類會(huì)議發(fā)表大語(yǔ)言模型多維度評(píng)測(cè)的研究成果

近日,團(tuán)隊(duì)成員鄭梓瀚、崔天樂(lè)等在何樂(lè)為老師的指導(dǎo)下, 在 CCF - A 類會(huì)議 Association for Computational Linguistics(ACL 2025)主會(huì)發(fā)表了名為 “PlanningArena: A Modular Benchmark for Multidimensional Evaluation of Planning and Tool Learning” 的研究成果。該研究致力于為大語(yǔ)言模型(LLM)的規(guī)劃與工具學(xué)習(xí)能力提供一個(gè)全面且多維度的評(píng)測(cè)基準(zhǔn)。這一研究項(xiàng)目得到了國(guó)家自然科學(xué)基金、科技創(chuàng)新 2030 - “腦科學(xué)與類腦研究” 重大項(xiàng)目以及廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金等多項(xiàng)基金的資助。

1. 研究背景

近年來(lái),利用外部工具(如 APP 或 API)增強(qiáng)大語(yǔ)言模型(LLM)解決復(fù)雜問(wèn)題的能力,已成為人工智能領(lǐng)域的研究熱點(diǎn)。但科學(xué)、全面地評(píng)估 LLM 在模擬真實(shí)世界場(chǎng)景下的規(guī)劃與工具使用能力,依舊面臨諸多挑戰(zhàn)。現(xiàn)有評(píng)測(cè)基準(zhǔn)普遍存在以下局限性:一是場(chǎng)景單一,多數(shù)評(píng)測(cè)聚焦于特定領(lǐng)域,難以全面反映模型的泛化規(guī)劃能力;二是工具類型受限,多側(cè)重 API 接口調(diào)用,卻忽視了用戶在現(xiàn)實(shí)生活中對(duì)應(yīng)用程序(APP)的頻繁使用;三是任務(wù)設(shè)計(jì)簡(jiǎn)單,無(wú)法有效模擬真實(shí)世界中任務(wù)間復(fù)雜的依賴關(guān)系;四是缺乏個(gè)性化,靜態(tài)的任務(wù)場(chǎng)景難以滿足不同用戶的個(gè)性化需求,也難以考察模型的深度理解與記憶能力。

2. 方法和結(jié)果

圖 1 PlanningArena評(píng)測(cè)基準(zhǔn)的整體流程圖

為解決上述挑戰(zhàn),本研究提出了一個(gè)名為PlanningArena的全新評(píng)測(cè)基準(zhǔn)框架,其整體流程如圖1所示。該框架致力于高度模擬真實(shí)應(yīng)用場(chǎng)景,在設(shè)計(jì)上具備三大創(chuàng)新:首先,它構(gòu)建了覆蓋出行、購(gòu)物、娛樂(lè)等10個(gè)真實(shí)生活場(chǎng)景,并融合了真實(shí)的APP與API作為工具集;其次,它將復(fù)雜的規(guī)劃任務(wù)分解為五種核心結(jié)構(gòu)(單APP內(nèi)規(guī)劃、跨APP協(xié)同、并行無(wú)依賴、鏈?zhǔn)揭蕾?、有向無(wú)環(huán)圖依賴),以模塊化方式構(gòu)建從簡(jiǎn)到難的評(píng)測(cè)任務(wù);最后,該研究引入了用戶畫(huà)像機(jī)制與多智能體數(shù)據(jù)生成框架,在保證任務(wù)邏輯嚴(yán)謹(jǐn)性的同時(shí),實(shí)現(xiàn)了個(gè)性化、大規(guī)模、動(dòng)態(tài)更新的評(píng)測(cè)數(shù)據(jù)生成,有效避免了數(shù)據(jù)污染問(wèn)題。

為了驗(yàn)證當(dāng)前主流LLM的規(guī)劃能力,本研究在PlanningArena上對(duì)10個(gè)業(yè)界領(lǐng)先的大語(yǔ)言模型(包括GPT-4o、Gemini-1.5-pro等5個(gè)閉源模型和DeepSeekV3、Llama-3.1等5個(gè)開(kāi)源模型)進(jìn)行了全面測(cè)試。實(shí)驗(yàn)結(jié)果(如表1所示)揭示了當(dāng)前LLM在復(fù)雜規(guī)劃任務(wù)中仍面臨顯著挑戰(zhàn)。

如表1所示,即使是表現(xiàn)最強(qiáng)的GPT-4o模型,其總體規(guī)劃成功率也僅為56.5%。在開(kāi)源模型中表現(xiàn)最佳的DeepSeekV3,總分為41.9%,雖超越了部分知名閉源模型,但與頂級(jí)模型仍有差距。研究發(fā)現(xiàn),所有模型在處理簡(jiǎn)單的單APP任務(wù)(SAPP)時(shí)表現(xiàn)尚可,但在需要跨應(yīng)用協(xié)作(CAPP)或處理復(fù)雜API依賴(尤其是深層嵌套的“多對(duì)多”依賴結(jié)構(gòu))時(shí),性能均出現(xiàn)斷崖式下跌。這表明,現(xiàn)有LLM在長(zhǎng)程邏輯推理、上下文記憶和復(fù)雜工具調(diào)度方面存在普遍的瓶頸。

表 1 不同模型在PlanningArena上的綜合性能表現(xiàn) (%)

3. 結(jié)論

本研究提出了一個(gè)創(chuàng)新的大語(yǔ)言模型評(píng)測(cè)基準(zhǔn) PlanningArena。它融合真實(shí)世界場(chǎng)景、多樣化任務(wù)結(jié)構(gòu)與個(gè)性化用戶需求,為評(píng)估 LLM 的規(guī)劃與工具學(xué)習(xí)能力,提供全面而嚴(yán)謹(jǐn)?shù)钠脚_(tái)。實(shí)驗(yàn)結(jié)果清晰揭示,當(dāng)前頂尖 LLM 在面對(duì)復(fù)雜、動(dòng)態(tài)、長(zhǎng)鏈條的規(guī)劃任務(wù)時(shí),普遍存在短板。PlanningArena 填補(bǔ)現(xiàn)有評(píng)測(cè)體系的空白,為學(xué)界和業(yè)界提供寶貴的評(píng)測(cè)資源與分析工具,還為未來(lái)工具增強(qiáng)型 LLM 的優(yōu)化方向(如提升邏輯一致性、長(zhǎng)上下文理解和復(fù)雜依賴建模能力)設(shè)定新的標(biāo)準(zhǔn)與挑戰(zhàn)。


登錄用戶可以查看和發(fā)表評(píng)論, 請(qǐng)前往  登錄 或  注冊(cè)。
SCHOLAT.com 學(xué)者網(wǎng)
免責(zé)聲明 | 關(guān)于我們 | 用戶反饋
聯(lián)系我們: