91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制

8
點贊
0
評論
3
轉(zhuǎn)載
我要入駐

【轉(zhuǎn)載】北大DeepSeek斬獲ACL 2025最佳論文!全網(wǎng)首發(fā)一作演講,稀疏注意力是終局

收錄于合集: # 學術(shù)快訊

descript

【新智元導(dǎo)讀】2025年ACL盛會于維也納落下帷幕!今年會議規(guī)??涨埃陡辶砍^8000篇,其中超半數(shù)作者來自中國。4篇最佳論文中,出自中國團隊之手的同樣占到50%——分別是北大與DeepSeek合作、梁文鋒署名的NSA論文,以及北大楊耀東團隊揭示模型存在「抗改造」基因的論文。

2025年7月30日,奧地利維也納,萬眾矚目ACL 2025終于頒獎了!

本屆ACL總投稿數(shù)量創(chuàng)下歷史新高,達到了8360篇論文!(去年只有4407篇)

其中,主會錄用率為20.3%,共有1699篇論文;Findings錄用率為16.7%,共有1392篇論文。

值得一提的是,論文里的中國作者已經(jīng)占據(jù)了半壁江山,比例超過51%。

其中,第一作者有高達51.3%來自大陸,排在第二的美國僅為14%。

本次ACL共有4篇最佳論文,2篇最佳社會影響力論文,3篇最佳資源論文,3篇最佳主題論文,26篇杰出論文,以及TACL最佳論文,最佳Demo,時間檢驗獎等若干獎項。

descript

備受期待的DeepSeek與北京大學合作、梁文鋒署名的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》獲得最佳論文獎!

團隊成員在頒獎典禮上,成為全場關(guān)注焦點!

descript

descript

第一作者袁境陽,左起第三;導(dǎo)師張銘,左起第五

論文發(fā)表的原生稀疏注意力(Native Sparse Attention,NSA)模型,獲Meta 4.5分的高分。

該技術(shù)顛覆傳統(tǒng)注意力機制,實現(xiàn)算力效率飛躍,被譽為長文本處理的革命性突破。

值得注意的是,今天閉幕式的頒獎典禮上,最佳論文會有約5分鐘演講時間。

新智元帶你親臨現(xiàn)場,聽聽第一作者袁境陽最新的分享。

descript

全網(wǎng)首發(fā)袁境陽Talk

演講主題是《現(xiàn)代GPU上的注意力機制注定將走向稀疏化》。

現(xiàn)代GPU的「內(nèi)存容量」越來越大,能容納很大的模型;但「內(nèi)存帶寬」并沒有相應(yīng)提升?!赶∈枳⒁饬Α箼C制,只關(guān)注最關(guān)鍵的部分,減少不必要的計算。

未來,注定是「稀疏」(Sparsity)的!NSA為下一代長上下文語言模型提供了高效的基石。

descript

descript

descript

descript

接下來,讓我們一起看看,其他影響深遠的論文都來自哪些團隊。

descript

4篇最佳論文

4篇最佳論文中,DeepSeek和北大合作,且梁文鋒署名的文章,以及北大楊耀東團隊摘得了其中的兩篇。

最佳論文1:A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive

作者:Sarath Sivaprasad, Pramod Kaushik, Sahar Abdelnabi, Mario Fritz 

機構(gòu):CISPA亥姆霍茲信息安全中心,TCS研究院,微軟

descript

論文地址:https://arxiv.org/pdf/2402.11005

這篇論文的核心論點是,LLM在做決策和生成內(nèi)容時,其行為模式與人類非常相似:它不僅僅是反映統(tǒng)計上最常見的情況,還會系統(tǒng)性地偏向一個「理想化」的版本。

研究者將這種決策啟發(fā)式分解為兩個部分:

描述性規(guī)范 (Descriptive Norm): 指一個概念在現(xiàn)實世界中統(tǒng)計上最常見、最普遍的狀態(tài)。這反映了「是什么」。

規(guī)定性規(guī)范 (Prescriptive Norm): 指一個概念中被認為是理想、可取或有價值的狀態(tài)。這反映了「應(yīng)該是什么」。

論文通過實驗證明,LLM的輸出結(jié)果并不僅僅是基于數(shù)據(jù)中的平均或最常見情況(描述性),而是會朝著它所學習到的「理想」狀態(tài)(規(guī)定性)發(fā)生持續(xù)且可預(yù)測的偏移。

descript

這種現(xiàn)象并不僅限于某個特定領(lǐng)域,而是在公共衛(wèi)生、經(jīng)濟趨勢等多個真實世界領(lǐng)域中都普遍存在。

該研究指出了這種機制帶來的潛在風險

決策偏見: 當LLM被用于自主決策時,這種向「理想」的偏移會導(dǎo)致其做出有偏見的判斷。

倫理問題: LLM內(nèi)化的「理想標準」不一定與人類的價值觀或倫理標準相符,這在自動決策場景下會引發(fā)嚴重的倫理關(guān)切。

最佳論文2:Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs

作者:Angelina Wang, Michelle Phan, Daniel E. Ho, Sanmi Koyejo 

機構(gòu):斯坦福大學

descript

論文地址:https://arxiv.org/pdf/2502.01926

這篇論文的核心論點是:當前主流的AI公平性研究走入了一個誤區(qū),即追求「無視差異」的公平,認為任何對不同群體的區(qū)別對待都是有害的偏見。

作者認為,這種方法是錯誤的,因為在很多現(xiàn)實情境下,識別并根據(jù)群體的真實差異采取不同行動,不僅是必要的,而且是更高級的公平。

為了闡述這個觀點,論文提出了幾個關(guān)鍵概念和貢獻:

什么是「差異無意識」(Difference Unawareness)?

作者通過幾個生動的例子(如AI生成種族多元的納粹、錯誤地認為男女參軍體能標準相同)指出,現(xiàn)在的AI為了避免「偏見」,被訓(xùn)練得無法識別和承認群體間真實存在的、有意義的差異。

這種「一刀切」的平等策略,忽略了歷史、法律、生理和社會背景,反而可能導(dǎo)致新的問題,甚至掩蓋了真正的不公。

descript

差異意識 (DiffAware) 和情境意識 (CtxtAware)

差異意識 (DiffAware):作者提出的新概念,指的是模型能夠在適當?shù)臅r候識別并區(qū)別對待不同群體的能力。例如,模型應(yīng)該知道美國征兵法律對男性和女性有不同規(guī)定。

情境意識 (CtxtAware):這是對「差異意識」的補充和約束。模型不僅要知道可以區(qū)別對待,更關(guān)鍵的是要知道什么時候應(yīng)該區(qū)別對待,什么時候不應(yīng)該。例如,在討論法律時區(qū)別男女是合適的(差異意識),但在招聘程序員時不應(yīng)因性別而區(qū)別對待(有害偏見)。一個好的模型需要具備這種情境判斷力。

新的評估框架:三種任務(wù)類型

作者認為,要正確評估AI的公平性,必須區(qū)分評估任務(wù)的性質(zhì)。他們將其分為三類:

描述性 (Descriptive):基于客觀事實的提問。

規(guī)范性 (Normative):基于價值判斷或「世界應(yīng)該怎樣」的提問。

關(guān)聯(lián)性 (Correlation):基于統(tǒng)計關(guān)聯(lián),但問題模糊,不清楚是想測試事實還是價值觀。

總而言之,這篇論文呼吁AI公平性研究從簡單的「一視同仁」走向更成熟的「情境化區(qū)別對待」,并為此提供了一套理論框架和評估工具。

最佳論文3:Language Models Resist Alignment: Evidence From Data Compression

作者:Jiaming Ji, Kaile Wang, Tianyi Qiu, Boyuan Chen, Jiayi Zhou, Changye Li, Hantao Lou, Juntao Dai, Yunhuai Liu, Yaodong Yang

機構(gòu):北京大學人工智能研究院

descript

從預(yù)訓(xùn)練到后訓(xùn)練再到強化學習,團隊發(fā)現(xiàn)大模型存在類似「胡克定律」的彈性——模型在被對齊的過程中,始終存在一種「抗拒」力量。

換句話說,對齊并不是單向塑形,而是一個持續(xù)博弈的過程。

descript

這篇論文主要探討了為什么LLM的「安全對齊」效果很脆弱且容易被逆轉(zhuǎn)。

LLM存在一種名為 「彈性」(elasticity) 的特性。這個特性包含兩個方面:

抵抗性(Resistance):模型傾向于維持其在海量數(shù)據(jù)預(yù)訓(xùn)練階段學到的原始行為和知識分布,抗拒對齊訓(xùn)練帶來的改變。

反彈性(Rebound):一個模型被對齊得越「好」(即越安全),當它被進一步微調(diào)時(即使是用無害數(shù)據(jù)),它「反彈」回預(yù)訓(xùn)練狀態(tài)的速度就越快。

首次提出并定義了LLM的「彈性」現(xiàn)象,指出對齊訓(xùn)練可能只是「表面功夫」,很容易被后續(xù)的微調(diào)所「抹除」。

通過在不同類型和規(guī)模的模型上進行實驗,證實了「彈性」現(xiàn)象的普遍存在。研究還發(fā)現(xiàn),模型規(guī)模越大、預(yù)訓(xùn)練數(shù)據(jù)越多,這種彈性就越強。

這篇論文揭示了LLM內(nèi)部存在一種抗拒對齊的機制,認為要實現(xiàn)真正穩(wěn)固、深入的對齊,就必須解決模型的這種內(nèi)在「彈性」問題。

最佳論文4:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

作者:Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao, Zhengyan Zhang, Zhenda Xie, Y. X. Wei, Lean Wang, Zhiping Xiao, Yuqing Wang, Chong Ruan, Ming Zhang, Wenfeng Liang, Wangding Zeng

機構(gòu):北京大學,DeepSeek,華盛頓大學

descript

論文地址:https://arxiv.org/pdf/2502.11089

論文所提出的稀疏注意力NSA模型的算法,從一般任務(wù)到嚴苛的長下文任務(wù),特別是在推理和代碼任務(wù)都有非常卓越的表現(xiàn),將長文本處理速度提高了最多11倍,而性能超過了全注意力模型。

descript

NSA是一個專為硬件優(yōu)化的系統(tǒng),打破了性能與成本之間的權(quán)衡取舍,推動高效大型語言模型的下一個前沿領(lǐng)域。

NSA把AI行業(yè)的焦點從「模型規(guī)模競賽」拉向「算力效率競賽」,堪稱 2025年上半年最具杠桿效應(yīng)的底層技術(shù)突破之一。

descript

3篇最佳主題論文

今年的特別主題為「NLP模型的泛化」,而下面這3篇論文正是在這一關(guān)鍵領(lǐng)域做出了杰出的貢獻。

descript

論文1:MaCP: Minimal yet Mighty Adaptation via Hierarchical Cosine Projection

作者:Yixian Shen, Qi Bi, Jia-Hong Huang, Hongyi Zhu, Andy D. Pimentel, Anuj Pathania

機構(gòu):阿姆斯特丹大學

descript

論文地址:https://arxiv.org/abs/2505.23870

MaCP提出了一種輕量級微調(diào)方法,該方法在離散余弦變換(DCT)域中運用分層余弦投影技術(shù),只需極少的額外參數(shù)與內(nèi)存開銷即可適配大型基礎(chǔ)模型。通過將低秩權(quán)重更新投影至DCT空間,并在多個頻譜層級上選擇性地僅保留最關(guān)鍵的頻率分量,MaCP在各種不同的任務(wù)上均取得了業(yè)界頂尖的適配性能。

論文2:Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models

作者:Xinlin Zhuang, Jiahui Peng, Ren Ma, Yinfan Wang, Tianyi Bai, Xingjian Wei, Jiantao Qiu, Chi Zhang, Ying Qian, Conghui He

機構(gòu):上海人工智能實驗室,華東師范大學

descript

論文地址:https://arxiv.org/abs/2504.14194

Meta-rater提出了一種用于篩選管理大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)的綜合性框架。該框架從四個互補的質(zhì)量維度——專業(yè)水平、可讀性、推理能力和數(shù)據(jù)純凈度——對每個數(shù)據(jù)樣本進行評估。通過一個代理模型回歸,該方法能夠?qū)W習這四個維度的最優(yōu)權(quán)重組合,并據(jù)此篩選出能夠顯著提升訓(xùn)練效率和下游任務(wù)性能的高價值數(shù)據(jù)子集。

論文3:SubLIME: Subset Selection via Rank Correlation Prediction for Data-Efficient LLM Evaluation

作者:Gayathri Saranathan, Cong Xu, Mahammad Parwez Alam, Tarun Kumar, Martin Foltin, Soon Yee Wong, Suparna Bhattacharya

機構(gòu):惠普實驗室

descript

論文地址:https://aclanthology.org/2025.acl-long.1477.pdf

SubLIME通過選取能夠保持完整基準排名的小型代表性子集,解決了對大語言模型進行窮舉式基準評估所帶來的計算瓶頸。該方法在十個不同的基準測試中,可將評估成本降低80%–99%,同時保持高度的排名保真度。

descript

3篇最佳資源論文

獲得最佳資源獎的論文,為自然語言處理(NLP)學界提供了極為寶貴的數(shù)據(jù)集、工具與基準。

descript

descript

論文1:Are Rules Meant to be Broken? Understanding Multilingual Moral Reasoning as a Computational Pipeline with UniMoral

descript

論文地址:https://arxiv.org/abs/2502.14083

UniMoral是一個統(tǒng)一的多語言數(shù)據(jù)集,目的是完整記錄人類道德推理的全流程——從情景感知到結(jié)果推演,內(nèi)容橫跨六種語言。UniMoral融合了具有心理學基礎(chǔ)的倫理困境與源自社交媒體的真實案例,并為每個實例詳細標注了行動選擇、倫理原則、關(guān)鍵影響因素、行為結(jié)果,以及標注者自身的道德與文化背景畫像。通過對三個大語言模型在四項核心任務(wù)上進行實時基準評測,本研究揭示了這些模型在處理道德情境與文化差異時,所表現(xiàn)出的細致優(yōu)勢與具體短板。

論文2:BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages

descript

論文地址:https://arxiv.org/abs/2502.11926

BRIGHTER是一個多語言情感語料庫,包含近十萬條經(jīng)過情感標注的文本實例,內(nèi)容橫跨28種語言和多個領(lǐng)域。該語料庫重點關(guān)注資源匱乏的語言,通過提供附帶強度評分的高質(zhì)量、多標簽情感標注,來彌合不同語言在情感識別研究領(lǐng)域的發(fā)展差距。

論文3:Palm: A Culturally Inclusive and Linguistically Diverse Dataset for Arabic LLMs

descript

論文地址:https://arxiv.org/abs/2503.00151

Palm是一個耗時一年、由社區(qū)共建的數(shù)據(jù)集,目標是對大語言模型在阿拉伯語任務(wù)上的表現(xiàn)進行基準評測,其范圍覆蓋全部22個阿拉伯聯(lián)盟國家。該數(shù)據(jù)集包含現(xiàn)代標準阿拉伯語(MSA)和方言阿拉伯語(DA)兩種形式的「指令-響應(yīng)」數(shù)據(jù)對,內(nèi)容橫跨20個多樣化主題。

descript

2篇最佳社會影響力論文

descript

論文1:AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset

descript

論文地址:https://arxiv.org/abs/2411.15640

AfriMed-QA是首個專注于非洲醫(yī)療背景的大規(guī)模英語問-答數(shù)據(jù)集。該數(shù)據(jù)集匯集了約15,000個問題,源自16個國家的60多所醫(yī)學院,內(nèi)容覆蓋32個醫(yī)學專業(yè)。這一資源可用于評測及微調(diào)大語言模型處理具有地域多樣性臨床知識的能力,減少對西方中心基準的依賴,從而填補了該領(lǐng)域的一項關(guān)鍵空白。

論文2:The AI Gap: How Socioeconomic Status Affects Language Technology Interactions

descript

論文地址:https://arxiv.org/abs/2505.12158

社會經(jīng)濟地位(SES)不僅塑造著人際溝通的方式,也同樣影響著個人與大語言模型等數(shù)字工具的互動模式。以往的研究多依賴于代理指標或合成數(shù)據(jù),導(dǎo)致真實的用戶使用模式未能得到充分探究。為此,本研究對1,000名來自不同社會經(jīng)濟地位背景的參與者進行了調(diào)查,并分析了他們與大語言模型交互時使用的6,482條真實提示詞,進而揭示其在使用頻率、語言風格和所涉主題上存在的系統(tǒng)性差異。

descript

1篇最佳Demo

獲得最佳Demo獎的論文,展現(xiàn)了自然語言處理(NLP)領(lǐng)域非凡的創(chuàng)新成果和豐富的實際應(yīng)用。

descript

論文:OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

作者:Jiacheng Liu, Taylor Blanton, Yanai Elazar, Sewon Min, YenSung Chen, Arnavi Chheda-Kothary, Huy Tran, Byron Bischoff, Eric Marsh, Michael Schmitz, Cassidy Trier, Aaron Sarnat, Jenna James, Jon Borchardt, Bailey Kuehl, Evie Cheng, Karen Farley, Sruthi Sreeram, Taira Anderson, David Albright, Carissa Schoenick, Luca Soldaini, Dirk Groeneveld, Rock Yuren Pang, Pang Wei Koh, Noah A. Smith, Sophie Lebrecht, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, Jesse Dodge

機構(gòu):艾倫人工智能研究所,華盛頓大學,加州大學伯克利分校,斯坦福大學

descript

論文地址:https://arxiv.org/abs/2504.07096

OLMoTrace是首個能將大語言模型輸出實時追溯至其完整、高達數(shù)萬億Token訓(xùn)練語料庫的系統(tǒng)。該系統(tǒng)能夠識別并高亮顯示模型生成的文本片段與訓(xùn)練數(shù)據(jù)文檔之間的逐字匹配部分,其核心是一個擴展的infini-gram索引,可在數(shù)秒內(nèi)返回結(jié)果。

descript

26篇杰出論文

descript

descript

descript

descript

descript

descript

47篇領(lǐng)域主席獎

下面這些由資深領(lǐng)域主席精選的論文,匯集了各個賽道中最具影響力、最激動人心的研究成果。

descript

descript

descript

descript

descript

descript

時間檢驗獎

獲得25年時間檢驗獎的論文,為語義角色標注及其后續(xù)研究奠定了基礎(chǔ)。

題目:Automatic Labeling of Semantic Roles(ACL 2000)

作者:Daniel Gildea & Daniel Jurafsky

機構(gòu):加州大學伯克利分校,科羅拉多大學博爾德分校

descript

論文地址:https://aclanthology.org/P00-1065.pdf

獲得10年時間檢驗獎的論文,是神經(jīng)機器翻譯與注意力機制領(lǐng)域的一座里程碑。作者是圈內(nèi)極負盛名的Christopher D. Manning團隊。

題目:Effective Approaches to Attention-based Neural Machine Translation(EMNLP 2015)

作者:Thang Luong,Hieu Pham,Christopher D. Manning

機構(gòu):斯坦福大學

descript

論文地址:https://aclanthology.org/D15-1166.pdf

descript

TACL最佳論文

獲得TACL最佳論文獎和時間檢驗獎的論文,為計算語言學領(lǐng)域做出了卓越貢獻,影響深遠。

descript

參考資料:

https://2025.aclweb.org/

descript

descript

轉(zhuǎn)載自微信公眾號《新智元》


學者網(wǎng)消息官方發(fā)布號
返回頂部