91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制

ACL 2025最佳論文獎:北大與 DeepSeek 聯(lián)合打造 NSA 全新注意力機制

該論文發(fā)表于計算機語言學(xué)頂級會議 Association for Computational Linguistics (ACL) 2025年主會長文 (CCF-A)并榮獲 ACL 2025會議最佳論文獎,題目為 《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

第一作者為來自 北京大學(xué)計算機學(xué)院 的 袁境陽博士,通訊作者包括 北京大學(xué)計算機學(xué)院 的 張銘教授 以及 DeepSeek-AI 的 梁文鋒 和 曾旺釘。

論文鏈接: https://aclanthology.org/2025.acl-long.1126/

論文概要

該研究針對下一代語言模型中長上下文處理的效率瓶頸,即標(biāo)準(zhǔn)注意力機制帶來的巨大計算挑戰(zhàn),提出了一個名為NSA (Natively trainable Sparse Attention) 的全新稀疏注意力方案。現(xiàn)有稀疏注意力方法雖有前景,但在實際應(yīng)用中常面臨理論與實踐速度不匹配、且大多不支持高效訓(xùn)練的問題。為解決此困境,NSA通過算法與硬件的協(xié)同設(shè)計,首創(chuàng)性地提出了一種動態(tài)分層稀疏策略。該策略結(jié)合了粗粒度的token壓縮(Token Compression)與細(xì)粒度的token選擇(Token Selection),在保持全局上下文感知力的同時,確保了局部信息的精確性。研究團隊通過該機制不僅在模型性能上媲美甚至超越了全注意力(Full Attention)基線,更重要的是,在解碼、前向和后向傳播等各個階段均實現(xiàn)了數(shù)倍的計算加速,驗證了其在模型整個生命周期中的高效性與實用價值。

研究背景

近年來,長上下文建模能力已成為衡量下一代大語言模型(LLM)核心競爭力的關(guān)鍵指標(biāo),其應(yīng)用遍及深度推理、代碼庫級別生成和多輪智能體系統(tǒng)等多個前沿領(lǐng)域。然而,隨著序列長度的增加,標(biāo)準(zhǔn)注意力機制的二次方復(fù)雜度(O(n2))成為制約模型延遲和成本的主要原因。理論分析指出,在處理64k長度的上下文時,注意力計算的耗時占比可高達70%-80%。

利用注意力矩陣的內(nèi)在稀疏性,選擇性地計算關(guān)鍵的“查詢-鍵”(Query-Key)對,是解決該問題的自然思路。盡管社區(qū)已提出多種稀疏化方案,如KV緩存驅(qū)逐、塊狀選擇、哈希采樣等,但它們普遍存在兩大局限性:

  1. 硬件協(xié)同的推理加速不足:許多方法雖然在理論上減少了計算量,但由于其內(nèi)存訪問模式不規(guī)則,難以充分利用現(xiàn)代GPU(如Tensor Core)的計算能力,導(dǎo)致實際推理速度提升有限。
  2. 缺乏訓(xùn)練意識的算法設(shè)計:絕大多數(shù)稀疏方法僅在推理階段應(yīng)用,模型本身仍在全注意力模式下預(yù)訓(xùn)練。這不僅導(dǎo)致訓(xùn)練成本高昂,也使得模型無法在訓(xùn)練階段學(xué)習(xí)和適應(yīng)稀疏模式,可能引發(fā)性能下降。

這些局限性導(dǎo)致現(xiàn)有方法難以在真實世界的長上下文訓(xùn)練和推理任務(wù)中實現(xiàn)高效部署。

方法

圖 1 NSA 架構(gòu)概述。

1. 核心思路

如圖1所示,NSA的核心思想是設(shè)計一種原生可訓(xùn)練的稀疏注意力架構(gòu) (Natively trainable Sparse Attention),通過層級化的token建模 (hierarchical token modeling) 和硬件對齊的優(yōu)化 (hardware-aligned optimizations),實現(xiàn)高效的長文本建模。該方法的靈感源于兩個關(guān)鍵洞察:首先是注意力分?jǐn)?shù)的內(nèi)在稀疏性,即僅有少數(shù)query-key對是重要的;其次是對硬件效率的追求,旨在充分利用現(xiàn)代GPU的特性(如Tensor Core)和FlashAttention的設(shè)計原則。

其主要創(chuàng)新點體現(xiàn)在兩個方面:

硬件對齊的系統(tǒng) (Hardware-aligned system):通過平衡算術(shù)強度 (arithmetic intensity-balanced) 的算法設(shè)計,優(yōu)化塊狀稀疏注意力,以最大化Tensor Core利用率和內(nèi)存訪問效率。

訓(xùn)練感知的設(shè)計 (Training-aware design):通過高效的算法和可微分的反向傳播算子,實現(xiàn)穩(wěn)定的端到端訓(xùn)練,從而降低預(yù)訓(xùn)練成本且不犧牲模型性能。

2. 方案與技術(shù)

整體框架

NSA的整體框架將輸入的鍵(key)和值(value)組織成時間塊(temporal blocks),并通過三個并行的注意力分支進行處理:壓縮的粗粒度token (compressed coarse-grained tokens)、選擇性保留的細(xì)粒度token (selectively retained fine-grained tokens) 和 滑動窗口 (sliding windows)。最終,各分支的輸出通過一個學(xué)習(xí)到的門控機制進行聚合。為了最大化實際效率,該框架還配備了專門設(shè)計的計算內(nèi)核(Kernel)。

三大核心模塊

  • token壓縮 (Token Compression):此模塊將連續(xù)的key/value塊聚合為塊級別的表示,旨在“捕獲粗粒度的語義信息,并減少計算負(fù)擔(dān) (capture coarser-grained higher-level semantic information and reduce computational burden)”。
  • token選擇 (Token Selection):此模塊有選擇地保留重要的原始token,以“彌補壓縮可能帶來的細(xì)粒度信息損失 (might lose important fine-grained information)”。其實現(xiàn)包含以下幾個關(guān)鍵步驟:
    • 塊狀選擇 (Blockwise Selection):基于空間連續(xù)的塊來處理key和value序列,而非單個token。這既符合硬件高效訪問的原則,也順應(yīng)了注意力分?jǐn)?shù)呈現(xiàn)塊狀分布的內(nèi)在模式。
    • 重要性分?jǐn)?shù)計算 (Importance Score Computation):其核心創(chuàng)新在于,直接“利用壓縮token的注意力計算所產(chǎn)生的中間注意力分?jǐn)?shù),來作為選擇塊的重要性評分 (leverage intermediate attention scores from compression tokens to induce selection block importance scores)”,從而避免了任何額外計算。
    • Top-n 塊選擇 (Top-n Block Selection):根據(jù)計算出的塊重要性分?jǐn)?shù)進行排序,并保留排名最高的n個稀疏塊內(nèi)的所有token參與后續(xù)的注意力計算。
  • 滑動窗口 (Sliding Window):此模塊通過一個專門處理局部上下文的滑動窗口分支,來解決“局部模式可能主導(dǎo)學(xué)習(xí)過程 (local patterns typically adapt faster and can dominate the learning process)”的問題。它維護一個包含最近token的窗口,并將局部、壓縮、選擇這三種不同信息源的注意力計算隔離到獨立的分支中,最后通過門控機制聚合,確保了學(xué)習(xí)的穩(wěn)定性。

內(nèi)核設(shè)計 (Kernel Design)

為了在訓(xùn)練和預(yù)填充階段達到FlashAttention級別的速度,團隊基于Triton實現(xiàn)了一個硬件對齊的稀疏注意力內(nèi)核,尤其針對GQA和MQA架構(gòu)下的稀疏選擇注意力進行了專門設(shè)計。

其主要特點包括:

  • 以GQA組為中心的加載 (Group-Centric Data Loading):在循環(huán)中,一次性加載GQA組內(nèi)所有頭的查詢(queries)及其共享的稀疏key/value塊索引。
  • 共享的KV獲取 (Shared KV Fetching):根據(jù)索引,順序加載連續(xù)的key/value塊到SRAM中,以最小化內(nèi)存加載開銷。
  • 基于Grid的外部循環(huán) (Outer Loop on Grid):將query/output循環(huán)置于Triton的Grid調(diào)度器中,以簡化和優(yōu)化內(nèi)核,因為內(nèi)部循環(huán)的長度(即選擇的塊數(shù)量)對于不同query塊幾乎是恒定的。

結(jié)果

研究團隊在一個27B參數(shù)、采用GQA和MoE架構(gòu)的骨干網(wǎng)絡(luò)上,對NSA和全注意力基線進行了270Btoken的預(yù)訓(xùn)練,并在多個維度進行了評測。

表 1 在一般基準(zhǔn)上對完全注意力基線和 NSA 進行預(yù)訓(xùn)練性能比較。

1. 通用基準(zhǔn)評測 (表1)

內(nèi)容解讀:該表比較了NSA與全注意力基線在9個通用基準(zhǔn)上的表現(xiàn),涵蓋知識(MMLU)、推理(GSM8K, MATH)和代碼(HumanEval)等多個方面。

核心發(fā)現(xiàn):“盡管具有高稀疏性,NSA在大多數(shù)基準(zhǔn)上取得了優(yōu)越的平均性能”。具體而言,NSA在9項指標(biāo)中的7項上超越了全注意力模型,尤其在DROP(+4.2%)和GSM8K(+3.4%)等需要復(fù)雜推理的任務(wù)上優(yōu)勢明顯。這表明,NSA的稀疏預(yù)訓(xùn)練機制迫使模型關(guān)注最重要的信息,可能通過過濾無關(guān)注意力路徑的噪聲來提升性能。

表 2 NSA 與 LongBench 上的基準(zhǔn)性能比較。

2. 長上下文評測 (表2)

內(nèi)容解讀:該表在LongBench基準(zhǔn)上將NSA與包括H2O、InfLLM、Quest在內(nèi)的多種SOTA稀疏方法及全注意力模型進行對比。為保證公平,所有稀疏方法的token激活數(shù)量被設(shè)定為相同水平。

核心發(fā)現(xiàn):NSA取得了最高的平均分(0.469),顯著超越了全注意力(+3.2%)和表現(xiàn)次優(yōu)的Exact-Top(+4.6%)。這一優(yōu)勢源于其原生稀疏訓(xùn)練使得注意力模塊與模型其他部分能夠協(xié)同適應(yīng),以及其分層機制在局部和全局信息處理間取得了更好的平衡。特別地,NSA在需要復(fù)雜推理的長上下文任務(wù)上表現(xiàn)卓越,如多跳問答(HPQ, 2Wiki)和代碼理解(LCC)。此外,在“大海撈針”測試中,NSA在64k上下文中實現(xiàn)了100%的完美檢索成功率。

表 3 監(jiān)督微調(diào)后的基于 AIME 指令的評估。

3. 思維鏈推理評測 (表3)

內(nèi)容解讀:為了評估NSA對下游高級訓(xùn)練范式的兼容性,該表比較了經(jīng)過10B數(shù)學(xué)推理數(shù)據(jù)微調(diào)后的NSA-R與Full Attention-R模型在AIME數(shù)學(xué)競賽基準(zhǔn)上的表現(xiàn)。

核心發(fā)現(xiàn):在8k和16k兩種生成長度限制下,NSA-R的準(zhǔn)確率均顯著高于Full Attention-R(分別高出7.5%和5.4%)。“這些結(jié)果驗證了預(yù)訓(xùn)練的稀疏注意力能夠有效捕捉對復(fù)雜數(shù)學(xué)推導(dǎo)至關(guān)重要的長距離邏輯依賴 (These results validate the pretrained sparse attention enable efficient capture of long-range logical dependencies)”。

4. 效率分析 (表4)

表 4 解碼過程中每次注意操作的內(nèi)存訪問量。

內(nèi)容解讀:表4量化了在不同上下文長度下,單步解碼操作所需的內(nèi)存訪問量(以等效token數(shù)計)。圖5則展示了基于Triton實現(xiàn)的NSA內(nèi)核與FlashAttention-2內(nèi)核在前向和后向傳播上的耗時對比。

核心發(fā)現(xiàn)

解碼速度 (表4):解碼過程是內(nèi)存帶寬受限的。NSA通過將64k序列的KV緩存加載量從65536個token銳減至5632個,實現(xiàn)了高達11.6倍的理論解碼加速。

訓(xùn)練與預(yù)填充速度:得益于硬件協(xié)同的內(nèi)核設(shè)計,在處理64k長度的序列時,NSA實現(xiàn)了驚人的9.0倍前向傳播加速和6.0倍后向傳播加速。加速比隨序列增長而愈發(fā)顯著。

結(jié)論

本研究通過構(gòu)建一個硬件感知、原生可訓(xùn)練的稀疏注意力架構(gòu)NSA,成功解決了長上下文建模中的核心效率瓶頸。研究證明,通過算法與硬件的深度協(xié)同設(shè)計,稀疏注意力不僅可以在訓(xùn)練和推理的全生命周期中實現(xiàn)數(shù)量級的加速,還能在模型性能上達到甚至超越密集的全注意力模型。

NSA的貢獻在于,它不僅為學(xué)術(shù)界和工業(yè)界提供了一個兼具高性能和高效率的實用長上下文解決方案,更重要的是,它證明了原生稀疏訓(xùn)練是釋放大模型長程推理潛力的關(guān)鍵路徑。這項工作為下一代高效、強大的長上下文LLM的研發(fā)設(shè)定了新的標(biāo)準(zhǔn),并指明了前進的方向。

撰稿人:鄭梓瀚

審稿人:何樂為


登錄用戶可以查看和發(fā)表評論, 請前往  登錄 或  注冊
SCHOLAT.com 學(xué)者網(wǎng)
免責(zé)聲明 | 關(guān)于我們 | 用戶反饋
聯(lián)系我們: