該論文發(fā)表于計算機語言學(xué)頂級會議 Association for Computational Linguistics (ACL) 2025年主會長文 (CCF-A)并榮獲 ACL 2025會議最佳論文獎,題目為 《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。
第一作者為來自 北京大學(xué)計算機學(xué)院 的 袁境陽博士,通訊作者包括 北京大學(xué)計算機學(xué)院 的 張銘教授 以及 DeepSeek-AI 的 梁文鋒 和 曾旺釘。
論文鏈接: https://aclanthology.org/2025.acl-long.1126/
該研究針對下一代語言模型中長上下文處理的效率瓶頸,即標(biāo)準(zhǔn)注意力機制帶來的巨大計算挑戰(zhàn),提出了一個名為NSA (Natively trainable Sparse Attention) 的全新稀疏注意力方案。現(xiàn)有稀疏注意力方法雖有前景,但在實際應(yīng)用中常面臨理論與實踐速度不匹配、且大多不支持高效訓(xùn)練的問題。為解決此困境,NSA通過算法與硬件的協(xié)同設(shè)計,首創(chuàng)性地提出了一種動態(tài)分層稀疏策略。該策略結(jié)合了粗粒度的token壓縮(Token Compression)與細(xì)粒度的token選擇(Token Selection),在保持全局上下文感知力的同時,確保了局部信息的精確性。研究團隊通過該機制不僅在模型性能上媲美甚至超越了全注意力(Full Attention)基線,更重要的是,在解碼、前向和后向傳播等各個階段均實現(xiàn)了數(shù)倍的計算加速,驗證了其在模型整個生命周期中的高效性與實用價值。
研究背景
近年來,長上下文建模能力已成為衡量下一代大語言模型(LLM)核心競爭力的關(guān)鍵指標(biāo),其應(yīng)用遍及深度推理、代碼庫級別生成和多輪智能體系統(tǒng)等多個前沿領(lǐng)域。然而,隨著序列長度的增加,標(biāo)準(zhǔn)注意力機制的二次方復(fù)雜度(O(n2))成為制約模型延遲和成本的主要原因。理論分析指出,在處理64k長度的上下文時,注意力計算的耗時占比可高達70%-80%。
利用注意力矩陣的內(nèi)在稀疏性,選擇性地計算關(guān)鍵的“查詢-鍵”(Query-Key)對,是解決該問題的自然思路。盡管社區(qū)已提出多種稀疏化方案,如KV緩存驅(qū)逐、塊狀選擇、哈希采樣等,但它們普遍存在兩大局限性:
這些局限性導(dǎo)致現(xiàn)有方法難以在真實世界的長上下文訓(xùn)練和推理任務(wù)中實現(xiàn)高效部署。
方法
圖 1 NSA 架構(gòu)概述。
1. 核心思路
如圖1所示,NSA的核心思想是設(shè)計一種原生可訓(xùn)練的稀疏注意力架構(gòu) (Natively trainable Sparse Attention),通過層級化的token建模 (hierarchical token modeling) 和硬件對齊的優(yōu)化 (hardware-aligned optimizations),實現(xiàn)高效的長文本建模。該方法的靈感源于兩個關(guān)鍵洞察:首先是注意力分?jǐn)?shù)的內(nèi)在稀疏性,即僅有少數(shù)query-key對是重要的;其次是對硬件效率的追求,旨在充分利用現(xiàn)代GPU的特性(如Tensor Core)和FlashAttention的設(shè)計原則。
其主要創(chuàng)新點體現(xiàn)在兩個方面:
硬件對齊的系統(tǒng) (Hardware-aligned system):通過平衡算術(shù)強度 (arithmetic intensity-balanced) 的算法設(shè)計,優(yōu)化塊狀稀疏注意力,以最大化Tensor Core利用率和內(nèi)存訪問效率。
訓(xùn)練感知的設(shè)計 (Training-aware design):通過高效的算法和可微分的反向傳播算子,實現(xiàn)穩(wěn)定的端到端訓(xùn)練,從而降低預(yù)訓(xùn)練成本且不犧牲模型性能。
2. 方案與技術(shù)
整體框架:
NSA的整體框架將輸入的鍵(key)和值(value)組織成時間塊(temporal blocks),并通過三個并行的注意力分支進行處理:壓縮的粗粒度token (compressed coarse-grained tokens)、選擇性保留的細(xì)粒度token (selectively retained fine-grained tokens) 和 滑動窗口 (sliding windows)。最終,各分支的輸出通過一個學(xué)習(xí)到的門控機制進行聚合。為了最大化實際效率,該框架還配備了專門設(shè)計的計算內(nèi)核(Kernel)。
三大核心模塊:
內(nèi)核設(shè)計 (Kernel Design):
為了在訓(xùn)練和預(yù)填充階段達到FlashAttention級別的速度,團隊基于Triton實現(xiàn)了一個硬件對齊的稀疏注意力內(nèi)核,尤其針對GQA和MQA架構(gòu)下的稀疏選擇注意力進行了專門設(shè)計。
其主要特點包括:
結(jié)果
研究團隊在一個27B參數(shù)、采用GQA和MoE架構(gòu)的骨干網(wǎng)絡(luò)上,對NSA和全注意力基線進行了270Btoken的預(yù)訓(xùn)練,并在多個維度進行了評測。
表 1 在一般基準(zhǔn)上對完全注意力基線和 NSA 進行預(yù)訓(xùn)練性能比較。
1. 通用基準(zhǔn)評測 (表1)
內(nèi)容解讀:該表比較了NSA與全注意力基線在9個通用基準(zhǔn)上的表現(xiàn),涵蓋知識(MMLU)、推理(GSM8K, MATH)和代碼(HumanEval)等多個方面。
核心發(fā)現(xiàn):“盡管具有高稀疏性,NSA在大多數(shù)基準(zhǔn)上取得了優(yōu)越的平均性能”。具體而言,NSA在9項指標(biāo)中的7項上超越了全注意力模型,尤其在DROP(+4.2%)和GSM8K(+3.4%)等需要復(fù)雜推理的任務(wù)上優(yōu)勢明顯。這表明,NSA的稀疏預(yù)訓(xùn)練機制迫使模型關(guān)注最重要的信息,可能通過過濾無關(guān)注意力路徑的噪聲來提升性能。
表 2 NSA 與 LongBench 上的基準(zhǔn)性能比較。
2. 長上下文評測 (表2)
內(nèi)容解讀:該表在LongBench基準(zhǔn)上將NSA與包括H2O、InfLLM、Quest在內(nèi)的多種SOTA稀疏方法及全注意力模型進行對比。為保證公平,所有稀疏方法的token激活數(shù)量被設(shè)定為相同水平。
核心發(fā)現(xiàn):NSA取得了最高的平均分(0.469),顯著超越了全注意力(+3.2%)和表現(xiàn)次優(yōu)的Exact-Top(+4.6%)。這一優(yōu)勢源于其原生稀疏訓(xùn)練使得注意力模塊與模型其他部分能夠協(xié)同適應(yīng),以及其分層機制在局部和全局信息處理間取得了更好的平衡。特別地,NSA在需要復(fù)雜推理的長上下文任務(wù)上表現(xiàn)卓越,如多跳問答(HPQ, 2Wiki)和代碼理解(LCC)。此外,在“大海撈針”測試中,NSA在64k上下文中實現(xiàn)了100%的完美檢索成功率。
表 3 監(jiān)督微調(diào)后的基于 AIME 指令的評估。
3. 思維鏈推理評測 (表3)
內(nèi)容解讀:為了評估NSA對下游高級訓(xùn)練范式的兼容性,該表比較了經(jīng)過10B數(shù)學(xué)推理數(shù)據(jù)微調(diào)后的NSA-R與Full Attention-R模型在AIME數(shù)學(xué)競賽基準(zhǔn)上的表現(xiàn)。
核心發(fā)現(xiàn):在8k和16k兩種生成長度限制下,NSA-R的準(zhǔn)確率均顯著高于Full Attention-R(分別高出7.5%和5.4%)。“這些結(jié)果驗證了預(yù)訓(xùn)練的稀疏注意力能夠有效捕捉對復(fù)雜數(shù)學(xué)推導(dǎo)至關(guān)重要的長距離邏輯依賴 (These results validate the pretrained sparse attention enable efficient capture of long-range logical dependencies)”。
4. 效率分析 (表4)
表 4 解碼過程中每次注意操作的內(nèi)存訪問量。
內(nèi)容解讀:表4量化了在不同上下文長度下,單步解碼操作所需的內(nèi)存訪問量(以等效token數(shù)計)。圖5則展示了基于Triton實現(xiàn)的NSA內(nèi)核與FlashAttention-2內(nèi)核在前向和后向傳播上的耗時對比。
核心發(fā)現(xiàn):
解碼速度 (表4):解碼過程是內(nèi)存帶寬受限的。NSA通過將64k序列的KV緩存加載量從65536個token銳減至5632個,實現(xiàn)了高達11.6倍的理論解碼加速。
訓(xùn)練與預(yù)填充速度:得益于硬件協(xié)同的內(nèi)核設(shè)計,在處理64k長度的序列時,NSA實現(xiàn)了驚人的9.0倍前向傳播加速和6.0倍后向傳播加速。加速比隨序列增長而愈發(fā)顯著。
結(jié)論
本研究通過構(gòu)建一個硬件感知、原生可訓(xùn)練的稀疏注意力架構(gòu)NSA,成功解決了長上下文建模中的核心效率瓶頸。研究證明,通過算法與硬件的深度協(xié)同設(shè)計,稀疏注意力不僅可以在訓(xùn)練和推理的全生命周期中實現(xiàn)數(shù)量級的加速,還能在模型性能上達到甚至超越密集的全注意力模型。
NSA的貢獻在于,它不僅為學(xué)術(shù)界和工業(yè)界提供了一個兼具高性能和高效率的實用長上下文解決方案,更重要的是,它證明了原生稀疏訓(xùn)練是釋放大模型長程推理潛力的關(guān)鍵路徑。這項工作為下一代高效、強大的長上下文LLM的研發(fā)設(shè)定了新的標(biāo)準(zhǔn),并指明了前進的方向。
撰稿人:鄭梓瀚
審稿人:何樂為