Improving Low-Resource Sequence Labeling with Knowledge Fusion and Contextual Label Explanations
作者:Peichao Lai, Jiaxin Gan, Feiyang Ye, Wentao Zhang, Fangcheng Fu, Yilei Wang, Bin Cui
Github鏈接:https://github.com/aleversn/KnowFREE
EMNLP 2025 (自然語言處理經驗方法會議) 是自然語言處理 (NLP) 和人工智能領域的重要國際學術會議。該會議由ACL的SIGDAT小組主辦,每年舉辦一次。EMNLP 2025將于2025年11月5日- 9日在中國蘇州召開。
一、問題背景與動機
序列標注(如命名實體識別NER)在低資源和特定領域場景下,尤其對于中文這類字符稠密的語言,一直是一個重大挑戰(zhàn)?,F有方法通常聚焦于增強模型理解能力或提升數據多樣性,但在專業(yè)領域中,它們常常面臨模型適用性不足和數據語義分布偏差的問題。例如,模型難以處理嵌套實體,并且數據增強方法容易引入與目標領域不符的噪聲,從而影響性能。
核心挑戰(zhàn):模型局限性與數據分布偏差
現有方法主要面臨兩大瓶頸:
(1)模型適用性有限:許多模型在處理字符稠密的語言時,難以靈活地融合多樣的特征類型和標簽結構,特別是在處理嵌套實體時能力不足。此外,復雜的特征集成流程增加了推理成本,限制了模型的實際部署。
(2)標簽分布的可變性:數據增強方法常因領域間的語義差異導致合成數據質量下降。不同領域對同一實體類型的定義和上下文可能存在差異,這會削弱模型的泛化能力。
圖1:與現有序列標注方法在模型側和數據側上的對比
為了解決這些挑戰(zhàn),本研究旨在開發(fā)一個統(tǒng)一的框架,既能解決模型結構的局限性,又能應對領域自適應的難題,核心思路是:
(1)采用基于 span 的模型架構,突破傳統(tǒng)序列標注限制:與傳統(tǒng)的基于Token的序列標注方法(如BIO)不同,基于跨度(span-based)方法通過枚舉和分類文本片段來識別實體。這種設計天然支持嵌套和不連續(xù)實體的識別,解決了傳統(tǒng)方法在處理復雜實體結構時的局限性,從而更有效地利用文本中的非實體特征,提升了模型的結構適用性。
(2) 通過上下文解釋合成,增強模型對領域知識的理解:利用大語言模型生成針對目標實體的豐富上下文解釋,并以此為基礎合成高質量的訓練數據。這種方法不僅能擴充稀缺的標注數據,還能將領域知識隱式地注入到模型中,緩解數據分布偏差問題,讓模型更深刻地理解特定領域內的實體語義。
本研究的主要貢獻可以概括為:
(1) 新方法: 提出了一個名為 KnowFREE 的 span-based 序列標注模型,它通過局部多頭注意力機制有效融合多源標簽特征,并原生支持嵌套實體的識別。
(2) 新視角: 提出了一個結合LLM的知識增強工作流,通過上下文解釋來合成高質量數據,有效緩解了低資源場景下的數據稀疏和語義偏差問題。
(3) 高效推理: KnowFREE模型的一大優(yōu)勢是在推理過程中完全不依賴外部知識或復雜的特征工程,所有知識均在訓練階段被模型吸收,保證了部署的高效性。
實驗證明,該方法在中英文等多語言的低資源序列標注任務上均取得了當前最佳性能,驗證了其有效性和魯棒性。
二、數據增強和模型訓練流程
圖2:整體框架圖
如圖所示,該框架通過兩個核心功能模塊(Pipeline 1 和 Pipeline 2)對數據進行處理,最后進行模型的二次訓練,以達到最佳性能。
模塊一:標簽擴展標注 (Pipeline 1): 此模塊旨在通過注入外部通用知識來豐富原始數據的特征。它利用LLM從原始樣本中提取擴展實體(如通用實體類型)、詞性 (POS) 和分詞信息。為了保證標簽的一致性并減少噪聲,該模塊還包含一個實體聚類和同義詞標簽合并的步驟。經過處理后,原始數據被擴充為包含多源標簽的“融合樣本”。這些樣本隨后被用于訓練一個初始的KnowFREE模型,該模型因吸收了更豐富的特征而具備了更強的上下文理解能力。
模塊二:豐富化解釋合成 (Pipeline 2): 此模塊主要解決低資源場景下訓練樣本絕對數量稀少的問題。為了最大化數據利用率并生成高質量的合成樣本,該模塊針對兩種情況設計了不同的合成策略:
-
- 對于包含目標實體的樣本:采用“實體解釋提示詞” (Entity Explanation Prompt),引導LLM根據樣本中的實體及其上下文,生成對該實體具體含義的詳細解釋。這不僅擴充了文本內容,也深化了模型對實體在特定領域中語義的理解。
- 對于不包含目標實體的樣本:采用“擴展描述提示詞” (Extension Description Prompt),引導LLM從文本中抽取關鍵短語,并圍繞這些短語進行解釋和擴展。這樣可以充分利用那些沒有標注實體的句子,挖掘其中潛在的領域知識,增加數據的多樣性。 通過這種差異化的合成方式,該模塊能夠生成與原數據語義分布高度一致的高質量新訓練樣本,為后續(xù)的模型訓練提供了寶貴的增量數據。
最終訓練流程: 在兩個模塊執(zhí)行完畢后,整個流程進入最終的訓練階段:首先,使用由模塊一訓練出的初始KnowFREE模型,對模塊二生成的“合成樣本”進行自動標注,以獲取高質量的偽標簽。然后,將這些已標注的合成數據與原始的“融合樣本”合并。最后,使用這個最終的數據集對KnowFREE模型進行二次訓練,從而使其性能在低資源場景下得到進一步的提升。
圖3:KnowFREE模型的詳細結構圖
KnowFREE 模型:高效融合多標簽知識
本研究提出的 KnowFREE 模型基于雙仿射(Biaffine)架構,并做出了關鍵創(chuàng)新:
(1)支持嵌套實體:span-based 的設計天然支持嵌套和不連續(xù)實體的識別。
(2)局部多頭注意力機制: 該模型引入了一個局部多頭注意力層,用于增強span鄰域特征之間的交互。這使得模型可以在訓練階段有效融合目標實體標簽和引入的擴展標簽(如詞性、通用實體等)信息。
(3) 推理零額外開銷: 最重要的是,KnowFREE模型在推理階段不依賴任何外部知識。所有知識都在訓練階段被模型吸收,使得推理過程既高效又簡潔。
三、實驗結果
實驗數據與場景配置
(1) 數據集: 本研究在多個中英文序列標注數據集上進行了實驗,涵蓋扁平NER (Weibo, Youku, CoNLL'03)、嵌套NER (CMeEE-v2)、分詞 (PKU, MSR) 和詞性標注 (UD) 等多種任務。
(2) 實驗場景: 為了模擬低資源情況,實驗分別進行了多樣本 (Many-shot, 采樣250/500/1000條) 和少樣本 (Few-shot, k=5/10/15/20) 的測試。
(3) 基線模型: 本研究與包括BERT-CRF, FLAT, W²NER, DiFiNet 等在內的多種強基線模型進行了對比。
主要實驗結果
表1: 多樣本(Many-shot)設定下的F1分數對比表格
多樣本場景: 該方法在不同數據規(guī)模下均展現出卓越性能。結果顯示,隨著LLM模型規(guī)模的增大,數據增強帶來的性能提升也越明顯。但即便使用輕量級的ChatGLM3-6B,該框架依然超越了所有基線模型。特別是在250條樣本的極低資源設定下,性能平均超出最強基線1.95%(在Weibo數據集上提升高達4.05%),證明了其在數據稀缺時的有效性。有趣的是,隨著樣本量增加(如超過500條),包含“豐富化解釋合成”的KnowFREE-FS版本相比僅使用“標簽擴展”的KnowFREE-F版本,優(yōu)勢逐漸縮小甚至持平。這表明數據合成策略在訓練數據極度有限時效果最顯著,而當數據相對充足時,其引入的噪聲可能會抵消部分增益。
表2: 少樣本(Few-shot)設定下的F1分數對比圖
少樣本場景: 在極低資源(k-shot)的設定下,該方法的優(yōu)勢更加顯著。例如,在Weibo數據集k=5的極端情況下,其他方法幾乎完全失效(F1接近于0),而本研究的方法F1值達到了35.58%。與其他基于LLM的數據增強方法(如LLM-DA)相比,本研究的“上下文解釋合成”策略表現出更強的魯棒性;前者在某些低資源場景下甚至會因引入噪聲而導致性能下降,而本方法則能持續(xù)穩(wěn)定地提升模型表現,極大緩解了數據稀疏性問題。
圖4: t-SNE可視化樣本分布
可視化分析 為了直觀理解數據增強的效果,本研究利用t-SNE對訓練樣本、測試樣本以及合成樣本的句子嵌入進行了可視化。分析顯示:
(1) 在樣本量較少時(如250條),原始訓練數據在語義空間中的覆蓋范圍非常稀疏,與測試集的分布存在明顯“斷層”。而通過“上下文解釋”合成的樣本,能夠精準地填補這些語義空白,從而顯著提升模型的泛化能力。
(2) 隨著樣本量增加到1000條,原始數據的語義覆蓋變得更全面。此時,在某些數據集上(如Youku、Taobao),合成數據與原始數據的分布開始出現輕微偏差,這可能是導致性能提升放緩甚至引入噪聲的原因。
(3) 然而,在Weibo這類數據分布特別復雜的數據集上,即便有1000條樣本,語義空間中仍存在未被覆蓋的區(qū)域,因此合成數據依然能帶來正面效果。這一發(fā)現深刻揭示了該數據增強策略的適用邊界,并直觀地解釋了其在不同數據規(guī)模下性能表現差異的原因。
四、總 結
本研究提出了一個結合LLM知識增強和基于跨度的序列標注模型KnowFREE的新框架。通過標簽擴展標注和豐富化解釋合成兩個階段,該方法顯著提升了模型在低資源、特定領域場景下的性能。KnowFREE模型通過創(chuàng)新的局部注意力機制,在不增加推理負擔的前提下,高效地融合了多源知識。大量的實驗證明了該方法的有效性和魯棒性,為解決低資源序列標注問題提供了新的范式。
實驗室簡介
北京大學數據與智能實驗室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實驗室)由北京大學計算機學院崔斌教授領導,長期從事數據庫系統(tǒng)、大數據管理與分析、人工智能等領域的前沿研究,在理論和技術創(chuàng)新以及系統(tǒng)研發(fā)上取得多項成果,已在國際頂級學術會議和期刊發(fā)表學術論文200余篇,發(fā)布多個開源項目。課題組同學曾數十次獲得包括CCF優(yōu)博、ACM中國優(yōu)博、北大優(yōu)博、微軟學者、蘋果獎學金、谷歌獎學金等榮譽。PKU-DAIR實驗室持續(xù)與工業(yè)界展開卓有成效的合作,與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開展項目合作和前沿探索,解決實際問題,進行科研成果的轉化落地。
評論 0