91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制

5
點(diǎn)贊
0
評(píng)論
0
轉(zhuǎn)載
我要入駐

EMNLP 2025 | 基于知識(shí)融合與上下文標(biāo)簽解釋的低資源序列標(biāo)注方法

 

Improving Low-Resource Sequence Labeling with Knowledge Fusion and Contextual Label Explanations

作者:Peichao Lai, Jiaxin Gan, Feiyang Ye, Wentao Zhang, Fangcheng Fu, Yilei Wang, Bin Cui

Github鏈接:https://github.com/aleversn/KnowFREE

 

EMNLP 2025 (自然語言處理經(jīng)驗(yàn)方法會(huì)議) 是自然語言處理 (NLP) 和人工智能領(lǐng)域的重要國際學(xué)術(shù)會(huì)議。該會(huì)議由ACL的SIGDAT小組主辦,每年舉辦一次。EMNLP 2025將于2025年11月5日- 9日在中國蘇州召開。

 

一、問題背景與動(dòng)機(jī)

序列標(biāo)注(如命名實(shí)體識(shí)別NER)在低資源和特定領(lǐng)域場(chǎng)景下,尤其對(duì)于中文這類字符稠密的語言,一直是一個(gè)重大挑戰(zhàn)。現(xiàn)有方法通常聚焦于增強(qiáng)模型理解能力或提升數(shù)據(jù)多樣性,但在專業(yè)領(lǐng)域中,它們常常面臨模型適用性不足和數(shù)據(jù)語義分布偏差的問題。例如,模型難以處理嵌套實(shí)體,并且數(shù)據(jù)增強(qiáng)方法容易引入與目標(biāo)領(lǐng)域不符的噪聲,從而影響性能。

核心挑戰(zhàn):模型局限性與數(shù)據(jù)分布偏差

現(xiàn)有方法主要面臨兩大瓶頸:

(1)模型適用性有限:許多模型在處理字符稠密的語言時(shí),難以靈活地融合多樣的特征類型和標(biāo)簽結(jié)構(gòu),特別是在處理嵌套實(shí)體時(shí)能力不足。此外,復(fù)雜的特征集成流程增加了推理成本,限制了模型的實(shí)際部署。

(2)標(biāo)簽分布的可變性:數(shù)據(jù)增強(qiáng)方法常因領(lǐng)域間的語義差異導(dǎo)致合成數(shù)據(jù)質(zhì)量下降。不同領(lǐng)域?qū)ν粚?shí)體類型的定義和上下文可能存在差異,這會(huì)削弱模型的泛化能力。

圖1:與現(xiàn)有序列標(biāo)注方法在模型側(cè)和數(shù)據(jù)側(cè)上的對(duì)比

為了解決這些挑戰(zhàn),本研究旨在開發(fā)一個(gè)統(tǒng)一的框架,既能解決模型結(jié)構(gòu)的局限性,又能應(yīng)對(duì)領(lǐng)域自適應(yīng)的難題,核心思路是:

(1)采用基于 span 的模型架構(gòu),突破傳統(tǒng)序列標(biāo)注限制:與傳統(tǒng)的基于Token的序列標(biāo)注方法(如BIO)不同,基于跨度(span-based)方法通過枚舉和分類文本片段來識(shí)別實(shí)體。這種設(shè)計(jì)天然支持嵌套和不連續(xù)實(shí)體的識(shí)別,解決了傳統(tǒng)方法在處理復(fù)雜實(shí)體結(jié)構(gòu)時(shí)的局限性,從而更有效地利用文本中的非實(shí)體特征,提升了模型的結(jié)構(gòu)適用性。

(2) 通過上下文解釋合成,增強(qiáng)模型對(duì)領(lǐng)域知識(shí)的理解:利用大語言模型生成針對(duì)目標(biāo)實(shí)體的豐富上下文解釋,并以此為基礎(chǔ)合成高質(zhì)量的訓(xùn)練數(shù)據(jù)。這種方法不僅能擴(kuò)充稀缺的標(biāo)注數(shù)據(jù),還能將領(lǐng)域知識(shí)隱式地注入到模型中,緩解數(shù)據(jù)分布偏差問題,讓模型更深刻地理解特定領(lǐng)域內(nèi)的實(shí)體語義。

本研究的主要貢獻(xiàn)可以概括為:

(1) 新方法: 提出了一個(gè)名為 KnowFREE 的 span-based 序列標(biāo)注模型,它通過局部多頭注意力機(jī)制有效融合多源標(biāo)簽特征,并原生支持嵌套實(shí)體的識(shí)別。

(2) 新視角: 提出了一個(gè)結(jié)合LLM的知識(shí)增強(qiáng)工作流,通過上下文解釋來合成高質(zhì)量數(shù)據(jù),有效緩解了低資源場(chǎng)景下的數(shù)據(jù)稀疏和語義偏差問題。

(3) 高效推理: KnowFREE模型的一大優(yōu)勢(shì)是在推理過程中完全不依賴外部知識(shí)或復(fù)雜的特征工程,所有知識(shí)均在訓(xùn)練階段被模型吸收,保證了部署的高效性。

實(shí)驗(yàn)證明,該方法在中英文等多語言的低資源序列標(biāo)注任務(wù)上均取得了當(dāng)前最佳性能,驗(yàn)證了其有效性和魯棒性。

 

二、數(shù)據(jù)增強(qiáng)和模型訓(xùn)練流程

 

圖2:整體框架圖

如圖所示,該框架通過兩個(gè)核心功能模塊(Pipeline 1 和 Pipeline 2)對(duì)數(shù)據(jù)進(jìn)行處理,最后進(jìn)行模型的二次訓(xùn)練,以達(dá)到最佳性能。

      模塊一:標(biāo)簽擴(kuò)展標(biāo)注 (Pipeline 1): 此模塊旨在通過注入外部通用知識(shí)來豐富原始數(shù)據(jù)的特征。它利用LLM從原始樣本中提取擴(kuò)展實(shí)體(如通用實(shí)體類型)、詞性 (POS) 和分詞信息。為了保證標(biāo)簽的一致性并減少噪聲,該模塊還包含一個(gè)實(shí)體聚類和同義詞標(biāo)簽合并的步驟。經(jīng)過處理后,原始數(shù)據(jù)被擴(kuò)充為包含多源標(biāo)簽的“融合樣本”。這些樣本隨后被用于訓(xùn)練一個(gè)初始的KnowFREE模型,該模型因吸收了更豐富的特征而具備了更強(qiáng)的上下文理解能力。

        模塊二:豐富化解釋合成 (Pipeline 2): 此模塊主要解決低資源場(chǎng)景下訓(xùn)練樣本絕對(duì)數(shù)量稀少的問題。為了最大化數(shù)據(jù)利用率并生成高質(zhì)量的合成樣本,該模塊針對(duì)兩種情況設(shè)計(jì)了不同的合成策略:

    • 對(duì)于包含目標(biāo)實(shí)體的樣本:采用“實(shí)體解釋提示詞” (Entity Explanation Prompt),引導(dǎo)LLM根據(jù)樣本中的實(shí)體及其上下文,生成對(duì)該實(shí)體具體含義的詳細(xì)解釋。這不僅擴(kuò)充了文本內(nèi)容,也深化了模型對(duì)實(shí)體在特定領(lǐng)域中語義的理解。
    • 對(duì)于不包含目標(biāo)實(shí)體的樣本:采用“擴(kuò)展描述提示詞” (Extension Description Prompt),引導(dǎo)LLM從文本中抽取關(guān)鍵短語,并圍繞這些短語進(jìn)行解釋和擴(kuò)展。這樣可以充分利用那些沒有標(biāo)注實(shí)體的句子,挖掘其中潛在的領(lǐng)域知識(shí),增加數(shù)據(jù)的多樣性。 通過這種差異化的合成方式,該模塊能夠生成與原數(shù)據(jù)語義分布高度一致的高質(zhì)量新訓(xùn)練樣本,為后續(xù)的模型訓(xùn)練提供了寶貴的增量數(shù)據(jù)。

最終訓(xùn)練流程: 在兩個(gè)模塊執(zhí)行完畢后,整個(gè)流程進(jìn)入最終的訓(xùn)練階段:首先,使用由模塊一訓(xùn)練出的初始KnowFREE模型,對(duì)模塊二生成的“合成樣本”進(jìn)行自動(dòng)標(biāo)注,以獲取高質(zhì)量的偽標(biāo)簽。然后,將這些已標(biāo)注的合成數(shù)據(jù)與原始的“融合樣本”合并。最后,使用這個(gè)最終的數(shù)據(jù)集對(duì)KnowFREE模型進(jìn)行二次訓(xùn)練,從而使其性能在低資源場(chǎng)景下得到進(jìn)一步的提升。

圖3:KnowFREE模型的詳細(xì)結(jié)構(gòu)圖

 

KnowFREE 模型:高效融合多標(biāo)簽知識(shí)

本研究提出的 KnowFREE 模型基于雙仿射(Biaffine)架構(gòu),并做出了關(guān)鍵創(chuàng)新:

(1)支持嵌套實(shí)體:span-based 的設(shè)計(jì)天然支持嵌套和不連續(xù)實(shí)體的識(shí)別。

(2)局部多頭注意力機(jī)制: 該模型引入了一個(gè)局部多頭注意力層,用于增強(qiáng)span鄰域特征之間的交互。這使得模型可以在訓(xùn)練階段有效融合目標(biāo)實(shí)體標(biāo)簽和引入的擴(kuò)展標(biāo)簽(如詞性、通用實(shí)體等)信息。

(3) 推理零額外開銷: 最重要的是,KnowFREE模型在推理階段不依賴任何外部知識(shí)。所有知識(shí)都在訓(xùn)練階段被模型吸收,使得推理過程既高效又簡潔。

 

三、實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)數(shù)據(jù)與場(chǎng)景配置

(1) 數(shù)據(jù)集: 本研究在多個(gè)中英文序列標(biāo)注數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),涵蓋扁平NER (Weibo, Youku, CoNLL'03)、嵌套NER (CMeEE-v2)、分詞 (PKU, MSR) 和詞性標(biāo)注 (UD) 等多種任務(wù)。

(2) 實(shí)驗(yàn)場(chǎng)景: 為了模擬低資源情況,實(shí)驗(yàn)分別進(jìn)行了多樣本 (Many-shot, 采樣250/500/1000條) 和少樣本 (Few-shot, k=5/10/15/20) 的測(cè)試。

(3) 基線模型: 本研究與包括BERT-CRF, FLAT, W²NER, DiFiNet 等在內(nèi)的多種強(qiáng)基線模型進(jìn)行了對(duì)比。

主要實(shí)驗(yàn)結(jié)果

表格

AI 生成的內(nèi)容可能不正確。

表1: 多樣本(Many-shot)設(shè)定下的F1分?jǐn)?shù)對(duì)比表格

多樣本場(chǎng)景: 該方法在不同數(shù)據(jù)規(guī)模下均展現(xiàn)出卓越性能。結(jié)果顯示,隨著LLM模型規(guī)模的增大,數(shù)據(jù)增強(qiáng)帶來的性能提升也越明顯。但即便使用輕量級(jí)的ChatGLM3-6B,該框架依然超越了所有基線模型。特別是在250條樣本的極低資源設(shè)定下,性能平均超出最強(qiáng)基線1.95%(在Weibo數(shù)據(jù)集上提升高達(dá)4.05%),證明了其在數(shù)據(jù)稀缺時(shí)的有效性。有趣的是,隨著樣本量增加(如超過500條),包含“豐富化解釋合成”的KnowFREE-FS版本相比僅使用“標(biāo)簽擴(kuò)展”的KnowFREE-F版本,優(yōu)勢(shì)逐漸縮小甚至持平。這表明數(shù)據(jù)合成策略在訓(xùn)練數(shù)據(jù)極度有限時(shí)效果最顯著,而當(dāng)數(shù)據(jù)相對(duì)充足時(shí),其引入的噪聲可能會(huì)抵消部分增益。

一些文字和圖片的手機(jī)截圖

AI 生成的內(nèi)容可能不正確。

表2: 少樣本(Few-shot)設(shè)定下的F1分?jǐn)?shù)對(duì)比圖

少樣本場(chǎng)景: 在極低資源(k-shot)的設(shè)定下,該方法的優(yōu)勢(shì)更加顯著。例如,在Weibo數(shù)據(jù)集k=5的極端情況下,其他方法幾乎完全失效(F1接近于0),而本研究的方法F1值達(dá)到了35.58%。與其他基于LLM的數(shù)據(jù)增強(qiáng)方法(如LLM-DA)相比,本研究的“上下文解釋合成”策略表現(xiàn)出更強(qiáng)的魯棒性;前者在某些低資源場(chǎng)景下甚至?xí)蛞朐肼暥鴮?dǎo)致性能下降,而本方法則能持續(xù)穩(wěn)定地提升模型表現(xiàn),極大緩解了數(shù)據(jù)稀疏性問題。

圖4: t-SNE可視化樣本分布

可視化分析 為了直觀理解數(shù)據(jù)增強(qiáng)的效果,本研究利用t-SNE對(duì)訓(xùn)練樣本、測(cè)試樣本以及合成樣本的句子嵌入進(jìn)行了可視化。分析顯示:

(1) 在樣本量較少時(shí)(如250條),原始訓(xùn)練數(shù)據(jù)在語義空間中的覆蓋范圍非常稀疏,與測(cè)試集的分布存在明顯“斷層”。而通過“上下文解釋”合成的樣本,能夠精準(zhǔn)地填補(bǔ)這些語義空白,從而顯著提升模型的泛化能力。

(2) 隨著樣本量增加到1000條,原始數(shù)據(jù)的語義覆蓋變得更全面。此時(shí),在某些數(shù)據(jù)集上(如Youku、Taobao),合成數(shù)據(jù)與原始數(shù)據(jù)的分布開始出現(xiàn)輕微偏差,這可能是導(dǎo)致性能提升放緩甚至引入噪聲的原因。

(3) 然而,在Weibo這類數(shù)據(jù)分布特別復(fù)雜的數(shù)據(jù)集上,即便有1000條樣本,語義空間中仍存在未被覆蓋的區(qū)域,因此合成數(shù)據(jù)依然能帶來正面效果。這一發(fā)現(xiàn)深刻揭示了該數(shù)據(jù)增強(qiáng)策略的適用邊界,并直觀地解釋了其在不同數(shù)據(jù)規(guī)模下性能表現(xiàn)差異的原因。

 

四、總 結(jié)

本研究提出了一個(gè)結(jié)合LLM知識(shí)增強(qiáng)和基于跨度的序列標(biāo)注模型KnowFREE的新框架。通過標(biāo)簽擴(kuò)展標(biāo)注豐富化解釋合成兩個(gè)階段,該方法顯著提升了模型在低資源、特定領(lǐng)域場(chǎng)景下的性能。KnowFREE模型通過創(chuàng)新的局部注意力機(jī)制,在不增加推理負(fù)擔(dān)的前提下,高效地融合了多源知識(shí)。大量的實(shí)驗(yàn)證明了該方法的有效性和魯棒性,為解決低資源序列標(biāo)注問題提供了新的范式。

 

實(shí)驗(yàn)室簡介

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實(shí)驗(yàn)室)由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo),長期從事數(shù)據(jù)庫系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究,在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果,已在國際頂級(jí)學(xué)術(shù)會(huì)議和期刊發(fā)表學(xué)術(shù)論文200余篇,發(fā)布多個(gè)開源項(xiàng)目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋果獎(jiǎng)學(xué)金、谷歌獎(jiǎng)學(xué)金等榮譽(yù)。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開卓有成效的合作,與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開展項(xiàng)目合作和前沿探索,解決實(shí)際問題,進(jìn)行科研成果的轉(zhuǎn)化落地。

 


北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室,PKU-DAIR,Peking University Data And Intelligence Research Lab,負(fù)責(zé)人為北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授。
返回頂部