作者:Peichao Lai, Zhengfeng Zhang, Wentao Zhang, Fangcheng Fu, Bin Cui
Github鏈接:https://github.com/aleversn/GCSE
ACL ( The Annual Meeting of the Association for Computational Linguistics )是自然語(yǔ)言處理(NLP)與計(jì)算語(yǔ)言學(xué)領(lǐng)域最具影響力的國(guó)際學(xué)術(shù)會(huì)議之一,被中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦為 A類會(huì)議。ACL 2025 將于7月27日—8月1日在奧地利維也納舉行。
PKU-DAIR實(shí)驗(yàn)室論文《 Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning》被ACL 2025 錄用。
一、問題背景與動(dòng)機(jī)
句子表示學(xué)習(xí)作為自然語(yǔ)言處理的基礎(chǔ)任務(wù),旨在生成準(zhǔn)確的句子嵌入以提升語(yǔ)義推理、檢索和問答等下游任務(wù)的性能?;趯?duì)比學(xué)習(xí)的無(wú)監(jiān)督句子嵌入方法因計(jì)算效率高且無(wú)需人工標(biāo)注數(shù)據(jù),成為當(dāng)前的研究熱點(diǎn)。該類方法的核心思想是通過(guò)對(duì)比損失函數(shù),拉近語(yǔ)義相似句子的嵌入距離并推遠(yuǎn)不相似句子的距離。然而,其性能高度依賴訓(xùn)練樣本的數(shù)量與質(zhì)量,在數(shù)據(jù)增強(qiáng)過(guò)程中,如何有效提升樣本的多樣性和純凈度,成為無(wú)監(jiān)督對(duì)比學(xué)習(xí)的關(guān)鍵挑戰(zhàn)。
核心挑戰(zhàn):數(shù)據(jù)多樣性與噪聲問題
現(xiàn)有方法主要面臨兩大瓶頸:
其一,數(shù)據(jù)多樣性不足?,F(xiàn)有數(shù)據(jù)增強(qiáng)方法常忽略實(shí)體、數(shù)量等細(xì)粒度知識(shí),導(dǎo)致生成樣本的語(yǔ)義變體有限。傳統(tǒng)規(guī)則化方法依賴固定模板修改句子(如簡(jiǎn)單詞替換),而基于大語(yǔ)言模型(LLM)的方法(如 SynCSE、MultiCSR)雖通過(guò)提示引導(dǎo)生成多樣化樣本,但缺乏對(duì)知識(shí)的顯式控制,樣本多樣性受限于 LLM 的概率分布,難以覆蓋同一知識(shí)的多維度表達(dá)(如實(shí)體類型、數(shù)量級(jí)變化)。
其二,數(shù)據(jù)噪聲過(guò)高。無(wú)監(jiān)督場(chǎng)景下,負(fù)樣本易包含表面語(yǔ)義相似但實(shí)際語(yǔ)義無(wú)關(guān)的 “假負(fù)例樣本”,而 LLM 生成的合成樣本可能因語(yǔ)義分布偏差引入額外噪聲。現(xiàn)有去噪方法(如 MultiCSR 的線性規(guī)劃過(guò)濾)可能誤刪有價(jià)值樣本,導(dǎo)致數(shù)據(jù)多樣性進(jìn)一步下降。如圖 1 所示,在 STS-Benchmark 驗(yàn)證集上,現(xiàn)有方法普遍存在假正例(FP)和假負(fù)例(FN)樣本比例失衡的問題,表明假負(fù)樣例噪聲已成為影響模型判別能力的關(guān)鍵因素。
圖1. 不同方法在驗(yàn)證集上假正例(FP)和假負(fù)例(FN)對(duì)比
為解決上述問題,本研究提出結(jié)合知識(shí)圖譜與 LLM 的流水線式結(jié)構(gòu)的數(shù)據(jù)增強(qiáng)方法,并引入高斯衰減對(duì)比學(xué)習(xí)模型(GCSE)。具體動(dòng)機(jī)包括:
- 顯式建模細(xì)粒度知識(shí):通過(guò)知識(shí)圖譜提取句子中的實(shí)體、數(shù)量及其關(guān)系,引導(dǎo) LLM 生成包含結(jié)構(gòu)化語(yǔ)義變體的樣本(如實(shí)體替換、數(shù)量調(diào)整),突破傳統(tǒng)方法對(duì)全局語(yǔ)義的粗粒度控制,提升樣本多樣性。
- 動(dòng)態(tài)抑制噪聲影響:設(shè)計(jì)高斯衰減函數(shù)調(diào)整假負(fù)例樣本的梯度權(quán)重,在訓(xùn)練初期降低其對(duì)語(yǔ)義空間的扭曲,隨著模型收斂逐步恢復(fù)權(quán)重,實(shí)現(xiàn)噪聲樣本的有效利用而非直接丟棄。
- 提升數(shù)據(jù)利用效率:在少樣本和輕量級(jí) LLM 場(chǎng)景下實(shí)現(xiàn)較高性能,證明了方法對(duì)低資源場(chǎng)景的適應(yīng)性。通過(guò)上述創(chuàng)新,本研究旨在為無(wú)監(jiān)督句子嵌入提供一種兼顧多樣性與噪聲影響的解決方案,推動(dòng)其在實(shí)際場(chǎng)景中的應(yīng)用。
二、數(shù)據(jù)增強(qiáng)和模型訓(xùn)練流程
圖2. 數(shù)據(jù)增強(qiáng)和句子表示訓(xùn)練工作流
如圖2所示,本方法通過(guò)LLM進(jìn)行數(shù)據(jù)增強(qiáng),從源數(shù)據(jù)中合成新樣本,然后使用經(jīng)過(guò)初始過(guò)濾的合成數(shù)據(jù)訓(xùn)練GCSE模型。
圖3. 基于知識(shí)抽取構(gòu)建實(shí)體知識(shí)圖譜的數(shù)據(jù)生成框架
1. 數(shù)據(jù)增強(qiáng):知識(shí)驅(qū)動(dòng)的樣本合成流程
數(shù)據(jù)增強(qiáng)模塊旨在通過(guò)LLM生成高質(zhì)量、多樣化的訓(xùn)練樣本,平衡領(lǐng)域特異性與通用語(yǔ)義空間的適配性。該流程分為知識(shí)提取與整合和基于 LLM 的正負(fù)樣本合成兩個(gè)核心環(huán)節(jié),如圖 3 所示。首先,從源數(shù)據(jù)中提取實(shí)體、數(shù)量等細(xì)粒度知識(shí),構(gòu)建實(shí)體知識(shí)圖譜(KG),其中節(jié)點(diǎn)包含實(shí)體文本、類型及數(shù)量(如 “孩子 - 人物 - 兩個(gè)”),邊分為硬邊(實(shí)體與類型 / 數(shù)量的固定關(guān)系)和軟邊(同一句子內(nèi)實(shí)體間的關(guān)聯(lián))。通過(guò)知識(shí)圖譜,可系統(tǒng)地捕捉樣本中的結(jié)構(gòu)化信息,為后續(xù)合成提供語(yǔ)義約束。
知識(shí)提取與圖譜構(gòu)建
具體而言,通過(guò)設(shè)計(jì)提取提示詞,利用 LLM 從每個(gè)樣本中解析出知識(shí)集合,每個(gè)知識(shí)單元包含實(shí)體文本、類型和數(shù)量。將所有樣本的知識(shí)單元整合為實(shí)體知識(shí)圖譜,其中節(jié)點(diǎn)包含所有提取的三元組,通過(guò)構(gòu)建實(shí)體和對(duì)應(yīng)實(shí)體類型的硬邊(如 “狗 - 動(dòng)物”)和實(shí)體與上下文其他實(shí)體的軟邊(如 “狗 - 公園” 的共現(xiàn)關(guān)系)連接節(jié)點(diǎn)。這種結(jié)構(gòu)化表示允許模型高效識(shí)別可替換的實(shí)體節(jié)點(diǎn)(如同一類型的 “貓”“狗”),確保合成樣本與源樣本的語(yǔ)義關(guān)聯(lián)性。
基于 LLM 的正負(fù)樣本合成
在樣本合成階段,通過(guò)三類提示詞引導(dǎo) LLM 生成多樣化樣本:
- 改寫提示詞:生成正樣本,如通過(guò) “重寫句子但保留原意” 指令生成語(yǔ)義等價(jià)變體(如 “兩個(gè)孩子和狗玩耍”→“孩童與犬類嬉戲”)。
- 語(yǔ)法反義提示詞:生成語(yǔ)法層面矛盾的負(fù)樣本,如通過(guò)否定詞或情感反轉(zhuǎn)構(gòu)造語(yǔ)義對(duì)立句(如 “孩子沒有和狗玩耍”)。
- 實(shí)體 / 數(shù)量修訂提示詞:基于知識(shí)圖譜搜索相鄰節(jié)點(diǎn)(如替換 “狗” 為同類型實(shí)體 “貓”,或調(diào)整數(shù)量 “兩個(gè)”→“一個(gè)”),生成細(xì)粒度差異的負(fù)樣本。 通過(guò)知識(shí)圖譜約束實(shí)體替換范圍(如僅選擇同類型實(shí)體或關(guān)聯(lián)實(shí)體),確保負(fù)樣本在表面特征上接近源樣本,但在細(xì)粒度語(yǔ)義上存在明確差異,從而提升對(duì)比學(xué)習(xí)的有效性。生成樣本經(jīng)評(píng)估模型初步過(guò)濾后,形成最終的訓(xùn)練數(shù)據(jù)集。
2. 模型訓(xùn)練:兩階段對(duì)比學(xué)習(xí)框架
模型訓(xùn)練過(guò)程分為通用對(duì)比學(xué)習(xí)預(yù)訓(xùn)練和帶噪聲抑制的對(duì)比學(xué)習(xí)微調(diào)兩個(gè)階段,旨在通過(guò)漸進(jìn)式訓(xùn)練提升模型對(duì)語(yǔ)義空間的建模能力。首先,利用通用數(shù)據(jù)和領(lǐng)域數(shù)據(jù)預(yù)訓(xùn)練一個(gè)評(píng)估模型,學(xué)習(xí)通用語(yǔ)義分布;隨后,將評(píng)估模型的結(jié)構(gòu)和參數(shù)遷移至 GCSE 模型,并通過(guò)高斯衰減函數(shù)動(dòng)態(tài)調(diào)整難負(fù)樣本的影響,實(shí)現(xiàn)對(duì)合成數(shù)據(jù)中噪聲的有效抑制。
圖4. 基于高斯衰減的GCSE模型批次訓(xùn)練示例圖
第一階段:通用對(duì)比學(xué)習(xí)預(yù)訓(xùn)練
在預(yù)訓(xùn)練階段,采用標(biāo)準(zhǔn)對(duì)比學(xué)習(xí)框架SimCSE訓(xùn)練評(píng)估模型。對(duì)于每個(gè)無(wú)標(biāo)簽句子,將其自身通過(guò)隨機(jī) dropout 生成兩個(gè)不同視圖作為正樣本對(duì),同批次其他句子作為負(fù)樣本。損失函數(shù)采用 InfoNCE 形式,計(jì)算正樣本對(duì)的余弦相似度并拉遠(yuǎn)與負(fù)樣本的距離。此階段通過(guò)通用數(shù)據(jù)(如 Wikipedia)和領(lǐng)域數(shù)據(jù)的混合訓(xùn)練,使評(píng)估模型學(xué)習(xí)到均勻的語(yǔ)義分布,為后續(xù)噪聲過(guò)濾和特征提取提供相對(duì)可靠基準(zhǔn)。預(yù)訓(xùn)練完成后,評(píng)估模型參數(shù)被凍結(jié),用于合成數(shù)據(jù)的質(zhì)量評(píng)估。
第二階段:帶高斯衰減的對(duì)比學(xué)習(xí)微調(diào)
在微調(diào)階段,GCSE 模型以評(píng)估模型為骨干網(wǎng)絡(luò),接收由數(shù)據(jù)增強(qiáng)流程生成的三元組樣本 。首先通過(guò)評(píng)估模型過(guò)濾合成樣本:
- 正樣本篩選:采用較高閾值保留與源樣本相似度高(如 0.9)的合成句;
- 負(fù)樣本篩選:選擇與源樣本相似度相對(duì)較高的合成句或隨機(jī)批次內(nèi)負(fù)樣本來(lái)保留文本多樣性以及易混淆負(fù)樣例。對(duì)于過(guò)濾后的負(fù)樣本,引入高斯衰減函數(shù)動(dòng)態(tài)調(diào)整其梯度權(quán)重。該函數(shù)根據(jù) GCSE 模型與評(píng)估模型對(duì)負(fù)樣本的相似度預(yù)測(cè)差異的自動(dòng)衰減梯度:
- 在訓(xùn)練初期,若負(fù)樣本被誤判為相似(假負(fù)例),期望GCSE對(duì)齊評(píng)估模型的相似度分?jǐn)?shù),利用高斯函數(shù)抑制其梯度,避免語(yǔ)義空間因假負(fù)樣例而發(fā)生錯(cuò)誤變化;隨著訓(xùn)練推進(jìn),若真負(fù)樣本的相似度分?jǐn)?shù)與評(píng)估模型逐漸加大,其梯度權(quán)重將逐步恢復(fù),確保模型最終學(xué)會(huì)區(qū)分細(xì)粒度語(yǔ)義差異。此機(jī)制在保留樣本多樣性的同時(shí),有效緩解了噪聲對(duì)訓(xùn)練的干擾。
三、實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)數(shù)據(jù)與場(chǎng)景配置
實(shí)驗(yàn)在兩類場(chǎng)景下展開:一是基于 Wikipedia 文本的默認(rèn)設(shè)置,遵循經(jīng)典方法合成樣本;二是模擬低資源場(chǎng)景,采用 STS-12(2.2k)、PAWS(3.5k)、SICK(4.5k)等領(lǐng)域無(wú)標(biāo)簽數(shù)據(jù)與 NLI 通用數(shù)據(jù)(比例 1:3),驗(yàn)證模型在有限數(shù)據(jù)下的性能。數(shù)據(jù)增強(qiáng)環(huán)節(jié)利用 ChatGLM3-6B、GPT-3.5 Turbo、Deepseek-V3-0324 等多個(gè)參數(shù)規(guī)模 LLM 生成樣本,覆蓋從 6B 到 32B 參數(shù)的本地模型,以測(cè)試方法對(duì)不同 LLM 的適配性。
模型架構(gòu)與訓(xùn)練流程
主干網(wǎng)絡(luò)采用 BERT 和 RoBERTa(base/large 版本),訓(xùn)練分為兩階段:首先通過(guò)標(biāo)準(zhǔn)對(duì)比學(xué)習(xí)在混合數(shù)據(jù)上預(yù)訓(xùn)練評(píng)估模型,學(xué)習(xí)通用語(yǔ)義分布,其參數(shù)后續(xù)凍結(jié)用于合成數(shù)據(jù)過(guò)濾;然后以評(píng)估模型為骨干初始化 GCSE,輸入經(jīng)知識(shí)圖譜引導(dǎo)生成的三元組樣本(源句、正樣本、負(fù)樣本),通過(guò)設(shè)定閾值初始過(guò)濾高噪聲樣本,并利用高斯衰減函數(shù)動(dòng)態(tài)調(diào)整難負(fù)樣本的梯度權(quán)重,平衡噪聲抑制與樣本多樣性。
評(píng)估指標(biāo)與基線對(duì)比
核心評(píng)估聚焦語(yǔ)義文本相似性(STS)任務(wù),覆蓋 7 個(gè)標(biāo)準(zhǔn)子集,以 Spearman 相關(guān)系數(shù)為指標(biāo),并通過(guò) SentEval工具對(duì)比包括傳統(tǒng)無(wú)監(jiān)督方法(如 SimCSE、RankCSE)和 LLM 增強(qiáng)方法(SynCSE、MultiCSR)。實(shí)驗(yàn)在 NVIDIA A800 GPU 上完成數(shù)據(jù)合成,于 8 塊 NVIDIA TITAN RTX GPU 進(jìn)行模型訓(xùn)練,確保效率與穩(wěn)定性。
主要實(shí)驗(yàn)結(jié)果
在語(yǔ)義文本相似性(STS)任務(wù)上,本文方法展現(xiàn)出顯著的性能優(yōu)勢(shì)。表1結(jié)果顯示,基于不同大語(yǔ)言模型(LLM)合成數(shù)據(jù)的 GCSE 模型在所有主干網(wǎng)絡(luò)(BERT、RoBERTa)上均優(yōu)于現(xiàn)有無(wú)監(jiān)督基線方法。例如,使用 Deepseek-V3-0324 和 GPT-3.5 Turbo 合成樣本的 GCSE 模型在 STS 任務(wù)平均得分中表現(xiàn)最佳;即使采用輕量級(jí) LLM(如 ChatGLM3-6B),GCSE 仍能超越 SynCSE、MultiCSR 等先進(jìn)方法。具體而言,與標(biāo)準(zhǔn)無(wú)監(jiān)督 SimCSE 相比,GCSE(ChatGLM3-6B)在 Base 模型上平均提升 5.40%,在 Large 模型上提升 3.95%;在強(qiáng)基線 RankCSE 基礎(chǔ)上,平均提升 1.90%,驗(yàn)證了 LLM 數(shù)據(jù)合成流程的有效性。
表1: 默認(rèn)設(shè)置下的實(shí)驗(yàn)結(jié)果
在模擬低資源、高質(zhì)量領(lǐng)域數(shù)據(jù)的場(chǎng)景下(表 1),GCSE 使用僅為 SynCSE 和 MultiCSR 14% 的樣本量,仍實(shí)現(xiàn)了更高的平均 Spearman 相關(guān)系數(shù)。例如,在 BERT-base 模型上,GCSE(GPT-3.5 Turbo)平均得分達(dá) 81.92,顯著優(yōu)于依賴全量 NLI 數(shù)據(jù)的基線方法,表明本文提出的數(shù)據(jù)合成策略和領(lǐng)域樣本選擇方法能高效利用有限數(shù)據(jù),提升模型對(duì)目標(biāo)領(lǐng)域的語(yǔ)義建模能力。
表2: 模擬低資源場(chǎng)景下的實(shí)驗(yàn)結(jié)果
此外,GCSE 在不同規(guī)模的 LLM 下均表現(xiàn)出魯棒性:從 6B 參數(shù)的 ChatGLM3 到 32B 參數(shù)的 Qwen2.5,模型性能隨 LLM 規(guī)模增長(zhǎng)呈上升趨勢(shì),但即使使用較小 LLM,GCSE 仍能通過(guò)知識(shí)驅(qū)動(dòng)的數(shù)據(jù)增強(qiáng)彌補(bǔ)模型能力的不足,在 STS 任務(wù)中保持領(lǐng)先。實(shí)驗(yàn)結(jié)果表明,本文方法在數(shù)據(jù)效率和模型泛化性上實(shí)現(xiàn)了雙重突破,為無(wú)監(jiān)督句子嵌入提供了新的性能基準(zhǔn)。
四、總 結(jié)
本研究提出知識(shí)驅(qū)動(dòng)的數(shù)據(jù)增強(qiáng)框架與高斯衰減對(duì)比學(xué)習(xí)模型(GCSE),通過(guò)提取實(shí)體、數(shù)量等細(xì)粒度知識(shí)構(gòu)建知識(shí)圖譜來(lái)指導(dǎo)LLM生成多樣化樣本,并創(chuàng)新性地采用高斯衰減梯度調(diào)節(jié)機(jī)制:在訓(xùn)練初期降低困難負(fù)樣本的梯度權(quán)重,根據(jù)其與評(píng)估模型的分布偏差動(dòng)態(tài)調(diào)整梯度影響,從而在提升數(shù)據(jù)多樣性的同時(shí)有效抑制噪聲干擾。實(shí)驗(yàn)表明,GCSE在STS任務(wù)上能夠以更少數(shù)據(jù)量和較小模型參數(shù)規(guī)模實(shí)現(xiàn)顯著的性能提升,實(shí)驗(yàn)在BERT和RoBERTa系列模型上取得了優(yōu)于現(xiàn)有方法的平均性能,為細(xì)粒度句子表示學(xué)習(xí)提供了兼顧語(yǔ)義多樣性與噪聲控制能力的新范式。
實(shí)驗(yàn)室簡(jiǎn)介
北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實(shí)驗(yàn)室)由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo),長(zhǎng)期從事數(shù)據(jù)庫(kù)系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究,在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果,已在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議和期刊發(fā)表學(xué)術(shù)論文200余篇,發(fā)布多個(gè)開源項(xiàng)目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國(guó)優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋果獎(jiǎng)學(xué)金、谷歌獎(jiǎng)學(xué)金等榮譽(yù)。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開卓有成效的合作,與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開展項(xiàng)目合作和前沿探索,解決實(shí)際問題,進(jìn)行科研成果的轉(zhuǎn)化落地。
評(píng)論 0