KDD (ACM SIGKDD Conference on Knowledge Discovery and Data Mining ) 是機器學習、人工智能與大數(shù)據(jù)分析領域頂級國際會議之一,與ICML、NeurIPS、CVPR 并稱為人工智能方向的頂級會議。KDD 2025將于8月3日—8月7日在加拿大多倫多舉行。PKU-DAIR實驗室論文《LLMs are Noisy Oracles! LLM-based Noise-aware Graph Active Learning for Node Classification》被KDD 2025錄用。
LLMs are Noisy Oracles! LLM-based Noise-aware Graph Active Learning for Node Classification
作者:Zeang Sheng, Weiyang Guo, Yingxia Shao, Wentao Zhang, Bin Cui
Github鏈接:https://github.com/PKU-DAIR/Noisy_LLM_Oracle
一、問題背景與動機
圖神經(jīng)網(wǎng)絡(Graph Neural Networks, GNNs)因其出色的鄰域信息捕捉能力,被廣泛應用于節(jié)點分類、鏈接預測和藥物發(fā)現(xiàn)等圖學習任務中。與其他深度學習模型類似,GNN需要依賴充足的高質量標注數(shù)據(jù)進行訓練,才能在下游任務中表現(xiàn)優(yōu)異。然而,圖結構數(shù)據(jù)中樣本間復雜的連接關系使得人工標注的難度遠高于圖像或文本數(shù)據(jù),導致標注成本高昂。例如,主流基準大規(guī)模圖數(shù)據(jù)集OGB[1]中的ogbn-papers100M僅有約1%的節(jié)點被標注。
近年來,大語言模型(Large Language Models, LLMs)在文本任務中展現(xiàn)的零樣本能力引發(fā)了廣泛關注。已有研究[2]嘗試將圖數(shù)據(jù)轉化為文本形式后利用LLM進行圖學習任務,盡管其性能尚未超越專有GNN模型,但展現(xiàn)了良好的泛化能力?;诖耍粋€近期工作LLM-GNN[3]提出用LLM替代人工標注以低成本緩解數(shù)據(jù)稀缺問題。該方案通過后置過濾(Post Filtering, PS)剔除LLM不確定的標注,并采用基于均勻分布假設的噪聲可感圖主動學習算法RIM [4]處理標注噪聲。
本文通過實驗分析發(fā)現(xiàn),同一個LLM在不同數(shù)據(jù)集上的標注噪聲分布非常復雜且和具體數(shù)據(jù)集特征有關,因此LLM-GNN采用的均勻分布假設存在局限性。
圖1. LLM在不同數(shù)據(jù)集上的標注噪聲分布
建模LLM標注噪聲分布的難點在于雙重感知需求:1.數(shù)據(jù)集可感:實驗分析表明,同一LLM在不同數(shù)據(jù)集上會呈現(xiàn)高度異質性的噪聲分布。這種數(shù)據(jù)集依賴性要求噪聲模型必須動態(tài)適配目標數(shù)據(jù)集的特性。2. LLM可感:不同LLM因架構和訓練差異表現(xiàn)出獨特的標注行為特征?,F(xiàn)有研究證實,某些LLM擅長結構化關系推理但在實體分類中表現(xiàn)不穩(wěn)定,而另一些則相反。因此,噪聲模型需精準捕捉當前所用LLM的固有偏差。這一問題的根本矛盾在于:缺乏真實標簽使得傳統(tǒng)校準方法失效;簡單假設(如均勻分布)無法兼容上述雙重感知需求。這一矛盾催生了本文的核心研究問題——如何在沒有真值監(jiān)督的條件下,構建同時滿足數(shù)據(jù)集可感與LLM可感的噪聲分布估計算法。
二、DMA框架詳解
圖2. DMA框架流程圖
1. DMA流程概述:
DMA框架的工作流程概覽如圖2所示。我們構建DMA的目的是利用LLM對圖結構數(shù)據(jù)進行標注。具體而言,DMA接收未標注的圖和標注預算B作為輸入,隨后選擇B個最具價值的節(jié)點進行標注,使得基于標注數(shù)據(jù)訓練的GNN在下游圖學習任務中表現(xiàn)最優(yōu)。DMA由兩個核心模塊組成:噪聲估計模塊和節(jié)點選擇模塊。噪聲估計模塊負責以數(shù)據(jù)集可感和LLM可感的方式,顯式估計大語言模型的標注噪聲分布;節(jié)點選擇模塊則利用估計的噪聲分布計算各節(jié)點的可靠性分數(shù),并通過可靠性感知的影響力最大化策略篩選有價值節(jié)點。本節(jié)后續(xù)內容將詳細闡述DMA的這兩個模塊
2. 噪聲估計模塊:
本文提出一種數(shù)據(jù)集可感與LLM可感的方法,用于顯式估計大語言模型的標注噪聲分布。我們的設計基于以下核心思想:表征相似的類別更易被相互混淆?;谠撍枷?,噪聲估計模塊首先確定每個類別的表征,進而據(jù)此近似推導LLM的標注噪聲分布。相應地,噪聲估計模塊包含兩個連續(xù)步驟:1)偽樣本生成,2)噪聲分布計算。
1)偽樣本生成:
本步驟旨在為數(shù)據(jù)集中的每個類別生成偽樣本,其嵌入向量將作為對應類別的表征。這些偽樣本由用于標注的LLM生成以確保與標注結果的一致性(示意圖見圖3)。具體實現(xiàn)時,我們?yōu)槊總€類別構建包含數(shù)據(jù)集描述和類別描述的提示詞(Prompt),要求LLM生成最匹配目標類別的數(shù)據(jù)樣本。這樣一來,生成的偽樣本能夠反映基準LLM對數(shù)據(jù)集中各類別的理解,具有數(shù)據(jù)集適應性和LLM特異性。
圖3. 偽樣本生成示例
2)噪聲分布計算:
本步驟利用前步生成的偽樣本近似LLM的標注噪聲分布。對于類別,我們從基準LLM獲取其偽樣本的嵌入向量作為該類別表征。隨后計算所有類別對的余弦相似度矩陣:
隨后通過行歸一化(1-范數(shù))得到標準化矩陣。根據(jù)“相似表征類別易混淆”的核心思想,該矩陣衡量了LLM將類別節(jié)點誤標注為類別的概率。因此該矩陣即為DMA中估計的LLM標注噪聲分布,該分布將用于節(jié)點選擇模塊中的節(jié)點可靠性評分計算。
3. 節(jié)點選擇模塊
我們?yōu)镈MA中的節(jié)點選擇模塊設計了一個新的圖主動學習算法,該算法基于現(xiàn)有研究RIM進行改進:RIM假設標注噪聲服從均勻分布,并通過計算節(jié)點可靠性分數(shù)實現(xiàn)可靠節(jié)點選擇。然而如圖1所示,LLM的標注噪聲分布與均勻分布相差甚遠。因此,當采用LLM進行數(shù)據(jù)標注時,我們提出的節(jié)點選擇算法進一步利用了噪聲估計模塊中估計的LLM噪聲分布,從而實現(xiàn)更精確的可靠性分數(shù)計算。
RIM僅針對已標注節(jié)點更新影響力質量(Influence Quality),而對未標注節(jié)點則簡單采用預設的標注準確度分數(shù)作為其影響力質量。與RIM不同,DMA的節(jié)點選擇模塊將已標注節(jié)點的影響力質量分數(shù)沿圖中的邊傳遞至全圖所有節(jié)點,從而實現(xiàn)所有節(jié)點影響力質量的動態(tài)更新。這種方法能為未標注節(jié)點生成更具意義的影響力質量評估。DMA的更新過程在原理上與PageRank[5]分數(shù)計算具有相似性。DMA的節(jié)點選擇模塊的其余部分沿用了RIM的設計,該框架基于社交影響力最大化領域的經(jīng)典研究[6]。其核心思想是:優(yōu)先選擇能夠最大程度擴展已標注節(jié)點激活范圍的未標注節(jié)點,圖4給出了一個簡略的偽代碼流程,具體算法流程請參見論文。
圖4. DMA中節(jié)點選擇算法偽代碼
三、實驗結果
我們在五個常用的圖數(shù)據(jù)集(Cora、Citeseer、PubMed、WikiCS、Ogbn-arxiv)上對DMA和基線方法在下游節(jié)點分類任務上的性能進行了對比分析。我們將節(jié)點選擇預算B設置為20乘以各數(shù)據(jù)集的類別數(shù)量?;诿總€方法生成的標注數(shù)據(jù),我們訓練了一個2層GCN/GAT模型。表1的評估結果表明,我們提出的DMA框架持續(xù)優(yōu)于現(xiàn)有框架。表1還顯示DMA的性能優(yōu)勢不受GNN模型選擇的影響。由于DMA主要關注選擇更可靠的節(jié)點,而LLM-GNN中的DA側重降低LLM標注難度,二者的關注點正交,因此兩者可以加以結合來進一步提升下游任務效果。表1中DA+DMA在多數(shù)配置下超越原始DMA的評估結果,驗證了DA與DMA的成功融合。在大型Ogbn-arxiv數(shù)據(jù)集評估時,GraphPart[7]和RIM會出現(xiàn)"OOT(超時)"問題,而DMA能成功運行,展現(xiàn)了后者更高的可擴展性和運行效率。
表1. 節(jié)點分類任務上的性能對比,OOT代表超時(Out of Time)
為了驗證DMA中噪聲估計模塊的有效性,我們對其預測的LLM標注噪聲分布進行了可視化分析。圖5分別展示了Cora和Citeseer數(shù)據(jù)集上的估計噪聲分布,同時提供真實噪聲分布作為對比基準。圖5顯示,估計結果基本反映了真實噪聲分布的核心模式,這一現(xiàn)象解釋了表1中DMA優(yōu)于基線模型的性能表現(xiàn)。然而,估計分布與真實分布之間仍存在差異:例如在Cora數(shù)據(jù)集上,噪聲估計模塊認為第5類節(jié)點的錯誤標注概率為0.29,而其真實誤標概率僅為0.07。這些偏差表明,未來需要進一步改進LLM標注噪聲分布的估計精度。
圖5. 估算的噪聲分布與真實的噪聲分布對比
我們提出的DMA框架最核心的貢獻在于:其噪聲估計模塊以數(shù)據(jù)集可感和LLM可感的方式,顯式建模了LLM的標注噪聲分布。為驗證該模塊是否如預期提升了最終性能,我們設計了以下實驗:定義兩種DMA變體——1)"DMA-w/o-NE":將噪聲估計模塊中的預測噪聲分布替換為均勻分布,通過將均勻噪聲率從0.1到0.5網(wǎng)格搜索后取最高測試精度作為最終性能;2)"DMA-centroid":采用節(jié)點特征經(jīng)K-Means聚類生成的質心嵌入作為類別表示(假設該變體可利用真實標簽對齊質心與真實類別以保證可行性)。表2的實驗結果表明:完整版DMA在所有評估配置下均優(yōu)于兩種變體。DMA相對DMA-w/o-NE的性能優(yōu)勢,證實了噪聲估計模塊預測標注噪聲分布的有效性;而DMA相對DMA-centroid的優(yōu)越性,則源于其與LLM對數(shù)據(jù)集認知的更好對齊,這凸顯了以數(shù)據(jù)集可感和LLM可感方式建模噪聲分布的重要性。
表2. 噪聲估計模塊的消融實驗
我們對比了DMA與GraphPart、RIM在節(jié)點選擇階段的時間和內存消耗。表2展示了在五個真實圖數(shù)據(jù)集的評估結果。實驗結果表明DMA在時間和內存開銷上顯著低于GraphPart、RIM等強基線框架,尤其在大規(guī)模數(shù)據(jù)集上優(yōu)勢明顯。DMA的運行時性能優(yōu)勢源于我們采用的三項深度優(yōu)化策略:1)使用C++實現(xiàn)節(jié)點選擇操作,并采用OpenMP并行計算各節(jié)點可靠度影響值;2)手動構建并訪問CSR格式的稀疏鄰接矩陣,避免直接操作稠密矩陣;3)為每個線程維護小型緩存,預讀取并存儲線程專屬的稠密鄰接矩陣以減少冗余內存訪問。
表3. 節(jié)點選擇模塊的開銷對比
四、總結
現(xiàn)有工作通過采用大型語言模型(LLM)作為標注工具,實現(xiàn)了低成本的圖主動學習。盡管已觀察到LLM的標注存在噪聲,現(xiàn)有工作仍簡單假設其噪聲服從均勻分布。然而,本文通過實驗分析發(fā)現(xiàn),LLM的標注噪聲非常復雜且與數(shù)據(jù)集具體特征相關?;诜治鼋Y果,我們提出了一種新型噪聲可感圖主動學習框架DMA。該框架包含兩個核心模塊:1)噪聲估計模塊通過LLM生成的偽樣本,以數(shù)據(jù)集和LLM雙重可感的方式估算標注噪聲分布;2)節(jié)點選擇模塊利用估計的噪聲分布衡量節(jié)點可靠性,并選擇能最大化可靠影響力的節(jié)點。在五個公開文本屬性圖數(shù)據(jù)集上的評估結果表明,DMA性能始終優(yōu)于所有基線方法。
參考文獻
[1] Weihua Hu, Matthias Fey, Marinka Zitnik, Yuxiao Dong, Hongyu Ren, Bowen Liu, Michele Catasta, and Jure Leskovec. 2020. Open Graph Benchmark: Datasets for Machine Learning on Graphs. arXiv preprint arXiv:2005.00687 (2020).
[2] Jiabin Tang, Yuhao Yang, Wei Wei, Lei Shi, Lixin Su, Suqi Cheng, Dawei Yin, and Chao Huang. 2024. Graphgpt: Graph instruction tuning for large language models. In Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. 491–500.
[3] Zhikai Chen, Haitao Mao, Hongzhi Wen, Haoyu Han, Wei Jin, Haiyang Zhang, Hui Liu, and Jiliang Tang. 2024. “Label-free Node Classification on Graphs with Large Language Models (LLMs)”. In The Twelfth International Conference on Learning Representations.
[4] Wentao Zhang, Yexin Wang, Zhenbang You, Meng Cao, Ping Huang, Jiulong Shan, Zhi Yang, and Bin Cui. 2021. “Rim: Reliable influence-based active learning on graphs”. Advances in Neural Information Processing Systems 34 (2021), 27978–27990.
[5] Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. 1999. “The PageRank citation ranking: Bringing order to the web”. Technical Report. Stanford infolab.
[6] David Kempe, Jon Kleinberg, and Éva Tardos. 2003. “Maximizing the spread of influence through a social network”. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining. 137–146.
[7] Jiaqi Ma, Ziqiao Ma, Joyce Chai, and Qiaozhu Mei. 2023. “Partition-Based Active Learning for Graph Neural Networks”. Transactions on Machine Learning Research (2023).
實驗室簡介
北京大學數(shù)據(jù)與智能實驗室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實驗室)由北京大學計算機學院崔斌教授領導,長期從事數(shù)據(jù)庫系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領域的前沿研究,在理論和技術創(chuàng)新以及系統(tǒng)研發(fā)上取得多項成果,已在國際頂級學術會議和期刊發(fā)表學術論文200余篇,發(fā)布多個開源項目。課題組同學曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國優(yōu)博、北大優(yōu)博、微軟學者、蘋果獎學金、谷歌獎學金等榮譽。PKU-DAIR實驗室持續(xù)與工業(yè)界展開卓有成效的合作,與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開展項目合作和前沿探索,解決實際問題,進行科研成果的轉化落地。