轉(zhuǎn)載自:微信公眾號 |專委會秘書處 CCF數(shù)據(jù)庫專委
公眾號文章鏈接:https://mp.weixin.qq.com/s/9ZF3TyBGETb26wgnMOx0MQ
Few-Shot Relation Prediction of Knowledge Graph via Convolutional Neural Network with Self-Attention
Data Science and Engineering (DSE)是由中國計算機(jī)學(xué)會(CCF)主辦,數(shù)據(jù)庫專業(yè)委員會承辦,施普林格·自然(Springer Nature)集團(tuán)出版的開放獲取(OA)期刊。本篇文章精選自DSE第2023年第8卷第4期發(fā)文,由中新賽克贊助文章處理費。
文章介紹
知識圖譜(Knowledge Graph, KG)已經(jīng)成為智能問答和推薦系統(tǒng)等多種應(yīng)用的重要基礎(chǔ)。然而,KG中的某些關(guān)系僅包含有限的相關(guān)三元組,使得小樣本關(guān)系預(yù)測方法成為亟待研究的問題。目前基于KG嵌入(Knowledge Graph Embedding)的方法需要足夠的訓(xùn)練三元組來學(xué)習(xí)實體和關(guān)系的表示,而最近的一些研究工作引入實體的鄰居和上下文等背景信息、學(xué)習(xí)小樣本場景中的實體和關(guān)系特征,但部分場景中的背景信息并不可用。從實際應(yīng)用的角度看,可觀察到的少量三元組中包含著未被完全利用的屬性特征。因此,KG的小樣本關(guān)系預(yù)測仍面臨兩個方面的挑戰(zhàn):如何描述實體和關(guān)系間的相關(guān)性,如何從觀察到的少量三元組中學(xué)習(xí)實體的隱藏屬性特征?為解決上述研究工作存在的問題,本文提出基于自注意力卷積神經(jīng)網(wǎng)絡(luò)的KG關(guān)系預(yù)測(Convolutional Neural Network with Self-Attention Relation Prediction, CARP)模型,用于預(yù)測新的關(guān)系事實,如圖1所示。首先,為了學(xué)習(xí)關(guān)系的屬性特征,本文利用CNN從少量觀察到的三元組中構(gòu)建具有自注意力的特征編碼器,通過賦予所觀察到三元組的不同權(quán)重來描述它們之間的相關(guān)性,以凸顯其屬性特征。進(jìn)一步,通過將觀察到的三元組集合與數(shù)字圖像的不可分割性及平移特征不變性進(jìn)行類比,構(gòu)建特征編碼器,將CNN與基于自注意力的相關(guān)性相結(jié)合,學(xué)習(xí)關(guān)系的屬性特征。然后,利用嵌入網(wǎng)絡(luò)融合所學(xué)習(xí)到的特征,學(xué)習(xí)三元組的表示向量。最后,本文給出CARP模型的損失函數(shù)和訓(xùn)練算法。本文的主要貢獻(xiàn)總結(jié)如下:
(1)提出從觀察到的少量三元組中學(xué)習(xí)屬性特征的方法,以增強關(guān)系表示。
(2)通過限制屬性特征空間,給出CARP模型訓(xùn)練的損失函數(shù)。
(3)在3個數(shù)據(jù)集上進(jìn)行了對比實驗,結(jié)果表明,CARP模型能有效完成KG的小樣本關(guān)系預(yù)測任務(wù),且優(yōu)于最優(yōu)的對比模型。
模型框架
CARP模型包括用于學(xué)習(xí)屬性特征的特征編碼器、以及用于匹配觀察到的不完整三元組的匹配處理器兩個模塊,模型框架如圖1所示。
圖1. CARP模型框架特征編碼器模塊旨在挖掘具有相同關(guān)系的多個三元組中頭實體和尾實體共享的屬性特征,以及頭尾實體對共享的關(guān)系屬性特征,從而生成并選擇正確的三元組。首先將實體和關(guān)系的表示映射到特征向量空間,并使用可縮放點積計算注意力權(quán)重。然后使用L層CNN學(xué)習(xí)屬性特征,進(jìn)一步利用高斯分布表示其概率分布,通過重參數(shù)化策略對特征進(jìn)行采樣,獲得屬性特征的最終表示。匹配處理器模塊旨在將參考集中的頭尾實體間的相關(guān)性映射到查詢集中,利用向量距離對頭尾實體及關(guān)系進(jìn)行聚類,從而得到最可能的實體關(guān)系、完成關(guān)系預(yù)測。
實驗效果
本文在NELL-One、FB-One和Wiki-One三個數(shù)據(jù)集上對提出的CARP模型進(jìn)行了實驗測試,其中,NELL-One基于通過智能代理從新聞中收集結(jié)構(gòu)化知識的NELL系統(tǒng),Wiki-One基于由百科全書式知識構(gòu)成的通用結(jié)構(gòu)化知識庫Wikidata。此外,本文使用類似方法從社交知識所構(gòu)成的大型協(xié)作知識庫Freebase中提取數(shù)據(jù),構(gòu)建了FB-One數(shù)據(jù)集。具體而言,首先排除逆關(guān)系,然后從每個關(guān)系中選擇50~500個三元組,作為小樣本關(guān)系預(yù)測任務(wù)的數(shù)據(jù)集,每個小樣本關(guān)系預(yù)測任務(wù)由與其對應(yīng)、具有相同關(guān)系的三元組構(gòu)成。在這3個數(shù)據(jù)集上,分別包含67、131和183個小樣本關(guān)系預(yù)測任務(wù)。本文將小樣本關(guān)系預(yù)測任務(wù)的訓(xùn)練集、測試集和驗證集按照51/5/11、98/11/22和133/16/34的比例劃分。表1給出以上數(shù)據(jù)集的統(tǒng)計信息。
表1. 數(shù)據(jù)集統(tǒng)計信息首先,我們在3個數(shù)據(jù)集上進(jìn)行3/5-shot關(guān)系預(yù)測,MRR、Hits@1、Hits@5和Hits@10等指標(biāo)的測試結(jié)果如表2所示。本文提出的CARP模型在3個數(shù)據(jù)集上的各項指標(biāo)均有顯著提升,與第二高的對比模型相比分別提高了90%、124%、70%和48%。實驗結(jié)果表明,CARP模型可適用于不同的數(shù)據(jù)集,在小樣本場景中可通過挖掘?qū)傩蕴卣鞫鴮W(xué)習(xí)到更有效的實體表示。
表2. 3/5-shot關(guān)系預(yù)測的MRR/Hits@1/Hits@5/Hits@10指標(biāo)結(jié)果
為了評估樣本數(shù)量k的影響,設(shè)置了k=1、3、5、7,并使用不同的k值測試MRR指標(biāo),如圖2所示。結(jié)果表明,CARP模型在3個數(shù)據(jù)集上的MRR指標(biāo)都優(yōu)于對比模型,驗證了CARP模型對于小樣本關(guān)系預(yù)測任務(wù)的有效性。隨著k值的增加,MRR值略有增加,表明隨著參考集數(shù)量的增加,CARP模型能獲得更加豐富的信息。
圖2. CARP模型性能隨樣本數(shù)量變化本文進(jìn)一步通過消融實驗測試特征編碼器和匹配處理器的有效性。為測試特征編碼器的有效性,在參考集上使用平均池化層替換特征編碼器模塊(記為AS_1);為測試使用特征編碼器學(xué)習(xí)到的屬性特征對查詢處理的有效性,使用隨機(jī)特征替換屬性特征并作為嵌入網(wǎng)絡(luò)的輸入(記為AS_2),如表3所示。結(jié)果表明,特征編碼器和匹配處理器在CARP模型中能有效提升模型的效果,從觀察到的少量三元組中學(xué)習(xí)到的屬性特征在小樣本關(guān)系預(yù)測中起著至關(guān)重要的作用。
表3. 消融實驗MRR/Hits@1/Hits@5/Hits@10指標(biāo)結(jié)果最后給出案例分析,在3個數(shù)據(jù)集上測試了不同小樣本關(guān)系預(yù)測任務(wù)的MRR指標(biāo),如圖3所示。結(jié)果表明,CARP模型在3個數(shù)據(jù)集上都具有穩(wěn)定的表現(xiàn),驗證了本文提出的CARP模型針對不同小樣本關(guān)系預(yù)測任務(wù)的可靠性,在接近80%的小樣本關(guān)系預(yù)測任務(wù)中達(dá)到了最佳MRR,表明本文模型對不同小樣本關(guān)系預(yù)測任務(wù)的魯棒性。
圖3. 不同關(guān)系預(yù)測任務(wù)上的MRR
結(jié)語
文提出CARP模型,有效預(yù)測觀察到的少量三元組中的新關(guān)系,模型專注于從少量三元組中學(xué)習(xí)關(guān)系的屬性特征,可有效避免引入背景信息而帶來的噪聲。CARP模型不僅增強了關(guān)系的表示,還有助于在小樣本場景中預(yù)測新的關(guān)系事實。
作者簡介
鐘姍娜,碩士,于2023年獲得云南大學(xué)計算機(jī)科學(xué)與技術(shù)專業(yè)碩士學(xué)位。主要研究方向為大數(shù)據(jù)分析、知識圖譜。
王笳輝,博士,于2023年獲得云南大學(xué)計算機(jī)科學(xué)與技術(shù)專業(yè)博士學(xué)位。在KBS、ESWA、DSE、《軟件學(xué)報》和《電子學(xué)報》等期刊和會議發(fā)表論文10篇。主要研究方向為知識圖譜、概率圖嵌入。
岳昆,博士,云南大學(xué)信息學(xué)院教授、博士生導(dǎo)師、副院長、云南省智能系統(tǒng)與計算重點實驗室主任。入選“興滇英才支持計劃”云嶺學(xué)者,云南省杰青、中青年學(xué)術(shù)和技術(shù)帶頭人。主持國家自然科學(xué)基金重點項目等科研項目20余項。在TSC、TCYB、TIST、《計算機(jī)學(xué)報》、《軟件學(xué)報》、AAAI、UAI、CIKM和ICWS等期刊和會議發(fā)表論文100余篇。授權(quán)發(fā)明專利20余項,出版著作5部、參編譯著1部。主要研究方向為海量數(shù)據(jù)處理、大數(shù)據(jù)知識工程、貝葉斯深度學(xué)習(xí)。
段亮,博士,云南大學(xué)信息學(xué)院副教授、碩士生導(dǎo)師。于2019年獲得北京航空航天大學(xué)計算機(jī)科學(xué)與技術(shù)專業(yè)博士學(xué)位。入選“興滇英才支持計劃”青年人才和云南大學(xué)“東陸青年學(xué)者”,主持國家自然科學(xué)基金青年項目等科研項目5項,在TKDE、KAIS、《軟件學(xué)報》、AAAI 、ICDM、UAI和WSDM等期刊和會議發(fā)表論文20余篇。主要研究方向為海量數(shù)據(jù)處理、機(jī)器學(xué)習(xí)、社交網(wǎng)絡(luò)分析。
孫正寶,博士,高級實驗師、碩士生導(dǎo)師。2021年獲得云南大學(xué)信息與通信工程專業(yè)博士學(xué)位。入選“興滇英才支持計劃”青年人才,主持完成國家自然科學(xué)基金青年項目等科研項目3項。主要研究方向為地理時空數(shù)據(jù)挖掘。
方巖,碩士,助理研究員。于2020年獲得云南大學(xué)計算機(jī)科學(xué)與技術(shù)專業(yè)碩士學(xué)位。主要研究方向為數(shù)據(jù)挖掘、知識圖譜。
期刊簡介
Data Science and Engineering(DSE)是由中國計算機(jī)學(xué)會(CCF)主辦、數(shù)據(jù)庫專業(yè)委員會承辦、施普林格 自然(Springer Nature)出版的Open Access期刊。為了迎合相關(guān)領(lǐng)域的快速發(fā)展需求,DSE致力于出版所有和數(shù)據(jù)科學(xué)與工程領(lǐng)域相關(guān)的關(guān)鍵科學(xué)問題與前沿研究熱點,以大數(shù)據(jù)作為研究重點,征稿范疇主要包括4方面:(1)數(shù)據(jù)本身,(2)數(shù)據(jù)信息提取方法,(3)數(shù)據(jù)計算理論,和(4)用來分析與管理數(shù)據(jù)的技術(shù)和系統(tǒng)。
目前期刊已被EI、ESCI與SCOPUS收錄,2022年CiteScore為8.8,影響因子(Impact factor)為4.2,在計算機(jī)科學(xué)應(yīng)用領(lǐng)域排名前13%(102/792)、計算機(jī)軟件領(lǐng)域排名前16%(65/404)、信息系統(tǒng)領(lǐng)域排名前16%(60/379),人工智能領(lǐng)域排名前19%(58/301)。稿件處理費由贊助商中新賽克(Sinovatio)承擔(dān),歡迎大家免費下載閱讀期刊全文,并積極投稿。
原文鏈接:
https://link.springer.com/article/10.1007/s41019-023-00230-x
文稿:李博涵、王曉黎、王肇國排版:李瑞遠(yuǎn)審核:專委會秘書處
CCF數(shù)據(jù)庫專委
評論 0