91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制

10
點贊
0
評論
0
轉(zhuǎn)載
我要入駐

【轉(zhuǎn)載】DSE精選文章 | 基于SA-CNN的小樣本知識圖譜關(guān)系預測

收錄于合集: # 學術(shù)快訊

轉(zhuǎn)載自:微信公眾號 |專委會秘書處 CCF數(shù)據(jù)庫專委

公眾號文章鏈接:https://mp.weixin.qq.com/s/9ZF3TyBGETb26wgnMOx0MQ

Few-Shot Relation Prediction of Knowledge Graph via Convolutional Neural Network with Self-Attention

Data Science and Engineering (DSE)是由中國計算機學會(CCF)主辦,數(shù)據(jù)庫專業(yè)委員會承辦,施普林格·自然(Springer Nature)集團出版的開放獲取(OA)期刊。本篇文章精選自DSE第2023年第8卷第4期發(fā)文,由中新賽克贊助文章處理費。

文章介紹

知識圖譜(Knowledge Graph, KG)已經(jīng)成為智能問答和推薦系統(tǒng)等多種應用的重要基礎(chǔ)。然而,KG中的某些關(guān)系僅包含有限的相關(guān)三元組,使得小樣本關(guān)系預測方法成為亟待研究的問題。目前基于KG嵌入(Knowledge Graph Embedding)的方法需要足夠的訓練三元組來學習實體和關(guān)系的表示,而最近的一些研究工作引入實體的鄰居和上下文等背景信息、學習小樣本場景中的實體和關(guān)系特征,但部分場景中的背景信息并不可用。從實際應用的角度看,可觀察到的少量三元組中包含著未被完全利用的屬性特征。因此,KG的小樣本關(guān)系預測仍面臨兩個方面的挑戰(zhàn):如何描述實體和關(guān)系間的相關(guān)性,如何從觀察到的少量三元組中學習實體的隱藏屬性特征?為解決上述研究工作存在的問題,本文提出基于自注意力卷積神經(jīng)網(wǎng)絡的KG關(guān)系預測(Convolutional Neural Network with Self-Attention Relation Prediction, CARP)模型,用于預測新的關(guān)系事實,如圖1所示。首先,為了學習關(guān)系的屬性特征,本文利用CNN從少量觀察到的三元組中構(gòu)建具有自注意力的特征編碼器,通過賦予所觀察到三元組的不同權(quán)重來描述它們之間的相關(guān)性,以凸顯其屬性特征。進一步,通過將觀察到的三元組集合與數(shù)字圖像的不可分割性及平移特征不變性進行類比,構(gòu)建特征編碼器,將CNN與基于自注意力的相關(guān)性相結(jié)合,學習關(guān)系的屬性特征。然后,利用嵌入網(wǎng)絡融合所學習到的特征,學習三元組的表示向量。最后,本文給出CARP模型的損失函數(shù)和訓練算法。本文的主要貢獻總結(jié)如下:

(1)提出從觀察到的少量三元組中學習屬性特征的方法,以增強關(guān)系表示。

(2)通過限制屬性特征空間,給出CARP模型訓練的損失函數(shù)。

(3)在3個數(shù)據(jù)集上進行了對比實驗,結(jié)果表明,CARP模型能有效完成KG的小樣本關(guān)系預測任務,且優(yōu)于最優(yōu)的對比模型。

模型框架

CARP模型包括用于學習屬性特征的特征編碼器、以及用于匹配觀察到的不完整三元組的匹配處理器兩個模塊,模型框架如圖1所示。

IMG_256

圖1. CARP模型框架特征編碼器模塊旨在挖掘具有相同關(guān)系的多個三元組中頭實體和尾實體共享的屬性特征,以及頭尾實體對共享的關(guān)系屬性特征,從而生成并選擇正確的三元組。首先將實體和關(guān)系的表示映射到特征向量空間,并使用可縮放點積計算注意力權(quán)重。然后使用L層CNN學習屬性特征,進一步利用高斯分布表示其概率分布,通過重參數(shù)化策略對特征進行采樣,獲得屬性特征的最終表示。匹配處理器模塊旨在將參考集中的頭尾實體間的相關(guān)性映射到查詢集中,利用向量距離對頭尾實體及關(guān)系進行聚類,從而得到最可能的實體關(guān)系、完成關(guān)系預測。

實驗效果

本文在NELL-One、FB-One和Wiki-One三個數(shù)據(jù)集上對提出的CARP模型進行了實驗測試,其中,NELL-One基于通過智能代理從新聞中收集結(jié)構(gòu)化知識的NELL系統(tǒng),Wiki-One基于由百科全書式知識構(gòu)成的通用結(jié)構(gòu)化知識庫Wikidata。此外,本文使用類似方法從社交知識所構(gòu)成的大型協(xié)作知識庫Freebase中提取數(shù)據(jù),構(gòu)建了FB-One數(shù)據(jù)集。具體而言,首先排除逆關(guān)系,然后從每個關(guān)系中選擇50~500個三元組,作為小樣本關(guān)系預測任務的數(shù)據(jù)集,每個小樣本關(guān)系預測任務由與其對應、具有相同關(guān)系的三元組構(gòu)成。在這3個數(shù)據(jù)集上,分別包含67、131和183個小樣本關(guān)系預測任務。本文將小樣本關(guān)系預測任務的訓練集、測試集和驗證集按照51/5/11、98/11/22和133/16/34的比例劃分。表1給出以上數(shù)據(jù)集的統(tǒng)計信息。

IMG_257

表1. 數(shù)據(jù)集統(tǒng)計信息首先,我們在3個數(shù)據(jù)集上進行3/5-shot關(guān)系預測,MRR、Hits@1、Hits@5和Hits@10等指標的測試結(jié)果如表2所示。本文提出的CARP模型在3個數(shù)據(jù)集上的各項指標均有顯著提升,與第二高的對比模型相比分別提高了90%、124%、70%和48%。實驗結(jié)果表明,CARP模型可適用于不同的數(shù)據(jù)集,在小樣本場景中可通過挖掘?qū)傩蕴卣鞫鴮W習到更有效的實體表示。

IMG_258

表2. 3/5-shot關(guān)系預測的MRR/Hits@1/Hits@5/Hits@10指標結(jié)果

為了評估樣本數(shù)量k的影響,設(shè)置了k=1、3、5、7,并使用不同的k值測試MRR指標,如圖2所示。結(jié)果表明,CARP模型在3個數(shù)據(jù)集上的MRR指標都優(yōu)于對比模型,驗證了CARP模型對于小樣本關(guān)系預測任務的有效性。隨著k值的增加,MRR值略有增加,表明隨著參考集數(shù)量的增加,CARP模型能獲得更加豐富的信息。

IMG_259

圖2. CARP模型性能隨樣本數(shù)量變化本文進一步通過消融實驗測試特征編碼器和匹配處理器的有效性。為測試特征編碼器的有效性,在參考集上使用平均池化層替換特征編碼器模塊(記為AS_1);為測試使用特征編碼器學習到的屬性特征對查詢處理的有效性,使用隨機特征替換屬性特征并作為嵌入網(wǎng)絡的輸入(記為AS_2),如表3所示。結(jié)果表明,特征編碼器和匹配處理器在CARP模型中能有效提升模型的效果,從觀察到的少量三元組中學習到的屬性特征在小樣本關(guān)系預測中起著至關(guān)重要的作用。

IMG_260

表3. 消融實驗MRR/Hits@1/Hits@5/Hits@10指標結(jié)果最后給出案例分析,在3個數(shù)據(jù)集上測試了不同小樣本關(guān)系預測任務的MRR指標,如圖3所示。結(jié)果表明,CARP模型在3個數(shù)據(jù)集上都具有穩(wěn)定的表現(xiàn),驗證了本文提出的CARP模型針對不同小樣本關(guān)系預測任務的可靠性,在接近80%的小樣本關(guān)系預測任務中達到了最佳MRR,表明本文模型對不同小樣本關(guān)系預測任務的魯棒性。

IMG_261

圖3. 不同關(guān)系預測任務上的MRR

結(jié)語

文提出CARP模型,有效預測觀察到的少量三元組中的新關(guān)系,模型專注于從少量三元組中學習關(guān)系的屬性特征,可有效避免引入背景信息而帶來的噪聲。CARP模型不僅增強了關(guān)系的表示,還有助于在小樣本場景中預測新的關(guān)系事實。

作者簡介

IMG_262

鐘姍娜,碩士,于2023年獲得云南大學計算機科學與技術(shù)專業(yè)碩士學位。主要研究方向為大數(shù)據(jù)分析、知識圖譜。

IMG_263

王笳輝,博士,于2023年獲得云南大學計算機科學與技術(shù)專業(yè)博士學位。在KBS、ESWA、DSE、《軟件學報》和《電子學報》等期刊和會議發(fā)表論文10篇。主要研究方向為知識圖譜、概率圖嵌入。

IMG_264

岳昆,博士,云南大學信息學院教授、博士生導師、副院長、云南省智能系統(tǒng)與計算重點實驗室主任。入選“興滇英才支持計劃”云嶺學者,云南省杰青、中青年學術(shù)和技術(shù)帶頭人。主持國家自然科學基金重點項目等科研項目20余項。在TSC、TCYB、TIST、《計算機學報》、《軟件學報》、AAAI、UAI、CIKM和ICWS等期刊和會議發(fā)表論文100余篇。授權(quán)發(fā)明專利20余項,出版著作5部、參編譯著1部。主要研究方向為海量數(shù)據(jù)處理、大數(shù)據(jù)知識工程、貝葉斯深度學習。

IMG_265

段亮,博士,云南大學信息學院副教授、碩士生導師。于2019年獲得北京航空航天大學計算機科學與技術(shù)專業(yè)博士學位。入選“興滇英才支持計劃”青年人才和云南大學“東陸青年學者”,主持國家自然科學基金青年項目等科研項目5項,在TKDE、KAIS、《軟件學報》、AAAI 、ICDM、UAI和WSDM等期刊和會議發(fā)表論文20余篇。主要研究方向為海量數(shù)據(jù)處理、機器學習、社交網(wǎng)絡分析。

IMG_266

孫正寶,博士,高級實驗師、碩士生導師。2021年獲得云南大學信息與通信工程專業(yè)博士學位。入選“興滇英才支持計劃”青年人才,主持完成國家自然科學基金青年項目等科研項目3項。主要研究方向為地理時空數(shù)據(jù)挖掘。

IMG_267

方巖,碩士,助理研究員。于2020年獲得云南大學計算機科學與技術(shù)專業(yè)碩士學位。主要研究方向為數(shù)據(jù)挖掘、知識圖譜。

期刊簡介

IMG_268

Data Science and Engineering(DSE)是由中國計算機學會(CCF)主辦、數(shù)據(jù)庫專業(yè)委員會承辦、施普林格 自然(Springer Nature)出版的Open Access期刊。為了迎合相關(guān)領(lǐng)域的快速發(fā)展需求,DSE致力于出版所有和數(shù)據(jù)科學與工程領(lǐng)域相關(guān)的關(guān)鍵科學問題與前沿研究熱點,以大數(shù)據(jù)作為研究重點,征稿范疇主要包括4方面:(1)數(shù)據(jù)本身,(2)數(shù)據(jù)信息提取方法,(3)數(shù)據(jù)計算理論,和(4)用來分析與管理數(shù)據(jù)的技術(shù)和系統(tǒng)。

目前期刊已被EI、ESCI與SCOPUS收錄,2022年CiteScore為8.8,影響因子(Impact factor)為4.2,在計算機科學應用領(lǐng)域排名前13%(102/792)、計算機軟件領(lǐng)域排名前16%(65/404)、信息系統(tǒng)領(lǐng)域排名前16%(60/379),人工智能領(lǐng)域排名前19%(58/301)。稿件處理費由贊助商中新賽克(Sinovatio)承擔,歡迎大家免費下載閱讀期刊全文,并積極投稿。

原文鏈接:

https://link.springer.com/article/10.1007/s41019-023-00230-x


文稿:李博涵、王曉黎、王肇國排版:李瑞遠審核:專委會秘書處

IMG_269

IMG_271

CCF數(shù)據(jù)庫專委


學者網(wǎng)消息官方發(fā)布號
返回頂部