基于清華大學(xué)李涓子教授“知識圖譜研究綜述”一文的閱讀筆記
根據(jù)論文大概分為幾個模塊
一、概念
知識圖譜旨在描述客觀世界的概念、實體、事件及其間的關(guān)系
概念是指人們認(rèn)識世界過程中形成的對客觀事物的概念化,如人、動物、組織機(jī)構(gòu)等;
實體是客觀世界中的具體事物,如籃球運(yùn)動員姚明、互聯(lián)網(wǎng)公司騰訊等;
事件是客觀世界的活動,如地震、買賣行為等;
關(guān)系描述概念、實體事件之間客觀存在的關(guān)聯(lián),如畢業(yè)學(xué)院描述了個人及其所在院校的關(guān)系,運(yùn)動員和籃球運(yùn)動員之間的概念和子概念的關(guān)系等。
知識圖譜是將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)信息的能力。涉及的技術(shù):認(rèn)知計算、知識表示和推理、信息檢索與抽取、自然語言處理和語義web、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等, 知識圖譜技術(shù)具體地包括知識表示、知識圖譜構(gòu)建和知識圖譜的應(yīng)用三方面。
知識表示研究客觀世界知識的建模,從知識的表示和存儲,以及知識的使用和計算來使得知識便于機(jī)器的識別和理解;
知識圖譜的構(gòu)建解決如何建立計算機(jī)算法從客觀世界或者或聯(lián)網(wǎng)的各種數(shù)據(jù)資源中獲取客觀世界的知識,主要研究使用何種數(shù)據(jù)和方法抽取何種知識;
知識圖譜應(yīng)用主要研究如何利用知識圖譜建立基于知識的智能服務(wù)系統(tǒng),更好地解決實際應(yīng)用問題。
二、現(xiàn)有的知識圖譜資源
人工構(gòu)建(英文wordNet和Cyc項目以及中文的HowNet,Cyc是世界知識庫)
群體智慧構(gòu)建(維基百科是至今利用群體智能建立的互聯(lián)網(wǎng)上最大的知識資源,因此出現(xiàn)了很多使用維基百科構(gòu)建知識庫的項目,如DBpedia、YAGO和Freebase等。)
基于互聯(lián)網(wǎng)鏈接 數(shù) 據(jù) 構(gòu) 建 的 知 識 資 源(國際萬維網(wǎng)組織W3C 于2007年發(fā)起的開放互聯(lián)數(shù)據(jù)項目(LOD)
基于機(jī)器學(xué)習(xí)和信息抽取構(gòu)建的知識圖譜(從互聯(lián)網(wǎng)數(shù)據(jù)自動獲取知識是建立可持續(xù)發(fā)展知識圖譜的發(fā)展趨勢。這類知識圖譜構(gòu)建的特點是面向互聯(lián)網(wǎng)的大規(guī)模、開放、異構(gòu)環(huán)境,利用機(jī)器學(xué)習(xí)和信息抽取技術(shù)自動獲取 Web上的信息構(gòu)建知識庫。如華盛頓大學(xué)圖靈中心的KnowItAll和TextRunner)
三、知識表示
基于符號邏輯的表示(與人類的自然語言比較接近,是最早使用的一種知識表示方法,但在大數(shù)據(jù)時期不能很好的解決知識表示的問題)
萬維網(wǎng)內(nèi)容的知識表示(XML,基于萬維網(wǎng)資源語義元數(shù)據(jù)描述框架RDF,基于描述邏輯的本體描述語言O(shè)WL,XML通過內(nèi)容標(biāo)記,便于數(shù)據(jù)交換;(重點)RDF通過三元組(主體,謂詞,客體)描述互聯(lián)網(wǎng)資源之間的語義關(guān)系;OWL構(gòu)建在RDF之上,具有更強(qiáng)的表達(dá)及解釋能力的語言。)
表示學(xué)習(xí)(通過機(jī)器學(xué)習(xí)或深度學(xué)習(xí),將研究對象的語義信息表示為稠密低維的實值向量。對不同粒度的知識單元進(jìn)行隱式的向量化表示,來支持大數(shù)據(jù)環(huán)境下知識的快速計算)
三、知識圖譜的構(gòu)建技術(shù)
互聯(lián)網(wǎng)上分布、異構(gòu)的海量資源 ->概念層次學(xué)習(xí),事實學(xué)習(xí);已有的結(jié)構(gòu)化異構(gòu)語義資源->異構(gòu)資源的語義集成
1.概念層次學(xué)習(xí)通過合理的技術(shù),抽取知識表示中的概念,確定其上下位關(guān)系
2.事實學(xué)習(xí):
有監(jiān)督的事實知識獲取方法需要有已標(biāo)注文檔作為訓(xùn)練集,可以分為基于規(guī)則學(xué)習(xí)、基于分類標(biāo)注和基于序列標(biāo)注方法等?;谝?guī)則學(xué)習(xí)的語義標(biāo)注方法從帶語義標(biāo)注的語料中自動學(xué)習(xí)標(biāo)注規(guī)則,利用規(guī)則對數(shù)據(jù)資源進(jìn)行語義標(biāo)注,適合比較規(guī)范資源上的知識獲?。换诜诸惖闹R獲取方法將知識獲取轉(zhuǎn)化為分類問題,根據(jù)確定的標(biāo)注特征從標(biāo)注語料中學(xué)習(xí)標(biāo)注模型;基于序列模式標(biāo)注的方法同時考慮多個語義標(biāo)注之間的關(guān)系,可以提高標(biāo)注的準(zhǔn)確率。
半監(jiān)督的知識獲取方法主要包括自擴(kuò)展方法和弱監(jiān)督方法。自擴(kuò)展方法需要初始的種子實體對,根據(jù)這些種子實體對,發(fā)現(xiàn)新的語義模板,再對語料進(jìn)行迭代抽取以發(fā)現(xiàn)新的實體對,其主要問題是語義漂移;弱監(jiān)督方法使用知識庫中的關(guān)系啟發(fā)式地標(biāo)注文本,其主要問題在于訓(xùn)練實例中本身帶有大量噪音。
無監(jiān)督的知識獲取方法主要是開放信息抽取,使用自然語言處理方法,無須預(yù)先給定要抽取的關(guān)系類別,自動將自然語言句子轉(zhuǎn)換為命題,這種方法在處理復(fù)雜句子時效果會受到影響
3.語義集成,就是在異構(gòu)知識庫之間,發(fā)現(xiàn)實體間的等價關(guān)系,從而實現(xiàn)知識共享。主要方法包括:
基于文本的方法主要利用本體中實體的文本信息,例如實體的標(biāo)簽和摘要。通過計算兩個實體字符串之間的相似度來確定實體之間是否具有匹配關(guān)系。
基于結(jié)構(gòu)的 方 法 主 要 利 用 本 體 的 圖 結(jié) 構(gòu) 信 息 對 本 體 進(jìn) 行 匹 配。利用本體的圖結(jié)構(gòu),對實體間的相似度進(jìn)行傳播,從而提高對齊的效果。
基于背景知識的方法一般使用DBpedia或WordNet等已有的大規(guī)模領(lǐng)域無關(guān)知識庫作為背景知識來提高匹配效果。
基于機(jī)器學(xué)習(xí)的方法將本體匹配問題視為機(jī)器學(xué)習(xí)中的分類或優(yōu)化問題,從而采取機(jī)器學(xué)習(xí)方法獲得匹配結(jié)果。
四、知識圖譜的應(yīng)用
語義搜索、知識問答,以及基于知識的大數(shù)據(jù)分析與決策