知識圖譜的最新進(jìn)展、關(guān)鍵技術(shù)和挑戰(zhàn)
人工智能技術(shù)與咨詢?
本文來自《?工程科學(xué)學(xué)報(bào)?》,作者馬忠貴等
隨著知識的不斷積累和科學(xué)的飛速發(fā)展,人類社會進(jìn)行了多次改變社會結(jié)構(gòu)的重大生產(chǎn)力革命。最近的生產(chǎn)力革命正是由Web技術(shù)發(fā)展引發(fā)的信息革命。伴隨著Web技術(shù)不斷地演進(jìn)與發(fā)展,人類即將邁向基于知識互聯(lián)的嶄新“Web3.0”時(shí)代[1]。受語義網(wǎng)絡(luò)(Semantic network)和語義網(wǎng)(Semantic web)的啟發(fā),Google公司提出了知識圖譜(Knowledge graph)[2],目的是為了提高搜索引擎的智能能力,增強(qiáng)用戶的搜索質(zhì)量和體驗(yàn)。隨后,這一概念被傳播開來,并廣泛應(yīng)用于醫(yī)療、教育、金融、電商等行業(yè)中,推動人工智能從感知智能向認(rèn)知智能跨越。目前,已經(jīng)涌現(xiàn)出一大批知識圖譜,其中國外具有代表性的有YAGO[3]、DBpedia[4]、Freebase[5]、NELL[6]、Probase[7]等;國內(nèi)出現(xiàn)了開放知識圖譜項(xiàng)目OpenKG[8],中文知識圖譜CN-DBpedia[9]、zhishi.me[10]等。知識圖譜的本質(zhì)是連接實(shí)體間關(guān)系的圖,即揭示實(shí)體之間關(guān)系的語義網(wǎng)絡(luò)[11],普遍采用資源描述框架(Resource description framework,RDF)來描述知識。知識圖譜全生命周期主要包括3種關(guān)鍵技術(shù):(1)從樣本源中獲取數(shù)據(jù),并將其表示為結(jié)構(gòu)化知識的知識抽取與表示技術(shù);(2)融合異源知識的知識融合技術(shù);(3)根據(jù)知識圖譜中已有的知識進(jìn)行知識推理和質(zhì)量評估。
近幾年,越來越多的學(xué)者將目光聚焦在了認(rèn)知智能上,知識圖譜受到越來越廣泛的關(guān)注。除了知識圖譜的技術(shù)文章爆發(fā)式增長之外,綜述文章也越來越多。文獻(xiàn)[11]針對知識圖譜的相關(guān)技術(shù)進(jìn)行了全面解析,文獻(xiàn)[12-13]綜述了知識圖譜核心技術(shù)的研究進(jìn)展以及典型應(yīng)用,文獻(xiàn)[14]總結(jié)了面向知識圖譜的推理方法并展望了未來的研究方向,文獻(xiàn)[15]定義知識圖譜與本體的關(guān)系并簡述了已開發(fā)的國內(nèi)外知識圖譜。2019年年末和2020年年初,國內(nèi)有3本知識圖譜的專著問世[16-18],我們有了寫作本論文的動機(jī)。與已有的綜述文獻(xiàn)相比,本文的主要貢獻(xiàn)如下:梳理了知識圖譜全生命周期技術(shù),從知識抽取與表示、知識融合、知識推理、知識應(yīng)用4個(gè)層面展開綜述,建立方法論思維。限于篇幅,針對知識圖譜的4個(gè)關(guān)鍵技術(shù)進(jìn)行了取舍,重點(diǎn)介紹了知識融合與知識推理技術(shù)的最新進(jìn)展。同時(shí),簡要介紹了知識圖譜目前的挑戰(zhàn)并展望了未來的發(fā)展方向。
1.?? 知識抽取與表示
對于知識圖譜而言,首要的問題是:如何從海量的數(shù)據(jù)提取有用信息并將得到的信息有效表示并儲存,就是所謂的知識抽取與表示技術(shù)。知識抽取與表示,也可以稱為信息抽取,其目標(biāo)主要是從樣本源中抽取特定種類的信息,例如實(shí)體、關(guān)系和屬性,并將這些信息通過一定形式表達(dá)并儲存。對于知識圖譜,一般而言采用RDF描述知識,形式上將有效信息表示為(主語,謂語,賓語)三元組的結(jié)構(gòu),某些文獻(xiàn)中也表示為(頭實(shí)體,關(guān)系,尾實(shí)體)的結(jié)構(gòu)。針對信息抽取種類的不同,知識抽取又可分為實(shí)體抽取、關(guān)系抽取以及屬性抽取。圖1展示了知識圖譜的技術(shù)架構(gòu)。
圖? 1? 知識圖譜的技術(shù)架構(gòu)
Figure? 1.? Architecture of the Knowledge Graph
實(shí)體抽取也稱為命名實(shí)體識別,主要目標(biāo)是從樣本源中識別出命名實(shí)體。實(shí)體是知識圖譜最基本的元素,實(shí)體抽取的完整性、準(zhǔn)確率、召回率將直接影響知識圖譜的質(zhì)量[12]。文獻(xiàn)[19]將實(shí)體抽取的方法歸納為3種:(1)基于規(guī)則與詞典的方法。通常需要為目標(biāo)實(shí)體編寫相應(yīng)的規(guī)則,然后在原始語料中進(jìn)行匹配,Quimbaya等[20]提出了一個(gè)基于詞典的實(shí)體抽取方法,并應(yīng)用于電子健康記錄。(2)基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。主要利用數(shù)據(jù)來對模型進(jìn)行訓(xùn)練,然后再利用訓(xùn)練好的模型去識別實(shí)體,Liu等[21]將K近鄰(K-nearest neighbors,KNN)算法和線性條件隨機(jī)場(Conditional random fields,CRF)模型結(jié)合來識別實(shí)體。(3)面向開放域的抽取方法。主要是針對海量網(wǎng)絡(luò)數(shù)據(jù),Jain與Pennacchiotti[22]提出通過已知實(shí)體的語義特征來識別命名實(shí)體,并提出實(shí)體聚類的無監(jiān)督開放域聚類算法。Zhang與Elhadad[23]提出一個(gè)無監(jiān)督的實(shí)體抽取方法,利用術(shù)語、語料庫統(tǒng)計(jì)信息以及淺層語法知識從生物醫(yī)學(xué)中抽取實(shí)體。
通過實(shí)體抽取獲取的實(shí)體之間往往是離散且無關(guān)聯(lián)的。通過關(guān)系抽取,可以建立起實(shí)體間的語義鏈接。關(guān)系抽取技術(shù)主要分為3種:(1)基于模板的關(guān)系抽取。使用模板通過人工或者機(jī)器學(xué)習(xí)的方法抽取實(shí)體關(guān)系,雖然準(zhǔn)確率高且針對性強(qiáng),但是其也具有不適用于大規(guī)模數(shù)據(jù)集、低召回率、難以維護(hù)等缺點(diǎn)。(2)基于監(jiān)督學(xué)習(xí)的關(guān)系抽取。將大量人工標(biāo)注的數(shù)據(jù)送入模型中訓(xùn)練,劉克彬等[24]根據(jù)本體知識庫訓(xùn)練模型,在開放數(shù)據(jù)集中對關(guān)系進(jìn)行抽取,取得了極高的準(zhǔn)確率。Sun與Han[25]提出了名為FTK(Feature-enriched tree kernel)的模型,利用設(shè)計(jì)好的有效特征訓(xùn)練,計(jì)算關(guān)系實(shí)例相似度并通過支持向量機(jī)對關(guān)系進(jìn)行分類。(3)基于半監(jiān)督或無監(jiān)督學(xué)習(xí)的關(guān)系抽取。基于少量人工標(biāo)注數(shù)據(jù)或者無標(biāo)注數(shù)據(jù),使用最大期望(Expectation maximization)等算法的半監(jiān)督關(guān)系抽取方法進(jìn)行關(guān)系抽取。Sun與Grishman[26]提出名為LGCo-Testing的主動學(xué)習(xí)系統(tǒng),F(xiàn)u與Grishman[27]則進(jìn)一步優(yōu)化了這個(gè)系統(tǒng)。Ji等[28]提出基于句子級注意力和實(shí)體描述的神經(jīng)網(wǎng)絡(luò)關(guān)系抽取模型APCNNS。該模型實(shí)際采用了多示例學(xué)習(xí)的策略,將同一關(guān)系的樣例句子組成樣例包,關(guān)系分類是基于樣例包的特征進(jìn)行的。實(shí)驗(yàn)結(jié)果表明,該模型可以有效地提高遠(yuǎn)程監(jiān)督關(guān)系抽取的準(zhǔn)確率。在采用多示例學(xué)習(xí)策略時(shí),有可能出現(xiàn)整個(gè)樣例包都包含大量噪聲的情況。針對這一問題,F(xiàn)eng等[29]提出了基于強(qiáng)化學(xué)習(xí)的關(guān)系分類模型CNN-RL(Convolutional neural networks and reinforcement learning),該模型包括2個(gè)重要模塊:樣例選擇器和關(guān)系分類器。實(shí)驗(yàn)結(jié)果表明:該模型獲得了比句子級卷積神經(jīng)網(wǎng)絡(luò)和樣例包級關(guān)系分類模型更好的結(jié)果。最近的工作通過強(qiáng)化學(xué)習(xí)來處理句子級的去噪,這種學(xué)習(xí)將來自遠(yuǎn)程監(jiān)督的標(biāo)簽視為事實(shí)。然而,很少有工作專注于直接校正噪聲標(biāo)簽的標(biāo)簽級降噪。Sun等[30]提出了一種基于強(qiáng)化學(xué)習(xí)的標(biāo)簽去噪方法,用于遠(yuǎn)程監(jiān)督關(guān)系提取。該模型由兩個(gè)模塊組成:抽取網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。標(biāo)簽去噪的核心是在策略網(wǎng)絡(luò)中設(shè)計(jì)一個(gè)策略來獲取潛在標(biāo)簽,可以在其中選擇使用遠(yuǎn)距離監(jiān)督標(biāo)簽或從抽取網(wǎng)絡(luò)預(yù)測標(biāo)簽的操作。實(shí)驗(yàn)結(jié)果表明,強(qiáng)化學(xué)習(xí)對于噪聲標(biāo)簽的校正是有效的,并且所提出的方法可以勝過最新的關(guān)系抽取系統(tǒng)。
屬性抽取的目標(biāo)是補(bǔ)全實(shí)體信息,通過從樣本源中獲取實(shí)體屬性信息或?qū)傩灾怠?shí)體屬性可以看作是屬性值與實(shí)體間的一種關(guān)系,因而可以通過關(guān)系抽取的解決思路來獲得。Wu與Weld[31]利用百科類網(wǎng)站的半結(jié)構(gòu)化數(shù)據(jù),訓(xùn)練抽取模型,之后將抽取模型應(yīng)用在非結(jié)構(gòu)化數(shù)據(jù)中抽取屬性。Chang等[32]提出了基于張量分解的關(guān)系抽取方法,這一方法也可以應(yīng)用在屬性抽取中,通過利用關(guān)于實(shí)體種類相應(yīng)的領(lǐng)域知識來更好地獲得實(shí)體所缺少的屬性值。
2.?? 知識融合
通過知識抽取與表示,初步獲得了數(shù)量可觀的形式化知識。由于知識來源的不同,導(dǎo)致知識的質(zhì)量參差不齊,知識之間存在著沖突或者重疊。此時(shí)初步建立的知識圖譜,知識的數(shù)量和質(zhì)量都有待提高。應(yīng)用知識融合技術(shù)對多源知識進(jìn)行處理,一方面提升知識圖譜的質(zhì)量,另一方面豐富知識的存量。Zhao等[33]對最新的知識融合進(jìn)行了綜述。早期的知識融合是通過傳統(tǒng)的數(shù)據(jù)融合方法完成,Dong等[34]比較了傳統(tǒng)的數(shù)據(jù)融合方法,選擇了幾種方法改良,并應(yīng)用到知識融合中。隨著知識圖譜的飛速發(fā)展,目前也出現(xiàn)了專門的知識融合方法。下面從實(shí)體消歧、實(shí)體對齊和知識合并3個(gè)方面進(jìn)行綜述。
2.1?? 實(shí)體消歧
對于知識圖譜中的每一個(gè)實(shí)體都應(yīng)有清晰的指向,即明確對應(yīng)某個(gè)現(xiàn)實(shí)世界中存在的事物。初步構(gòu)建的知識圖譜中,因數(shù)據(jù)來源復(fù)雜,存在著同名異義的實(shí)體。例如,名稱為“喬丹”的實(shí)體既可以指美國著名籃球運(yùn)動員,也可以指葡萄牙足球運(yùn)動員,還可以指某個(gè)運(yùn)動品牌。為了確保每一個(gè)實(shí)體有明確的含義,采用實(shí)體消歧技術(shù)來使得同名實(shí)體得以區(qū)分。
利用已有的知識庫和知識圖譜中隱含的信息來幫助進(jìn)行語義消歧,Han與Zhao[35]提出使用維基百科(Wikipedia)作為背景知識,通過利用Wikipedia的語義知識,例如社會關(guān)系來更精確地衡量實(shí)體間的相似性,從而提升實(shí)體消歧的效果。Sen[36]提出了主題模型,利用知識庫中存在的文本信息,學(xué)習(xí)共有實(shí)體組來實(shí)現(xiàn)實(shí)體集體消歧。Guo與Barbosa[37]基于語義相似性的自然概念提出了兩個(gè)針對集體消歧的方法。通過在知識庫上知識子圖中隨機(jī)游走得到的概率分布來表示實(shí)體和文檔的語義,之后基于迭代的貪婪逼近算法和學(xué)習(xí)排序的方法來進(jìn)行實(shí)體消歧任務(wù)。Zhu與Iglesias[38]提出了基于語義上下文相似度的命名實(shí)體消歧方法,基于上下文和知識圖譜中實(shí)體的信息詞之間的語義相似度來進(jìn)行實(shí)體消歧。另外還提出了Category2Vec模型,將目錄也用嵌入向量的形式表示出來。主要思想是候選實(shí)體和上下文單詞間應(yīng)存在語義聯(lián)系,利用該聯(lián)系來幫助選出正確的實(shí)體。
在線百科全書由專家和網(wǎng)絡(luò)用戶編寫,有著高覆蓋率和結(jié)構(gòu)信息豐富的特點(diǎn)。Shen等[39]提出LINDEN(A framework for Linking named entities with knowledge base?via?semantic knowledge)模型,同時(shí)利用Wikipedia和WordNet,基于文本相似性和主題一致性進(jìn)行實(shí)體消歧。Ratinov等[40]提出名為GLOW(Global and local approaches of Wikipedia)的系統(tǒng),GLOW組合捕捉實(shí)體指稱與Wikipedia題目間的相關(guān)性的本地模型和選擇準(zhǔn)確歧義語境的方法。統(tǒng)計(jì)Wikipedia中實(shí)體的頻率作為候選實(shí)體的排序依據(jù)。Alokaili與Menai[41]提出了基于支持向量機(jī)的集成學(xué)習(xí)來解決實(shí)體消歧問題,使用不同的支持向量機(jī)的核函數(shù)來學(xué)習(xí)不同的集成學(xué)習(xí)算法,例如bagging、boosing、voting等。具體流程是將命名實(shí)體作為輸入,根據(jù)Wikipedia中的知識生成候選實(shí)體,構(gòu)造特征向量,最后送入集成學(xué)習(xí)模塊里完成實(shí)體消歧。
值得一提的是,Agarwal等[42]提出了利用時(shí)間的實(shí)體消歧思路,通過計(jì)算實(shí)體的時(shí)序特征來和輸入的命名實(shí)體上下文的時(shí)序比較,即使命名實(shí)體的上下文提供的信息不充分也可以完成實(shí)體消歧任務(wù)。Dong[43]將基于相似度特征的隨機(jī)森林模型和基于XGBoost、基于邏輯回歸以及基于神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行比較,隨機(jī)森林模型不僅擁有極高的準(zhǔn)確率和召回率,且不像XGBoost和神經(jīng)網(wǎng)絡(luò)那樣容易受到超參數(shù)的影響,在實(shí)體消歧任務(wù)中表現(xiàn)突出。
2.2?? 實(shí)體對齊
在現(xiàn)實(shí)生活中,一個(gè)事物對應(yīng)著不止一個(gè)稱呼,例如,“中華人民共和國”和“中國”都對應(yīng)于同一個(gè)實(shí)體。在知識圖譜中也同樣存在著同義異名的實(shí)體,通過實(shí)體對齊,將這些實(shí)體指向同一客觀事物。蘇佳林等[44]提出基于決策樹的自適應(yīng)屬性選擇的實(shí)體對齊方法。通過聯(lián)合學(xué)習(xí)將實(shí)體嵌入表示在一個(gè)向量空間后,由信息增益選出最優(yōu)約束屬性,訓(xùn)練實(shí)體對齊模型,計(jì)算最優(yōu)約束屬性相似度和實(shí)體語義相似度完成實(shí)體對齊。
Cheng等[45]提出了一個(gè)全自動的實(shí)體對齊框架,包括候選實(shí)體生成器、選擇器和清理器,利用搜索引擎使用者的查詢信息和查詢后的點(diǎn)擊記錄,計(jì)算出實(shí)體間的相似度,完成實(shí)體對齊任務(wù)。Pantel等[46]提出了一個(gè)大規(guī)模相似性模型,在MapReduce框架下實(shí)施并且部署了超過2000億從互聯(lián)網(wǎng)上爬取得到的單詞。通過計(jì)算5億terms得到的相似度矩陣來進(jìn)行實(shí)體對齊任務(wù)。Chakrabarti等[47]通過一個(gè)同義發(fā)現(xiàn)框架將實(shí)體相似性作為輸入生成一個(gè)滿足簡單自然屬性的同義詞,提出了兩種新的相似性度量法,并通過在bing系統(tǒng)上實(shí)際應(yīng)用,發(fā)現(xiàn)可以有效識別同義詞。Mudgal等[48]綜述了基于深度學(xué)習(xí)的實(shí)體對齊方法,通過將這些方法分類,分別組合設(shè)計(jì)空間中屬性嵌入、屬性相似度表示、分類的各個(gè)方法,得到最具代表性的平滑倒詞頻(Smooth inverse frequency,SIF)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)、Attention和Hybrid共4種解決方案。
針對基于嵌入表示的實(shí)體對齊,Sun等[49]提出自舉的方法解決標(biāo)記訓(xùn)練數(shù)據(jù)不足的問題。根據(jù)全局最優(yōu)目標(biāo)來標(biāo)記可能的對齊,并在迭代中將其加入到訓(xùn)練數(shù)據(jù)中,不斷訓(xùn)練嵌入表示模型。Guan等[50]發(fā)現(xiàn)基于監(jiān)督學(xué)習(xí)的實(shí)體對齊方法,普遍在取得標(biāo)簽數(shù)據(jù)上需要花費(fèi)大量時(shí)間,無監(jiān)督學(xué)習(xí)方法的表現(xiàn)則很大程度地依賴于驗(yàn)證集上復(fù)雜的相似度衡量方式。Zhang等[51]從實(shí)體的多視角出發(fā),利用實(shí)體的名稱、實(shí)體間的關(guān)系、實(shí)體的屬性的組合策略來學(xué)習(xí)實(shí)體的嵌入,并根據(jù)實(shí)體的表示來完成實(shí)體對齊任務(wù)。
2.3?? 知識合并
實(shí)體消歧和實(shí)體對齊更多的是關(guān)注知識圖譜中的實(shí)體,從實(shí)體層面上通過各種方法來提升知識圖譜的知識質(zhì)量。知識合并則是從知識圖譜整體層面上進(jìn)行知識的融合,基于現(xiàn)存的知識庫和知識圖譜來擴(kuò)大知識圖譜的規(guī)模,豐富其中蘊(yùn)含的知識。然而現(xiàn)存的知識庫或者知識圖譜都是各種機(jī)構(gòu)或者組織根據(jù)自己的需求設(shè)計(jì)創(chuàng)建,其中的知識也存在著多樣性和異構(gòu)性,并且存在很多知識上的重復(fù)和錯(cuò)誤,因而需要使用知識合并技術(shù)來解決這些問題[52]。知識圖譜的合并需要解決2個(gè)層面的問題:數(shù)據(jù)層的合并和模式層的合并[53]。知識合并過程中可能出現(xiàn)的來自兩個(gè)數(shù)據(jù)源的同一實(shí)體的屬性值卻不相同的現(xiàn)象,我們稱這種知識合并過程中出現(xiàn)的現(xiàn)象為知識沖突。針對知識沖突問題,可以采用沖突檢測與消解以及真值發(fā)現(xiàn)等技術(shù)進(jìn)行消除,再將各個(gè)來源的知識關(guān)聯(lián)合并為一個(gè)知識圖譜。
沖突消解目前的研究方向是利用圖譜自身存在的特征,Trisedya等[54]利用屬性元組生成屬性特征嵌入向量。使用成分函數(shù)來表示屬性。將多個(gè)屬性值都轉(zhuǎn)化為單一向量,并將相似的屬性映射為相似的向量表示。利用這些屬性特征嵌入向量將兩個(gè)圖譜中的實(shí)體嵌入轉(zhuǎn)化到同一個(gè)空間中,計(jì)算實(shí)體的相似性。Chen等[55]針對多語言知識圖譜的合并,提出了利用實(shí)體描述的基于嵌入的半監(jiān)督跨語言學(xué)習(xí)方法,在一個(gè)大規(guī)模數(shù)據(jù)集上通過迭代的方式聯(lián)合訓(xùn)練一個(gè)多語言知識圖譜嵌入模型和一個(gè)文字描述嵌入模型,訓(xùn)練模型完成圖譜的合并。Cao等[56]提出多通道圖神經(jīng)網(wǎng)絡(luò)模型,通過多個(gè)通道將兩個(gè)知識圖譜進(jìn)行魯棒編碼。在每個(gè)通道中通過不同的關(guān)系加權(quán)方案來編碼知識圖譜,使用知識圖譜補(bǔ)全和跨知識圖譜注意力策略來分別修剪每個(gè)圖譜中的獨(dú)有實(shí)體,通過池化技術(shù)組合這些通道。
3.?? 知識推理與質(zhì)量評估
知識推理技術(shù)可以提升知識圖譜的完整性和準(zhǔn)確性。傳統(tǒng)的知識推理方法擁有極高的準(zhǔn)確率,但無法適配大規(guī)模知識圖譜。針對知識圖譜數(shù)據(jù)量大、關(guān)系復(fù)雜的特點(diǎn),提出了面向大規(guī)模知識圖譜的知識推理方法,并歸納為以下4類[14,?57]:(1)基于圖結(jié)構(gòu)和統(tǒng)計(jì)規(guī)則挖掘的推理;(2)基于知識圖譜表示學(xué)習(xí)的推理;(3)基于神經(jīng)網(wǎng)絡(luò)的推理;(4)混合推理。
3.1?? 基于圖結(jié)構(gòu)和統(tǒng)計(jì)規(guī)則挖掘的推理
受傳統(tǒng)推理地啟發(fā),基于知識圖譜的圖結(jié)構(gòu)以及挖掘蘊(yùn)藏在知識圖譜中的規(guī)則進(jìn)行推理的方法得以提出,并在知識推理任務(wù)上取得一定效果。Lao與Cohen[58]提出了路徑排序算法(Path ranking algorithm,PRA),將實(shí)體間的路徑作為特征,通過隨機(jī)行走算法來計(jì)算實(shí)體間是否存在潛在的關(guān)系。Wang等[59]設(shè)計(jì)了耦合路徑排序算法(Coupled path ranking algorithm,CPRA),并提出一種全新的逐次聚合的策略,通過這一策略使得具有強(qiáng)相關(guān)度的關(guān)系聚合在一起。使用多任務(wù)學(xué)習(xí)策略預(yù)測聚合后的關(guān)系。Xiong等[60]針對多跳關(guān)系路徑的學(xué)習(xí)提出使用強(qiáng)化學(xué)習(xí)的框架,設(shè)計(jì)了一個(gè)具有連續(xù)基于知識圖譜嵌入狀態(tài)的策略Agent,通過Agent在知識圖譜的向量空間中尋找最有潛力的關(guān)系加入路徑完成推理。
Cohen[61]針對如何將知識整合到梯度學(xué)習(xí)的系統(tǒng)的問題,描述了一個(gè)概率演繹的數(shù)據(jù)庫Tensorlog,通過可微分的過程來進(jìn)行推理。Yang等[62]研究了基于學(xué)習(xí)一階概率邏輯規(guī)則進(jìn)行知識庫推理的問題。受到Tensorlog的啟發(fā),提出了名為神經(jīng)邏輯規(guī)劃的框架,將一階邏輯規(guī)則的參數(shù)和結(jié)構(gòu)整合到一個(gè)端到端的可微分模型中。設(shè)計(jì)了一個(gè)帶Attention機(jī)制和存儲功能的神經(jīng)控制系統(tǒng)來學(xué)習(xí)組合那些用于完成推理的規(guī)則。Kampffmeyer等[63]提出深度圖傳播模型,在利用圖結(jié)構(gòu)的便利的同時(shí)解決知識過于稀疏的問題。
3.2?? 基于知識圖譜表示學(xué)習(xí)的推理
表示模型將知識圖譜中相應(yīng)的實(shí)體和關(guān)系用向量、矩陣或者張量的形式表示,表示后進(jìn)行運(yùn)算完成知識推理任務(wù)。因其簡單高效且適應(yīng)于大規(guī)模知識圖譜推理的特點(diǎn)而不斷發(fā)展。
3.2.1?? 基于距離的推理模型
Bordes等[64]提出了TransE模型,將所有的實(shí)體和關(guān)系表示為同一個(gè)空間下的向量,假設(shè)事實(shí)元組中頭實(shí)體向量和關(guān)系向量之和應(yīng)該約等于尾實(shí)體的向量。通過隨機(jī)替換事實(shí)元組中的某一項(xiàng)來構(gòu)建負(fù)例。計(jì)算元組中頭向量和關(guān)系向量的和向量與尾向量的距離作為候選實(shí)體的得分。盡管TransE模型簡單且有效,但其仍然具有許多缺陷,因而衍生出很多基于該模型的方法。Wang等[65]提出TransH模型,每一個(gè)關(guān)系都有一個(gè)特定的超平面,頭實(shí)體向量和尾實(shí)體向量投影至特定的關(guān)系超平面計(jì)算事實(shí)元組得分。Lin等[66]提出TransR模型,針對特定關(guān)系引入了空間。Xiao等[67]提出了ManifoldE模型,引入了特定關(guān)系參數(shù)。尾實(shí)體向量有效范圍是以頭實(shí)體向量和關(guān)系實(shí)體向量的和向量為中心,以特定關(guān)系參數(shù)為半徑的一個(gè)超球面。Feng等[68]提出的TransF模型和ManifoldE模型有著相似的思路,放寬了TransE中對實(shí)體關(guān)系向量的要求,僅需要頭實(shí)體向量位于尾實(shí)體向量和負(fù)的關(guān)系向量的和向量的方向上,同時(shí)尾實(shí)體向量也位于頭實(shí)體向量和關(guān)系向量的和向量的方向上。
Kzaemi與Poole[69]提出SimplE模型,允許實(shí)體擁有兩個(gè)獨(dú)立學(xué)習(xí)的向量表示,而關(guān)系由一個(gè)向量表示。Ebisu與Ichise[70]提出了TorusE嵌入模型,將TransE的思想應(yīng)用在李群(Lie group)理論中的圓環(huán)面上,即在圓環(huán)面上計(jì)算表示向量間的距離來取得元組得分。Xu與Li[71]提出DihEdral模型,針對性地增強(qiáng)了知識推理的可解釋性,通過離散值將關(guān)系建模成組的元素,顯著地縮小了解空間。Sun等[72]提出RotatE模型,將關(guān)系看作是從頭實(shí)體向量向尾實(shí)體向量的旋轉(zhuǎn),元組得分通過計(jì)算旋轉(zhuǎn)后的頭實(shí)體向量和尾實(shí)體向量的距離得到Zhang等[73]引入超復(fù)數(shù)的概念,提出了QuatE模型,通過一個(gè)擁有三個(gè)虛部的超復(fù)數(shù)來表示知識圖譜中的實(shí)體和關(guān)系。與RotatE想法類似,QuatE模型將關(guān)系看作超復(fù)數(shù)平面下頭實(shí)體到尾實(shí)體的旋轉(zhuǎn)。
3.2.2?? 基于語義匹配的推理模型
Nickel等[74]提出的RESCAL模型將實(shí)體和向量聯(lián)系起來,從而捕捉其中隱含的語義,潛在因子間的相互作用建模后得到關(guān)系表示矩陣,計(jì)算實(shí)體向量與關(guān)系矩陣的乘積來得到元組得分。Yang等[75]提出DistMult模型,每一個(gè)關(guān)系都表示為向量,再將向量轉(zhuǎn)化為對角矩陣,通過計(jì)算頭尾實(shí)體向量與關(guān)系對角矩陣的乘積得到元組的得分。Trouillon等[76]提出Complex模型,引入復(fù)數(shù)嵌入針對不對稱關(guān)系建模。在Complex模型中,實(shí)體和關(guān)系都由復(fù)平面中的向量表示,計(jì)算頭實(shí)體向量和根據(jù)關(guān)系向量建立的對角矩陣以及尾實(shí)體向量的共軛這三者的乘積,結(jié)果的實(shí)部作為元組的得分。Liu等[77]提出ANALOGY模型,利用實(shí)體和關(guān)系的類比性質(zhì)來建模,實(shí)體由嵌入空間中的向量表示,將關(guān)系矩陣處理得到一系列稀疏的對角矩陣,減少了關(guān)系矩陣的參數(shù)。將頭尾實(shí)體向量與關(guān)系矩陣的積作為元組得分。
Balazevic等[78]提出了基于KKT(Karush Kuhn Tucker)分解的tuckER模型,將所有實(shí)體和關(guān)系分別表示為行向量嵌入矩陣,從這兩個(gè)矩陣中取出頭尾實(shí)體向量和關(guān)系向量,將這些向量和一個(gè)核心張量相乘得到元組的得分。針對大部分現(xiàn)存的基于知識圖譜嵌入的模型,Kristiadi等[79]研究了如何將文字信息整合到現(xiàn)存的表示模型中去,提出了LiteralE模型,在實(shí)體的嵌入表示上加入文字信息,用實(shí)體表示和文字信息的聯(lián)合表示取代原本模型的單獨(dú)的實(shí)體表示。Zhang等[80]提出了CrossE模型,基于向量表示實(shí)體和關(guān)系,生成多個(gè)元組的特定嵌入即交互嵌入。由交互表示和尾實(shí)體的嵌入表示的匹配程度給出元組得分。
基于表示學(xué)習(xí)的知識推理模型的比較如表1所示。
表? 1? 部分基于表示學(xué)習(xí)的知識推理模型
Table? 1.? Some knowledge reasoning models based on representation learning
Method | Scoring function | The entity representations | The relation representation |
---|---|---|---|
TransE |
?∥h+t?r∥1/2?‖h+t?r‖1/2 |
h,t∈Rdh,t∈Rd |
r∈Rdr∈Rd |
ManifoldE |
?(∥h+t?r∥22?θ2r)2?(‖h+t?r‖22?θr2)2 |
h,t∈Rdh,t∈Rd |
r∈Rdr∈Rd |
SimplE |
12(?hei,vr,tej?+?hej,vr?1,tei?)12(?hei,vr,tej?+?hej,vr?1,tei?) |
he,te∈Rdhe,te∈Rd |
vr∈Rdvr∈Rd |
RotatE |
∥h°r?t∥‖h°r?t‖ |
h,t∈Cdh,t∈Cd |
r∈Cdr∈Cd |
QuatE |
h?r|r|?th?r|r|?t |
h,t∈Hdh,t∈Hd |
r∈Hdr∈Hd |
RESCAL |
hTMrthTMrt |
h,t∈Rdh,t∈Rd |
Mr∈Rd×dMr∈Rd×d |
DistMult |
hTdiag(r)thTdiag(r)t |
h,t∈Rdh,t∈Rd |
r∈Rdr∈Rd |
ComplEx |
Re(hTdiag(r)tˉ)Re(hTdiag(r)tˉ) |
h,t∈Cdh,t∈Cd |
r∈Cdr∈Cd |
ANALOGY |
hTMrthTMrt |
h,t∈Rdh,t∈Rd |
Mr∈Rd×dMr∈Rd×d |
CrossE |
σ(tanh(cr°h+cr°h°r+b)tT)σ(tanh(cr°h+cr°h°r+b)tT) |
h,t∈Rdh,t∈Rd |
r∈Rdr∈Rd |
3.3?? 基于神經(jīng)網(wǎng)絡(luò)的推理
基于神經(jīng)網(wǎng)絡(luò)的推理方法將知識圖譜中事實(shí)元組表示為向量形式送入神經(jīng)網(wǎng)絡(luò)中,通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)不斷提高事實(shí)元組的得分,最終通過輸出得分選擇候選實(shí)體完成推理。Socher等[81]提出適應(yīng)于實(shí)體間關(guān)系推理的神經(jīng)張量網(wǎng)絡(luò)(Neural tensor networks,NTN)模型,用雙線性張量層取代神經(jīng)網(wǎng)絡(luò)層,實(shí)體通過連續(xù)的詞向量平均表示進(jìn)而提升模型的表現(xiàn)。Neelakantan等[82]使用循環(huán)神經(jīng)網(wǎng)絡(luò)來建模知識圖譜中的分布式語義的多跳路徑。Das等[83]主要是將符號邏輯推理中豐富的多步推理與神經(jīng)網(wǎng)絡(luò)的泛化能力相結(jié)合。通過學(xué)習(xí)實(shí)體、關(guān)系和實(shí)體的種類來聯(lián)合推理,并使用神經(jīng)注意力建模來整合多跳路徑。在單層RNN中分享參數(shù)來表示所有關(guān)系的邏輯組成。Graves等[84]建立了可微神經(jīng)計(jì)算機(jī)模型,將神經(jīng)網(wǎng)絡(luò)和記憶系統(tǒng)結(jié)合起來,將通過樣本學(xué)習(xí)到的知識儲存起來并進(jìn)行快速知識推理。
Dettmers等[85]針對知識圖譜中大規(guī)模與過擬合的問題,設(shè)計(jì)了參數(shù)簡潔且計(jì)算高效的二維卷積神經(jīng)網(wǎng)絡(luò)(Convolutional 2D,ConvE)模型。Vashishth等[86]基于特征排列、新的特征變形以及循環(huán)卷積提出InteractE模型。InteractE模型通過使用多種排列輸入,更簡單的特征變形方法以及循環(huán)卷積來取得比ConvE更顯著的效果。
3.4?? 混合推理
對于上面的幾類知識推理的方法,各有其優(yōu)勢與缺點(diǎn),于是考慮結(jié)合多種方法的優(yōu)勢來提升推理效果,進(jìn)而提出了混合推理方法。Guo等[87]提出學(xué)習(xí)規(guī)則增強(qiáng)關(guān)系來補(bǔ)全知識圖譜的方法,使用規(guī)則來進(jìn)一步改善傳統(tǒng)關(guān)系學(xué)習(xí)得到的推理結(jié)果,提升知識推理的準(zhǔn)確性。Lu等[88]提出了基于強(qiáng)化學(xué)習(xí)建模的邏輯概率的知識表示和推理模型,同時(shí)在已知的知識和由強(qiáng)化學(xué)習(xí)整合的經(jīng)驗(yàn)上進(jìn)行推理來訓(xùn)練強(qiáng)化學(xué)習(xí)的Agent。Xie等[89]提出一種利用實(shí)體描述的知識表示學(xué)習(xí)的方法,使用了連續(xù)詞袋模型和深度卷積模型來編碼實(shí)體的描述語義。之后進(jìn)一步學(xué)習(xí)通過三元組和三元組中實(shí)體的描述來學(xué)習(xí)表示知識。并利用學(xué)習(xí)到的知識來完成知識推理任務(wù)。Wang[90]提出規(guī)則嵌入神經(jīng)網(wǎng)絡(luò)(The rule-embedded neural network,ReNN)。ReNN基于局部的推理檢測局部模式,由局部模式領(lǐng)域知識的規(guī)則來生成規(guī)則調(diào)制映射。針對規(guī)則引起的優(yōu)化問題,采用兩階段優(yōu)化策略。引入規(guī)則解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)必須受限于數(shù)據(jù)集的問題,從而提升了推理的準(zhǔn)確率。
Zhang等[91]提出了一個(gè)名為IterE的迭代學(xué)習(xí)嵌入和規(guī)則的框架,目標(biāo)是同時(shí)學(xué)習(xí)實(shí)體嵌入表示和規(guī)則,并利用它們各自的優(yōu)勢來彌補(bǔ)對方的不足。Nie與Sun[92]組合了隱形特征和圖特征的優(yōu)勢提出了一個(gè)名為文本強(qiáng)化型知識圖譜嵌入(Text-enhanced knowledge graph embedding,TKGE)的組合模型,通過實(shí)體、關(guān)系和文本來提升推理的表現(xiàn)。Guan等[93]基于一個(gè)常識圖的常識概念信息提出了一個(gè)常識伴隨的知識圖譜嵌入(Knowledge graph embedding with concepts,KEC)模型,將來自于知識圖譜的事實(shí)元組通過常識概念信息修正,從而使得模型不僅僅關(guān)注實(shí)體間的關(guān)聯(lián)性還有實(shí)體存在的常識概念。因此這個(gè)模型具有明確的語義性。
4類知識推理方法對比如表2所示。
表? 2? 4類知識推理方法對比
Table? 2.? Comparisons of 4 kinds of knowledge reasoning methods
Reasoning methods | Advantage | Disadvantage | Typical model |
---|---|---|---|
Knowledge reasoning based on graph structure and statistical rule mining | The advantages of graph structure and rules can significantly improve the accuracy of knowledge reasoning |
Large-scale knowledge graphs have complex graph structures and rules are not easy to obtain; noise rules can mislead knowledge reasoning |
PRA AMIE TensoLog |
Knowledge reasoning based on representation learning |
Simple and efficient, suitable for large-scale knowledge graph |
Does not consider the deeper information in the knowledge graph, which limits its accuracy of reasoning | RESCAL TransE |
Knowledge reasoning based on the neural network |
Outstanding learning ability and reasoning ability |
High complexity, huge number of parameters, and poor interpretability | NTN |
Knowledge reasoning based on hybrid methods |
Combines the advantages of several inference methods, so its performance is excellent |
Most methods are just shallow fusion, not taking full advantage of their respective methods |
TKGE |
3.5?? 質(zhì)量評估
通過質(zhì)量評估技術(shù)來對新知識進(jìn)行篩選,是構(gòu)建知識圖譜中必不可少的環(huán)節(jié)。Mendes等[94]提出了Sieve,用于簡化生成高質(zhì)量數(shù)據(jù)的任務(wù),并整合進(jìn)了鏈接數(shù)據(jù)整合框架(Linked data integration framework,LDIF)中,包括一個(gè)質(zhì)量評估模型和一個(gè)數(shù)據(jù)融合模型。質(zhì)量評估主要利用用戶選擇的質(zhì)量因子,通過用戶配置的得分函數(shù)生成質(zhì)量得分。數(shù)據(jù)融合使用質(zhì)量得分來處理用戶設(shè)置的沖突消解任務(wù)。Fader等[95]基于來自網(wǎng)絡(luò)或Wikipedia的1000個(gè)句子中人工標(biāo)注的實(shí)例來訓(xùn)練ReVerb系統(tǒng)的置信函數(shù),通過一個(gè)邏輯回歸分類器來評估每一個(gè)通過ReVerb系統(tǒng)抽取得到的實(shí)例的置信度。Google的Knowledge vault項(xiàng)目[96],通過統(tǒng)計(jì)全球網(wǎng)絡(luò)中抽取數(shù)據(jù)的頻率作為評估信息可信度的依據(jù),并通過已有知識庫中的知識來修正可信度,這一方法有效降低了評估數(shù)據(jù)結(jié)果的不確定性,從而提升了知識的質(zhì)量水平。Tan等[97]提出了一個(gè)名為CQUAL(Contribution quality predictor)的方法來自動預(yù)測用戶提交至知識庫的知識的質(zhì)量,主要依據(jù)提交用戶的領(lǐng)域、提交歷史、以及歷史準(zhǔn)確率等數(shù)據(jù)。實(shí)驗(yàn)表明這一方法擁有很高的準(zhǔn)確率和召回率。
4.?? 知識圖譜應(yīng)用
知識圖譜技術(shù)提出之后,因其具有的語義處理和開放互聯(lián)的能力,以及其簡潔靈活的表達(dá)方式等優(yōu)勢,受到了廣泛關(guān)注。知識圖譜技術(shù)的發(fā)展得益于自然語言處理、互聯(lián)網(wǎng)等技術(shù)的發(fā)展,而不斷完善的知識圖譜技術(shù)也可以應(yīng)用到自然語言處理、智能問答系統(tǒng)、智能推薦系統(tǒng)等技術(shù)中,進(jìn)一步促進(jìn)這些技術(shù)的發(fā)展,而這些技術(shù)以及知識圖譜技術(shù)又可以進(jìn)一步應(yīng)用在諸如醫(yī)療、金融、電商等垂直行業(yè)或領(lǐng)域內(nèi),幫助促進(jìn)行業(yè)發(fā)展[16-17]。
構(gòu)建完備的知識圖譜可以幫助自然語言理解技術(shù)發(fā)展。針對文本分類問題,Wang等[98]首先利用知識庫中的知識將短文本概念化,獲得短文本的嵌入表示后送入卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類。Lagon等[99]提出了知識圖譜語言模型,一種擁有從知識圖譜中選擇和復(fù)制知識的神經(jīng)語言模型。
智能問答系統(tǒng)可以依靠知識圖譜中的知識來回答查詢。Bauer等[100]利用關(guān)系路徑從常識網(wǎng)絡(luò)中獲取背景常識知識,之后利用多注意力機(jī)制完成多跳推理并通過一個(gè)指針生成譯碼器來合成問題的答案。朱宗奎等[101]針對中文知識圖譜問答系統(tǒng),將BERT(Bidirectional encoder representations from transformers)模型和雙向長短期記憶網(wǎng)絡(luò)結(jié)合,之后通過條件隨機(jī)場模型來預(yù)測字符標(biāo)簽,從而識別出問題中的實(shí)體并鏈接到知識網(wǎng)絡(luò)中,最后完成答案的搜索。
知識圖譜可作為外部信息整合至推薦系統(tǒng)中,使得推薦系統(tǒng)獲得推理能力。通過利用知識圖譜中諸如實(shí)體、關(guān)系的信息,許多研究進(jìn)一步基于嵌入正則化來提升推薦效果。Wang等[102]將圖注意網(wǎng)絡(luò)應(yīng)用于實(shí)體–關(guān)系和用戶–物品圖的協(xié)作知識圖譜上,提出了名為知識圖譜注意力網(wǎng)絡(luò)的模型,在端到端的模式下通過嵌入傳播和基于注意的聚合對建模知識圖譜中的高階連通性建模。
在垂直行業(yè)或領(lǐng)域內(nèi),知識圖譜已開始應(yīng)用。在醫(yī)療領(lǐng)域,通過提供更加精確規(guī)范的行業(yè)數(shù)據(jù)以及更加豐富的表達(dá),幫助非行業(yè)相關(guān)人員獲取醫(yī)療知識的同時(shí)也幫助行業(yè)人員更直觀快捷獲取所需醫(yī)療知識。在金融領(lǐng)域,借助知識圖譜檢測數(shù)據(jù)的不一致性,來識別潛在的欺詐風(fēng)險(xiǎn)。同時(shí),利用知識圖譜技術(shù)分析招股書、年報(bào)、公司公告等金融報(bào)告,建立公司和人物的關(guān)系,在此基礎(chǔ)上做更進(jìn)一步的研究和更優(yōu)的決策。在電商領(lǐng)域,阿里巴巴已經(jīng)通過應(yīng)用知識圖譜,建立商品間的關(guān)聯(lián)信息,為用戶提供更全面的商品信息和更智能化的推薦,從而提升用戶的購物服務(wù)與體驗(yàn)。同時(shí),知識圖譜也在教育、科研、軍事等領(lǐng)域中廣泛應(yīng)用。
5.?? 知識圖譜在知識融合、推理與應(yīng)用中的挑戰(zhàn)與展望
自谷歌提出知識圖譜概念至今,這項(xiàng)技術(shù)一直受到廣泛的關(guān)注。隨著深度學(xué)習(xí)、自然語言處理等相關(guān)領(lǐng)域的發(fā)展,知識圖譜的研究熱度不斷增加。不可忽略的是,知識圖譜發(fā)展至今,知識融合、知識推理等知識圖譜關(guān)鍵技術(shù)以及知識圖譜的應(yīng)用仍面臨許多挑戰(zhàn)。
知識融合技術(shù)是知識圖譜的關(guān)鍵技術(shù)之一。知識融合主要任務(wù)是將新獲得的知識融入知識圖譜中。保證知識圖譜知識準(zhǔn)確率的前提下高效地引入新知識,是知識融合的關(guān)鍵。存在的挑戰(zhàn)如下:(1)為了保證融合后知識圖譜的質(zhì)量,首先要提升知識評估的能力。現(xiàn)存的知識評估方法大都是針對靜態(tài)知識進(jìn)行評估,缺少動態(tài)知識評估手段是目前知識評估面臨的一大挑戰(zhàn)。(2)要解決由自然語言的特殊性引發(fā)的知識冗余和缺失問題。當(dāng)知識圖譜不能準(zhǔn)確將具有同義異名的實(shí)體對齊或?qū)⑼惲x的實(shí)體消歧就會導(dǎo)致知識圖譜中出現(xiàn)知識冗余或缺失。(3)目前,因自然語言的復(fù)雜性,在單一語言的背景下實(shí)體對齊和實(shí)體消歧的準(zhǔn)確率仍然有待提高,針對多語言實(shí)體對齊或消歧更是一大挑戰(zhàn)。
知識推理技術(shù)也是知識圖譜的關(guān)鍵技術(shù)之一,通過已知的知識推理獲得新知識來完善知識圖譜。存在的挑戰(zhàn)如下:(1)知識推理的主要對象多是二元關(guān)系,通常處理多元關(guān)系的方法是將其拆分為二元關(guān)系進(jìn)行推理,然而將多元關(guān)系拆分會損失結(jié)構(gòu)信息,如何盡可能完整地利用多元關(guān)系中復(fù)雜的隱含信息推理是知識推理的一大挑戰(zhàn)。(2)現(xiàn)有的知識推理往往都是基于大量高質(zhì)量的數(shù)據(jù)集訓(xùn)練推理模型,在相應(yīng)的測試集中測試優(yōu)化模型來完成推理。除了數(shù)據(jù)集獲取成本高的問題,通過數(shù)據(jù)集訓(xùn)練的模型的泛化能力也極為有限,而現(xiàn)實(shí)世界中人類通過少量樣本學(xué)習(xí)即可完成推理。如何模仿人腦機(jī)制實(shí)現(xiàn)小樣本或零樣本學(xué)習(xí)知識推理也是一大挑戰(zhàn)。(3)知識圖譜中知識的有效性往往受到時(shí)間空間等動態(tài)因素約束,如何合理利用知識的動態(tài)約束信息完成動態(tài)推理也是知識推理的一大挑戰(zhàn)。
知識的表達(dá)、存儲與查詢將是貫穿知識圖譜應(yīng)用始終的問題。存在的挑戰(zhàn)如下:(1)目前,應(yīng)用在行業(yè)領(lǐng)域的知識圖譜因?yàn)楹艽蟪潭壬弦蕾嚾斯さ膮⑴c構(gòu)建,成本高昂。大多數(shù)研究工作主要針對知識圖譜的半自動構(gòu)建[103],如何自動構(gòu)建高質(zhì)量知識圖譜是知識圖譜應(yīng)用所面臨的一大挑戰(zhàn)。(2)知識擁有指導(dǎo)功能,利用知識圖譜中的知識引導(dǎo)機(jī)器學(xué)習(xí)中的數(shù)據(jù)學(xué)習(xí),從而降低數(shù)據(jù)依賴打破數(shù)據(jù)紅利損耗殆盡后的僵局,是知識圖譜應(yīng)用面臨的一大挑戰(zhàn)。(3)利用人類易懂的符號化知識圖譜,解釋各類機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)的過程,補(bǔ)足其在可解釋性方面的短板,也是知識圖譜應(yīng)用面臨的一大挑戰(zhàn)。(4)未來,能否應(yīng)用知識圖譜中的知識,作為已知的經(jīng)驗(yàn),通過訓(xùn)練構(gòu)建人工智能層面上的心智模型,同樣是知識圖譜應(yīng)用的一大挑戰(zhàn)。
知識圖譜意在模仿人類的認(rèn)知方式,構(gòu)建屬于機(jī)器的知識庫,是實(shí)現(xiàn)機(jī)器認(rèn)知智能的關(guān)鍵技術(shù),也是網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代中利用大數(shù)據(jù)的關(guān)鍵技術(shù)。本文從知識圖譜構(gòu)建過程中的關(guān)鍵技術(shù)出發(fā),簡略研究了知識的抽取與表示,重點(diǎn)分析了知識融合和知識推理技術(shù)的研究成果。然而眾多研究成果實(shí)用性不強(qiáng),知識圖譜雖然已經(jīng)出現(xiàn)了諸如Magi[104]這樣的理論實(shí)踐者,但距離知識圖譜成為機(jī)器大腦知識庫、實(shí)現(xiàn)機(jī)器認(rèn)知智能的終極目標(biāo)還有不小的距離。未來的研究中,基于網(wǎng)絡(luò)數(shù)據(jù)自動構(gòu)建的知識圖譜將成為主流。因而需要進(jìn)一步提高知識抽取、知識融合和知識推理技術(shù)的準(zhǔn)確性,確保獲取知識的質(zhì)量;同時(shí)提高這些技術(shù)的效率,從而保證面對大規(guī)模數(shù)據(jù)量級時(shí)的實(shí)用性。同時(shí),知識圖譜雖然已經(jīng)在公安情報(bào)分析、反金融欺詐等實(shí)際問題中開始應(yīng)用,但是其具有的巨大潛力仍有待挖掘,如何將知識圖譜技術(shù)應(yīng)用在生活中的各個(gè)方面,也將是未來的主要研究方向。除此之外,目前存在著的大量知識圖譜,大多有著結(jié)構(gòu)或者語言上的差異,這種差異增大了知識圖譜應(yīng)用的難度,制定行業(yè)規(guī)范、整合各個(gè)知識圖譜、構(gòu)建通用知識圖譜,也是未來知識圖譜研究的方向之一。
?【轉(zhuǎn)載聲明】轉(zhuǎn)載目的在于傳遞更多信息。如涉及作品版權(quán)和其它問題,請?jiān)?0日內(nèi)與本號聯(lián)系,我們將在第一時(shí)間刪除!
編輯:fqj
評論
查看更多