色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

知識(shí)圖譜系列干貨,理論+實(shí)踐

8g3K_AI_Thinker ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-07-28 09:55 ? 次閱讀

作者為了不讓讀者一開始就接觸比較冰冷生硬的概念刻板描述(后面盡量用更具體、準(zhǔn)確的例子來(lái)表達(dá)),通過(guò)現(xiàn)實(shí)生活中的例子自然的引入知識(shí)圖譜的概念。希望通過(guò)這種方式加深讀者的印象和理解。為了減輕讀者理解的負(fù)擔(dān),作者盡可能地避免引入過(guò)多的概念和技術(shù)細(xì)節(jié),將其留到后續(xù)的文章進(jìn)行介紹。

言歸正傳,本文主要分為三個(gè)部分。第一個(gè)部分介紹我們?yōu)槭裁葱枰R(shí)圖譜、知識(shí)圖譜的相關(guān)概念及其形式化表示;第二個(gè)部分將詳細(xì)介紹語(yǔ)義網(wǎng)絡(luò)、語(yǔ)義網(wǎng)和鏈接數(shù)據(jù)等概念;最后,將結(jié)合實(shí)例對(duì)RDF和RDFS/OWL,這兩種知識(shí)圖譜基礎(chǔ)技術(shù)作進(jìn)一步的介紹。

KG的前世今生

▌一、看到的不僅僅是字符串

當(dāng)你看見下面這一串文本你會(huì)聯(lián)想到什么?

Ronaldo Luís Nazário de Lima

估計(jì)絕大多數(shù)中國(guó)人不明白上面的文本代表什么意思。沒(méi)關(guān)系,我們看看它對(duì)應(yīng)的中文:

羅納爾多·路易斯·納薩里奧·德·利馬

這下大部分人都知道這是一個(gè)人的名字了,當(dāng)然,不出什么意外,還是個(gè)外國(guó)人。但還是有一部分人不知道這個(gè)人具體是誰(shuí)。下面是關(guān)于他的某張圖片:

從這張圖片我們又得到了額外信息,他是一位足球運(yùn)動(dòng)員。對(duì)足球不熟悉的可能還是對(duì)他沒(méi)有什么印象。那么再看看下面這張圖片:

我再加上當(dāng)初那洗腦的廣告詞:“保護(hù)嗓子,請(qǐng)用金嗓子喉片。廣西金嗓子!”。這下應(yīng)該許多人都知道他是誰(shuí)了,畢竟多年前被這洗腦的廣告語(yǔ)摧殘了很長(zhǎng)一段時(shí)間。

之所以舉這樣一個(gè)例子,是因?yàn)椋?jì)算機(jī)一直面臨著這樣的困境——無(wú)法獲取網(wǎng)絡(luò)文本的語(yǔ)義信息。盡管近些年人工智能得到了長(zhǎng)足的發(fā)展,在某些任務(wù)上取得超越人類的成績(jī),但離一臺(tái)機(jī)器擁有一個(gè)兩三歲小孩的智力這樣一個(gè)目標(biāo)還有一段距離。這距離的背后很大一部分原因是機(jī)器缺少知識(shí)。如同上面的例子,機(jī)器看到文本的反應(yīng)和我們看到羅納爾多葡萄牙語(yǔ)原名的反應(yīng)別無(wú)二致。為了讓機(jī)器能夠理解文本背后的含義,我們需要對(duì)可描述的事物(實(shí)體)進(jìn)行建模,填充它的屬性,拓展它和其他事物的聯(lián)系,即,構(gòu)建機(jī)器的先驗(yàn)知識(shí)。就以羅納爾多這個(gè)例子說(shuō)明,當(dāng)我們圍繞這個(gè)實(shí)體進(jìn)行相應(yīng)的擴(kuò)展,我們就可以得到下面這張知識(shí)圖。

機(jī)器擁有了這樣的先驗(yàn)知識(shí),當(dāng)它再次看到 Ronaldo Luís Nazário de Lima,它就會(huì)“想”:“這是一個(gè)名字叫 Ronaldo Luís Nazário de Lima 的巴西足球運(yùn)動(dòng)員。”這和我們?nèi)祟愒诳吹绞煜さ氖挛铮瑫?huì)做一些聯(lián)想和推理是很類似的。

Notice:

需要說(shuō)明的是,上面的知識(shí)圖并不代表知識(shí)圖譜的實(shí)際組織形式,相反,它還會(huì)讓讀者對(duì)知識(shí)圖譜產(chǎn)生一定的誤解。在下一個(gè)部分,我會(huì)給出這張圖所包含內(nèi)容在知識(shí)圖譜中更形式化的表示。實(shí)際上,我看到許多介紹知識(shí)圖譜的文章都喜歡給出此種類型的圖,卻又不給出相應(yīng)的說(shuō)明,這可能會(huì)讓讀者一開始就進(jìn)入理解的誤區(qū)。

Google 為了提升搜索引擎返回的答案質(zhì)量和用戶查詢的效率,于2012年5月16日發(fā)布了知識(shí)圖譜(Knowledge Graph)。有知識(shí)圖譜作為輔助,搜索引擎能夠洞察用戶查詢背后的語(yǔ)義信息,返回更為精準(zhǔn)、結(jié)構(gòu)化的信息,更大可能地滿足用戶的查詢需求。Google 知識(shí)圖譜的宣傳語(yǔ)“things not strings” 給出了知識(shí)圖譜的精髓,即,不要無(wú)意義的字符串,而是獲取字符串背后隱含的對(duì)象或事物。還是以羅納爾多為例,我們想知道羅納爾多的相關(guān)信息(很多情況下,用戶的搜索意圖可能也是模糊的,這里我們輸入的查詢?yōu)椤傲_納爾多”),在之前的版本,我們只能得到包含這個(gè)字符串的相關(guān)網(wǎng)頁(yè)作為返回結(jié)果,然后不得不進(jìn)入某些網(wǎng)頁(yè)查找我們感興趣的信息;現(xiàn)在,除了相關(guān)網(wǎng)頁(yè),搜索引擎還會(huì)返回一個(gè)“知識(shí)卡片”,包含了查詢對(duì)象的基本信息和其相關(guān)的其他對(duì)象(C羅名字簡(jiǎn)稱也為羅納爾多,搜索引擎只是根據(jù)“羅納爾多”的指代概率返回了“肥羅”這個(gè)羅納爾多的基本資料,但也許你需要C羅的相關(guān)信息,那么搜索引擎把C羅這個(gè)實(shí)體作為備選項(xiàng)列出),如下圖紅色方框中的內(nèi)容。如果我們只是想知道羅納爾多的國(guó)籍、年齡、婚姻狀況、子女信息,那么我們不用再做多余的操作。在最短的時(shí)間內(nèi),我們獲取了最為簡(jiǎn)潔,最為準(zhǔn)確的信息。

當(dāng)然,這只是知識(shí)圖譜在搜索引擎上的一部分應(yīng)用場(chǎng)景。舉這個(gè)例子也是為了表明,知識(shí)圖譜這樣一種概念、或者技術(shù),它的誕生是符合計(jì)算機(jī)科學(xué)、互聯(lián)網(wǎng)發(fā)展潮流的。關(guān)于知識(shí)圖譜的更多應(yīng)用,會(huì)在之后繼續(xù)給出。

▌二、知識(shí)圖譜的前世今生

通過(guò)上面這個(gè)例子,讀者應(yīng)該對(duì)知識(shí)圖譜有了一個(gè)初步的印象,其本質(zhì)是為了表示知識(shí)。其實(shí)知識(shí)圖譜的概念并不新,它背后的思想可以追溯到上個(gè)世紀(jì)五六十年代所提出的一種知識(shí)表示形式——語(yǔ)義網(wǎng)絡(luò)(Semantic Network)。語(yǔ)義網(wǎng)絡(luò)由相互連接的節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)表示概念或者對(duì)象,邊表示他們之間的關(guān)系(is-a關(guān)系,比如:貓是一種哺乳動(dòng)物;part-of 關(guān)系,比如:脊椎是哺乳動(dòng)物的一部分),如下圖。在表現(xiàn)形式上,語(yǔ)義網(wǎng)絡(luò)和知識(shí)圖譜相似,但語(yǔ)義網(wǎng)絡(luò)更側(cè)重于描述概念與概念之間的關(guān)系,(有點(diǎn)像生物的層次分類體系——界門綱目科屬種),而知識(shí)圖譜則更偏重于描述實(shí)體之間的關(guān)聯(lián)。

除了語(yǔ)義網(wǎng)絡(luò),人工智能的分支——專家系統(tǒng),萬(wàn)維網(wǎng)之父 Tim Berners Lee于1998年提出的語(yǔ)義網(wǎng)(Semantic Web)和在2006年提出的關(guān)聯(lián)數(shù)據(jù)(Linked Data)都和知識(shí)圖譜有著千絲萬(wàn)縷的關(guān)系,可以說(shuō)它們是知識(shí)圖譜前身。

目前,知識(shí)圖譜并沒(méi)有一個(gè)標(biāo)準(zhǔn)的定義(gold standard definition)。我在這里借用一下“Exploiting Linked Data and Knowledge Graphs in Large Organisations”這本書對(duì)于知識(shí)圖譜的定義:

A knowledge graph consists of a set of interconnected typed entities and their attributes.

即,知識(shí)圖譜是由一些相互連接的實(shí)體和他們的屬性構(gòu)成的。換句話說(shuō),知識(shí)圖譜是由一條條知識(shí)組成,每條知識(shí)表示為一個(gè) SPO 三元組(Subject-Predicate-Object)。

在知識(shí)圖譜中,我們用 RDF 形式化地表示這種三元關(guān)系。RDF(Resource Description Framework),即資源描述框架,是W3C制定的,用于描述實(shí)體/資源的標(biāo)準(zhǔn)數(shù)據(jù)模型。RDF 圖中一共有三種類型,International Resource Identifiers(IRIs),blank nodes 和 literals。下面是 SPO 每個(gè)部分的類型約束:

Subject 可以是 IRI 或 blank node。

Predicate 是 IRI。

Object 三種類型都可以。

IRI 我們可以看做是 URI 或者 URL 的泛化和推廣,它在整個(gè)網(wǎng)絡(luò)或者圖中唯一定義了一個(gè)實(shí)體/資源,和我們的身份證號(hào)類似。

literal 是字面量,我們可以把它看做是帶有數(shù)據(jù)類型的純文本,比如我們?cè)诘谝粋€(gè)部分中提到的羅納爾多原名可以表示為"Ronaldo Luís Nazário de Lima"^^xsd:string。

blank node 簡(jiǎn)單來(lái)說(shuō)就是沒(méi)有 IRI 和 literal 的資源,或者說(shuō)匿名資源。關(guān)于其作用,有興趣的讀者可以參考 W3C 的文檔,這里不再贅述。我個(gè)人認(rèn)為 blank node的存在有點(diǎn)多余,不僅會(huì)給對(duì) RDF 的理解帶來(lái)額外的困難,并且在處理的時(shí)候也會(huì)引入一些問(wèn)題。通常我更愿意用帶有 IRI 的 node 來(lái)充當(dāng) blank node,行使其功能,有點(diǎn)類似 freebase 中 CVT(compound value type)的概念。最后的參考資料會(huì)給出一篇寫 blank node 缺陷的博客,有興趣的讀者可以看一看。

那么“羅納爾多的中文名是羅納爾多·路易斯·納扎里奧·達(dá)·利馬”這樣一個(gè)三元組用RDF形式來(lái)表示就是:

"www.kg.com/person/1"是一個(gè) IRI,用來(lái)唯一的表示“羅納爾多”這個(gè)實(shí)體。"kg:chineseName"也是一個(gè) IRI,用來(lái)表示“中文名”這樣一個(gè)屬性。"kg:"是 RDF 文件中所定義的 prefix,如下所示。

@prefix kg:

即kg:chineseName 其實(shí)就是

"http://www.kg.com/ontology/chineseName" 的縮寫。

將上面的知識(shí)圖用更正式的形式畫出來(lái):

我們其實(shí)可以認(rèn)為知識(shí)圖譜就包含兩種節(jié)點(diǎn)類型,資源和字面量。借用數(shù)據(jù)結(jié)構(gòu)中樹的概念,字面量類似葉子節(jié)點(diǎn),出度為0。現(xiàn)在讀者應(yīng)該知道為什么我會(huì)說(shuō)之前那幅圖不準(zhǔn)確,并會(huì)誤導(dǎo)大家對(duì)知識(shí)圖譜的理解了吧。"羅納爾多·路易斯·納薩里奧·德·利馬"作為字面量,是不能有指向外部節(jié)點(diǎn)的邊的,況且之前的圖并不能直觀地體現(xiàn)知識(shí)圖譜中資源/實(shí)體(用IRI表示)這樣一個(gè)極其重要的概念。

▌三、總結(jié)

本文通過(guò)羅納爾多這個(gè)例子引出了知識(shí)圖譜的現(xiàn)實(shí)需求,繼而給出了知識(shí)圖譜的定義和相關(guān)概念,并介紹了知識(shí)圖譜的 RDF 形式化表示。作為一篇科普文章,文中省略了許多技術(shù)細(xì)節(jié)。后續(xù)我會(huì)根據(jù)語(yǔ)義網(wǎng)技術(shù)棧(Semantic Web Stack,如下圖)來(lái)介紹知識(shí)圖譜實(shí)現(xiàn)過(guò)程中所需要的具體技術(shù)。另外,可能會(huì)結(jié)合實(shí)踐,介紹如何利用關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)來(lái)構(gòu)建一個(gè)知識(shí)圖譜,并搭建一個(gè)簡(jiǎn)易的基于知識(shí)圖譜的問(wèn)答系統(tǒng)(KBQA)。

語(yǔ)義網(wǎng)絡(luò),語(yǔ)義網(wǎng),鏈接數(shù)據(jù)和知識(shí)圖譜

上面提及了和知識(shí)圖譜相關(guān)的一些早期概念。為了讓讀者能夠更好地區(qū)分這些概念,以及更好地在整體上把握知識(shí)譜圖發(fā)展過(guò)程,下面將對(duì)這些概念作一個(gè)更為詳細(xì)的介紹。

▌一、語(yǔ)義網(wǎng)絡(luò)(Semantic Network)

對(duì)于初學(xué)者來(lái)講,這個(gè)概念很容易和語(yǔ)義網(wǎng)(Semantic Web)相混淆。為了行文一致,除非特別說(shuō)明,語(yǔ)義網(wǎng)絡(luò)指 Semantic Network,語(yǔ)義網(wǎng)指 Semantic Web。

語(yǔ)義網(wǎng)絡(luò)是由 Quillian 于上世紀(jì)60年代提出的知識(shí)表達(dá)模式,其用相互連接的節(jié)點(diǎn)和邊來(lái)表示知識(shí)。節(jié)點(diǎn)表示對(duì)象、概念,邊表示節(jié)點(diǎn)之間的關(guān)系。

語(yǔ)義網(wǎng)絡(luò)的優(yōu)點(diǎn):

容易理解和展示。

相關(guān)概念容易聚類。

語(yǔ)義網(wǎng)絡(luò)的缺點(diǎn):

節(jié)點(diǎn)和邊的值沒(méi)有標(biāo)準(zhǔn),完全是由用戶自己定義。

多源數(shù)據(jù)融合比較困難,因?yàn)闆](méi)有標(biāo)準(zhǔn)。

無(wú)法區(qū)分概念節(jié)點(diǎn)和對(duì)象節(jié)點(diǎn)。

無(wú)法對(duì)節(jié)點(diǎn)和邊的標(biāo)簽(label,我理解是schema層,后面會(huì)介紹)進(jìn)行定義。

簡(jiǎn)而言之,語(yǔ)義網(wǎng)絡(luò)可以比較容易地讓我們理解語(yǔ)義和語(yǔ)義關(guān)系。其表達(dá)形式簡(jiǎn)單直白,符合自然。然而,由于缺少標(biāo)準(zhǔn),其比較難應(yīng)用于實(shí)踐。看過(guò)上一篇文章的讀者可能已經(jīng)發(fā)現(xiàn),RDF 的提出解決了語(yǔ)義網(wǎng)絡(luò)的缺點(diǎn)1和缺點(diǎn)2,在節(jié)點(diǎn)和邊的取值上做了約束,制定了統(tǒng)一標(biāo)準(zhǔn),為多源數(shù)據(jù)的融合提供了便利。另外,RDF 對(duì) is-a關(guān)系進(jìn)行了定義,即,rdf:type(是rdf標(biāo)準(zhǔn)中的一個(gè)詞匯,之后的文章會(huì)介紹)。因此,不管在哪個(gè)語(yǔ)義網(wǎng)絡(luò)中,表達(dá) is-a關(guān)系,我們都用 rdf:type,在語(yǔ)法上形成了統(tǒng)一。比如上圖中貓、熊與哺乳動(dòng)物的關(guān)系就可以形式化的表達(dá)為:

貓 rdf:type 哺乳動(dòng)物 熊 rdf:type 哺乳動(dòng)物

但還有個(gè)問(wèn)題,如何區(qū)分概念和對(duì)象?即定義 Class 和 Object(也稱作Instance, Entity)。如果不能區(qū)分,會(huì)對(duì)我們產(chǎn)生什么影響?舉個(gè)例子,假如我們有兩個(gè)語(yǔ)義網(wǎng)絡(luò)A和B。在A中,熊是哺乳動(dòng)物的一個(gè)實(shí)例。在B中,熊是哺乳動(dòng)物的一個(gè)子類。前者是 is-a 關(guān)系,后者是 subClassOf 關(guān)系。這種情況常有發(fā)生,我們建模的角度不同,那么同一個(gè)事物的表示也可能不同。如果我們不能用一種方法來(lái)區(qū)別兩者,不僅會(huì)給我們帶來(lái)理解上的困難,在進(jìn)行融合的時(shí)候也會(huì)造成數(shù)據(jù)沖突。我們不能說(shuō) A既是B的一個(gè)實(shí)例,又是 B的一個(gè)子類。W3C 制定的另外兩個(gè)標(biāo)準(zhǔn) RDFS/OWL解決了這個(gè)問(wèn)題,如下圖。

在語(yǔ)義網(wǎng)技術(shù)棧中,RDFS 和 OWL 是 RDF 更上一層的技術(shù),主要是為了解決語(yǔ)義網(wǎng)絡(luò)的缺點(diǎn) 3和缺點(diǎn) 4,其提供了 schema層的描述。在后續(xù)文章中,我們將更詳細(xì)地介紹 RDF,RDFS/OWL。在這里,讀者只需要知道,通過(guò)RDFS 或者 OWL 中的預(yù)定義詞匯,我們可以形式化地聲明一個(gè)類:

哺乳動(dòng)物 rdf:type rdfs:Class

或者

哺乳動(dòng)物 rdf:type owl:Class

通過(guò) RDFS 也可以聲明一個(gè)子類:

熊 rdf:type rdfs:Class熊 rdfs:subClassOf 哺乳動(dòng)物

或者聲明一個(gè)實(shí)例

熊 rdf:type 哺乳動(dòng)物

我們也可以把rdf:type用a代替,即:

熊 a 哺乳動(dòng)物

RDF,RDFS/OWL 屬于語(yǔ)義網(wǎng)技術(shù)棧,它們的提出,使得語(yǔ)義網(wǎng)克服了語(yǔ)義網(wǎng)絡(luò)的缺點(diǎn)。

盡管語(yǔ)義網(wǎng)絡(luò)有這些缺點(diǎn),還是有許多項(xiàng)目是基于語(yǔ)義網(wǎng)絡(luò)的思想建立起來(lái)的。下面列幾個(gè)比較出名和實(shí)用的項(xiàng)目:

WordNet。它是一個(gè)英語(yǔ)的詞匯庫(kù),將英語(yǔ)單詞劃分為同義詞集合,用不同的語(yǔ)義關(guān)系將這些集合關(guān)聯(lián)起來(lái)。其在自然語(yǔ)言處理的中有許多應(yīng)用,比如消歧、信息檢索、文本分類、文本摘要等等。

BabelNet。相對(duì)于 WordNet,BabelNet 是一個(gè)多語(yǔ)言的詞匯庫(kù)。它是通過(guò)自動(dòng)把維基百科鏈接到 WordNet 上構(gòu)建起來(lái)的,另外也用到了其他的一些詞匯資源。

HowNet,即知網(wǎng),中文語(yǔ)義詞典。其以漢語(yǔ)和英語(yǔ)詞語(yǔ)所代表的概念為描述對(duì)象,構(gòu)建了一個(gè)包含概念之間以及概念所具有的屬性之間的關(guān)系的常識(shí)知識(shí)庫(kù)。

▌二、語(yǔ)義網(wǎng)(Semantic Web)和鏈接數(shù)據(jù)(Linked Data)

語(yǔ)義網(wǎng)和鏈接數(shù)據(jù)是萬(wàn)維網(wǎng)之父 Tim Berners Lee 分別在1998年和2006提出的。相對(duì)于語(yǔ)義網(wǎng)絡(luò),語(yǔ)義網(wǎng)和鏈接數(shù)據(jù)傾向于描述萬(wàn)維網(wǎng)中資源、數(shù)據(jù)之間的關(guān)系。其實(shí),本質(zhì)上,語(yǔ)義網(wǎng)、鏈接數(shù)據(jù)還有 Web 3.0 都是同一個(gè)概念,只是在不同的時(shí)間節(jié)點(diǎn)和環(huán)境中,它們各自描述的角度不同。它們都是指 W3C 制定的用于描述和關(guān)聯(lián)萬(wàn)維網(wǎng)數(shù)據(jù)的一系列技術(shù)標(biāo)準(zhǔn),即,語(yǔ)義網(wǎng)技術(shù)棧。

語(yǔ)義網(wǎng)是一個(gè)更官方的名稱,也是該領(lǐng)域?qū)W者使用得最多的一個(gè)術(shù)語(yǔ),同時(shí),也用于指代其相關(guān)的技術(shù)標(biāo)準(zhǔn)。在萬(wàn)維網(wǎng)誕生之初,網(wǎng)絡(luò)上的內(nèi)容只是人類可讀,而計(jì)算機(jī)無(wú)法理解和處理。比如,我們?yōu)g覽一個(gè)網(wǎng)頁(yè),我們能夠輕松理解網(wǎng)頁(yè)上面的內(nèi)容,而計(jì)算機(jī)只知道這是一個(gè)網(wǎng)頁(yè)。網(wǎng)頁(yè)里面有圖片,有鏈接,但是計(jì)算機(jī)并不知道圖片是關(guān)于什么的,也不清楚鏈接指向的頁(yè)面和當(dāng)前頁(yè)面有何關(guān)系。語(yǔ)義網(wǎng)正是為了使得網(wǎng)絡(luò)上的數(shù)據(jù)變得機(jī)器可讀而提出的一個(gè)通用框架。“Semantic”就是用更豐富的方式來(lái)表達(dá)數(shù)據(jù)背后的含義,讓機(jī)器能夠理解數(shù)據(jù)。“Web”則是希望這些數(shù)據(jù)相互鏈接,組成一個(gè)龐大的信息網(wǎng)絡(luò),正如互聯(lián)網(wǎng)中相互鏈接的網(wǎng)頁(yè),只不過(guò)基本單位變?yōu)榱6雀〉臄?shù)據(jù),如下圖。

鏈接數(shù)據(jù)起初是用于定義如何利用語(yǔ)義網(wǎng)技術(shù)在網(wǎng)上發(fā)布數(shù)據(jù),其強(qiáng)調(diào)在不同的數(shù)據(jù)集間創(chuàng)建鏈接。Tim Berners Lee 提出了發(fā)布數(shù)據(jù)的四個(gè)原則,并根據(jù)數(shù)據(jù)集的開放程度將其劃分為1到5星5個(gè)層次。鏈接數(shù)據(jù)也被當(dāng)做是語(yǔ)義網(wǎng)技術(shù)一個(gè)更簡(jiǎn)潔,簡(jiǎn)單的描述。當(dāng)它指語(yǔ)義網(wǎng)技術(shù)時(shí),它更強(qiáng)調(diào)“Web”,弱化了“Semantic”的部分。對(duì)應(yīng)到語(yǔ)義網(wǎng)技術(shù)棧,它傾向于使用 RDF 和SPARQL(RDF查詢語(yǔ)言)技術(shù),對(duì)于 Schema 層的技術(shù),RDFS 或者 OWL,則很少使用。鏈接數(shù)據(jù)應(yīng)該是最接近知識(shí)圖譜的一個(gè)概念,從某種角度說(shuō),知識(shí)圖譜是對(duì)鏈接數(shù)據(jù)這個(gè)概念的進(jìn)一步包裝。開放鏈接數(shù)據(jù)項(xiàng)目進(jìn)展的可視化,也通常用來(lái)展示當(dāng)前開放知識(shí)圖譜的規(guī)模,涉及的領(lǐng)域以及知識(shí)圖譜間的鏈接關(guān)系。

▌三、知識(shí)圖譜(Knowledge Graph)

上一篇文章中,我們用平實(shí)的語(yǔ)言給出了知識(shí)圖譜的定義和組織形式。用更正式的說(shuō)法,知識(shí)圖譜是由本體(Ontology)作為 Schema 層,和 RDF 數(shù)據(jù)模型兼容的結(jié)構(gòu)化數(shù)據(jù)集。本體本身是個(gè)哲學(xué)名詞,AI 研究人員于上個(gè)世紀(jì)70年代引入計(jì)算機(jī)領(lǐng)域。Tom Gruber把本體定義為“概念和關(guān)系的形式化描述”,分別指實(shí)體的類層次和關(guān)系層次。我們以上篇文章羅納爾多知識(shí)圖為例,我們用 IRI 唯一標(biāo)志的節(jié)點(diǎn)都是某個(gè)類的一個(gè)實(shí)例,每一條邊都表示一個(gè)關(guān)系。羅納爾多是一個(gè)人,里約熱內(nèi)盧是一個(gè)地點(diǎn),我們用 RDF 來(lái)表示就是:

www.kg.com/person/1 rdf:type kg:Person. www.kg.com/place/10086 rdf:type kg:Place.

關(guān)系我們也稱為屬性(Property),根據(jù)是實(shí)體和實(shí)體之間的關(guān)系還是實(shí)體和數(shù)據(jù)值之間的關(guān)系分為對(duì)象屬性(Object Property)和數(shù)據(jù)屬性(Data Property)。在圖中,羅納爾多和里約熱內(nèi)盧的關(guān)系(本例中是對(duì)象屬性)與羅納爾多和全名的關(guān)系(本例中是數(shù)據(jù)屬性)用 RDF 就可以表示為:

www.kg.com/person/1 kg:

hasBirthPlace www.kg.com/place/10086

www.kg.com/person/1 kg:

fullName "Ronaldo Luís Nazário de Lima"^^xsd:string

這里kg:Person,kg:Place,kg:hasBirthPlace,kg:fullName是我們?cè)?Ontology中定義好的類和關(guān)系。

鏈接數(shù)據(jù)和知識(shí)圖譜最大的區(qū)別在于:

正如上面 Open Linked Data Project 所展示的,每一個(gè)圓圈代表一個(gè)獨(dú)立存在和維護(hù)的知識(shí)圖譜;鏈接數(shù)據(jù)更強(qiáng)調(diào)不同 RDF 數(shù)據(jù)集(知識(shí)圖譜)的相互鏈接。

知識(shí)圖譜不一定要鏈接到外部的知識(shí)圖譜(和企業(yè)內(nèi)部數(shù)據(jù)通常也不會(huì)公開一個(gè)道理),更強(qiáng)調(diào)有一個(gè)本體層來(lái)定義實(shí)體的類型和實(shí)體之間的關(guān)系。另外,知識(shí)圖譜數(shù)據(jù)質(zhì)量要求比較高且容易訪問(wèn),能夠提供面向終端用戶的信息服務(wù)(查詢、問(wèn)答等等)。

▌四、總結(jié)

這部分介紹了和知識(shí)圖譜相關(guān)的幾個(gè)早期概念,以及他們之間的異同。在下面的內(nèi)容當(dāng)中,我們將會(huì)介紹語(yǔ)義網(wǎng)技術(shù)棧中比較基礎(chǔ)和重要的技術(shù)標(biāo)準(zhǔn):RDF,RDFS 和 OWL。另外,會(huì)結(jié)合實(shí)踐,讓讀者學(xué)會(huì)用 protege 自頂向下地構(gòu)建自己的本體結(jié)構(gòu)。

知識(shí)圖譜基礎(chǔ)之RDF,RDFS與OWL

看到這里大家應(yīng)該對(duì) RDF 有了一個(gè)大致的認(rèn)識(shí)和理解。接下來(lái)就是本次內(nèi)容的最后一部分,將結(jié)合實(shí)例對(duì) RDF 和 RDFS/OWL,這兩種知識(shí)圖譜基礎(chǔ)技術(shù)作進(jìn)一步的介紹。其實(shí),RDF、RDFS/OWL 是類語(yǔ)義網(wǎng)概念背后通用的基本技術(shù),而知識(shí)圖譜是其中最廣為人知的概念。

▌一、知識(shí)圖譜的基石:RDF

RDF表現(xiàn)形式

RDF(Resource Description Framework),即資源描述框架,其本質(zhì)是一個(gè)數(shù)據(jù)模型(Data Model)。它提供了一個(gè)統(tǒng)一的標(biāo)準(zhǔn),用于描述實(shí)體/資源。簡(jiǎn)單來(lái)說(shuō),就是表示事物的一種方法和手段。RDF 形式上表示為 SPO 三元組,有時(shí)候也稱為一條語(yǔ)句(statement),知識(shí)圖譜中我們也稱其為一條知識(shí),如下圖。

RDF 由節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)表示實(shí)體/資源、屬性,邊則表示了實(shí)體和實(shí)體之間的關(guān)系以及實(shí)體和屬性的關(guān)系。在上文中我們結(jié)合羅納爾多的例子,介紹了 RDF 節(jié)點(diǎn)和邊的類型約束。

RDF序列化方法

RDF 的表示形式和類型有了,那我們?nèi)绾蝿?chuàng)建 RDF 數(shù)據(jù)集,將其序列化(Serialization)呢?換句話說(shuō),就是我們?cè)趺创鎯?chǔ)和傳輸 RDF 數(shù)據(jù)。目前,RDF 序列化的方式主要有:RDF/XML,N-Triples,Turtle,RDFa,JSON-LD等幾種。

RDF/XML,顧名思義,就是用 XML 的格式來(lái)表示 RDF 數(shù)據(jù)。之所以提出這個(gè)方法,是因?yàn)?XML 的技術(shù)比較成熟,有許多現(xiàn)成的工具來(lái)存儲(chǔ)和解析XML。然而,對(duì)于 RDF 來(lái)說(shuō),XML 的格式太冗長(zhǎng),也不便于閱讀,通常我們不會(huì)使用這種方式來(lái)處理 RDF 數(shù)據(jù)。

N-Triples,即用多個(gè)三元組來(lái)表示 RDF數(shù) 據(jù)集,是最直觀的表示方法。在文件中,每一行表示一個(gè)三元組,方便機(jī)器解析和處理。開放領(lǐng)域知識(shí)圖譜DBpedia 通常是用這種格式來(lái)發(fā)布數(shù)據(jù)的。

Turtle, 應(yīng)該是使用得最多的一種 RDF 序列化方式了。它比 RDF/XML 緊湊,且可讀性比 N-Triples好。

RDFa, 即“The Resource Description Framework in Attributes”,是HTML5 的一個(gè)擴(kuò)展,在不改變?nèi)魏物@示效果的情況下,讓網(wǎng)站構(gòu)建者能夠在頁(yè)面中標(biāo)記實(shí)體,像人物、地點(diǎn)、時(shí)間、評(píng)論等等。也就是說(shuō),將 RDF 數(shù)據(jù)嵌入到網(wǎng)頁(yè)中,搜索引擎能夠更好的解析非結(jié)構(gòu)化頁(yè)面,獲取一些有用的結(jié)構(gòu)化信息。讀者可以去感受一下 RDFa,其直觀展示了普通用戶看到的頁(yè)面,瀏覽器看到的頁(yè)面和搜索引擎解析出來(lái)的結(jié)構(gòu)化信息。

JSON-LD,即“JSON for Linking Data”,用鍵值對(duì)的方式來(lái)存儲(chǔ) RDF 數(shù)據(jù)。

下面,我們結(jié)合上文中羅納爾多知識(shí)圖的例子,給出其 N-Triples 和 Turtle 的具體表示。

Example1N-Triples:"羅納爾多·路易斯·納薩里奧·德·利馬"^^string."足球運(yùn)動(dòng)員"^^string."RonaldoLuísNazáriodeLima"^^string."1976-09-18"^^date."180"^^int."98"^^int."巴西"^^string.."里約熱內(nèi)盧"^^string."-22.908333,-43.196389"^^string.

用 Turtle 表示的時(shí)候我們會(huì)加上前綴(Prefix)對(duì) RDF 的 IRI 進(jìn)行縮寫。

Example2Turtle:@prefixperson:.@prefixplace:.@prefix:.person:1:chineseName"羅納爾多·路易斯·納薩里奧·德·利馬"^^string.person:1:career"足球運(yùn)動(dòng)員"^^string.person:1:fullName"RonaldoLuísNazáriodeLima"^^string.person:1:birthDate"1976-09-18"^^date.person:1:height"180"^^int.person:1:weight"98"^^int.person:1:nationality"巴西"^^string.person:1:hasBirthPlaceplace:10086.place:10086:address"里約熱內(nèi)盧"^^string.place:10086:coordinate"-22.908333,-43.196389"^^string.

同一個(gè)實(shí)體擁有多個(gè)屬性(數(shù)據(jù)屬性)或關(guān)系(對(duì)象屬性),我們可以只用一個(gè) subject 來(lái)表示,使其更緊湊。我們可以將上面的 Turtle 改為:

Example3Turtle:@prefixperson:.@prefixplace:.@prefix:.person:1:chineseName"羅納爾多·路易斯·納薩里奧·德·利馬"^^string;:career"足球運(yùn)動(dòng)員"^^string;:fullName"RonaldoLuísNazáriodeLima"^^string;:birthDate"1976-09-18"^^date;:height"180"^^int;:weight"98"^^int;:nationality"巴西"^^string;:hasBirthPlaceplace:10086.place:10086:address"里約熱內(nèi)盧"^^string;:coordinate"-22.908333,-43.196389"^^string.

即,將一個(gè)實(shí)體用一個(gè)句子表示(這里的句子指的是一個(gè)英文句號(hào)“.”)而不是多個(gè)句子,屬性間用分號(hào)隔開。

RDF的表達(dá)能力

在第二部分中我們提到,RDF 的表達(dá)能力有限,無(wú)法區(qū)分類和對(duì)象,也無(wú)法定義和描述類的關(guān)系/屬性。我的理解是,RDF 是對(duì)具體事物的描述,缺乏抽象能力,無(wú)法對(duì)同一個(gè)類別的事物進(jìn)行定義和描述。就以羅納爾多這個(gè)知識(shí)圖為例,RDF 能夠表達(dá)羅納爾多和里約熱內(nèi)盧這兩個(gè)實(shí)體具有哪些屬性,以及它們之間的關(guān)系。但如果我們想定義羅納爾多是人,里約熱內(nèi)盧是地點(diǎn),并且人具有哪些屬性,地點(diǎn)具有哪些屬性,人和地點(diǎn)之間存在哪些關(guān)系,這個(gè)時(shí)候 RDF 就表示無(wú)能為力了。不論是在智能的概念上,還是在現(xiàn)實(shí)的應(yīng)用當(dāng)中,這種泛化抽象能力都是相當(dāng)重要的;同時(shí),這也是知識(shí)圖譜本身十分強(qiáng)調(diào)的。RDFS 和 OWL 這兩種技術(shù)或者說(shuō)模式語(yǔ)言/本體語(yǔ)言(schema/ontology language)解決了 RDF 表達(dá)能力有限的困境。

▌二、RDF的“衣服”——RDFS/OWL

之所以說(shuō) RDFS/OWL 是 RDF 的“衣服”,因?yàn)樗鼈兌际怯脕?lái)描述 RDF 數(shù)據(jù)的。為了不顯得這么抽象,我們可以用關(guān)系數(shù)據(jù)庫(kù)中的概念進(jìn)行類比。用過(guò)Mysql 的讀者應(yīng)該知道,其 database 也被稱作 schema。這個(gè) schema 和我們這里提到的 schema language 十分類似。我們可以認(rèn)為數(shù)據(jù)庫(kù)中的每一張表都是一個(gè)類(Class),表中的每一行都是該類的一個(gè)實(shí)例或者對(duì)象(學(xué)過(guò)java等面向?qū)ο蟮?a target="_blank">編程語(yǔ)言的讀者很容易理解)。表中的每一列就是這個(gè)類所包含的屬性。如果我們是在數(shù)據(jù)庫(kù)中來(lái)表示人和地點(diǎn)這兩個(gè)類別,那么為他們分別建一張表就行了;再用另外一張表來(lái)表示人和地點(diǎn)之間的關(guān)系。RDFS/OWL 本質(zhì)上是一些預(yù)定義詞匯(vocabulary)構(gòu)成的集合,用于對(duì) RDF 進(jìn)行類似的類定義及其屬性的定義。

Notice:

RDFS/OWL 序列化方式和 RDF 沒(méi)什么不同,其實(shí)在表現(xiàn)形式上,它們就是RDF。其常用的方式主要是 RDF/XML,Turtle。另外,通常我們用小寫開頭的單詞或詞組來(lái)表示屬性,大寫開頭的表示類。數(shù)據(jù)屬性(data property,實(shí)體和literal字面量的關(guān)系)通常由名詞組成,而對(duì)象數(shù)據(jù)(object property,實(shí)體和實(shí)體之間的關(guān)系)通常由動(dòng)詞(has,is之類的)加名詞組成。剩下的部分符合駝峰命名法。為了將它們表示得更清楚,避免讀者混淆,之后我們都會(huì)默認(rèn)這種命名方式。讀者實(shí)踐過(guò)程中命名方式?jīng)]有強(qiáng)制要求,但最好保持一致。

輕量級(jí)的模式語(yǔ)言——RDFS

RDFS,即“Resource Description Framework Schema”,是最基礎(chǔ)的模式語(yǔ)言。還是以羅納爾多知識(shí)圖為例,我們?cè)诟拍睢⒊橄髮用鎸?duì) RDF數(shù)據(jù)進(jìn)行定義。下面的 RDFS 定義了人和地點(diǎn)這兩個(gè)類,及每個(gè)類包含的屬性。

@prefixrdfs:.@prefixrdf:.@prefix:.###這里我們用詞匯rdfs:Class定義了“人”和“地點(diǎn)”這兩個(gè)類。:Personrdf:typerdfs:Class.:Placerdf:typerdfs:Class.###rdfs當(dāng)中不區(qū)分?jǐn)?shù)據(jù)屬性和對(duì)象屬性,詞匯rdf:Property定義了屬性,即RDF的“邊”。:chineseNamerdf:typerdf:Property;rdfs:domain:Person;rdfs:rangexsd:string.:careerrdf:typerdf:Property;rdfs:domain:Person;rdfs:rangexsd:string.:fullNamerdf:typerdf:Property;rdfs:domain:Person;rdfs:rangexsd:string.:birthDaterdf:typerdf:Property;rdfs:domain:Person;rdfs:rangexsd:date.:heightrdf:typerdf:Property;rdfs:domain:Person;rdfs:rangexsd:int.:weightrdf:typerdf:Property;rdfs:domain:Person;rdfs:rangexsd:int.:nationalityrdf:typerdf:Property;rdfs:domain:Person;rdfs:rangexsd:string.:hasBirthPlacerdf:typerdf:Property;rdfs:domain:Person;rdfs:range:Place.:addressrdf:typerdf:Property;rdfs:domain:Place;rdfs:rangexsd:string.:coordinaterdf:typerdf:Property;rdfs:domain:Place;rdfs:rangexsd:string.

我們這里只介紹 RDFS 幾個(gè)比較重要,常用的詞匯:

rdfs:Class. 用于定義類。

rdfs:domain. 用于表示該屬性屬于哪個(gè)類別。

rdfs:range. 用于描述該屬性的取值類型。

rdfs:subClassOf. 用于描述該類的父類。比如,我們可以定義一個(gè)運(yùn)動(dòng)員類,聲明該類是人的子類。

rdfs:subProperty. 用于描述該屬性的父屬性。比如,我們可以定義一個(gè)名稱屬性,聲明中文名稱和全名是名稱的子類。

其實(shí) rdf:Property和rdf:type 也是 RDFS 的詞匯,因?yàn)?RDFS 本質(zhì)上就是RDF 詞匯的一個(gè)擴(kuò)展。我們?cè)谶@里不羅列進(jìn)去,是不希望讀者混淆。RDFS其他的詞匯及其用法請(qǐng)參考W3C 官方文檔。

為了讓讀者更直觀地理解 RDF 和 RDFS/OWL 在知識(shí)圖譜中所代表的層面,我們用下面的圖來(lái)表示例子中的數(shù)據(jù)層和模式層。

Data 層是我們用RDF對(duì)羅納爾多知識(shí)圖的具體描述,Vocabulary 是我們自己定義的一些詞匯(類別,屬性),RDF(S) 則是預(yù)定義詞匯。從下到上是一個(gè)具體到抽象的過(guò)程。圖中我們用紅色圓角矩形表示類,綠色字體表示rdf:type,rdfs:domain,rdfs:range 三種預(yù)定義詞匯,虛線表示 rdf:type這種所屬關(guān)系。另外,為了減少圖中連線的交叉,我們只保留了 career 這一個(gè)屬性的 rdf:type 所屬關(guān)系,省略了其他屬性的此關(guān)系。

RDFS的擴(kuò)展——OWL

上面我們提到,RDFS 本質(zhì)上是RDF詞匯的一個(gè)擴(kuò)展。后來(lái)人們發(fā)現(xiàn) RDFS 的表達(dá)能力還是相當(dāng)有限,因此提出了 OWL。我們也可以把 OWL 當(dāng)做是RDFS 的一個(gè)擴(kuò)展,其添加了額外的預(yù)定義詞匯。

OWL,即“Web Ontology Language”,語(yǔ)義網(wǎng)技術(shù)棧的核心之一。OWL 有兩個(gè)主要的功能:

提供快速、靈活的數(shù)據(jù)建模能力。

高效的自動(dòng)推理。

我們先談如何利用 OWL 進(jìn)行數(shù)據(jù)建模。用 OWL 對(duì)羅納爾多知識(shí)圖進(jìn)行語(yǔ)義層的描述:

@prefixrdfs:.@prefixrdf:.@prefix:.@prefixowl:.###這里我們用詞匯owl:Class定義了“人”和“地點(diǎn)”這兩個(gè)類。:Personrdf:typeowl:Class.:Placerdf:typeowl:Class.###owl區(qū)分?jǐn)?shù)據(jù)屬性和對(duì)象屬性(對(duì)象屬性表示實(shí)體和實(shí)體之間的關(guān)系)。詞匯owl:DatatypeProperty定義了數(shù)據(jù)屬性,owl:ObjectProperty定義了對(duì)象屬性。:chineseNamerdf:typeowl:DatatypeProperty;rdfs:domain:Person;rdfs:rangexsd:string.:careerrdf:typeowl:DatatypeProperty;rdfs:domain:Person;rdfs:rangexsd:string.:fullNamerdf:typeowl:DatatypeProperty;rdfs:domain:Person;rdfs:rangexsd:string.:birthDaterdf:typeowl:DatatypeProperty;rdfs:domain:Person;rdfs:rangexsd:date.:heightrdf:typeowl:DatatypeProperty;rdfs:domain:Person;rdfs:rangexsd:int.:weightrdf:typeowl:DatatypeProperty;rdfs:domain:Person;rdfs:rangexsd:int.:nationalityrdf:typeowl:DatatypeProperty;rdfs:domain:Person;rdfs:rangexsd:string.:hasBirthPlacerdf:typeowl:ObjectProperty;rdfs:domain:Person;rdfs:range:Place.:addressrdf:typeowl:DatatypeProperty;rdfs:domain:Place;rdfs:rangexsd:string.:coordinaterdf:typeowl:DatatypeProperty;rdfs:domain:Place;rdfs:rangexsd:string.

schema 層的描述語(yǔ)言換為 OWL 后,層次圖表示為:

數(shù)據(jù)屬性用青色表示,對(duì)象屬性由藍(lán)色表示。

羅納爾多這個(gè)例子不能展現(xiàn) OWL 豐富的表達(dá)能力,我們這里簡(jiǎn)單介紹一下常用的詞匯:

描述屬性特征的詞匯

owl:TransitiveProperty. 表示該屬性具有傳遞性質(zhì)。例如,我們定義“位于”是具有傳遞性的屬性,若A位于B,B位于C,那么A肯定位于C。

owl:SymmetricProperty. 表示該屬性具有對(duì)稱性。例如,我們定義“認(rèn)識(shí)”是具有對(duì)稱性的屬性,若A認(rèn)識(shí)B,那么B肯定認(rèn)識(shí)A。

owl:FunctionalProperty. 表示該屬性取值的唯一性。 例如,我們定義“母親”是具有唯一性的屬性,若A的母親是B,在其他地方我們得知A的母親是C,那么B和C指的是同一個(gè)人。

owl:inverseOf. 定義某個(gè)屬性的相反關(guān)系。例如,定義“父母”的相反關(guān)系是“子女”,若A是B的父母,那么B肯定是A的子女。

本體映射詞匯(Ontology Mapping)

owl:equivalentClass. 表示某個(gè)類和另一個(gè)類是相同的。

owl:equivalentProperty. 表示某個(gè)屬性和另一個(gè)屬性是相同的。

owl:sameAs. 表示兩個(gè)實(shí)體是同一個(gè)實(shí)體。

本體映射主要用在融合多個(gè)獨(dú)立的 Ontology(Schema)。舉個(gè)例子,張三自己構(gòu)建了一個(gè)本體結(jié)構(gòu),其中定義了 Person 這樣一個(gè)類來(lái)表示人;李四則在自己構(gòu)建的本體中定義 Human 這個(gè)類來(lái)表示人。當(dāng)我們?nèi)诤线@兩個(gè)本體的時(shí)候,就可以用到 OWL 的本體映射詞匯。回想我們?cè)诘诙恼轮刑岬降?Linked Open Data,如果沒(méi)有 OWL,我們將無(wú)法融合這些知識(shí)圖譜。

rdf:typeowl:Class.rdf:typeowl:Class.owl:equivalentClass.

更多的OWL詞匯和特性請(qǐng)參考

[W3C官網(wǎng)文檔] (OWL Web Ontology Language Overview)

https://www.w3.org/TR/2004/REC-owl-features-20040210/

接下來(lái)我們談一下 OWL 在推理方面的能力。知識(shí)圖譜的推理主要分為兩類:基于本體的推理和基于規(guī)則的推理。

我們這里談的是基于本體的推理。讀者應(yīng)該發(fā)現(xiàn),上面所介紹的屬性特征詞匯其實(shí)就創(chuàng)造了對(duì) RDF 數(shù)據(jù)進(jìn)行推理的前提。此時(shí),我們加入支持 OWL 推理的推理機(jī)(reasoner),就能夠執(zhí)行基于本體的推理了。RDFS 同樣支持推理,由于缺乏豐富的表達(dá)能力,推理能力也不強(qiáng)。舉個(gè)例子,我們用 RDFS 定義人和動(dòng)物兩個(gè)類,另外,定義人是動(dòng)物的一個(gè)子類。此時(shí)推理機(jī)能夠推斷出一個(gè)實(shí)體若是人,那么它也是動(dòng)物。OWL 當(dāng)然支持這種基本的推理,除此之外,憑借其強(qiáng)大的表達(dá)能力,我們能進(jìn)行更有實(shí)際意義的推理。想象一個(gè)場(chǎng)景,我們有一個(gè)龐大數(shù)據(jù)庫(kù)存儲(chǔ)人物的親屬關(guān)系。里面很多關(guān)系都是單向的,比如,其只保存了A的父親(母親)是B,但B的子女字段里面沒(méi)有A,如下表。

如果在只有單個(gè)關(guān)系,數(shù)據(jù)量不多的情況下,我們尚能人工的去補(bǔ)全這種關(guān)系。如果在關(guān)系種類上百,人物上億的情況下,我們?nèi)绾翁幚恚慨?dāng)進(jìn)行關(guān)系修改,添加,刪除等操作的時(shí)候,該怎么處理?這種場(chǎng)景想想就會(huì)讓人崩潰。如果我們用 inversOf 來(lái)表示 hasParent 和 hasChild 互為逆關(guān)系,上面的數(shù)據(jù)可以表示為:

綠色的關(guān)系表示是我們 RDF 數(shù)據(jù)中真實(shí)存在的,紅色的關(guān)系是推理得到的。通過(guò)這個(gè)例子,相信讀者應(yīng)該初步了解了 OWL 的推理功能和能力。

目前,OWL 的最新版本是 OWL 2,在兼容 OWL 的基礎(chǔ)上添加了新的功能,有興趣的讀者可以查閱W3C文檔。另外,OWL2 包含了三個(gè)標(biāo)準(zhǔn),或者三種配置(Profile),它們是 OWL2 完整標(biāo)準(zhǔn)(OWL 2/Full)的一個(gè)子集。讀者目前不用考慮它們之間的差別,只有當(dāng)我們要用到 OWL 自動(dòng)推理功能的時(shí)候才需要考慮到底使用哪一種配置。且在大多數(shù)情況下,我們需要知道哪種配置才是最合適的。下面簡(jiǎn)單說(shuō)說(shuō)它們使用的場(chǎng)景:

OWL 2/EL 使用場(chǎng)景:本體結(jié)構(gòu)中有大量相互鏈接的類和屬性,設(shè)計(jì)者想用自動(dòng)推理機(jī)得到里面復(fù)雜的關(guān)系。

OWL 2/QL 使用場(chǎng)景:有大量的實(shí)例數(shù)據(jù)。OWL 2 QL 本體可以被改寫為SQL 查詢,適用于使用 OBDA(ontology based data access)的方式來(lái)訪問(wèn)關(guān)系數(shù)據(jù)庫(kù)。也就是說(shuō)我們不用顯式地把關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)轉(zhuǎn)為RDF,而是通過(guò)映射的方式,將數(shù)據(jù)庫(kù)轉(zhuǎn)為虛擬 RDF 圖進(jìn)行訪問(wèn)。

OWL 2/RL 使用場(chǎng)景:需要結(jié)合基于規(guī)則的推理引擎(rule-based reasoning engine)的場(chǎng)合。

▌三、總結(jié)

本部分主要介紹了 RDF 的序列化方式,如何利用 RDFS/OWL 進(jìn)行 schema層的建模,和 OWL 的推理功能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • RDF
    RDF
    +關(guān)注

    關(guān)注

    0

    文章

    10

    瀏覽量

    7756
  • 知識(shí)圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7703

原文標(biāo)題:知識(shí)圖譜系列 | 知識(shí)圖譜的前世今生與RDF的實(shí)踐

文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    知識(shí)圖譜相關(guān)應(yīng)用

    智慧風(fēng)控的背后,是知識(shí)圖譜的深度應(yīng)用
    發(fā)表于 08-22 14:40

    分享自底向上構(gòu)建知識(shí)圖譜的過(guò)程

    一文揭秘!自底向上構(gòu)建知識(shí)圖譜全過(guò)程
    發(fā)表于 09-29 14:27

    KGB知識(shí)圖譜基于傳統(tǒng)知識(shí)工程的突破分析

    知識(shí)圖譜本質(zhì)上是一種大規(guī)模的語(yǔ)義網(wǎng)絡(luò)。從2012年谷歌提出知識(shí)圖譜知識(shí)圖譜一直在快速發(fā)展,其應(yīng)用也不再局限于“語(yǔ)義網(wǎng)絡(luò)”范疇。現(xiàn)如今的知識(shí)圖譜在實(shí)際應(yīng)用中,主要作為大數(shù)據(jù)時(shí)代的
    發(fā)表于 10-22 15:25

    KGB知識(shí)圖譜技術(shù)能夠解決哪些行業(yè)痛點(diǎn)?

    `知識(shí)圖譜和行業(yè)應(yīng)用相互結(jié)合時(shí),需要充分發(fā)揮其技術(shù)特色,且要適用于現(xiàn)在的企業(yè)應(yīng)用。那么知識(shí)圖譜的應(yīng)用可以解決那些行業(yè)問(wèn)題呢?知識(shí)圖譜在行業(yè)應(yīng)用方面實(shí)現(xiàn)的突破具體表現(xiàn)在知識(shí)表示、
    發(fā)表于 10-30 15:34

    知識(shí)圖譜的三種特性評(píng)析

    知識(shí)圖譜的應(yīng)用對(duì)技術(shù)本身也提出了高要求,KGB知識(shí)圖譜現(xiàn)在已經(jīng)在保險(xiǎn)行業(yè),為公司分析上市數(shù)據(jù)等行業(yè)得以廣泛應(yīng)用,知識(shí)圖譜能夠在應(yīng)用中發(fā)揮優(yōu)勢(shì)主要體現(xiàn)在哪里呢?(1) 目標(biāo)的動(dòng)態(tài)性:考察知識(shí)圖
    發(fā)表于 12-13 13:57

    KGB知識(shí)圖譜幫助金融機(jī)構(gòu)進(jìn)行風(fēng)險(xiǎn)預(yù)判

    。面對(duì)客戶群體意識(shí)較為淡薄,客戶對(duì)還款義務(wù)不明確。同時(shí)存在一些不法分子的惡意詐騙。對(duì)于信用風(fēng)險(xiǎn)的控制,貫穿于信貸生命全周期,在控制風(fēng)險(xiǎn)方面,除了銀行的實(shí)地考察,銀行可以借助KGB知識(shí)圖譜模型對(duì)金融行業(yè)進(jìn)行
    發(fā)表于 06-18 23:07

    KGB知識(shí)圖譜通過(guò)智能搜索提升金融行業(yè)分析能力

    知識(shí)圖譜作為知識(shí)的一種形式,已經(jīng)在語(yǔ)義搜索、智能問(wèn)答、數(shù)據(jù)分析、自然語(yǔ)言理解、視覺(jué)理解、物聯(lián)網(wǎng)設(shè)備互聯(lián)等多個(gè)方面發(fā)揮出越來(lái)越大的價(jià)值。尤其在金融領(lǐng)域,KGB知識(shí)圖譜能夠?qū)崿F(xiàn)數(shù)據(jù)可視化,智能搜索,為
    發(fā)表于 06-22 21:23

    領(lǐng)域知識(shí)圖譜落地實(shí)踐中的問(wèn)題與對(duì)策

    近年來(lái),知識(shí)圖譜技術(shù)進(jìn)展迅速,各種領(lǐng)域知識(shí)圖譜技術(shù)在很多領(lǐng)域或行業(yè)取得了顯著落地效果。在領(lǐng)域知識(shí)圖譜技術(shù)的落地實(shí)踐過(guò)程中涌現(xiàn)出一大批理論與工
    的頭像 發(fā)表于 08-07 08:21 ?1w次閱讀

    一文帶你讀懂知識(shí)圖譜

    1 什么是知識(shí)圖譜? 通俗地講,知識(shí)圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò)。 知識(shí)圖譜這個(gè)網(wǎng)絡(luò)具備以下3種特性: 1.1 由
    的頭像 發(fā)表于 12-26 10:23 ?3729次閱讀

    知識(shí)圖譜劃分的相關(guān)算法及研究

    知識(shí)圖譜是人工智能的重要基石,因其包含豐富的圖結(jié)構(gòu)和屬性信息而受到廣泛關(guān)注。知識(shí)圖譜可以精確語(yǔ)義描述現(xiàn)實(shí)世界中的各種實(shí)體及其聯(lián)系,其中頂點(diǎn)表示實(shí)體,邊表示實(shí)體間的聯(lián)系。知識(shí)圖譜劃分是大規(guī)模知識(shí)
    發(fā)表于 03-18 10:10 ?9次下載
    <b class='flag-5'>知識(shí)圖譜</b>劃分的相關(guān)算法及研究

    知識(shí)圖譜在工程應(yīng)用中的關(guān)鍵技術(shù)、應(yīng)用及案例

    近年來(lái),知識(shí)圖譜及其相關(guān)技術(shù)得到快速發(fā)展,并被廣泛應(yīng)用于工業(yè)界各種認(rèn)知智能場(chǎng)景中。在簡(jiǎn)述知識(shí)圖譜相關(guān)研究的基礎(chǔ)上,介紹知識(shí)圖譜在工程應(yīng)用中的關(guān)鍵技術(shù),研究工業(yè)級(jí)知識(shí)圖譜的典型應(yīng)用場(chǎng)景與
    發(fā)表于 03-30 15:12 ?15次下載
    <b class='flag-5'>知識(shí)圖譜</b>在工程應(yīng)用中的關(guān)鍵技術(shù)、應(yīng)用及案例

    知識(shí)圖譜是NLP的未來(lái)嗎?

    我的看法:知識(shí)圖譜不是NLP的未來(lái),因?yàn)?b class='flag-5'>知識(shí)圖譜是另外一種與NLP有很多交集的技術(shù)。在目前所有已知的發(fā)展方向中,知識(shí)圖譜是最有可能長(zhǎng)期和NLP互利共生的技術(shù)。
    的頭像 發(fā)表于 04-15 14:36 ?3692次閱讀
    <b class='flag-5'>知識(shí)圖譜</b>是NLP的未來(lái)嗎?

    什么是知識(shí)圖譜?人工智能世界知識(shí)圖譜的發(fā)展

    1.1 什么是知識(shí)圖譜 ? 知識(shí)圖譜是一種用圖模型來(lái)描述知識(shí)和建模世界萬(wàn)物之間的關(guān)聯(lián)關(guān)系的技術(shù)方法[1]。知識(shí)圖譜由節(jié)點(diǎn)和邊組成。節(jié)點(diǎn)可以是實(shí)體,如一個(gè)人、一本書等,或是抽象的概念,如
    的頭像 發(fā)表于 06-01 19:54 ?6221次閱讀
    什么是<b class='flag-5'>知識(shí)圖譜</b>?人工智能世界<b class='flag-5'>知識(shí)圖譜</b>的發(fā)展

    知識(shí)圖譜Knowledge Graph構(gòu)建與應(yīng)用

    一、知識(shí)圖譜概論 ? ? ? ? 1.1知識(shí)圖譜的起源和歷史 1.2知識(shí)圖譜的發(fā)展史——從框架、本體論、語(yǔ)義網(wǎng)、鏈接數(shù)據(jù)到知識(shí)圖譜 1.3知識(shí)圖譜
    發(fā)表于 09-17 10:12 ?647次閱讀

    知識(shí)圖譜知識(shí)圖譜的典型應(yīng)用

    作者:?cooldream2009? 我們構(gòu)建知識(shí)圖譜的目的,在于利用知識(shí)圖譜來(lái)做一些事情。有效利用知識(shí)圖譜,就是要考慮知識(shí)圖譜的具備的能力,知識(shí)圖
    的頭像 發(fā)表于 10-18 09:26 ?1949次閱讀
    <b class='flag-5'>知識(shí)圖譜</b>:<b class='flag-5'>知識(shí)圖譜</b>的典型應(yīng)用
    主站蜘蛛池模板: 甜性涩爱免费下载| 久久精品av| 亚洲AV精品无码国产一区| 国产一区二区在线免费观看| 亚洲国产精品一区二区久久第 | 亚洲欧美免费无码专区| 精品人妻无码一区二区三区蜜桃臀 | 国产高潮国产高潮久久久久久| 无人影院在线播放视频| 好大好爽好深舒服死了| 在线看片韩国免费人成视频| 嫩草影院在线观看精品| 吃奶摸下的激烈免费视频| 亚洲 欧美 清纯 校园 另类| 久久九九日本韩国精品| av女优快播| 无码爽死成人777在线观看网站| 狠狠射首页| 99精品视频免费在线观看| 日韩人妻无码精品-专区| 国产在线观看不卡| 2021国产在线视频| 日日摸天天添天天添无码蜜臀| 国产午夜永久福利视频在线观看| 玉娇龙续集春雪瓶txt免费阅读| 女生扒开下面| 国产精品嫩草影院一区二区三区| 亚洲性无码av在线| 女人被躁到高潮嗷嗷叫69| 国产成人理在线观看视频| 亚洲中文久久久久久国产精品 | 国产蜜臀AV在线一区视频| 在线免费观看毛片| 日本女人水多| 精品国产乱码久久久久久软件| 97蜜桃123| 午夜福利92看看电影80| 麻豆第一区MV免费观看网站 | 女人的选择hd| 国产人妻精品午夜福利免费不卡| 中文字幕一区二区视频|