摘要
知識圖譜是一種基于圖的結(jié)構(gòu)化知識表示方式。如何構(gòu)造大規(guī)模高質(zhì)量的知識圖譜, 是研究和實踐面臨的一個重要問題。提出了一種基于互聯(lián)網(wǎng)群體智能的協(xié)同式知識圖譜構(gòu)造方法。該方法的核心是一個持續(xù)運行的回路, 其中包含自由探索、自動融合、主動反饋3個活動。在自由探索活動中, 每一參與者獨立進行知識圖譜的構(gòu)造活動。在自動融合活動中, 所有參與者的個體知識圖譜被實時融合在一起, 形成群體知識圖譜。在主動反饋活動中, 支撐環(huán)境根據(jù)每一參與者的個體知識圖譜和當(dāng)前時刻的群體知識圖譜, 向該參與者推薦特定的知識圖譜片段信息, 以提高其構(gòu)造知識圖譜的效率。針對這3個活動, 建立了一種層次式的個體知識圖譜表示機制, 提出了一種以最小化廣義熵為目標(biāo)的個體知識圖譜融合算法, 設(shè)計了情境無關(guān)和情境相關(guān)兩種類型的信息反饋方式。為了驗證所提方法及關(guān)鍵技術(shù)的可行性, 設(shè)計并實施了3種類型的實驗: 僅包含結(jié)構(gòu)信息的仿真圖融合實驗、大規(guī)模真實知識圖譜的融合實驗, 以及真實知識圖譜的協(xié)同式構(gòu)造實驗。實驗結(jié)果表明, 該知識圖譜融合算法能夠有效利用知識圖譜的結(jié)構(gòu)信息以及節(jié)點的語義信息, 形成高質(zhì)量的知識圖譜融合方案; 基于“探索-融合-反饋”回路的協(xié)同方法能夠提升群體構(gòu)造知識圖譜的規(guī)模和個體構(gòu)造知識圖譜的效率, 并展現(xiàn)出較好的群體規(guī)??蓴U展性。
知識圖譜(knowledge graph)是一種基于圖(graph)的結(jié)構(gòu)化知識表示方式。 一個圖通常由一組節(jié)點以及節(jié)點間的關(guān)系構(gòu)成。 采用圖的方式對知識進行表示, 反映了一種以關(guān)系為核心的知識觀, 即知識蘊含在關(guān)系中。
人類文明發(fā)展到目前的階段, 已經(jīng)累積形成了海量的知識資源。 其中, 相當(dāng)部分的知識以自然語言這種非結(jié)構(gòu)化的方式存在。 隨著人類社會的持續(xù)發(fā)展, 人類知識的規(guī)模和復(fù)雜度也在不斷增長。 持續(xù)增長的非結(jié)構(gòu)化知識資源對知識的管理、傳播與再生產(chǎn)的負(fù)面影響日益顯著。 通過將知識表示為一組節(jié)點及其之間的關(guān)系, 知識圖譜能夠幫助人類和計算機更好地管理、理解與使用海量的知識資源, 對于促進人類文明的持續(xù)發(fā)展具有重要意義。
設(shè)想一項知識圖譜構(gòu)造任務(wù): 建立《紅樓夢》一書中所有人物之間的關(guān)系圖。 粗略一想, 大概有如下幾種方式去完成這項任務(wù)。
一個人手工完成。 找到一本《紅樓夢》圖書, 逐頁閱讀, 提取其中的人物及人物之間的關(guān)系信息。 可以想象, 即使是一個對紅樓夢非常了解的人, 也需要耗費數(shù)月甚至更長的時間去完成這一任務(wù)。 即便如此, 也不能保證結(jié)果的正確性和完整性。
基于軟件算法的自動構(gòu)造。 采用某種自然語言處理算法, 自動從《紅樓夢》的文字信息中抽取出人物關(guān)系信息。 這是一個看起來非常完美的解決方案。 但其有效性依賴于一個基本假設(shè), 即自然語言處理算法在該問題上具備了相當(dāng)于(或超過)人類個體的自然語言理解及分析能力。 目前的技術(shù)進展還不能滿足這一假設(shè)。
基于軟件算法的自動構(gòu)造+人工修正。 這種方式將上述兩種方式結(jié)合起來, 能夠進一步提高所構(gòu)造的知識圖譜的質(zhì)量。
幾個好友一起手工完成。 幾個好友分別閱讀《紅樓夢》的不同章節(jié), 提取其中的人物關(guān)系信息。 與單人方式相比, 采用多人方式去完成這項任務(wù), 在滿足如下條件的情況下會有更高的效率: 一, 這幾個好友對紅樓夢有一定程度的了解; 二, 這幾個好友愿意花費一段時間全身心地投入到這項任務(wù)中; 三, 按照章節(jié)的方式去分工, 不會導(dǎo)致人物關(guān)系信息的大量丟失; 四, 這幾個好友具有良好的協(xié)同能力。
在互聯(lián)網(wǎng)環(huán)境下, 還有另外一種方式去完成這項任務(wù), 即采用協(xié)同式眾包的方式。 這種方式大概可以理解為是“幾個好友一起手工完成”在互聯(lián)網(wǎng)技術(shù)支持下的規(guī)模擴展版本。 在互聯(lián)網(wǎng)技術(shù)的支持下, 任何個體都可以自由加入到這項任務(wù)中, 在其中貢獻自己所知道的紅樓夢人物關(guān)系信息片段, 或?qū)ζ渌藙?chuàng)建的信息片段的正確性/準(zhǔn)確性進行判斷; 然后, 通過某種方式將所有參與者提交的信息片段拼接在一起, 形成完整的紅樓夢人物關(guān)系圖。 本文關(guān)注的也正是這樣一種知識圖譜構(gòu)造方式。
需要指出的是, 這種協(xié)同式眾包與目前主流的兩種眾包實踐(即競爭性眾包、微任務(wù)眾包)具有一定的差異性。 首先, 協(xié)同式眾包不是競爭性眾包。 所謂競爭性眾包, 是指由若干團隊各自獨立地完成一項任務(wù), 然后通過某種方式確定完成質(zhì)量最好的一個團隊, 向其支付酬金; 其他團隊的工作結(jié)果不會被采納, 也不會獲得任何酬金。 而在協(xié)同式眾包中, 協(xié)同的特點更顯著一些, 競爭的特點則相對微弱。 其次, 協(xié)同式眾包也不完全是微任務(wù)眾包。 所謂微任務(wù)眾包, 是指眾包任務(wù)本身就是由一組離散的微任務(wù)組成。 例如, 對于“為一個圖片庫中的所有圖片添加文字標(biāo)注”這一眾包任務(wù), 其實際上是由一組“為一個特定圖片添加文字標(biāo)注”的微任務(wù)所組成; 完成了所有的微任務(wù), 就相當(dāng)于完成了這一眾包任務(wù)。 在協(xié)同式眾包中, 可能并不存在一組事先定義的子問題, 而是由參與者自發(fā)地識別出當(dāng)前眾包任務(wù)的子問題并提交相應(yīng)的解決方案信息。 另外, 與微任務(wù)眾包相比, 協(xié)同式眾包還增加了信息拼接的內(nèi)容, 即需要采用某種方式把不同個體提交的片段信息拼接在一起。 相比較而言, 協(xié)同式眾包是一種更關(guān)注協(xié)同、更為智能的眾包。 在本文中, 我們將這種類型的眾包定位為一種互聯(lián)網(wǎng)群體智能, 進而將這種構(gòu)造知識圖譜的方式稱為“基于互聯(lián)網(wǎng)群體智能的知識圖譜構(gòu)造”。
抽象而言, 本文探索采用基于互聯(lián)網(wǎng)人類群體智能的方式來構(gòu)造知識圖譜并促使其持續(xù)演化, 即通過人類個體基于互聯(lián)網(wǎng)的大規(guī)模群體協(xié)同, 來構(gòu)造和演化知識圖譜。 在該方式中, 每一人類個體都可以自由加入到知識圖譜的構(gòu)造活動中, 在其中貢獻自己的力量, 形成某種形式的大規(guī)模群體協(xié)同。 該方式的可行性體現(xiàn)在3個方面。 (1) 在互聯(lián)網(wǎng)環(huán)境下, 涌現(xiàn)出了面向眾多復(fù)雜問題求解的群體智能現(xiàn)象, 為基于群體智能的知識圖譜構(gòu)造和演化提供了參考性示例。 (2) 人類個體, 在某種意義上, 是一個天然的高質(zhì)量自然語言分析程序。 (3) 知識圖譜具有的圖結(jié)構(gòu), 使得知識圖譜的構(gòu)造問題具有良好的可分解性, 使得每一參與者都可以低成本地參與到知識圖譜的構(gòu)造活動中: 每一參與者可以把自己知道的信息轉(zhuǎn)化為相應(yīng)的知識圖譜片段; 然后自動化算法對個體片段信息進行拼接, 形成更為完整的知識圖譜。 這種基于群體智能的知識圖譜構(gòu)造方式, 其核心技術(shù)難點在于如何對大規(guī)模參與者群體提交的海量信息片段進行有效的融合與反饋, 使得在群體層面上形成一致、準(zhǔn)確的高質(zhì)量知識圖譜。
具體而言, 本文提出了一種基于群體智能的知識圖譜構(gòu)造方法。 該方法的核心是一個持續(xù)運行的回路(如圖 1所示), 稱為“探索-融合-反饋”[1]回路。 該回路包含了3個并行的活動: 自由探索、自動融合、主動反饋。 其中, 第1個活動由人類參與者實施, 后兩個活動由支撐環(huán)境自動實施。 在自由探索活動中, 每一參與知識圖譜構(gòu)造的人類個體獨立進行知識圖譜的構(gòu)造活動, 不與其他參與者發(fā)生直接的交互。 在任一時刻, 對于每一參與者而言, 其探索活動的輸出是一個個體知識圖譜。 在自動融合活動中, 支撐環(huán)境實時地將所有參與者當(dāng)前各自的探索結(jié)果融合在一起, 形成當(dāng)前時刻的群體知識圖譜。 在主動反饋活動中, 支撐環(huán)境根據(jù)每一參與者當(dāng)前的個體知識圖譜以及當(dāng)前的群體知識圖譜, 向該參與者推薦特定的知識圖譜片段信息, 以提高其構(gòu)造知識圖譜的效率。 每一參與者自主決定是否接受、拒絕或忽略支撐環(huán)境提供的反饋信息。 參與者對反饋信息的響應(yīng)會被記錄下來, 用于評估個體的知識偏好以及群體對特定信息的接受程度。
圖 1 基于群體智能的知識圖譜構(gòu)造框
為了驗證所提方法及關(guān)鍵技術(shù)的可行性, 我們設(shè)計并實施了3種類型的實驗: 僅包含結(jié)構(gòu)信息的仿真圖融合實驗、大規(guī)模真實知識圖譜的融合實驗以及真實知識圖譜的協(xié)同式構(gòu)造實驗。 第1類實驗的目的是為了觀察本文提出的知識圖譜融合算法對圖結(jié)構(gòu)信息的利用能力; 第2類實驗的目的是為了驗證算法對圖結(jié)構(gòu)信息和節(jié)點語義信息的融合能力; 第3類實驗的目的是為了考察本文提出的協(xié)同式知識圖譜構(gòu)造方法的可行性。
為了實施第3類實驗, 我們開發(fā)了一個支持“探索-融合-反饋”回路的多人在線知識圖譜構(gòu)造環(huán)境, 并分別在1、2、4、8人規(guī)模的參與者群體中進行了真實的知識圖譜構(gòu)造實驗。 實驗結(jié)果表明: (1) 本文提出的知識圖譜融合算法能夠有效利用知識圖譜的結(jié)構(gòu)信息以及節(jié)點的語義信息, 形成高質(zhì)量的知識圖譜融合方案(在兩個真實知識圖譜融合數(shù)據(jù)集上, 相比較目前最好的知識圖譜融合算法, 本文算法在Hit@1指標(biāo)上分別實現(xiàn)了2.24%和11.4%的提升); (2) 基于“探索-融合-反饋”回路的協(xié)同方法能夠提升群體構(gòu)造知識圖譜的規(guī)模和個體構(gòu)造知識圖譜的效率, 并展現(xiàn)出較好的群體規(guī)??蓴U展性(在相同時間內(nèi), 相比較單人獨立構(gòu)造知識圖譜, 8人協(xié)同構(gòu)造形成的群體知識圖譜的規(guī)模提升了約11倍, 且參與者的單人構(gòu)造效率提升了約1.5倍)。
本文的主要貢獻包含如下4點: 一種基于“探索-融合-反饋”回路的協(xié)同式知識圖譜構(gòu)造方法; 一種層次式的個體知識圖譜表示機制; 一種以最小化廣義熵為目標(biāo)的迭代式個體知識圖譜融合算法; 一個支持“探索-融合-反饋”回路的多人在線知識圖譜構(gòu)造環(huán)境。
本文第1節(jié)對知識圖譜和群體智能兩方面的相關(guān)研究工作進行簡要總結(jié)。 第2節(jié)提出基于“探索-融合-反饋”回路的協(xié)同式知識圖譜構(gòu)造方法, 并對其中的關(guān)鍵技術(shù)進行詳細(xì)闡述。 第3節(jié)通過3類實驗對本文所提方法和關(guān)鍵技術(shù)的可行性進行驗證。 第4節(jié)總結(jié)全文, 并對下一步研究工作進行簡要說明。
1 相關(guān)工作
1.1知識圖譜的構(gòu)建
知識圖譜最早可以追溯到20世紀(jì)60年代的語義網(wǎng)絡(luò)(semantic network)以及20世紀(jì)70年代的專家系統(tǒng)(expert system)。 在這一時期, 領(lǐng)域?qū)<沂侵R的主要來源, 知識圖譜主要通過單一個體或小規(guī)模群體手工構(gòu)造的方式完成。 2000年左右, Tim Berners-Lee提出了語義網(wǎng)(semantic Web)和關(guān)聯(lián)數(shù)據(jù)(linked data)的概念[2], 其目是為互聯(lián)網(wǎng)中存在的海量數(shù)據(jù)信息提供一種標(biāo)準(zhǔn)的描述框架, 從而促成大規(guī)模知識的結(jié)構(gòu)化表示、互聯(lián)與共享。 2012年, 谷歌正式提出了知識圖譜(knowledge graph)的概念, 將其用于語義化搜索, 展現(xiàn)出泛在的應(yīng)用前景。 在此之后, 知識圖譜得到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。
知識圖譜在實踐和研究中的一個重要問題是: 如何構(gòu)造大規(guī)模高質(zhì)量的知識圖譜。 目前, 知識圖譜的構(gòu)造方式大致可分為兩類: 人工構(gòu)造和自動化構(gòu)造。
1.1.1 人工構(gòu)建
早期的知識圖譜主要依靠單一個體或小規(guī)模群體進行人工構(gòu)造。 這一時期的典型工作包括Cyc和WordNet這兩個知識圖譜構(gòu)造項目。 Cyc通過手工構(gòu)造的方式將專家知識表示為一階邏輯形式[3]。 WordNet則主要依靠語言學(xué)專家手工輸入詞語之間的語義關(guān)系[4]。 隨著互聯(lián)網(wǎng)的普及與發(fā)展, 眾包成為一種新的知識圖譜構(gòu)造方式。 例如, Freebase項目采用類似維基百科的方式將知識圖譜的創(chuàng)建、修改、查看權(quán)限對外開放, 使得互聯(lián)網(wǎng)上的任一用戶都可以自由創(chuàng)建和編輯知識圖譜[5]。 DBpedia項目將知識圖譜構(gòu)造任務(wù)進行微任務(wù)化, 由大規(guī)模志愿者群體手工完成對維基百科中自然語言知識的結(jié)構(gòu)化表示[6]。
通過人工方式構(gòu)造形成的知識圖譜具有較高的準(zhǔn)確性、可用性和可信性。 但是, 受到構(gòu)造者個體能力的限制, 這種方式存在知識覆蓋面窄, 更新緩慢等問題。 雖然互聯(lián)網(wǎng)眾包大大提高了知識圖譜的構(gòu)造規(guī)模, 但這種方式仍然存在對一個小規(guī)模核心專家群體的強依賴。 例如, 不同用戶提交的數(shù)據(jù)之間存在的不一致性, 仍然需要由社區(qū)核心成員進行裁決[7, 8]。
1.1.2 自動化構(gòu)造
知識圖譜的自動化構(gòu)造算法大致可以分為基于規(guī)則和基于統(tǒng)計兩種類別。 在基于規(guī)則的構(gòu)造算法中, 需要由領(lǐng)域?qū)<沂孪冉o定適用于特定數(shù)據(jù)集的知識抽取、融合以及補全規(guī)則[9?12], 然后算法將這些規(guī)則應(yīng)用到特定的數(shù)據(jù)集上, 形成知識圖譜。 基于統(tǒng)計的構(gòu)造算法則自動識別特定領(lǐng)域數(shù)據(jù)源的統(tǒng)計特征, 并自動完成知識圖譜的構(gòu)造[13?16]。 目前, 主流的基于統(tǒng)計的自動化構(gòu)造算法普遍采用監(jiān)督學(xué)習(xí)的方式, 依賴于事先人工標(biāo)注的大規(guī)模訓(xùn)練數(shù)據(jù)集, 且針對不同的問題領(lǐng)域需要建立不同的訓(xùn)練數(shù)據(jù)集。 針對開放領(lǐng)域存在的樣本數(shù)據(jù)稀疏問題, 也有學(xué)者探索采用弱監(jiān)督學(xué)習(xí)的方式進行知識圖譜的自動化構(gòu)造[17, 18]。
自動化算法在一定程度上提高了知識圖譜的構(gòu)造效率, 降低了構(gòu)造成本, 但仍然存在兩個基本問題。 (1) 自動化算法, 特別是采用監(jiān)督學(xué)習(xí)的知識圖譜構(gòu)造算法, 嚴(yán)重依賴于訓(xùn)練數(shù)據(jù)集的規(guī)模和質(zhì)量。 (2) 在可以預(yù)見的將來, 自動化算法所具有的對一般性非結(jié)構(gòu)化知識的理解能力還遠(yuǎn)遠(yuǎn)達不到人類個體的能力, 這在很大程度上限制了自動化算法的應(yīng)用范圍。 在谷歌搜索引擎使用的知識圖譜中, 就大量包含了Freebase項目中由人工方式構(gòu)造的知識譜圖信息[19, 20]。 一些研究工作也表明, 在自動化構(gòu)造知識圖譜的過程中, 加入人類的反饋信息, 能夠明顯提升知識圖譜的構(gòu)造質(zhì)量[21?23]。
1.2 知識圖譜的表示
早期對知識表示的研究, 主要關(guān)注于建立形式化的邏輯語義表示機制, 從而支持對知識的有效推理。 20世紀(jì)60年代Collins等人[24]提出了語義網(wǎng)絡(luò)(semantic network)的概念, 試圖通過網(wǎng)絡(luò)結(jié)構(gòu)表示實體之間的語義關(guān)系。 20世紀(jì)70年代興起的專家系統(tǒng)[25]提出了更為形式化的知識表示機制, 主要包括: 產(chǎn)生式表示法(production rule pepresentation), 通過IF-THEN的結(jié)構(gòu)支持知識的推理; 框架表示語言(frame representation language), 通過“槽”描述對象可能存在的屬性和關(guān)聯(lián); 一階邏輯(first-order logic), 支持量化和斷言的命題邏輯, 通過演算支持知識的推理。 1985年, Brachman等人[26]在KL-ONE系統(tǒng)中使用描述邏輯(description logic)對知識進行表示, 其主要包含公理集合和斷言集合兩部分。 描述邏輯是一階邏輯的一個可判定子集, 能夠支持對一致性(consistency)、可滿足性(satisfiability)、包含檢測(subsumption)、實例檢測(instance checking)等性質(zhì)的判斷。
隨著互聯(lián)網(wǎng)的發(fā)展, 知識表示的一個重要任務(wù)是為互聯(lián)網(wǎng)中存在的海量數(shù)據(jù)信息提供一種統(tǒng)一的描述框架, 從而促進大規(guī)模知識的結(jié)構(gòu)化表示、互聯(lián)與共享。 與早期的知識表示相比, 現(xiàn)代知識圖譜(如Freebase、Yago、Wikidata等)均弱化了對邏輯語義表達的要求, 而強調(diào)大規(guī)模的事實型知識。 其中, 資源描述框架(resource description framework, RDF)是對事實型知識的一種主流表示方式, 即通過?主語, 謂語, 賓語?三元組的形式, 表示知識圖譜中實體及其之間的關(guān)系。 同時, 通過RDF范式(RDF schema)、元數(shù)據(jù)(metadata)等方式對RDF的語義信息進行輕量級的描述[2]。
隨著基于深度神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)技術(shù)的發(fā)展, 知識的向量化表示成為一個重要研究方向。 通過知識嵌入(embedding), 將實體和關(guān)系的語義信息表示為對應(yīng)的向量, 實體之間的關(guān)系可以通過向量計算得到, 減少了對圖的拓?fù)浣Y(jié)構(gòu)的依賴。 知識的向量化表示能夠有效地支持大規(guī)模知識圖譜中的知識查詢和知識補全。 Trans系列工作是知識向量化表示的典型代表。 該系列工作基于翻譯模型, 將知識圖譜中的實體轉(zhuǎn)換為詞向量, 并將實體間的關(guān)系視作兩個實體間的翻譯關(guān)系。 在TransE方法[13]中, 源實體通過關(guān)系被直接翻譯為目標(biāo)實體, 所以當(dāng)源/目標(biāo)實體和關(guān)系確定時目標(biāo)/源實體也是確定的。 這導(dǎo)致TransE方法無法支持一個實體擁有多個同類關(guān)系的情況, 與知識圖譜的實際表達能力不符。 Wang等人提出了TransH方法[27], 以應(yīng)對實體間可能存在多種同類關(guān)系這一客觀情況。 TransH的核心思想是在翻譯過程中僅關(guān)心實體中與當(dāng)前關(guān)系相關(guān)的維度信息, 且在翻譯前需要先將實體投影到關(guān)系所在的超平面。 Lin等人提出了TransR方法[28], 其核心思想是將實體和關(guān)系建模在兩個不同的空間中, 從而減小了空間維度, 能夠在一定程度上避免過擬合問題, 在實際數(shù)據(jù)中取得了更好的補全效果。
1.3 群體智能
1.3.1 自然界中的群體智能
長久以來, 科學(xué)家在很多社會性昆蟲群體中觀察到了一種看似矛盾的現(xiàn)象: 每一昆蟲個體不具有或僅具有有限的智能, 但一個昆蟲群體卻能在群體層次上展現(xiàn)出遠(yuǎn)超個體的智能行為。 這種在昆蟲群體層次上展現(xiàn)出的智能行為, 被稱為群體智能(swarm/collective intelligence)[29, 30]。 從群體智能現(xiàn)象中可以觀察到群體智能具有的一個基本性質(zhì), 即對個體智能的放大效果。
研究者提出了環(huán)境激發(fā)效應(yīng)[31]這一概念, 用于解釋社會性昆蟲的群體智能現(xiàn)象。 環(huán)境激發(fā)效應(yīng)指代了一種發(fā)生在昆蟲個體之間以物理環(huán)境為媒介的間接交互機制。 基于這一概念, 昆蟲群體中的群體智能現(xiàn)象通過如下過程涌現(xiàn)形成: 昆蟲個體在物理環(huán)境中留下自己的蹤跡, 或?qū)ξ锢憝h(huán)境作出某種改變; 這些蹤跡或改變被群體中的個體感知到, 并刺激這些個體在環(huán)境中留下新的蹤跡或?qū)Νh(huán)境作出進一步的改變; 因此, 個體行為之間實現(xiàn)了有效的協(xié)同, 并形成了一個正反饋回路, 進而在群體層次上表現(xiàn)出智能的自組織行為。 環(huán)境激發(fā)效應(yīng)解釋了群體智能具有的另外一個基本性質(zhì): 群體協(xié)同規(guī)模的可擴展性。
物理空間中存在的群體智能現(xiàn)象指出了信息空間(cyberspace)中一種潛在的大規(guī)模人類群體協(xié)同方式[1]。 主要基于如下兩點原因: (1) 基于當(dāng)前的研究, 群體智能蘊含了一種能夠有效放大個體智能的大規(guī)模群體協(xié)同機制。 (2) 與物理空間中大規(guī)模群體聚集的高成本相比, 在信息空間中更容易實現(xiàn)大規(guī)模人群的低成本聚集。 如果能夠?qū)⑷后w智能的基本原理成功應(yīng)用到信息空間中的大規(guī)模人類群體上, 實現(xiàn)對人類個體智能的有效放大, 那么, 我們認(rèn)為, 這將極大地釋放人類社會具有的潛在創(chuàng)造力, 促進人類文明的進一步發(fā)展[32]。
1.3.2
基于互聯(lián)網(wǎng)的人類群體智能
互聯(lián)網(wǎng)上已經(jīng)出現(xiàn)了很多人類群體智能現(xiàn)象或系統(tǒng), 為很多領(lǐng)域帶來了創(chuàng)新性的問題求解方法。 其中, 一些群體智能現(xiàn)象/系統(tǒng)是長期的社會-技術(shù)協(xié)同演化的產(chǎn)物, 另一些則是針對特定的問題精心設(shè)計的群智化求解系統(tǒng)。 例如, 在軟件工程領(lǐng)域, 經(jīng)過數(shù)十年的演化, 開源軟件開發(fā)[33]已經(jīng)成為一種重要的社會-技術(shù)現(xiàn)象; 在其中, 地理分布的大規(guī)模開發(fā)者群體通過互聯(lián)網(wǎng)進行有效的協(xié)同, 成功開發(fā)出數(shù)量眾多的高質(zhì)量復(fù)雜軟件應(yīng)用。 在單項選擇題求解領(lǐng)域, UNU系統(tǒng)[34]提供了一個有趣的多人在線環(huán)境, 可以支持一個大規(guī)模群體通過持續(xù)協(xié)同的方式確定一個單項選擇題的答案, 在很多實際場景中的預(yù)測和決策問題上表現(xiàn)出很高的準(zhǔn)確率。 在生物學(xué)研究領(lǐng)域中, EteRNA系統(tǒng)[35]提供了一個多人在線游戲, 通過大規(guī)模非專業(yè)個體的持續(xù)協(xié)同求解復(fù)雜的蛋白質(zhì)結(jié)構(gòu)問題。
群體智能的研究還遠(yuǎn)遠(yuǎn)落后于實踐; 現(xiàn)有的研究成果幾乎沒有對人工群體智能系統(tǒng)的構(gòu)造產(chǎn)生實質(zhì)性的影響。 目前存在的較為成功的人工群體智能系統(tǒng)都不是在任何成熟的群體智能理論的指導(dǎo)下構(gòu)造形成的。 主要原因在于, 目前的研究工作主要關(guān)注群體智能的解釋型理論(即如何解釋某一群體智能現(xiàn)象的形成機理), 而較少觸及群體智能的構(gòu)造型理論(即如何可控地構(gòu)造求解特定問題的群體智能系統(tǒng))。 一個典型案例是環(huán)境激發(fā)效應(yīng)。 這一概念在提出時是用于解釋社會性昆蟲群體中群體智能現(xiàn)象[31], 而且近年來也被廣泛用于分析和解釋人類群體智能現(xiàn)象[36, 37]。 我們認(rèn)為, 環(huán)境激發(fā)效應(yīng)提供了一種針對群體智能的解釋性模型, 能夠?qū)σ呀?jīng)存在的群體智能現(xiàn)象進行有效的事后分析。 但是, 這一概念能夠在何種程度上有效指導(dǎo)一個人工群體智能系統(tǒng)的構(gòu)造, 仍然需要進一步的觀察和確認(rèn)。
2.方法
本節(jié)介紹一種基于互聯(lián)網(wǎng)群體智能的知識圖譜構(gòu)造方法。 該方法的核心是一個持續(xù)運行的回路, 包含3個并行的活動: 自由探索、自動融合、主動反饋。 本節(jié)分別對這3個活動及其中的基本概念和關(guān)鍵技術(shù)進行說明。
2.1 自由探索
在自由探索活動中, 每一參與知識圖譜構(gòu)造的人類個體獨立進行知識圖譜的構(gòu)造活動, 不與其他參與者發(fā)生直接的交互。 在任一時刻, 對于每一參與者而言, 其探索活動的輸出是一個個體知識圖譜。
2.1.1 個體知識圖譜
個體知識圖譜的表示需要考慮兩個方面的因素。 一方面, 所采用的表示機制應(yīng)該具備有效的抽象性和良好的可擴展性, 從而支持對不同領(lǐng)域中存在的多樣性知識片段進行有效的建模。 另一方面, 這種表示機制應(yīng)該能夠支持算法有效識別不同知識圖譜之間的共性和差異性, 從而實現(xiàn)對群體知識的有效融合與反饋。 基于上述考慮, 我們設(shè)計了一種層次式的個體知識圖譜, 支持對二元關(guān)系、多元關(guān)系以及高階關(guān)系的統(tǒng)一標(biāo)識, 且可以被方便地轉(zhuǎn)換為一種邊上帶標(biāo)簽的有向圖, 從而基于圖結(jié)構(gòu)進行多源信息的分析、融合與反饋。
定義 1(個體知識圖譜)。 個體知識圖譜是一個五元組K?(K0, K1, K2, K3, K4)。 其每個元素的定義如下。
1. K0?(L, V, ?, ?, ?, , ?, ?, η, α): 個體知識圖譜框架, 滿足如下條件。
(a) L?{0, 1, 2, 3, 4}: 個體知識圖譜中節(jié)點具有的5個層次。 其中, 0、1、2、3、4分別表示道層(tao level)、元元模型層(meta-meta-model level)、元模型層(meta-model level)、模型層(model level)、實例層(instance level)。
(b) V: 個體知識圖譜的節(jié)點集合。
(c) ?: V→L: 層次映射函數(shù), 將個體知識圖譜節(jié)點映射到其所在的層次。 為方便下文敘述, 令 前者表示由V中處于i層的元素構(gòu)成的集合; 后者表示由V中所有不處于i層的元素構(gòu)成的集合。
(d) : 個體知識圖譜節(jié)點之間的實例化關(guān)系。 對于任何(u, v)∈?(也記為u?v), 表示v是u的一個實例, 或u是v的一個類型。 為方便下文描述, 令V(?v)?{u∈V|u?v}, 且V(u?)?{v∈V|u?v}。 前者表示由V中所有v的類型構(gòu)成的集合; 后者表示由V中所有u的實例構(gòu)成的集合(下文會根據(jù)需要將這種表示符號應(yīng)用到其他集合與二元關(guān)系上))。 實例化關(guān)系不具有自反性、對稱性、傳遞性。 對任何u?v, 有?(v)=?(u)+1成立。
(e) : 個體知識圖譜節(jié)點之間的一般特殊關(guān)系。 對任何(g, s)∈?(也記為g?s), 稱g是s的一般概念, 或s是g的特殊概念, 滿足: 對任何s?w, 有g(shù)?w成立。 也即一個概念的任何一個實例一定是這個概念的一般概念的實例。 對任何u, v∈∈V, 如果u?v且v?u, 則稱u, v等價, 記為u=v. 一般特殊關(guān)系具有自反性、傳遞性, 但不具有對稱性。
(f) : 個體知識圖譜節(jié)點之間的冪集關(guān)系, 一個部分函數(shù)(partial function)。 對任何(u, v)∈ (也記為 , 稱v是u的冪概念, 滿足: 對任何v?w, 有u?w成立。 也即一個概念的冪概念的任何一個實例一定是這個概念的一個特殊概念。
(g) : 個體知識圖譜節(jié)點之間的并集關(guān)系, 一個部分函數(shù)。 對任何u?v∈?(也記為?(u)=v), 稱v是u的所有實例的并集, 滿足: (1) 對任何x, y∈V, 如果u?x且x?y, 則v?y成立; (2) 對任何y∈V, 如果v?y, 則存在x∈V, 有u?x且x?y成立。 也即一個概念的所有實例的并集是由這些實例的所有實例構(gòu)成的集合。
(h): 個體知識圖譜節(jié)點之間的交集關(guān)系, 一個部分函數(shù)。 對任何u?v∈?(也記為?(u)=v), 稱v是u的所有實例的交, 滿足: (1) 對任何x∈V, 如果對所有y∈V(u?), y?x成立, 則有v?x成立; (2) 對任何x∈V, 如果v?x, 則對任何y∈V(u?), 有y?x成立。 也即一個概念的所有實例的交集是由這些實例的共有實例構(gòu)成的集合。
(i) η: V→V(Str?): 標(biāo)識符函數(shù)。 將個體知識圖譜節(jié)點映射到字符串上。 Str是模型層知識圖譜的一個節(jié)點, 表示由所有字符串構(gòu)成的集合。 該函數(shù)的主要目的是為個體知識圖譜中的每一個節(jié)點關(guān)聯(lián)一個人類可理解的描述信息。
(j) : 符號字面量函數(shù)。 將V中符號概念?實例的實例映射到字符串上。 符號概念?是元模型層知識圖譜的一個節(jié)點。 該函數(shù)的主要目的是為每一個符號概念實例的實例關(guān)聯(lián)一個對應(yīng)的字面量。 不失一般性, 令α?η。 也即一個符號的字面量即提供對該符號的一種描述信息。
2. K1?(○1, ?1): 元元模型層知識圖譜, 滿足: {○1, ?1}?V. ○1表示元元模型層的滿節(jié)點, 滿足: (1) ?(○1)=?; (2) 對于任何v∈V(1), 有○1?v成立。 可知, 對任何1?v成立。 元素?1表示元元模型層的空節(jié)點, 滿足: (1) ?(?1)=1; (2) 對于任何v∈V(1), 有v??1成立。 可知, 不存在v∈V(2), 使得?1?v成立。
3. K2?(○2, ?2, ⊙, ?, ?, ?): 元模型層知識圖譜, 滿足: {○2, ?2, ⊙, ?, ?, ?}?V. ○2表示元模型層的滿節(jié)點, 滿足: (1) ?(○2)=2; (2) 對任何v∈V(2), 有○2?v成立。 可知, 對任何v∈V(3), 有○2?v成立。 ?2表示元模型層的空節(jié)點, 滿足: (1) ?(?2)=2; (2) 對任何v∈V(2), 有v??2成立。 可知, 不存在v∈V(3), 使得?2?v成立。 ⊙、?、?、?分別表示實體概念、關(guān)系概念、角色概念、符號概念, 滿足○1?⊙, ○1??, ○1??, ○1??。
4. K3?(○3, ?3, Str, Int, ?, π, κ,
(a) (○3, ?3, Str, Int)?V. ○3表示模型層的滿節(jié)點, 滿足: (1) ?(○3)=3; (2) 對任何v∈V(3), 有○3?v成立。 可知, 對任何v∈V(4), 有○3?v成立。 ?3表示模型層的空節(jié)點, 滿足: (1) ?(?3)=3; (2) 對任何v∈V(3), 有3成立。 可知, 不存在v∈V(4), 使得?3?v成立。 元素Str、Int分別表示字符串、整數(shù), 滿足??Str, ??Int. 令I(lǐng)nts= (int), 也即Ints是Int的冪概念。
(b) ?: V(??)←V(??): 關(guān)系概念實例與角色概念實例之間的關(guān)聯(lián)關(guān)系。 其逆關(guān)系??1是一個函數(shù), 即任何一個角色概念實例只與一?: V(??)←V(??): 關(guān)系概念實例與角色概念實例之間的關(guān)聯(lián)關(guān)系。 其逆關(guān)系??1是一個函數(shù), 即任何一個角色概念實例只與一個關(guān)系概念實例相關(guān)。
(c) π: V(??)→V(3): 角色概念實例的承擔(dān)者函數(shù), 將一個角色概念實例映射到模型層知識圖譜的節(jié)點上。 其具體含義見實例層知識圖譜。
(d) κ: V(??)→V(Ints?): 角色概念實例的承擔(dān)者數(shù)量限制函數(shù), 將一個角色概念實例映射到一個整數(shù)集合上。 其具體含義見實例層知識圖譜。
(e) τ, ?, ?, ?): 關(guān)于時間點、時間點先后關(guān)系、以及時間區(qū)間的模型層知識圖譜。 其中, τ表示時間點, 滿足??τ。 ≤τ?V(τ?)×V(τ?)表示時間點之間的先后關(guān)系; ≤τ是一個偏序關(guān)系(具有自反性、傳遞性, 但不具有對稱性)。 對任何(t0, t1)∈≤τ (也記為t0≤τt1), 若滿足t1≤τt0, 則稱t0和t1相等(記為t0=t1)。 ?表示時間區(qū)間, 滿足???。 ?: V(??)→V(τ?)表示一個函數(shù), 將時間區(qū)間實例映射到對應(yīng)的開始時間點實例上。 ?: V(??)→V(τ?)表示一個函數(shù), 將時間區(qū)間實例映射到對應(yīng)的結(jié)束時間點實例上。 對任何p∈V(??), 有?(p)≤τ?(p)成立。
5. K4?(ρ, ?): 實例層知識圖譜, 滿足如下條件。
(a): 關(guān)系概念實例的實例到角色承擔(dān)者的映射函數(shù)。 對于其中的一個元素(v, r)?w, v表示一個關(guān)系概念的實例u的實例, r表示u的一個角色, w表示角色r在v上的承擔(dān)者集合, 且滿足: (1) w是π(r)的一個特殊概念; (2) w的實例的數(shù)量是κ(r)中的一個元素。 可以看到, 模型層知識圖譜中定義的角色概念實例的承擔(dān)者函數(shù)π和承擔(dān)者數(shù)量限制函數(shù)κ對ρ包含的元素進行了限制。
(b) ?: V(4)→?: 實例層節(jié)點到其生命周期的映射函數(shù)。
該定義給出了一種層次式的知識圖譜, 其中包含5個層次: 道層、元元模型層、元模型層、模型層、實例層。
個體知識圖譜包含的每一個節(jié)點都處于且僅處于一個層次中。 相鄰層次的節(jié)點之間通過實例化關(guān)系相互關(guān)聯(lián)。 實例化關(guān)系的定義建立在概念外延的基礎(chǔ)上, 即將一個概念理解為由其所有實例形成的集合; 若一個元素屬于概念的外延集合, 則表明該元素是該概念的一個實例。 除實例層外(不包括實例層), 處于其他層的節(jié)點均是概念, 且指代了概念的外延。 個體知識圖譜還定義了概念之間的一般特殊關(guān)系、冪集關(guān)系、并集關(guān)系、交集關(guān)系。 對于個體知識圖譜中的每一個節(jié)點, 通過標(biāo)識符函數(shù), 將該節(jié)點與對應(yīng)的字符串描述信息進行關(guān)聯(lián)。 對于個體知識圖譜中的每一個節(jié)點, 如果是符號概念?實例的實例, 則通過標(biāo)識符函數(shù)將其與對應(yīng)的字面量進行關(guān)聯(lián)。 對于元元模型層、元模型層、以及模型層, 分別定義了若干基本節(jié)點以及節(jié)點之間的關(guān)系; 需要指出的是, 這些元素不是一個全集, 可以根據(jù)實際需要向其中添加新的元素。 實例層包含兩個函數(shù): ρ函數(shù)將關(guān)系概念?實例的實例映射到涉及角色的承擔(dān)者; ?函數(shù)將實例層節(jié)點映射到其生命周期。 另外, 對于道層, 由于其中包含的元素(處于元元元模型層或之上)過于抽象, 且不會對知識圖譜的構(gòu)造產(chǎn)生直接的影響, 所以我們沒有對其中的元素進行定義。
2.1.2 個體知識圖譜的圖表示
給定個體知識圖譜K?(K0, K1, K2, K3, K4), 其圖表示(graph representation)是一個邊上帶標(biāo)簽的有向圖
基于個體知識圖譜生成對應(yīng)的圖表示的基本思想如下: 把個體知識圖譜內(nèi)置的每一種二元關(guān)系包含的每一個元素轉(zhuǎn)化為圖表示中兩個節(jié)點之間一條帶標(biāo)簽的有向邊; 有向邊上的標(biāo)簽即是對應(yīng)的關(guān)系名。 除此之外, 算法1還包含對兩種例外情況的處理。 (1) 對于函數(shù)?, 把其值域中的5個整數(shù)分別轉(zhuǎn)化為符號概念實例l的5個實例li, i∈L; 然后, 把?中的每個元素(v, i)轉(zhuǎn)化節(jié)點v和li之間一條標(biāo)簽為“l(fā)”的有向邊。 (2) 對于函數(shù)ρ中的每一個元素(v, r, w), 創(chuàng)建r的一個實例γ; 然后, 在節(jié)點v和γ之間建立一條標(biāo)簽為“?”的有向邊, 在節(jié)點γ和w之間建立一條標(biāo)簽為“ρ”的有向邊。
圖 2給出了個體知識圖譜圖表示的一個示例.
-
人工智能
+關(guān)注
關(guān)注
1791文章
47184瀏覽量
238266
發(fā)布評論請先 登錄
相關(guān)推薦
評論