CSDN 出品的《2018-2019 中國人工智能產業路線圖》V2.0 版即將重磅面世!
V1.0 版發布以來,我們有幸得到了諸多讀者朋友及行業專家的鼎力支持,在此表示由衷感謝。此次 V2.0 版路線圖將進行新一輪大升級,內容包括 3 大 AI 前沿產業趨勢分析,10 位 AI 特邀專家的深度技術分析,15 家一線互聯網企業的 AI 實力大巡展,以及 20 個 AI 優秀應用案例,力求為讀者呈現更全面的中國人工智能產業發展概況和趨勢判斷。
V2.0 版將于 11 月 8 日舉辦的 2018 AI 開發者大會上正式發布,在此之前,我們將不間斷公布精要內容,以饗讀者。此為 V2.0 版中深度技術分析系列稿件第 3 篇,作者為 CSDN 特邀 AI 專家——復旦大學教授肖仰華。
一、什么是知識圖譜
▌1.1 知識圖譜的定義
知識圖譜是什么?本質上是一種大規模語義網絡。理解知識圖譜的概念,有兩個關鍵詞。
首先是語義網絡。語義網絡表達了各種各樣的實體、概念及其之間的各類語義關聯。
圖1. 知識圖譜示例
比如“C羅”是一個實體,“金球獎”也是一個實體,他們倆之間有一個語義關系就是“獲得獎項”。“運動員”、“足球運動員”都是概念,后者是前者的子類(對應于圖中的subclassOf 關系)。
理解知識圖譜的第二個關鍵詞是“大規模”。語義網絡并非新鮮事物,早在上個世紀七八十年代知識工程盛行之時,就已存在。相比較于那個時代的語義網絡,知識圖譜規模更大。
從2012年Google提出知識圖譜直到今天,知識圖譜技術發展迅速,知識圖譜的內涵遠遠超越了其作為語義網絡的狹義內涵。當下,在更多實際場合下,知識圖譜是作為一種技術體系,指代大數據時代知識工程的一系列代表性技術進展的總和。去年我國學科目錄做了調整,首次出現了知識圖譜的學科方向,教育部對于知識圖譜這一學科的定位是“大規模知識工程”,這一定位是十分準確且內涵豐富的。這里需要指出的是知識圖譜技術的發展是個持續漸進的過程。從上個世紀七八十年代的知識工程興盛開始,學術界和工業界推出了一系列知識庫,直到2012年Google推出了面向互聯網搜索的大規模的知識庫,被稱之為知識圖譜。
▌1.2與傳統知識表示的區別
理解今天的知識圖譜內涵,是不能割裂其歷史臍帶的。上世紀七八十年代的各種知識表示與我們今天的知識圖譜到底有著本質差別。傳統語義網絡與知識圖譜的差別首先表現在其規模上。
知識圖譜是一種大規模語義網絡,與上世紀七八十年代的各類語義網絡相比較,最顯著的差異就是規模差異。推而廣之,以知識圖譜為代表的大數據時代的各種知識表示與傳統的知識表示的根本差別首先體現在規模上。傳統知識工程一系列知識表示都是一種典型的“小知識”(smallknowledge)。
而到了大數據時代,受益于海量數據、強大計算能力以及群智計算,我們如今能夠自動化構建、或者眾包構建大規模、高質量知識庫,形成所謂的“大知識”(bigknowledge,合肥工業大學的吳興東教授在很多場合下也提到類似觀點)。所以知識圖譜與傳統知識表示在淺層次上的區別,就是大知識與小知識的差別,是在規模上的顯而易見的差別。
更深刻地進行分析就會發現,這樣的一個知識規模上的量變帶來了知識效用的質變。
知識工程到了上世紀八十年代之后就銷聲匿跡了。根本原因在于傳統知識庫構建主要依靠人工構建、代價高昂、規模有限。舉個例子,我國的詞林辭海是上萬名專家花了10多年編撰而成的,但是它只有十幾萬詞條。而現在任何一個互聯網上的知識圖譜,比如DBpedia,動輒包含上千萬實體。人工構建的知識庫雖然質量精良,但是規模有限。有限的規模使得傳統知識表示難以適應互聯網時代的大規模開放應用的需求。
互聯網應用的特點在于:
一、規模巨大,我們永遠不知道用戶下一個搜索關鍵詞是什么;
二、精度要求相對不高,搜索引擎從來不需要保證每個搜索的理解和檢索都是正確的;
三、簡單知識推理,大部分搜索理解與回答只需要實現簡單的推理,比如搜索劉德華推薦歌曲,是因為知道劉德華是歌星,至于“姚明老婆的婆婆的兒子有多高”這類的復雜推理在實際應用中所占比率是不高的。
互聯網上的這種大規模開放應用所需要的知識很容易突破傳統專家系統由專家預設好的知識庫的知識邊界。這一定程度上回答了,為何谷歌在2012年這個時間節點推出知識圖譜,利用一個全新名稱以表達與傳統知識表示毅然決裂的態度。
二、知識圖譜的重要性
知識圖譜是實現機器認知智能的基礎。機器認知智能的兩個核心能力:“理解”和“解釋”,均與知識圖譜有著密切關系。首先需要給機器“理解與解釋”提出一種解釋。我認為機器理解數據的本質是建立起從數據到知識庫中的知識要素(包括實體、概念和關系)映射的一個過程。
比如如果我說到“2013年的金球獎得主C羅”這句話,我們之所以說自己理解了這句話,是因為我們把“C羅”這個詞匯關聯到我們腦子中的實體“C羅”,把“金球獎”這個詞匯映射到我們腦中的實體“金球獎”,然后把“得主”一詞映射到邊“獲得獎項”這個關系。我們可以仔細體會一下我們的文本理解過程,其本質是建立從數據(包括文本、圖片、語音、視頻等)到知識庫中的實體、概念、屬性映射的過程。
再來看人類是如何“解釋”的。比如我問“C羅為什么那么牛?”,可以通過知識庫中的“C羅獲得獎項金球獎”以及“金球獎地位影響力最大的足球獎項之一”這兩條關系來解釋這一問題。
這一過程的本質就是將知識庫中的知識與問題或者數據加以關聯的過程。有了知識圖譜,機器完全可以重現我們的這種理解與解釋過程。有過一定計算機研究基礎的,是不難完成上述過程的數學建模的。知識圖譜對于機器認知智能的重要性也體現在下面幾個具體方面。
▌2.1 知識圖譜使能機器語言認知
知識圖譜對機器認知智能的必要性還可以從若干具體問題來進行闡述。首先,我們來看機器認知的核心能力之一:自然語言理解。
我的觀點是機器理解自然語言需要類似知識圖譜這樣的背景知識。自然語言是異常復雜的:自然語言有歧義性、多樣性,語義理解有模糊性且依賴上下文。機器理解自然語言困難的根本原因在于,人類語言理解是建立在人類的認知能力基礎之上的,人類的認知體驗所形成的背景知識是支撐人類語言理解的根本支柱。
我們人類彼此之間的語言理解就好比是根據冰山上浮出水面的一角來揣測冰山下的部分。我們之所以能夠很自然地理解彼此的語言,是因為彼此共享類似的生活體驗、類似的教育背景,從而有著類似的背景知識。冰山下龐大的背景知識使得我們可以彼此理解水面上有限的幾個字符。我們可以做個簡單的思想實驗,假如現在有個外星人坐在這里聽我講報告,他能聽懂么?我想還是很困難的,因為他沒有在地球上生活的經歷,沒有與我相類似的教育背景,沒有與我類似的背景知識庫。
再舉個很多人都有體會的例子,我們去參加國際會議時,經常遇到一個尷尬的局面,就是西方學者說的笑話,我們東方人很難產生共鳴。因為我們和他們的背景知識庫不同,我們早餐吃燒餅、油條,西方吃咖啡、面包,不同的背景知識決定了我們對幽默有著不同的理解。所以語言理解需要背景知識,沒有強大的背景知識支撐,是不可能理解語言的。要讓機器理解我們人類的語言,機器必需共享與我們類似的背景知識。
實現機器自然語言理解所需要的背景知識是有著苛刻的條件的:規模足夠大、語義關系足夠豐富、結構足夠友好、質量足夠精良。
以這四個條件去看知識表示就會發現,只有知識圖譜是滿足所有這些條件的:知識圖譜規模巨大,動輒包含數十億實體;關系多樣,比如在線百科圖譜DBpedia包含數千種常見語義關系;結構友好,通常表達為RDF三元組,這是一種對于機器而言能夠有效處理的結構;質量也很精良,因為知識圖譜可以充分利用大數據的多源特性進行交叉驗證,也可利用眾包保證知識庫質量。所以知識圖譜成為了讓機器理解自然語言所需的背景知識的不二選擇。
▌2.3 知識圖譜使能可解釋人工智能
知識圖譜對于認知智能的另一個重要意義在于:知識圖譜讓可解釋人工智能成為可能。
“解釋”這件事情一定是跟符號化知識圖譜密切相關的。因為解釋的對象是人,人只能理解符號,沒辦法理解數值,所以一定要利用符號知識開展可解釋人工智能的研究。可解釋性是不能回避符號知識的。
我們先來看幾個解釋的具體例子。比如,我若問鯊魚為什么可怕?你可能解釋說:因為鯊魚是食肉動物,這實質上是用概念在解釋。若問鳥為什么能飛翔?你可能會解釋因為它有翅膀。這是用屬性在解釋。若問鹿晗關曉彤前些日子為什么會刷屏?你可能會解釋說因為關曉彤是鹿晗的女朋友。這是用關系在解釋。我們人類傾向于利用概念、屬性、關系這些認知的基本元素去解釋現象,解釋事實。而對于機器而言,概念、屬性和關系都表達在知識圖譜里面。因此,解釋離不開知識圖譜。
▌2.4 知識引導將成為解決問題的主要方式
知識圖譜的另一個重要作用體現在知識引導將成為解決問題的主要方式。前面已經多次提及用戶對使用統計模型來解決問題的效果越來越不滿意了,統計模型的效果已經接近“天花板”,要想突破這個“天花板”,需要知識引導。
舉個例子,實體指代這樣的文本處理難題,沒有知識單純依賴數據是難以取得理想效果的。比如“張三把李四打了,他進醫院了”和“張三把李四打了,他進監獄了”,人類很容易確定這兩個不同的“他”的分別指代。因為人類有知識,有關于打人這個場景的基本知識,知道打人的往往要進監獄,而被打的往往會進醫院。但是當前機器缺乏這些知識,所以無法準確識別代詞的準確指代。很多任務是純粹的基于數據驅動的模型所解決不了的,知識在很多任務里不可或缺。比較務實的做法是將這兩類方法深度融合。
▌2.5 知識將顯著增加機器學習能力
知識對于認知智能又一個很重要的意義就是將顯著增強機器學習的能力。
當前的機器學習是一種典型的“機械式”學習方式,與人類的學習方式相比顯得比較笨拙。我們的孩童只需要父母告知一兩次:這是貓,那是狗,就能有效識別或者區分貓狗。而機器卻需要數以萬計的樣本才能習得貓狗的特征。
我們中國人學習英語,雖然也要若干年才能小有所成,但相機器對于語言的學習而言要高效的多。機器學習模型落地應用中的一個常見問題是與專家知識或判斷不符合,這使我們很快陷入進退兩難的境地:是相信學習模型還是果斷棄之?機器學習與人類學習的根本差異可以歸結為人是有知識的且能夠有效利用知識的物種。
我相信,未來機器學習能力的顯著增強也要走上充分利用知識的道路。符號知識對于機器學習模型的重要作用會受到越來越多的關注。這一趨勢還可以從機器智能解決問題的兩個基本模式方面加以論述。
機器智能的實現路徑之一是習得數據中的統計模式,以解決一系列實際任務。另一種是專家系統,專家將知識賦予機器構建專家系統,讓機器利用專家知識解決實際問題。如今,這兩種方法有合流的趨勢,無論是專家知識還是通過學習模型習得的知識,都將顯式地表達并且沉淀到知識庫中。再利用知識增強的機器學習模型解決實際問題。這種知識增強下的學習模型,可以顯著降低機器學習模型對于大樣本的依賴,提高學習的經濟性;提高機器學習模型對先驗知識的利用率;提升機器學習模型的決策結果與先驗知識的一致性。
因此,知識將成為比數據更為重要的資產。前幾年大數據時代到來的時候,大家都說“得數據者得天下”。去年,微軟的沈向洋博士曾經說過“懂語言者得天下”。而我曾經論述過,機器要懂語言,背景知識不可或缺。因此,在這個意義下,將是“得知識者得天下”。如果說數據是石油,那么知識就好比是石油的萃取物。如果我們只滿足賣數據盈利,那就好比是直接輸出石油在盈利。但是石油的真正價值蘊含于其深加工的萃取物中。石油萃取的過程與知識加工的過程也極為相像。都有著復雜流程,都是大規模系統工程。知識工程的鼻祖,費根鮑姆曾經說過的一句話“knowledge is the power inAI”。
三、知識圖譜的生命周期
圖2. 知識圖譜的生命周期
知識圖譜系統的生命周期包含四個重要環節:知識表示、知識獲取、知識管理與知識應用。這四個環節循環迭代。
知識應用環節明確應用場景,明確知識的應用方式。
知識表示定義了領域的基本認知框架,明確領域有哪些基本的概念,概念之間有哪些基本的語義關聯。比如企業家與企業之間的關系可以是創始人關系,這是認知企業領域的基本知識。知識表示只提供機器認知的基本骨架,還要通過知識獲取環節來充實大量知識實例。比如喬布斯是個企業家,蘋果公司是家企業,喬布斯與蘋果公司就是“企業家-創始人-企業”這個關系的一個具體實例。
知識實例獲取完成之后,就是知識管理。這個環節將知識加以存儲與索引,并為上層應用提供高效的檢索與查詢方式,實現高效的知識訪問。
四個環節環環相扣,彼此構成相鄰環節的輸入與輸出。在知識的具體應用過程中,會不斷得到用戶的反饋,這些反饋會對知識表示、獲取與管理提出新的要求,因此整個生命周期會不斷迭代持續演進下去。
▌3.1 知識表示
在知識表示方面,常用三元組(主語、謂詞、賓語)表示知識圖譜。如三元組<七里香,歌曲原唱,周杰倫>表示“七里香這首歌曲的原唱是周杰倫”這一知識。需要強調一點,知識圖譜只能表達一些簡單的關聯事實,但很多領域應用的需求已經遠遠超出了三元組所能表達的簡單關聯事實,實際應用日益對于利用更加多元的知識表示豐富和增強知識圖譜的語義表達能力提出了需求。
這一趨勢首先體現在對于時間和空間語義的拓展與表達方面。
有很多知識和事實是有時間和空間條件的,比如說“美國總統是特朗普”這個事實的成立是有時間條件的,十年前美國的總統不是特朗普,十年之后應該也不大可能是特朗普。還有很多事實是有空間條件的,比如“早餐是燒餅與油條”這件事,在中國是這樣,但是在西方并非如此,西方的早餐可能是咖啡、面包。
從時空維度拓展知識表示對很多特定領域具有較強的現實意義。比如在位置相關的應用中,如何將POI(Point of Interest)與該POI相關實體加以關聯,成為當下拓展POI語義表示的重要任務之一。比如將“邯鄲路220號”(復旦大學地址)關聯到“復旦大學”是十分有意義的。在互聯網娛樂領域,粉絲們往往不僅僅關心某個明星的妻子是誰,可能更關心明星的前任妻子、前任女友等信息,這些應用都對事實成立的時間提出了需求。
第二、增強知識圖譜的跨媒體語義表示。
當前的知識圖譜主要以文本為主,但是實際應用需要有關某個實體的各種媒體表示方式,包括聲音、圖片、視頻等等。比如對于實體“Tesla Model S”,我們需要將其關聯到相應圖片和視頻。知識圖譜時空維度拓展在物理實現上可以通過定義四元組或者五元組加以實現。跨媒體表示可以通過定義相關的屬性加以實現。知識圖譜的語義增強總體上而言將是未來一段時間知識表示的重要任務。知識圖譜作為語義網絡,側重于表達實體、概念之間的語義關聯,還難以表達復雜因果關聯與復雜決策過程。
如何利用傳統知識表示增強知識圖譜,或者說如何融合知識圖譜與傳統知識表示,更充分地滿足實際應用需求,是知識圖譜領域值得研究的問題之一。在一些實際應用中,研究人員已經開始嘗試各種定制的知識表示,在知識圖譜基礎上適當擴展其他知識表示是一個值得嘗試的思路。
▌3.2 知識獲取
圖3.知識獲取的基本步驟
知識的獲取是個系統工程,流程復雜,內涵豐富,涉及到知識表示、自然語言處理、數據庫、數據挖掘、眾包等一系列技術。知識獲取的基本步驟如圖3所示:
第一步是模式(Schema)設計。這一步是傳統本體設計所要解決的問題。基本目標是把認知領域的基本框架賦予機器。在所謂認知基本框架中需要指定領域的基本概念,以及概念之間subclassof關系(比如足球領域需要建立“足球運動員”是“運動員”的子類);需要明確領域的基本屬性;明確屬性的適用概念;明確屬性值的類別或者范圍。比如“效力球隊”這個屬性一般是定義在足球運動員這個概念上,其合理取值是一個球隊。
此外,領域還有大量的約束或規則,比如對于屬性是否可以取得多值的約束(比如“獎項”作為屬性是可以取得多值的),再比如球隊的“隸屬球員”屬性與球員的“效力球隊”是一對互逆屬性。這些元數據對于消除知識庫不一致、提升知識庫質量具有重要意義。
第二步是明確數據來源。在這一步要明確建立領域知識圖譜的數據來源。可能來自互聯網上的領域百科爬取,可能來自通用百科圖譜的導出,可能來自內部業務數據的轉換,可能來自外部業務系統的導入。應該盡量選擇結構化程度相對較高、質量較好的數據源,以盡可能降低知識獲取代價。
第三步是詞匯挖掘。人們從事某個行業的知識的學習,都是從該行業的基本詞匯開始的。在傳統圖書情報學領域,領域知識的積累往往是從敘詞表的構建開始的。敘詞表里涵蓋的大都是領域的主題詞,及這些詞匯之間的基本語義關聯。在這一步我們是要識別領域的高質量詞匯、同義詞、縮寫詞,以及領域的常見情感詞。比如在政治領域,我們需要知道特朗普又被稱為川普,其英文簡稱為Trump。
第四步是領域實體發現(或挖掘)。需要指出的是領域詞匯只是識別出領域中的重要短語和詞匯。但是這些短語未必是一個領域實體。從領域文本識別某個領域常見實體是理解領域文本和數據的關鍵一步。在實體識別后,還需對實體進行實體歸類。能否把實體歸到相應的類別(或者說將某個實體與領域類別或概念進行關聯),是實體概念化的基本目標,是理解實體的關鍵步驟。比如將特朗普歸類到政治人物、美國總統等類別,對于理解特朗普的含義具有重要意義。實體挖掘的另一個重要任務是實體鏈接,也就是將文本里的實體提及(Mention)鏈接到知識庫中的相應實體。實體鏈接是拓展實體理解,豐富實體語義表示的關鍵步驟。
第五步是關系發現。關系發現,或者知識庫中的關系實例填充,是整個領域知識圖譜構建的重要步驟。關系發現根據不同的問題模型又可以分為關系分類、關系抽取和開放關系抽取等不同變種。關系分類旨在將給定的實體對分類到某個已知關系;關系抽取旨在從文本中抽取某個實體對的具體關系;開放關系抽取(OpenIE)從文本中抽取出實體對之間的關系描述。也可以綜合使用這幾種模型與方法,比如根據開放關系抽取得到的關系描述將實體對分類到知識庫中的已知關系。
第六步是知識融合。因為知識抽取來源多樣,不同的來源得到的知識不盡相同,這就對知識融合提出了需求。知識融合需要完成實體對齊、屬性融合、值規范化。實體對齊是識別不同來源的同一實體。屬性融合是識別同一屬性的不同描述。不同來源的數據值通常有不同的格式、不同的單位或者不同的描述形式。比如日期有數十種表達方式,這些需要規范化到統一格式。
最后一步是質量控制。知識圖譜的質量是構建的核心問題。知識圖譜的質量可能存在幾個基本問題:缺漏、錯誤、陳舊。
先談知識庫的缺漏問題。某種意義上,知識完備對于知識資源建設而言似乎是個偽命題,我們總能枚舉出知識庫中缺漏的知識。知識缺漏對于自動化方法構建的知識庫而言尤為嚴重。但是即便如此,構建一個盡可能全的知識庫仍是任何一個知識工程的首要目標。既然自動化構建無法做到完整,補全也就成為了提升知識庫質量的重要手段。補全可以是基于預定義規則(比如一個人出生地是中國,我們可以推斷其國籍也可能是中國),也可以從外部互聯網文本數據進行補充(比如很多百科圖譜沒有魯迅身高的信息,需要從互聯網文本尋找答案進行補充)。
其次是糾錯。自動化知識獲取不可避免地會引入錯誤,這就需要糾錯。根據規則進行糾錯是基本手段,比如A的妻子是B,但B的老公是C,那么根據妻子和老公是互逆屬性,我們知道這對事實可能有錯。知識圖譜的結構也可以提供一定的信息幫助推斷錯誤關聯。比如在由概念和實例構成的Taxonomy中,理想情況下應該是個有向無環圖,如果其中存在環,那么有可能存在錯誤關聯。
最后一個質量控制的重要問題是知識更新。更新是一個具有重大研究價值,卻未得到充分研究的問題。很多領域都有一定的知識積累。但問題的關鍵在于這些知識無法實時更新。比如電商的商品知識圖譜,往往內容陳舊,無法滿足用戶的實時消費需求(比如“戰狼同款飾品”這類與熱點電影相關的消費需求很難在現有知識庫中涵蓋)。
經歷了上述步驟之后得到一個初步的知識圖譜。在實際應用中會得到不少反饋,這些反饋作為輸入進一步指導上述流程的完善,從而形成閉環。此外,除了上述自動化構建的閉環流程,還應充分考慮人工的干預。人工補充很多時候是行之有效的方法。比如一旦發現部分知識缺漏或陳舊,可以通過特定的知識編輯工具實現知識的添加、編輯和修改。也可以利用眾包手段將很多知識獲取任務分發下去。如何利用眾包手段進行大規模知識獲取,是個十分有意思的問題,涉及到知識貢獻的激勵機制,我前幾年有個題為《未來人機區分》的報告,專門討論如何利用知識問答形式的驗證碼來做知識獲取,可以搜索此文獲取更多信息。
▌3.3 知識管理
知識圖譜的管理主要圖譜的存儲、檢索等問題。通常這些問題的解決需要數據庫系統的支撐,因而系統的選型也是知識圖譜管理的一個重要問題。這里主要討論能用于知識圖譜管理的數據庫系統選型以及知識圖譜查詢語言。知識圖譜存儲是個較為專業化的問題,此處不再深入討論。
知識圖譜管理系統的選型。知識圖譜本質上在表達關聯,天然地可以用圖加以建模,因而很多人想到用圖數據庫對領域知識圖譜加以存儲。圖數據庫的確是知識圖譜存儲選型的重要選擇,但是不是唯一選擇。傳統關系數據庫,近幾年充分發展的其他類型的NoSQL數據庫在很多場景下也是合理選擇。那么數據庫的選擇考慮的要素是什么呢?有兩類重要的選型要素:圖譜的規模以及操作復雜度。
從圖譜的規模角度來看,百萬、千萬的節點和關系規模(以及以下規模)的圖譜對于圖數據庫的需求并不強烈,圖數據庫的必要性在中等或者小規模知識圖譜上體現并不充分。但是如果圖譜規模在數億節點規模以上,圖數據庫就十分必要了。
從操作復雜性來看,圖譜上的操作越是復雜,圖數據庫的必要性越是明顯。圖譜上的全局計算(比如平均最短路徑的計算),圖譜上的復雜遍歷,圖譜上的復雜子圖查詢等等都涉及圖上的多步遍歷。圖上的多步遍歷操作如果是在關系數據庫上實現需要多個聯結(Join)操作。多個聯結操作的優化一直以來是關系數據庫的難題。圖數據庫系統實現時針對多步遍歷做了大量優化,能夠實現高效圖遍歷操作。
除了上述因素之外,還應該充分考慮系統的易用性、普及性與成熟度。總體而言圖數據庫還是發展中的技術,對于復雜圖數據管理系統的優化也是只有少部分專業人員才能從事的工作。在數據庫選型時需要充分考慮這些因素。我們實驗室在實現CN-DBpedia(2000萬實體、2.2億關系)在線服務系統時先后采用了RelationalDB、Graph DB、MongoDB,最后出于綜合考慮選用的是MongoDB,已經穩定運行了三年,累計提供10億多次API服務。
知識圖譜查詢語言。通常對于表達為RDF形式的知識圖譜,可以使用SPARQL查詢語言。SPARQL語言針對RDF數據定義了大量的算子,對于推理操作有著很好支撐,因而能夠適應領域中的復雜查詢與復雜推理。從應用角度來看,也可以將知識圖譜僅僅表達為無類型的三元組。對于這種輕量級的表示,關系數據庫與傳統NoSQL數據庫也是較好選擇。那么此時,SQL語句就是比較好的選擇。SQL十分成熟,語法簡單,用戶眾多且有著幾十年的成功應用基礎。
很多領域圖譜上的查詢是相對簡單的,以單步或者兩到三步遍歷居多。此時,SQL完全能夠勝任。但是不排除有一些特定場景,特別是公共安全、風控管理等領域,通常需要進行復雜關聯分析,需要較長路徑的遍歷,需要開展復雜子圖挖掘,此時SQL的表達能力就顯得相對較弱了。
四、知識圖譜的發展現狀及應用
▌4.1知識圖譜的應用
知識圖譜的應用場景非常廣泛,除了通用應用外,在金融、政府、醫療等領域也有特殊的應用。
圖4. 知識圖譜的應用
通用領域的應用主要包括精準分析、智能搜索、智能問答、智能推薦等。在精準分析方面,當認識到王寶強和寶寶是指同一個人后,就可以合并“王寶強離婚”和“寶寶離婚”兩個事件,得到一個統一的熱點分析。
在智能搜索方面,通過知識圖譜建立起實體及其之間的關系,可提高搜索引擎的理解能力。例如建立代碼知識圖譜,自動理解代碼的上下文信息,如建立起“quicksort”和“快速排序”、“QS”等的等價關系,以及“quick sort”是一種排序算法的isA關系等。這樣一來,當用戶搜索“排序算法”時,能把代碼中包含“quick sort”、“快速排序”的內容都搜索出來。實現代碼的精準、高效搜索。
在智能問答方面,系統降低了人機交互的門檻,非常適合成為互聯網的新入口。相較于傳統的用戶輸入問題,搜索引擎返回網頁的方式,智能問答系統可以直接通往答案。例如復旦大學知識工場實驗室推出的“不倒翁問答”,是一個基于知識圖譜和互聯網內容作為答案來源的問答系統,能回答各類事實型問題。系統接收自然語言問句作為輸入,通過深度學習的方法,從知識圖譜和互聯網中找到相應的答案進行解答。支持單知識問題、是否問題、比較問題、枚舉問題、常識問題以及多知識問題等。
在智能推薦方面,可基于知識圖譜構建場景,提供基于場景的推薦。例如在電商領域,通過用戶已購產品推斷其購物場景,并推薦其他相關場景產品成為一個熱門需求。
金融領域的應用主要包括風險控制和智能投顧等。在風險控制方面,通過構建工商知識圖譜,可以將人、公司的信息用可視化的方式清晰的展示出來。一來可以用于人的特征的不一致性檢測;二來可以進行異常節點分析,如正常借貸人只用一個手機號在一個金融產品中進行借貸,而異常借貸人會使用多個手機號在多個不同的金融產品中進行借貸;三來很多欺詐團伙組織會通過一系列的復雜操作來持有公司,利用知識圖譜的可視化可以發現其中的潛在風險。
在智能投顧方面,通過對金融數據進行結構化提取和智能化分析,根據客戶自身的理財需求,實現自動理財顧問。
政府領域的應用主要包括數據治理、司法智能輔助審判和智能情報研判等。在數據治理方面,可將所有政務公開數據進行融合,構建政務知識圖譜,為用戶提供統一的政務數據訪問服務。
在司法智能輔助審判方面,通過建立司法知識圖譜,建立了一套智能判案輔助機器人系統。為當事人提供專業的案件咨詢,案件風險評估,法院服務和法律援助等。提高簡單案件的審判效率,減少寶貴的司法資源的浪費。
在智能情報研判方面,主要對公安情報數據進行智能整合,將真實世界的海量異構碎片化數據等價轉換為一張唯一的關系大網,與真實世界的人事地物組織對象一一對應,類似于“公安大腦”。構建完成后,每個民警都可以借助這個“公安大腦”來進行情報分析,準確做出判斷。
醫療領域的主要應用包括智能輔助問診和導診和醫藥研發等。在智能輔助問診和導診方面,通過構建醫療知識圖譜及相應的虛擬助手,實現對患者進行自動問診并生成規范、詳細的門診電子病歷。同時,根據患者的病歷,自動對其進行導診。
在醫藥研發方面,傳統藥物研發需要經歷靶點篩選、藥物挖掘、臨床試驗、藥物優化等階段,耗時十分巨大。通過從海量醫學文獻、論文、專利、臨床試驗信息等非結構化數據中抽取出可用的信息,構建生物知識圖譜,可加快醫藥的研發速度。
五、知識圖譜面臨的挑戰
知識圖譜技術的挑戰主要表現在知識表示、知識獲取和知識應用等三個方面。
在知識表示層面,越來越多的領域應用不僅僅需要關聯事實這種簡單知識表示,還要表達包括邏輯規則、決策過程在內的復雜知識;需要同時表達靜態知識和動態知識。單單知識圖譜已經不足以解決領域的很多實際問題。如何去增強知識圖譜的語義表達能力,如何綜合使用多種知識表示來解決實際應用中的復雜問題是非常重要的研究課題。
在知識獲取方面,領域知識圖譜一般樣本很小,如果需要構建抽取模型,那就需要基于小樣本構建有效的模型。目前基于小樣本的機器學習仍然面臨巨大挑戰。解決這一問題的思路之一就是利用知識引導機器學習模型的學習過程。具體實現手段已經有不少團隊在開展相關的探索工作,比如利用知識增強樣本、利用知識構建目標函數的正則項以及利用知識構建優化目標的約束等等。總體而言,這仍然是個開放問題需要巨大的研究投入。
在知識的深度應用方面。如何將領域知識圖譜有效應用于各類應用場景,特別是推薦、搜索、問答之外的應用,包括解釋、推理、決策等方面的應用仍然面臨巨大挑戰,仍然存在很多開放性問題。
六、知識圖譜未來的發展趨勢
從2012年發展至今,知識圖譜技術發生了一系列的變革。從兩個方面來講,一方面是應用場景,另一個方面就是技術生態。隨著應用場景和技術生態的變化,整個知識圖譜面臨著全新的挑戰,以前的技術手段在應對現在智能化大潮給我們提出的挑戰的時候,已經有些力不從心,所以我們要研發一些新技術。
從應用的角度來講,知識圖譜的應用趨勢越來越從通用領域走向行業領域,現在的局面是通用與行業應用百花齊放,各行各業都在討論適合自己的知識圖譜。
今天展示給大家的是我們自己實驗室的知識圖譜,在通用領域,我們實驗室有CN-DBpedia,Probaseplus。CN-DBpedia是一種通用百科知識圖譜。通用知識庫在通用人工智能中扮演著重要的角色,是未來競爭的戰略制高點,即掌握了通用人工智能技術,可以從一個戰略制高點向下俯沖,這樣收獲領域知識圖譜的成果是相對容易的。但是如果只具備領域人工智能的能力,未必可以掌握通用人工智能能力。
雖然領域/行業人工智能技術更容易落地,但是從戰略層面上來講,一定要對通用人工智能予以高度的關注。領域人工智能在很多領域已經落地開花,但領域圖譜的應用也不是簡單的事,還具有很多挑戰性的研究問題,領域知識庫構建的語料往往比較稀疏,比如在某個領域提到某個事實,某類關系的樣本非常少,這個時候利用關系去構建有效的抽取模型就會變的十分困難,在樣本稀疏的環境下去做領域知識圖譜的自動化構建仍然是件非常困難的事情。
第二個應用場景發生變化是從搜索延伸至推薦、問答等復雜任務。舉個例子,用知識圖譜幫助搜索代碼,如果能利用知識圖譜理解搜索意圖,并返回準確的代碼,這樣效率將大有提升。用戶搜索輸入關鍵字,機器給出答案,還可以為用戶做智能推薦。將來更智能的形式就是直接問答,我們實驗室研發的“小Cui問答”就是這樣的問答系統。整個知識圖譜將來會在越來越復雜和多元的場景下發揮重要的作用。
再進一步就是交互方式發生變化。以前的交互方式更多是基于關鍵字,現在越來越多的是自然語言的處理,對話式的處理,像GoogleNow,Apple Siri,Amazon Alexa等等,很多大公司都在研發自然語言交互的產品,這意味著自然語言交互成為未來人機交互的主流方式。對知識圖譜提出的挑戰就是,對自然語言的認知到了一個新的高度,需要能夠利用知識圖譜幫助平臺和系統更好地理解問答,上下文對話等等。
進而就是從用戶提的問題來看,呈現出從簡單的陳述類問題到解釋類問題的變化趨勢。以前用戶喜歡問“what”、“who”、“when”、“where”這樣簡單陳述性問題,現在越來越多的問“why”、“how”。用戶對系統智能性的期望越來越高,很多用戶在Google上問why類問題,但是很遺憾,Google還不能進行回答,只能回答陳述類問題。隨著“why”、“how”問題越來越多,解釋就變的很重要,可解釋是未來人工智能發展的核心訴求之一,是人機互信的前提。
再進一步就是,以前在實體之間找到一些簡單關系就行了,比如王寶強的老婆是馬蓉,但現在不滿足于簡單關系的揭示,而是希望能夠推理出一些深層關系,比如王寶強離婚案,為什么王寶強會請張起淮當律師?王寶強和馮小剛是好朋友,馮小剛有個御用演員叫徐靜蕾,張起淮是徐靜蕾的法律顧問,所以王寶強會請張起淮當律師,這個就是深層關系推理。隱式關系發現、深層關系推理將成為智能的主要體現之一。
再從技術生態的角度來看,人工智能也發生了很大的變化。從機器學習來看,雖然深度學習發展非常迅速,并且在樣本數據豐富的場景下取得了很好的效果,但是機器學習仍然存在很多問題,小樣本學習、無監督學習手段有限,現有模型難以有效利用大量先驗知識。再從自然語言處理角度來看,雖然自然語言處理在深度學習的推動下取得了很大的進展,但是自然語言處理離實際應用需求還很遠,還只是在處理階段,遠遠談不上理解。從知識庫本身來看,英文圖譜積累迅速,發展得相當成熟,并且在很多應用中發揮了巨大的作用,但是其他語種的知識圖譜十分缺乏。
雖然現在知識圖譜很多,但是大部分都側重在簡單事實,對于常識的覆蓋仍然十分有限。很多知識圖譜都是依賴手工構建的,如何從大規模數據里用數據挖掘的方法自動挖掘出知識圖譜的手段仍然缺乏。
總體而言,知識圖譜技術的落地應用前景是光明的,但是也需要充分意識到知識圖譜落地的巨大挑戰。
-
人工智能
+關注
關注
1800文章
48083瀏覽量
242163 -
知識圖譜
+關注
關注
2文章
132瀏覽量
7788
原文標題:肖仰華談知識圖譜:知識將比數據更重要,得知識者得天下
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
KGB知識圖譜基于傳統知識工程的突破分析
知識圖譜的三種特性評析
知識圖譜在推薦系統中可能的應用價值
知識圖譜系列干貨,理論+實踐
知識圖譜的數據存儲技術研究
一文帶你讀懂知識圖譜
知識圖譜劃分的相關算法及研究

通用知識圖譜構建技術的應用及發展趨勢

知識圖譜是什么,它在安全領域的應用分析
知識圖譜Knowledge Graph構建與應用
知識圖譜基礎知識應用和學術前沿趨勢

評論