色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種將知識圖譜與語言模型結合的具體方式分享

深度學習自然語言處理 ? 來源:知識工場 ? 作者:王鑫濤 ? 2022-09-05 14:17 ? 次閱讀

知識嵌入(Knowledge Embedding)將知識圖譜中的關系和實體嵌入向量空間進行表示?,F有工作主要分為兩類:傳統的基于結構的方法(如TransE)在向量空間建模KG的結構信息,此類方法無法良好地表示真實知識圖譜中大量結構信息匱乏的長尾實體;新興的基于文本的方法(如Kepler)引入額外的文本信息和語言模型, 但該方向的現有工作相較于基于結構的方法存在以下不足,包括效率較低、表現不佳、限制性文本依賴等問題。

知識工場實驗室提出了一個將語言模型用作知識嵌入的方法 LMKE,以期在提升長尾實體表示的同時解決現存基于文本方法的以上問題。LMKE 首次提出將基于文本的知識嵌入學習建模在對比學習框架下,顯著提升了模型在訓練和下游應用中的效率。實驗結果表明,LMKE在多個知識嵌入評價基準上取得了超越現有方法的表現,尤其是針對長尾實體。研究成果《Language Models as Knowledge Embeddings》已被IJCAI 2022錄用。

bf3e7d94-2cd9-11ed-ba43-dac502259ad0.png



一、背 景

知識圖譜(Knowledge Graphs)以三元組的形式儲存了大量的知識。其中,三元組(h,r,t)表示,頭實體h與尾實體t間存在關系 r,如(法國,包含,盧浮宮)。

知識嵌入(Knowledge Embeddings, KEs)將知識圖譜上的實體和關系嵌入到向量空間中進行表示,以便在向量空間中推理,用于三元組分類、鏈接預測等任務。比如說,TransE 將實體“法國”、“盧浮宮”和關系“包含”分別表示為向量“法國”、“盧浮宮”、“包含”,而如果“法國”+“包含”“盧浮宮”,則認為該三元組為真。近年來,知識嵌入也越來越多地被用于與預訓練語言模型相結合,以賦予語言模型更多的知識。

現有的知識嵌入方法可以被大致分為兩類:傳統的基于結構的方法(Structure-based Methods)和近期興起的基于文本的方法(Description-based Methods)。

基于結構的方法在向量空間中表達知識圖譜的結構信息,包括 TransE、RotatE 等。這類方法可以建模多種特殊的關系模式,如對稱模式、逆模式、組合模式等。比如,已知“A 的父親是 B”,“B 的父親是 C”,且“父親的父親是爺爺”,則這類方法可以推理出“A 的爺爺是 C”,如下圖所示。

bf4c43f2-2cd9-11ed-ba43-dac502259ad0.png


圖1 知識圖譜中的組合模式

然而,這類方法單純依賴知識圖譜的結構信息,因此自然難以良好地表示結構信息匱乏的長尾實體。在真實世界的知識圖譜中,實體的度數分布服從power-law定律,形成一條長長的尾巴,意味著大量實體缺乏充足的結構信息。比如,下方左圖展示了知識圖譜數據集WN18RR中的實體度數分布,其中14.1%的實體度數為1,60.7%的實體度數不超過3,這意味著這些實體在知識圖譜上連邊極少。下方右圖的結果則表明,以RotatE為代表的典型基于結構的方法在長尾實體上表現不佳。

bf62a19c-2cd9-11ed-ba43-dac502259ad0.png

圖2 WN18RR上的節點度數分布及基于結構的方法在該數據集上的表現

基于文本的方法引入了文本信息和語言模型進行知識的嵌入與推理,如 DKRL、KEPLER 等。許多知識圖譜提供了實體和關系的文本描述,而這些豐富的文本信息可以良好地用于實體和關系的表示,并彌補結構信息的不足。同時,近期關于語言模型的相關研究表明:

①語言模型在預訓練時不僅掌握了語言知識,還學會了大量事實知識

②語言模型可以同基于結構的知識嵌入方法一樣,掌握對稱模式、逆模式、隱含模式等部分關系模式[2]。

因此,我們認為語言模型非常適合作為知識嵌入使用

此前已有工作嘗試將語言模型用于知識嵌入的三元組分類、鏈接預測任務上。然而,現存的基于文本的方法存在以下缺陷:

效率較低。語言模型規模龐大,因此現有工作在訓練及下游任務中或是時間復雜度過高,或進行了大量的 trade-off。一方面,它們在訓練時限制負采樣率。比如基于文本的 KEPLER 中正樣本和負樣本的數量是 1:1 的,而基于結構的 TransE 中一個正樣本會搭配上千個負樣本。另一方面,現有方法的模型結構在鏈接預測等下游任務上復雜度也過高。

表現不佳。盡管引入了更多的信息與更大的模型,現存的基于文本的方法在許多數據集和指標上并未超越基于結構的方法,其中效率問題帶來的負采樣率不足等 trade-off 一定程度上造成了負面影響。

限制性文本依賴?,F存方法只適用于有文本描述的實體,而往往舍棄掉大量沒有文本信息(但有結構信息)的實體。現存方法對數據的嚴苛要求限制了他們在下游任務中的使用。

二、方 法

在本文中,我們提出了一個更好地將語言模型用作知識嵌入的方法LMKELanguage Models as Knowledge Embeddings),同時利用結構信息和文本信息,在提升長尾實體表示的同時解決基于文本方法的上述問題。在 LMKE 中,實體和關系被視作額外的詞(token),并從相關實體、關系和文本描述中學習表示。本文進一步提出將基于文本的知識嵌入學習建模在對比學習框架下,使得一個三元組里的實體表示可以作為同 batch 中其他三元組的負樣本,從而避免了編碼負樣本帶來的額外開銷。LMKE 也是一種將知識圖譜與語言模型結合的具體方式。

bf70c4ca-2cd9-11ed-ba43-dac502259ad0.png


圖3 LMKE的模型結構(用于三元組分類)

LMKE 用語言模型作為知識嵌入,即用語言模型獲得實體和關系的嵌入向量表示,從而對三元組或實體進行預測。在 LMKE 中,實體和關系的嵌入向量與文本中的詞被表示在同一個向量空間中。如圖3所示,給定一個特定的三元組u=(h,r,t),LMKE 利用相應的文本描述信息,將它們拼為一個序列。將該序列作為語言模型的輸入,h,r,t的相應輸出向量 h,r,t,即是相應的實體和關系的嵌入向量。一個實體(或關系)的嵌入向量同時依賴于其自身、其自身的文本描述、其相關實體和關系、以及相關實體和關系的文本描述,對文本信息進行了最大程度的利用。

因此,長尾實體可以利用文本信息而被良好表示,而缺乏文本信息的實體則可以利用相關實體和關系(結構信息)以及它們的文本描述被良好表示。語言模型中的CLS token(或 BOS token)對應的向量聚合了整個序列的信息,因此我們將其視作代表整個三元組u的向量u。

與KG-BERT相似,LMKE 將向量u輸入一個線性層,來計算三元組為真的概率p(u):知識嵌入的主要應用是預測缺失的鏈接(鏈接預測)和對可能的三元組進行分類(三元組分類)。其中,三元組分類基于上述p(u)即可進行。鏈接預測則需要預測出不完整三元組(?,r,t)或(h,r,?)的缺失實體。具體來說,模型需要將候選實體(一般為所有實體)填入不完整三元組,并將相應的三元組進行打分,從而對候選實體按照得分進行排序。然而,對于上述 LMKE 模型,以及大部分現有的基于文本的方法,這一流程的計算時間復雜度都過高,如表1所示。

bf7ecd7c-2cd9-11ed-ba43-dac502259ad0.png


表1 部分基于文本的方法在訓練和鏈接預測上的時間復雜度

為了將語言模型高效地用于鏈接預測任務,一個簡單的方法是不完整地編碼三元組,而僅編碼部分三元組。實體遮蓋模型(MEM-KGC)可以視為 LMKE 的 masked變體,將待預測的缺失實體和其文本描述 mask,并將相應的向量表示q輸入一個線性層來預測缺失實體。因為僅需要編碼一個不完整的三元組,MEM-KGC顯著降低了時間復雜度。然而,MEM-KGC 忽視了待預測實體的文本信息,降低了文本信息的利用率。

我們提出了一個對比學習框架來更充分地利用文本信息。在我們的對比學習框架中,給定的實體關系對被視作查詢q,而目標實體被視作鍵k,我們通過匹配q和k進行對比學習。在這一框架的視角下,MEM-KGC 中的向量q即為查詢的向量表示,而MEM-KGC的線性層權重的每一行則是每一個實體作為鍵的向量表示。因此,將q輸入到線性層即為查詢q匹配鍵。差別在于,MEM-KGC的鍵是用可學習的向量表示,而非像查詢一樣是文本信息的語言模型編碼。我們提出的對比學習框架也使得語言模型能夠被高效地用于鏈接預測

C-LMKE是對比學習框架下的LMKE變體,將MEM-KGC中的可學習實體權重改進為目標實體的文本描述編碼,如圖4所示。C-LMKE進行批次內的對比匹配,從而避免了編碼負樣本帶來的額外開銷。具體來說,對于 batch 中的第i個三元組,它的給定實體關系對q和目標實體k構成一個正樣本,而同batch內其他三元組的目標實體k’與q構成負樣本。由表1可見,C-LMKE在訓練和鏈接預測時的時間復雜度均顯著優于現有基于文本的方法。


bf9666e4-2cd9-11ed-ba43-dac502259ad0.png


圖4 C-LMKE的模型結構(用于鏈接預測)

不同于一般的對比學習方法,C-LMKE采用一個雙層MLP而非余弦相似度來計算qk的匹配度。假設查詢q=(法國,包含)同時與=(盧浮宮)和=(巴黎)匹配,則基于相似度的得分會迫使和的表示相似,這在知識嵌入的場合是不被期望的。同時,我們還發現,引入度數信息和(相應實體在訓練集中的三元組個數)對于鏈接預測任務相當有幫助。

基于得分 p(q, k),我們使用二元交叉熵作為損失函數進行訓練,并參考RotatE 中提出的自對抗負采樣來提高難負樣本的損失權重。

三、實驗結果

bfaeabf0-2cd9-11ed-ba43-dac502259ad0.png

表2 FB15k-237及WN18RR上的鏈接預測結果

我們在鏈接預測三元組分類兩個任務上對我們的方法進行了實驗,以BERT-tiny和BERT-base作為基本模型。在鏈接預測上,我們的模型顯著超越了現有模型。使用BERT-BASE的C-LMKE在WN18RR上取得了80.6%的 Hits@10,而此前最好的結果僅為70.4%。即使我們使用 BERT-tiny 作為語言模型,我們的方法取得的表現也優于或相當于使用更大模型的現有方法。同時,使用BERT-tiny的C-LMKE在FB15k-237上取得了57.1%的Hits@10,是首個超越基于結構方法的基于文本方法

一個有趣的現象是,基于文本的方法在WN18RR上顯著超越基于結構的方法,但在FB15k-237上卻不然。我們認為背后的原因是數據集的差異。WN18RR來源于字典知識圖譜WordNet,其中的實體是詞而文本描述是詞的定義,而從詞的定義中可以很容易推出詞之間的關系。相對地,FB15k-237來源于真實知識圖譜Freebase,其中的文本僅部分地描述了一個實體最廣為人知的知識,比如(愛因斯坦,是,和平主義者)這一知識就不被它們的文本描述所涵蓋。因此,過度依賴于文本而非結構信息可能導致模型表現不佳。這也解釋了在該數據集上使用BERT-tiny替換 BERT-base后表現沒有下降。

bfd46be2-2cd9-11ed-ba43-dac502259ad0.png

表3 FB13和UMLS上的三元組分類結

LMKE 在三元組分類任務上也取得了最優的表現。其中,LMKE和KG-BERT的差距代表了引入實體和關系作為特殊詞的有效性。

bfecb468-2cd9-11ed-ba43-dac502259ad0.png

圖5 不同模型對于FB15k-237中包含不同度數實體的三元組的平均表現

為了展示我們的方法在長尾實體表示上的有效性,我們將實體按度數的對數進行分組,統計包含不同度數實體的三元組,并研究包含不同度數實體的三元組上的表現。實驗結果表明,基于文本的方法在低度數組 0,1,2(即包含度數低于 4 的實體的三元組)上的表現顯著優于基于結構的方法,而C-LMKE又顯著優于其他的基于文本的方法。同時,在加入了度數信息后,C-LMKE在中高度數組上的表現有了顯著提升。

bff5a42e-2cd9-11ed-ba43-dac502259ad0.png

圖6 不同負采樣率下C-LMKE在FB15k-237上的表現

我們進一步研究了負采樣率對基于文本的知識嵌入學習的影響。我們將batch size 設為32,因此 1 個正樣本最多配有31個負樣本,而我們進一步限制可見負樣本數為{1, 2, 4, 8, 16}。實驗結果表明,更大的負采樣率能顯著提升模型的表現,證明了負采樣率對基于文本的方法的重要性。然而,現有基于文本方法受限于負樣本編碼代價,一般僅使用1個或5個負樣本。

總結起來,我們的貢獻主要有以下三點:

①我們注意到基于結構的知識嵌入在表示長尾實體上的不足,并首次提出利用文本信息和語言模型來提升長尾實體的表示。

②我們提出了一個基于文本的新模型LMKE,解決了現有基于文本方法的三個不足之處。同時,我們也首次提出將基于文本的知識嵌入學習建模為對比學習問題

③我們在多個知識嵌入數據集上進行了廣泛實驗,實驗結果表明LMKE 在三元組分類和鏈接預測任務上取得了state-of-the-art 的表現,顯著超越現有知識嵌入方法,使得基于文本的方法首次在數據集FB15K-237 上超越基于結構的方法。

筆者認為,LMKE提出的對比學習框架將是基于文本的知識嵌入的發展方向。在這一方向上,我們仍可參考對比學習領域的優秀方法來取得進一步提升。同時,信息檢索、實體鏈接在本質上也是鏈接預測任務,近年來也越來越多地采用了對比學習,我們也可以從這些領域的工作中吸取經驗。

最后,我們注意到被 ACL 2022 接收的同期工作SimKGC同樣提出了基于文本的知識嵌入的對比學習框架,在 WN18RR 上取得了與我們相當的表現,并研究了負采樣對于基于文本方法的重要性。這進一步說明了對比學習框架在基于文本的知識嵌入的發展上的必然性。SimKGC相較于LMKE,使用了更龐大的算力(32 倍的 batch size)、余弦相似度度量、InfoNCE損失以及基于圖的Reranking策略,產出了值得我們借鑒的結果,不過他們在事實知識圖譜FB15k-237上的表現仍未超越基于結構的方法。LMKE相較于SimKGC,則還關注了長尾實體表示、三元組分類任務以及度信息的重要性。




審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼
    +關注

    關注

    6

    文章

    940

    瀏覽量

    54814
  • CLS
    CLS
    +關注

    關注

    0

    文章

    9

    瀏覽量

    9709
  • 語言模型
    +關注

    關注

    0

    文章

    520

    瀏覽量

    10268

原文標題:語言模型用作知識嵌入

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    三星自主研發知識圖譜技術,強化Galaxy AI用戶體驗與數據安全

    據外媒11月7日報道,三星電子全球AI中心總監Kim Dae-hyun近日透露,公司正致力于自主研發知識圖譜技術,旨在進步優化Galaxy AI的功能,提升其易用性,并加強用戶數據的隱私保護。
    的頭像 發表于 11-07 15:19 ?594次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    的表達方式和生成能力。通過預測文本中缺失的部分或下個詞,模型逐漸掌握語言的規律和特征。 常用的模型結構 Transformer架構:大
    發表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    學習方法。其中文本向量化中的三編碼方式:獨熱編碼、靜態編碼和動態編碼,這些概念描述是需要時間仔細研究理解的。 1.5章節終于開始講解大語言模型了,這也是基礎篇的最后
    發表于 07-25 14:33

    【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書

    上周收到《大語言模型應用指南》書,非常高興,但工作項目繁忙,今天才品鑒體驗,感謝作者編寫了部內容豐富、理論應用相結合、印刷精美的著作,也
    發表于 07-21 13:35

    三星電子收購英國知識圖譜技術初創企業

    在人工智能技術日新月異的今天,三星電子公司再次展現了其前瞻性的戰略布局與技術創新實力。近日,三星正式宣布完成了對英國領先的人工智能(AI)與知識圖譜技術初創企業Oxford Semantic Technologies的收購,此舉標志著三星在提升設備端AI能力、深化個性化用戶體驗方面邁出了重要
    的頭像 發表于 07-18 14:46 ?514次閱讀

    知識圖譜與大模型之間的關系

    在人工智能的廣闊領域中,知識圖譜與大模型是兩個至關重要的概念,它們各自擁有獨特的優勢和應用場景,同時又相互補充,共同推動著人工智能技術的發展。本文將從定義、特點、應用及相互關系等方面深入探討知識圖譜與大
    的頭像 發表于 07-10 11:39 ?1022次閱讀

    rup是一種什么模型

    RUP(Rational Unified Process,統建模語言)是一種軟件開發過程模型,它是一種迭代和增量的軟件開發方法。RUP是由
    的頭像 發表于 07-09 10:13 ?1245次閱讀

    Al大模型機器人

    )大模型AI機器人采用中英文雙語應用,目前的知識圖譜包括了金航標和薩科微所有的產品內容、應用場景、產品的家屬參數等,熱賣的型號S8050、TL431、SS8550、FR107、LM321、ZMM5V6
    發表于 07-05 08:52

    【大語言模型:原理與工程實踐】大語言模型的應用

    相關的文檔片段,這些文檔與用戶問題結合成提示詞,再輸入給大語言模型。這種方法為大語言模型提供了
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    度、多角度的解釋或回答。通過這些評測任務,我們能夠全面而深入地了解模型在中文語言理解方面的實際能力。 常識百科類評測任務:此類評測任務主要評估大語言模型
    發表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    語義學習的起點是研究如何詞轉化為向量表示,這直是自然語言處理領域的研究熱點。詞表示方法主要分為三:詞的獨熱表示、詞的分布式表示和基于預訓練的詞嵌入表示。 詞的獨熱表示:構建包含
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    學習能力。這些模型以生成能力強和靈活性強為特點,逐漸演變成一種通用計算平臺。其參數多樣性、生成能力和涌現性使其不僅在自然語言處理領域表現出色,還能適應多種復雜任務。參數多樣性讓模型能學
    發表于 05-04 23:55

    利用知識圖譜與Llama-Index技術構建大模型驅動的RAG系統(下)

    對于語言模型(LLM)幻覺,知識圖譜被證明優于向量數據庫。知識圖譜提供更準確、多樣化、有趣、邏輯和致的信息,減少了LLM中出現幻覺的可能性
    的頭像 發表于 02-22 14:13 ?1199次閱讀
    利用<b class='flag-5'>知識圖譜</b>與Llama-Index技術構建大<b class='flag-5'>模型</b>驅動的RAG系統(下)

    語言模型中的語言知識一種神秘的分離現象

    自然語言處理領域存在著個非常有趣的現象:在多語言模型中,不同的語言之間似乎存在著一種隱含的對齊
    發表于 02-20 14:53 ?523次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>中的<b class='flag-5'>語言</b>與<b class='flag-5'>知識</b>:<b class='flag-5'>一種</b>神秘的分離現象

    知識圖譜基礎知識應用和學術前沿趨勢

    知識圖譜(Knowledge Graph)以結構化的形式描述客觀世界中概念、實體及其關系。是融合了認知計算、知識表示與推理、信息檢索與抽取、自然語言處理、Web技術、機器學習與大數據挖掘等等方向的交叉學科。人工智能是以傳統符號派
    的頭像 發表于 01-08 10:57 ?942次閱讀
    <b class='flag-5'>知識圖譜</b>基礎<b class='flag-5'>知識</b>應用和學術前沿趨勢
    主站蜘蛛池模板: 24小时日本在线| 含羞草影院免费区| 亚洲一级特黄| 日日射日日操| 理论片87福利理论电影| 国产精品JIZZ在线观看A片| 中文字幕成人在线观看| 羞羞漫画在线播放| 日本大片免a费观看视频| 久久两性视频| 国产精品JIZZ在线观看A片| CHINA篮球体育飞机2022网站| 亚洲欧美成人无码久久久| 深夜草逼逼| 欧洲精品一区二区不卡观看| 久久久精品日本一区二区三区| 国产精品美女WWW爽爽爽视频| xxxxx中国明星18| 13一18TV处流血TV| 亚洲天堂2017无码| 亚洲AV精品无码国产一区| 涩涩爱涩涩片影院| 秋霞电影在线观看午夜伦| 六六影院午夜伦理| 精品96在线观看影院| 囯产精品一品二区三区| 一二三四在线观看韩国| 亚洲国产精品一区二区动图 | 欧美人妖12p| 久久综合网久久综合| 日本G奶乳液汁| 免费精品美女久久久久久久久| 精品国产露脸久久AV麻豆| 国产熟妇无码一区二| 国产成人a视频在线观看| 久久午夜免费视频| 国产免费不卡| 国产精品一区二区三区免费| 国产h视频在线观看免费| 成人1000部免费观看视频| 无颜之月全集免费观看|