色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

KDD2020知識圖譜相關論文分享

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2020-09-25 17:36 ? 次閱讀

論文專欄:KDD2020知識圖譜相關論文分享

論文解讀者:北郵 GAMMA Lab 博士生 閆博

題目:魯棒的跨語言知識圖譜實體對齊

會議:KDD 2020

論文地址:https://dl.acm.org/doi/pdf/10.1145/3394486.3403268

代碼地址:https://github.com/scpei/REA

推薦理由:這篇論文首次提出了跨語言實體對齊中的噪音問題,并提出了一種基于迭代訓練的除噪算法,從而進行魯棒的跨語言知識圖譜實體對齊。本工作對后續跨語言實體對齊的去噪研究具有重要的開創性意義。

跨語言實體對齊旨在將不同知識圖譜中語義相似的實體進行關聯,它是知識融合和知識圖譜連接必不可少的研究問題,現有方法只在有干凈標簽數據的前提下,采用有監督或半監督的機器學習方法進行了研究。但是,來自人類注釋的標簽通常包含錯誤,這可能在很大程度上影響對齊的效果。因此,本文旨在探索魯棒的實體對齊問題,提出的REA模型由兩個部分組成:噪聲檢測和基于噪聲感知的實體對齊。噪聲檢測是根據對抗訓練原理設計的,基于噪聲感知的實體對齊利用圖神經網絡對知識圖譜進行建模。兩個部分迭代進行訓練,從而讓模型去利用干凈的實體對來進行節點的表示學習。在現實世界的幾個數據集上的實驗結果證明了提出的方法的有效性,并且在涉及噪聲的情況下,此模型始終優于最新方法,并且在準確度方面有顯著提高。

1 引言

現有方法在進行跨語言實體對齊時沒有考慮噪音問題,而這些噪音可能會損害模型的效果。如圖1所示,(a)中的兩個不同語言的知識圖譜存在實體對噪音(虛線表示的實體對1-4),(b)是理想狀況下節點在特征空間中的表示,可以看出不同語言知識圖譜中具有相似語義的實體在特征空間中也相近。(c)是利用含有噪音的訓練數據得到的節點特征表示,由于噪音的存在,節點的表示存在了一定的偏差。我們希望跨語言實體對齊是魯棒性的,即使訓練數據中存在噪音,模型也能盡量減少噪音的消極影響,得到如圖(b)中的表示。為了克服現有的跨語言實體對齊方法在處理帶噪標簽實體對時存在的局限性,本文探討了如何將噪聲檢測與實體對齊模型結合起來,以及如何共同訓練它們以對齊不同語言知識圖譜中的實體。

圖1噪音對跨語言實體對齊模型效果的影響示意圖

問題定義

噪音檢測和魯棒性圖表示學習:在一個存在噪音的場景下,代表所有的用于訓練的實體對(可能包含噪音),代表中確定的干凈的實體對,代表不確定是否含有噪音的實體對。魯棒性的跨語言實體對齊模型利用給定的和,去對齊知識圖譜中的剩余實體,并且能自動發現中的噪音實體對。

這個問題是不平凡的,主要存在兩方面的挑戰:(1)沒有明顯的噪音知識加以利用,即我們不知道訓練數據中哪些是噪音數據,所以傳統的監督學習方法無法使用,提出的模型需要以一種無監督的方式自動檢測出訓練數據中的噪音實體對。(2)提出一個統一的模型。此模型要既能檢測出訓練數據中的噪音,還能進行有效的跨語言實體對齊。

2 方法

魯棒性的跨語言實體對齊模型(REA)包括兩個部分。一是基于噪音感知的實體對齊模型,這一部分主要是利用圖神經網絡來對不同語言的兩個知識圖譜進行統一建模,學習節點的表示,訓練時只使用。二是噪音檢測模塊,作者采用了基于對抗訓練的方式,利用生成對抗網絡(GAN)來檢測噪音。噪音實體對生成器接受干凈實體對輸入,然后進行采樣生成噪音實體對;噪音判別器以干凈實體對和噪音實體對為輸入,訓練一個能判別噪音的模型,同時對輸入的實體對產生一個信任分數,將信任分數大于閾值的實體對加入,用于實體對齊模塊節點的表示學習。上述兩個模塊迭代進行訓練,直到收斂。下面詳細介紹這兩個模塊。

圖2REA模型示意圖

2.1 基于噪音感知的實體對齊模型

這一部分主要是對知識圖譜節點的表示學習。對于知識圖譜中任意的三元組,定義從傳到的信息為:

具體為:

其中和是節點一階鄰居的個數。最終經過圖的信息傳播后節點的表示為:

損失函數采用基于間隔的排序損失(margin-based ranking objective):

這里代表信任分數,又噪音檢測模塊輸出,即當實體對的信任分數超過閾值時,此實體對才被認為是正確的,才會被加入訓練集。代表margin loss,是一個超參數。是一個衡量實體對相似性的函數,由能量函數定義:

負樣本對由隨機替換頭或尾實體得到。

2.2 噪音檢測模塊

噪音檢測模塊分為噪音對生成器和噪音對判別器,由生成對抗網絡實現。與傳統的生成對抗網絡不同的一點是,噪音對生成器不是由模型訓練產生噪音對,而是由采樣生成。噪音對生成器利用實體對齊模塊生成的真實實體對表示作為輸入,然后通過替換掉頭或尾實體采樣得到噪音實體對。噪音實體對的采樣概率如下式所示:

其中是一個簡單的兩層神經網絡,衡量了兩個實體的語義相似性,兩個實體越相似,越不容易被采樣到,這是自然的,因為生成器本來就是用來生成噪音的。為了減少采樣空間過大帶來的計算量代價,采樣只在負樣本空間的一個子空間進行:

此外,由于采樣過程是無法利用傳統的基于梯度下降方法求參數,所以本文采用了基于強化學習的參數求解算法,具體來說:

對所有負樣本的梯度求解近似為對k個采樣的負樣本的梯度求解,可以看作當前的狀態,可以看作策略,看作是動作,代表獎勵。

噪音判別器以實體對作為輸入,輸出實體對為真實實體對的概率:

越大,實體對越有可能為真實實體對,定義實體對的信任得分為:

信任得分為1的實體對將返回給實體對齊模型,繼續訓練。

2.3 算法流程

REA模型采用的是一個迭代的算法,在每次迭代中,算法依次進行三部分的參數訓練。首先是利用干凈的實體對進行節點的表示學習(4-7);然后對噪音實體對判別器進行訓練(8-12);最后對噪音實體對生成器進行訓練(13-17)。一次迭代完成后,更新中實體對的信任得分,將信任得分等于1的實體對加入。具體算法如下所示。

3 實驗

作者在兩個數據集DBP15K和DWY100K包含的5個跨語言知識圖譜上進行了實驗。采用Hits@1,Hits@5,MRR做為評價指標。實驗結果如下圖所示,其中REA-KE是去掉噪音檢測模塊得到的結果。

本模型中,噪音實體對判別器的檢測能力至關重要,所以作者也測試了噪音判別器對噪音數據的檢測能力。如下所示,噪音數據的比例為20%和40%時,判別器都有一個較好的檢測噪音的效果。但是由于知識圖譜的不完整性,仍有大量真實實體對被檢測為噪音。

當干凈的實體對數據()增加的時候,模型效果也會變好;而當噪音數據增加的時候,模型效果就會降低。而REA在有噪音的情況下表現是最好的。這也說明了噪音對跨語言實體對齊有很大的影響,REA能有效地處理噪音問題。如圖3和圖4所示。

圖3干凈實體對的數量對實驗結果的影響

圖4噪音實體對的數量對實驗結果的影響

最后,作者還測試了不同類型的噪音對實驗結果的影響。噪音的不同類型由它們采樣時離真實實體的距離所定。圖5分別測試了噪音實體離真實實體距離為10,50,100和全局的情形下模型的效果。

圖5噪音類型對實驗結果的影響

從圖5可以看出,噪音離真實實體越遠,即與真實實體的語義差別越大時,模型效果降低越多。當距離大于50后,模型效果幾乎不再變化,這也說明了離真實實體大于一定距離時,噪音對模型的負面效果趨于穩定。而當噪音實體離真實數據越近,模型效果越好,這是顯而易見的,因為這樣越接近干凈的標注數據。在所有的4種情況下,REA均取得了最好的效果。

4 總結

在標注跨語言實體對齊語料過程中不可避免地會引入噪音。現有方法沒有考慮噪音問題,損害了實體對齊的效果。針對這一問題,本文提出了魯棒性的跨語言實體對齊模型REA。REA通過一種迭代訓練的方式,在每一輪訓練過程中,通過圖神經網絡建模知識圖譜中的實體對,得到噪聲感知的實體對齊模塊,然乎利用生成對抗網絡來生成噪音實體對并訓練一個噪音判別器,噪音判別器識別出干凈的實體對加入訓練集繼續訓練。大量的實驗證明了REA在魯棒性跨語言實體對齊任務上的有效性。

責任編輯:xj

原文標題:【KDD20】魯棒的跨語言知識圖譜實體對齊

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自然語言
    +關注

    關注

    1

    文章

    287

    瀏覽量

    13347
  • 知識圖譜
    +關注

    關注

    2

    文章

    132

    瀏覽量

    7703

原文標題:【KDD20】魯棒的跨語言知識圖譜實體對齊

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    傳音旗下人工智能項目榮獲2024年“上海產學研合作優秀項目獎”一等獎

    和華東師范大學聯合申報的“跨語言知識圖譜構建與推理技術研究及應用”項目憑借創新性和技術先進性榮獲一等獎。該項目成功突破了多形態信息抽取技術、跨語言知識圖譜對齊技術和知識問答對
    的頭像 發表于 12-16 17:04 ?297次閱讀
    傳音旗下人工智能項目榮獲2024年“上海產學研合作優秀項目獎”一等獎

    傳音旗下小語種AI技術榮獲2024年“上海產學研合作優秀項目獎”一等獎

    和華東師范大學聯合申報的“跨語言知識圖譜構建與推理技術研究及應用”項目憑借創新性和技術先進性榮獲一等獎。 該項目成功突破了多形態信息抽取技術、跨語言知識圖譜對齊技術和知識問答對話技術,開發了全球首個針對非洲市場定制手機智能助手和
    的頭像 發表于 12-16 16:21 ?276次閱讀
    傳音旗下小語種AI技術榮獲2024年“上海產學研合作優秀項目獎”一等獎

    光譜看譜鏡分析圖譜

    火電廠材質分析看譜鏡圖譜
    發表于 12-06 15:02 ?0次下載

    接口測試理論、疑問收錄與擴展相關知識

    本文章使用王者榮耀游戲接口、企業微信接口的展示結合理論知識,講解什么是接口測試、接口測試理論、疑問收錄與擴展相關知識點的知識學院,快來一起看看吧~
    的頭像 發表于 11-15 09:12 ?308次閱讀
    接口測試理論、疑問收錄與擴展<b class='flag-5'>相關</b><b class='flag-5'>知識</b>點

    58大新質生產力產業鏈圖譜

    大躍升 的先進生產力。 58大新質生產力產業鏈圖譜 01 元宇宙產業圖譜 02 算力產業圖譜 03 數商產業圖譜 04 人形機器人產業圖譜
    的頭像 發表于 11-09 10:16 ?345次閱讀
    58大新質生產力產業鏈<b class='flag-5'>圖譜</b>

    三星自主研發知識圖譜技術,強化Galaxy AI用戶體驗與數據安全

    據外媒11月7日報道,三星電子全球AI中心總監Kim Dae-hyun近日透露,公司正致力于自主研發知識圖譜技術,旨在進一步優化Galaxy AI的功能,提升其易用性,并加強用戶數據的隱私保護。
    的頭像 發表于 11-07 15:19 ?594次閱讀

    三星電子成功收購英國初創公司,致力開發AI核心技術

    7月18日,三星電子正式對外宣布了一項重要戰略舉措——成功收購英國新興科技企業Oxford Semantic Technologies。這家初創公司成立于2017年,專注于前沿的知識圖譜技術領域,致力于開發能夠賦能更復雜AI應用的核心技術。
    的頭像 發表于 07-18 15:40 ?522次閱讀

    三星電子將收購英國知識圖譜技術初創企業

    在人工智能技術日新月異的今天,三星電子公司再次展現了其前瞻性的戰略布局與技術創新實力。近日,三星正式宣布完成了對英國領先的人工智能(AI)與知識圖譜技術初創企業Oxford Semantic Technologies的收購,此舉標志著三星在提升設備端AI能力、深化個性化用戶體驗方面邁出了重要一步。
    的頭像 發表于 07-18 14:46 ?514次閱讀

    知識圖譜與大模型之間的關系

    在人工智能的廣闊領域中,知識圖譜與大模型是兩個至關重要的概念,它們各自擁有獨特的優勢和應用場景,同時又相互補充,共同推動著人工智能技術的發展。本文將從定義、特點、應用及相互關系等方面深入探討知識圖譜與大模型之間的關系。
    的頭像 發表于 07-10 11:39 ?1022次閱讀

    Al大模型機器人

    )大模型AI機器人采用中英文雙語應用,目前的知識圖譜包括了金航標和薩科微所有的產品內容、應用場景、產品的家屬參數等,熱賣的型號S8050、TL431、SS8550、FR107、LM321、ZMM5V6
    發表于 07-05 08:52

    利用知識圖譜與Llama-Index技術構建大模型驅動的RAG系統(下)

    對于語言模型(LLM)幻覺,知識圖譜被證明優于向量數據庫。知識圖譜提供更準確、多樣化、有趣、邏輯和一致的信息,減少了LLM中出現幻覺的可能性。
    的頭像 發表于 02-22 14:13 ?1199次閱讀
    利用<b class='flag-5'>知識圖譜</b>與Llama-Index技術構建大模型驅動的RAG系統(下)

    利用知識圖譜與Llama-Index技術構建大模型驅動的RAG系統(上)

    向量數據庫是一組高維向量的集合,用于表示實體或概念,例如單詞、短語或文檔。向量數據庫可以根據實體或概念的向量表示來度量它們之間的相似性或關聯性。
    的頭像 發表于 02-22 14:07 ?1099次閱讀
    利用<b class='flag-5'>知識圖譜</b>與Llama-Index技術構建大模型驅動的RAG系統(上)

    母線保護相關知識分享

    母線保護相關知識分享
    的頭像 發表于 01-19 10:29 ?565次閱讀
    母線保護<b class='flag-5'>相關</b><b class='flag-5'>知識</b>分享

    Spring事務傳播性的相關知識

    本文主要介紹了Spring事務傳播性的相關知識
    的頭像 發表于 01-10 09:29 ?443次閱讀
    Spring事務傳播性的<b class='flag-5'>相關</b><b class='flag-5'>知識</b>

    知識圖譜基礎知識應用和學術前沿趨勢

    知識圖譜(Knowledge Graph)以結構化的形式描述客觀世界中概念、實體及其關系。是融合了認知計算、知識表示與推理、信息檢索與抽取、自然語言處理、Web技術、機器學習與大數據挖掘等等方向的交叉學科。人工智能是以傳統符號派與目前流行的深度神經網路為主,如下圖所示,
    的頭像 發表于 01-08 10:57 ?942次閱讀
    <b class='flag-5'>知識圖譜</b>基礎<b class='flag-5'>知識</b>應用和學術前沿趨勢
    主站蜘蛛池模板: 国产欧美一区二区精品仙草咪| 男女牲交全过程免费播放| 人妻无码AV中文系统久久免费| 亚洲欧美中文字幕网站大全| 成年人在线视频免费观看| 狼与美女谐音歌词| 亚洲精品97福利在线| 不卡的在线AV网站| 蜜臀AV999无码精品国产| 亚洲人成在线播放网站岛国| 国产AV午夜精品一区二区入口| 免费伦理片网站| 伊人精品久久久大香线蕉99| 国产啪视频在线播放观看| 日本免费一本天堂在线| 51无码人妻精品1国产| 国产在线观看www| 色色色999| YELLOW视频在线观看最新| 毛片无码免费无码播放| 妖精视频免费高清观看| 国产一区二区三区内射高清| 丝瓜涩涩屋黄瓜香蕉丝瓜| 趁老师睡着吃她的奶水| 欧美成人无码视频午夜福利| 最近日本免费观看MV免费| 九九热在线视频| 亚洲精品久久久久AV无码| 国产精品资源在线观看网站| 神马电影院午 夜理论| 成人免费看片45分钟| 欧美在线亚洲综合国产人| 99精品欧美一区二区三区美图| 考试考90就可以晚上和老师C| 亚洲视频一区在线| 韩国成人理伦片免费播放| 亚洲国产AV无码综合在线| 国产青青草原| 亚洲国产精品无码中文字满| 国产欧美一区二区三区久久| 掀开奶罩边躁狠狠躁软学生|