色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

開放域信息抽取和文本知識結構化的3篇論文詳細解析

深度學習自然語言處理 ? 來源:復旦DISC ? 作者:深度學習自然語言 ? 2021-04-26 14:44 ? 次閱讀

引言

2020年,自然語言處理領域頂級的國際學術會議EMNLP(Conference on Empirical Methods in Natural Language Processing)共錄取論文751篇

開放域信息抽取是信息抽取任務的另一個分支任務,其中抽取的謂語和實體并不是特定的領域,也并沒有提前定義好實體類別。更一般的,開放域信息抽取的目的是抽取出所有輸入的文本中的形如 《主語,謂語,賓語》 的三元組。開放域信息抽取對于知識的構建至關重要,可以減少人工標注的成本和時間。

本次Fudan DISC實驗室將分享EMNLP2020中關于開放域信息抽取和文本知識結構化的3篇論文,介紹最新的開放域信息抽取的研究。

文章概覽

關于開放域信息抽取神經(jīng)網(wǎng)絡結構和訓練方式的系統(tǒng)比較 (Systematic Comparison of Neural Architectures and Training Approaches for Open Information Extraction)

該文將神經(jīng)網(wǎng)絡基礎的OpenIE框架系統(tǒng)分解為三個基本模塊:嵌入塊、編碼塊和預測模塊。在探究各種組合時,他們發(fā)現(xiàn):pre-training的語言模型+Transformer編碼器+LSTM預測層在OpenIE2016基準上有了巨大的改進(提升200%)。此外,他們還提到,NLL損失函數(shù)可能更偏向淺層預測。

OpenIE6:開放域信息的迭代網(wǎng)格標記抽取以及并列短語分析 (OpenIE6: Iterative Grid Labeling and Coordination Analysis for Open Information Extraction)

該文將OpenIE任務的三元組抽取構建為2-D(#extraction #words)網(wǎng)格標記任務,使得通過迭代抽取可以將一個句子中的所有三元組都有概率被模型識別出來。該文將他們的抽取方式稱為IGL(Iterative Grid Labeling),并在計算損失函數(shù)的時候加4種入關于詞性的軟約束,并在最終的loss計算時加起來作為約束懲罰項。實驗結果表明了他們模型的有效。

DualTKB: 在文本和知識庫之間進行雙重學習 (DualTKB: A Dual Learning Bridge between Text and Knowledge Base)論文地址:https://www.aclweb.org/anthology/2020.emnlp-main.694.pdf

該文建立了多個任務將某些文本(選項A)或KB中的路徑三元組(選項B)作為輸入,然后兩個解碼器分別生成文本(A)或另一個三元組(B)。也就是說,你可以有多種路線,例如A-B(從文本中提取三元組)或B-B(知識圖譜補全)等。重復這個過程,你可以從文本中迭代提取更多三元組,或者對知識圖譜反向解碼為文本。

論文細節(jié)

1

d21e98d6-a643-11eb-aece-12bb97331649.png

任務定義

現(xiàn)有的OpenIE的任務定義主要分為兩種:1)序列標注、2)子序列提取

其中序列標注框架最為常見,下圖為用序列標注任務設定的開放域信息抽取。例子中一共有7類標簽

d26eb0e6-a643-11eb-aece-12bb97331649.png

子序列通過模型生成大量的可能的子序列三元組組合,模型負責給這些候選組合進行打分,并選出概率最高的幾個三元組作為抽取結果。

作者通過比較這兩種任務設定,總結出統(tǒng)一的OpenIE的任務設定:OpenIE任務將每一個問題定義為一個元組《X,Y》,其中將一個句子表示成有很多個詞語的序列,定義了一個合法的抽取結果集合。如果是建模為序列標注問題,則是BIO標簽;如果看作子序列提取問題,則是子序列集合。

方法

模型結構:文中對神經(jīng)網(wǎng)絡OpenIE的方法進行全方位的總結,作者將目前的框架分為了三個模塊:1)Embedding Module;2)Encoding Module;3)Prediction Module;各模塊的種類如下圖。

d279c062-a643-11eb-aece-12bb97331649.png

作者針對以上三個模塊進行了不同組合,做了很多實驗進行比較哪種組合方式是最好的。

訓練方法:在進行訓練的時候會遇到標簽分類負樣本標簽的數(shù)量遠遠大于其他標簽數(shù)量的情況,作者對這個問題提出了三種解決方案。如下圖所示,第一種解決方案是在計算損失函數(shù)時不計算預測出標簽的數(shù)據(jù);第二種是計算預測出標簽和非標簽的邊緣部分的損失函數(shù);第三種是只計算邊緣部分的非部分的損失函數(shù)值。

d28fad50-a643-11eb-aece-12bb97331649.png

數(shù)據(jù)集和評價指標數(shù)據(jù)集來自于OIE16的benchmark 數(shù)據(jù)集,評價指標采用F1值和AUC-PR。

實驗結果

d29a5aac-a643-11eb-aece-12bb97331649.png

從主實驗可以看出最優(yōu)的組合是 ALBERT+Transformer+LSTM,并且用最后一種訓練方式訓練的模型。

作者對每個模塊和訓練方式還進行了消融實驗如下。

d2cf5072-a643-11eb-aece-12bb97331649.png

該實驗說明,embedding層使用Transformer效果最好。

d2f9be20-a643-11eb-aece-12bb97331649.png

該實驗說明,預測層使用LSTM效果最好。

d317c762-a643-11eb-aece-12bb97331649.png

該實驗說明,使用最后一種訓練方式的效果是最好的。

2

論文動機

文中介紹了目前OpenIE最主流的兩種框架:1)生成類的系統(tǒng)(通過迭代多次編碼輸入的文本,以進行多次抽取);2)序列標注系統(tǒng)。這兩種框架都存在弊端:1)生成系統(tǒng)多次重復encoding輸入的文本,會造成抽取速度慢,并不能很好的適應大數(shù)據(jù)時代的大量網(wǎng)頁抽取場景;2)而序列標注系統(tǒng),對于每個抽取都是獨立的,并不能獲取其他抽取內容的信息。

任務定義

給定一句話作為輸入,然后抽取出一個集合作為抽取的結果,其中每個是一個的三元組。由于一句話中可能含有多個可抽取的三元組,如下圖。

d3b3b53c-a643-11eb-aece-12bb97331649.png

作者將這個任務建模為一個在2-D網(wǎng)格上進行迭代抽取的任務,網(wǎng)格的大小為,橫坐標為句子分詞,縱坐標為抽取出的結果。例如,坐標為的網(wǎng)格代表第n個詞的第m次的預測標簽,如下圖。

d3d969b2-a643-11eb-aece-12bb97331649.png

方法

模型(Iterative Grid Labeling)

作者提出了一個迭代網(wǎng)格抽取方法,去完成這個網(wǎng)格抽取任務,其實就是利用迭代抽取,然后將上一節(jié)定義的的網(wǎng)格填滿預測標簽,模型圖如下:

d3fcc7ea-a643-11eb-aece-12bb97331649.png

該結構一共迭代M次,每一次詞向量都需要經(jīng)過一個相同結構的模塊如上圖,模塊中包含一個transformer 編碼器的self-att層、一個又多層感知機組成的標簽分類器和一個標簽嵌入層。每次迭代后詞向量編碼器的輸出會加入下一次的輸入中去,以達到迭代信息傳遞的作用。文中作者將該方法稱做IGL-OIE,訓練得到的損失函數(shù)為。

網(wǎng)格約束

在進行抽取的時候,作者提出了四種軟約束來限制抽取的結果,一共有四種:1)POS Coverage(POSC);2)Head Verb Coverage(HVC);3)Head Verb Exclusivitu(HVE);4)Extraction Count(EC)。POSC約束了句子中的每個名詞、動詞、形容詞和副詞至少有一個要出現(xiàn)在抽取結果中;HVC約束了句中每一個頭動詞(有意義的動詞)至少出現(xiàn)在其中一個抽取結果的關系中;HVE約束了每個抽取結果的關系只能有一個動詞;EC約束了所有抽取結果的數(shù)量要少于句中所有頭動詞的數(shù)量。作者根據(jù)以上定義的約束,制定了以下四種損失函數(shù)懲罰項:

將以上約束和抽取訓練的loss加起來得到總的損失:

并列連詞檢測

作者利用網(wǎng)格抽取和前人的并列連詞抽取工具,設計了并列連詞檢測的方法稱做IGL-CA,如下圖

d4238b64-a643-11eb-aece-12bb97331649.png

真正訓練的時候先用IGL-CA將長句根據(jù)并列連詞位置拆成簡單句,再進行IGL-OIE進行抽取。

數(shù)據(jù)集和實驗準備

訓練數(shù)據(jù)集來自于Open-IE4,同時也是用來訓練IMoJIE的數(shù)據(jù)集。用于比較的模型有IMoJIE、RnnOIE、SenceOIE、SpanOIE、MinIE、ClasusIE、OpenIE4和OpenIE5。實驗評價在CaRB、CaRB(1-1)、OIE6-C和Wire57-C上,并以F1和AUC作為評價指標。

實驗結果

d436100e-a643-11eb-aece-12bb97331649.png

從實驗結果看出本文提出的OpenIE6在三個評價數(shù)據(jù)集上都取得了最好的成績,而且當加入了軟約束后速度加快了5倍,該模型在準確率不降的基礎上,加快了推理速度。

d491ba62-a643-11eb-aece-12bb97331649.png

作者還分析了各約束間的關系,發(fā)現(xiàn)最有用的是POSC約束。

3

d4cfe2b0-a643-11eb-aece-12bb97331649.png

動機和貢獻

構建知識圖譜是一項很費人力的事情,這項工作提出了一種知識的轉換器,用于轉換純文本和知識圖。換句話說,如果給模型很多句子,模型就可以把這些句子變成一個圖存儲成知識圖譜。反過來,給模型一個圖,可以利用圖中節(jié)點和邊的關系,將圖還原成帶有知識的句子。

任務定義

任務1(文本路徑):

給定一句話,然后生成一個具有格式正確的實體和關系的路徑,該路徑和實體可以屬于已經(jīng)構造的KB,也可以以一種實際有意義的方式對其進行擴展。此條件生成被構造為稱為的翻譯任務,其中。

任務2(路徑文本):

給定KB路徑,則生成描述性句子,將路徑中的實體和關系連貫地合并。此條件生成是稱為的翻譯任務,其中。

下圖給定了一些標記符號:

d4f59226-a643-11eb-aece-12bb97331649.png

方法

d51f7b40-a643-11eb-aece-12bb97331649.png

由于缺少KB和文本對應的數(shù)據(jù)集,所以作者首先想到了采用自編嗎器的方式設計了四個無監(jiān)督的任務:(1)文本到文本(AA)(2)圖到圖(BB)(3)文本到圖到文本(ABA)(4)圖到文本到圖(BAB)。這四個任務分別對應上圖的、、和。計算公式如下:

由于作者采用的數(shù)據(jù)集是ConceptNet,然后作者找到了構建ConceptNet的語料集合,然后作者采用實體和關系在文本中進行模糊匹配的方式對齊了一些圖路徑和文本的訓練對,由于這個轉換是不準確的所以只能是弱監(jiān)督學習,在模型圖中對應的任務是(1)圖到文本(BA)和(2)文本到圖(AB),損失函數(shù)如下:

實驗設計

本文的實驗選取了常識領域的文本數(shù)據(jù)OMCS,和常識知識圖譜ConceptNet(CN600K)。因為CN600K中的部分三元組是從OMCS中抽取得來,所以部分文本和路徑所表達的知識是相同的。對于弱監(jiān)督數(shù)據(jù),文中使用Fuzzy Matching的方式對齊文本和路徑。需要注意的是,因為對齊的數(shù)據(jù)是基于路徑和文本之間的相似度進行選擇的,所以對齊的數(shù)據(jù)是有噪聲的。

文中涉及文本生成任務和知識圖譜補全任務,所以評價指標根據(jù)任務的不同有著變化。總體來說,生成任務包括BLEU2、BLEU3、Rougel和F1;知識圖譜補全任務采用了常用的MRR和HITS@N指標。由于作者還設計了一個通過一堆句子生成新圖的任務,所以需要一個指標來評價新圖和原來的圖有多少不同,因此引入了圖編輯距離(GED)來評價這個任務。

實驗結果

文本路徑互轉的性能

d52934f0-a643-11eb-aece-12bb97331649.png

從文本到文本的效果很好,但是如果通過中間圖轉化的話效果就會差很多,說明跨模態(tài)的知識遷移能力需要提高。

d534c040-a643-11eb-aece-12bb97331649.png

如果直接用路徑生成文本,效果就更差了,但是本文提出了一種新穎的思想。

知識圖譜補全任務

d55b4ae4-a643-11eb-aece-12bb97331649.png

在知識圖譜補全任務上,本文提出的模型優(yōu)于前人的baseline,值得注意的是,代表了弱監(jiān)督的比例,從實驗結果來看,并不是弱監(jiān)督越多越好,因為帶有很多噪音。因此作者還對應該加入多少弱監(jiān)督進行了探索,實驗結果如下:

d5afb3a4-a643-11eb-aece-12bb97331649.png

發(fā)現(xiàn)大致是加入0.5比例的監(jiān)督效果是在最好的模型上表現(xiàn)提升較多。
編輯:lyn

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4772

    瀏覽量

    100838
  • LSTM
    +關注

    關注

    0

    文章

    59

    瀏覽量

    3767
收藏 人收藏

    評論

    相關推薦

    結構化布線在AI數(shù)據(jù)中心的關鍵作用

    AI 正在不斷顛覆各行各業(yè),推動從電影制作到金融行業(yè)等各個領域的創(chuàng)新。而在 AI 系統(tǒng)的背后,隱藏著這樣一位無名英雄:結構化布線。
    的頭像 發(fā)表于 11-21 16:51 ?342次閱讀

    TSMI252012PMX-3R3MT功率電感詳細解析

    TSMI252012PMX-3R3MT功率電感詳細解析 一、引言 在現(xiàn)代電子設備的不斷小型和高性能的趨勢下,功率電感作為電路中的關鍵元件
    的頭像 發(fā)表于 11-04 17:57 ?295次閱讀
    TSMI252012PMX-<b class='flag-5'>3R3</b>MT功率電感<b class='flag-5'>詳細</b><b class='flag-5'>解析</b>

    基于分布式對象存儲WDS的信托非結構化數(shù)據(jù)整合平臺

    基于分布式對象存儲WDS的信托非結構化數(shù)據(jù)整合平臺
    的頭像 發(fā)表于 08-28 09:56 ?352次閱讀
    基于分布式對象存儲WDS的信托非<b class='flag-5'>結構化</b>數(shù)據(jù)整合平臺

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    信息,提供更全面的上下文理解。這使得模型能夠更準確地理解復雜問題中的多個層面和隱含意義。 2. 語義分析 模型通過訓練學習到語言的語義特征,能夠識別文本中的命名實體、句法結構和語義關系等信息
    發(fā)表于 08-02 11:03

    微軟GenAI賦能聯(lián)想抓住增長新機遇

    在數(shù)字浪潮的推動下,知識工作者與同事間的聯(lián)系愈發(fā)緊密,仿佛一個無縫的織網(wǎng)將世界各地的人才緊密連接。然而,數(shù)字協(xié)作在帶來便利與效率的同時,也釋放出了海量的結構化和非結構化數(shù)據(jù)。面對源源
    的頭像 發(fā)表于 07-25 16:12 ?546次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎

    講解,包括偏置、權重、激活函數(shù);三要素包括網(wǎng)絡結構、損失函數(shù)和優(yōu)化方法。章節(jié)最后總結了神經(jīng)網(wǎng)絡參數(shù)學習的關鍵步驟。 1.4章節(jié)描述了自然語言處理的相關知識點,包括什么是自然語言處理、文本的向量化和自監(jiān)督
    發(fā)表于 07-25 14:33

    PLC基本結構解析

    方式和便捷的編程方式,被廣泛應用于各種工業(yè)控制系統(tǒng)中。本文將詳細解析PLC的基本結構,包括其主要組成部分的功能和特點,以便讀者對PLC有更深入的了解。
    的頭像 發(fā)表于 06-25 14:30 ?1002次閱讀

    定期維護結構化布線對于辦公室得重要性

    定期維護結構化布線對于辦公室的順利運行至關重要。結構化布線是指支持建筑物內各種數(shù)據(jù)、語音和視頻系統(tǒng)的標準基礎設施。它包括電纜、連接器、機架和其他構成網(wǎng)絡主干的組件。 通過正確維護結構化
    的頭像 發(fā)表于 06-14 10:44 ?246次閱讀

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    據(jù)時,經(jīng)常會遇到各種格式的文檔,包括結構化、半結構化和非結構化的數(shù)據(jù)。正文提取的目的是從這些文檔中抽取出有價值的信息,以便后續(xù)的分析和建模。
    發(fā)表于 05-07 17:10

    訊飛星火大模型V3.5春季升級,多領域知識問答超越GPT-4 Turbo?

    劉慶峰指出,現(xiàn)如今,星火大模型在通用長文本處理能力方面已相當成熟,覆蓋長文檔信息抽取知識問答、歸納總結、文本生成等諸多領域,整體表現(xiàn)已達G
    的頭像 發(fā)表于 04-26 14:26 ?1068次閱讀

    什么是結構化網(wǎng)絡布線?結構化網(wǎng)絡布線有哪些好處?

    EIA/TIA TR42 委員會指定的通信布線的標準架構和組件,并被制造商用作確保互操作性的自愿標準。 如果你查看 TIA TR42,可能會發(fā)現(xiàn) TIA 568 在技術上對結構化布線進行了更加詳細的定義和概述,但你可能會遇到
    的頭像 發(fā)表于 04-11 11:54 ?531次閱讀

    結構化布線的好處多嗎

    結構化布線是網(wǎng)絡系統(tǒng)中的重要組成部分,因為它為數(shù)據(jù)傳輸提供了強大、可擴展且可靠的基礎。通過遵守全球公認的標準,結構化布線可促進高速連接、簡化故障排除并確保未來的可擴展性。考慮到這些優(yōu)勢,企業(yè)應優(yōu)先
    的頭像 發(fā)表于 04-07 11:15 ?449次閱讀

    什么是網(wǎng)絡系統(tǒng)中的結構化布線?

    結構化布線在網(wǎng)絡系統(tǒng)中發(fā)揮著至關重要的作用,為組織內的無縫通信和數(shù)據(jù)傳輸提供了堅實的基礎。這種綜合基礎設施旨在支持廣泛的應用程序和技術。本文將深入探討它是什么、為什么它很重要以及它為組織提供的好處
    的頭像 發(fā)表于 04-07 10:58 ?414次閱讀

    科通技術推出基于FPGA的應用設計結構化技術

    隨著汽車技術的飛速發(fā)展,汽車功能的復雜性對處理芯片的算力及IO端口數(shù)量提出了更高的要求。作為一家正在進行IPO排隊的公司,深圳市科通技術股份有限公司(以下簡稱:科通技術)積極應對市場挑戰(zhàn),針對新一代汽車輔助駕駛的需求,研發(fā)了一系列基于FPGA的應用設計結構化技術。
    的頭像 發(fā)表于 02-02 09:34 ?557次閱讀

    知識圖譜基礎知識應用和學術前沿趨勢

    知識圖譜(Knowledge Graph)以結構化的形式描述客觀世界中概念、實體及其關系。是融合了認知計算、知識表示與推理、信息檢索與抽取
    的頭像 發(fā)表于 01-08 10:57 ?980次閱讀
    <b class='flag-5'>知識</b>圖譜基礎<b class='flag-5'>知識</b>應用和學術前沿趨勢
    主站蜘蛛池模板: 男女作爱在线播放免费网页版观看| 波多野结衣网站www| 快播苍井空| 穿着丝袜被男生强行啪啪| 亚洲综合AV在线在线播放| 日本后进式猛烈xx00动态图| 久久99视频免费| 国产精品AV视频一二三区| a视频免费看| 越南女子杂交内射BBWXZ| 午夜福利电影网站鲁片大全| 欧美兽交YOYO| 久久伊人天堂视频网| 韩国伦理三级| 国产成人免费观看| vivoe另类| 95国产欧洲精华液| 一级做a爰片久久毛片一| 亚洲haose在线观看| 日韩欧美一级| 嫩小性性性xxxxbbbb| 久久热在线视频精品| 黄色a三级三级三级免费看| 国产精品成久久久久三级四虎| 波多野结衣 无码片| FREE另类老女人| 8X拨牐拨牐X8免费视频8| 在线播放毛片| 伊人久久大香线蕉综合亚洲| 亚洲男人在线观看| 亚洲精品www久久久久久| 午夜向日葵视频在线观看| 色欲久久综合亚洲精品蜜桃| 日本xxx护士与黑人| 青青草在线 视频| 欧美老妇与zozoz0交| 嫩草电影网嫩草影院| 嫩草伊人久久精品少妇AV网站| 美女被C污黄网站免费观看| 快播官方网站| 麻豆产精品一二三产区区|