色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何統一各種信息抽取任務的輸入和輸出

深度學習自然語言處理 ? 來源:圓圓的算法筆記 ? 作者:圓圓的算法筆記 ? 2022-09-20 15:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

信息抽取任務包括命名實體識別(NER)、關系抽取(RE)、事件抽取(EE)等各種各樣的任務。不同的信息抽取任務針對的任務不同,希望得到的輸出也不同。例如下面的例子中,對于NER任務,需要識別Steve是PER、Apple是ORG;而對于關系抽取任務,則需要識別出Steve和Apple是Work For的關系。此外,不同場景的同一個信息抽取任務的輸出可能也是不同的。

33d9fc38-37f1-11ed-ba43-dac502259ad0.png

目前業內比較常見的做法是針對每個場景的每種信息抽取任務,分別獨立的訓練一個模型。這種方法成本很高,每種任務、每種場景都要建立模型。此外,獨立的訓練模型導致不同任務之間無法共享知識,沒有發揮出數據和模型的全部能力。

中科院、百度在ACL 2022中提出了一種可以實現統一建模各類信息抽取任務的框架UIE,在4種信息檢索任務的13個數據集上都取得了顯著效果。

1 統一多種信息抽取任務

要想實現使用一個模型解決多種信息抽取任務的目標,一個核心問題是如何統一各種信息抽取任務的輸入和輸出。作者提出所有信息抽取任務都可以抽象成SpottingAssociating兩個步驟:在Spotting步驟中,確定輸入文本中的實體以及該實體對應的實體類型;在Associating中,建立兩個實體之間的關系。

例如下面是Steve became CEO of Apple in 1997這句話使用上述方法抽象出來的描述語言。藍色的代表關系抽取,紅色的代表事件抽取,其他的是命名實體識別。首先能夠識別出person、organization、time三種實體。此外Steve可以識別出work for的關系,而事件以became作為start-position,關聯employee、employer、time。

3403d364-37f1-11ed-ba43-dac502259ad0.png

通過上述方法,可以實現將所有信息抽取任務都抽象為相同結構的語言描述,為后續的多任務統一建模打下了基礎。

2 基于prompt的多任務統一建模

基于上面的關系抽取統一描述,本文提出了UIE框架,在輸入側構造每個任務structural schema instructor (SSI),以及原始文本,使用Encoder編碼后,使用Decoder解碼統一的信息抽取語言描述。整個過程如下圖所示。

3430638e-37f1-11ed-ba43-dac502259ad0.png

仍然以上面文本為例,輸入由SSL原始文本組成。對于關系抽取任務,SSL對應的是[spot] person [asso] word for。這會作為一個前綴prompt,用來指導模型根據特定的任務進行文本生成。而對于NER任務,SSL對應的是[spot] person [spot] organization [spot] time。SSL后面接一個[text]標識符以及原來的文本。整體的輸入文本拼接模式如下:

34525494-37f1-11ed-ba43-dac502259ad0.png

上述文本會通過Encoder進行編碼,然后利用Decoder進行文本生成,生成的目標文本即為根據信息抽取的label生成的統一描述。在具體的模型結構上,BART、T5等生成式模型,都可以作為框架的主模型的backbone。這種基于前綴的生成方式,也可以比較容易的適應到一個新的信息抽取任務上。

3 模型訓練

為了訓練上面說的從SSL+文本到描述的生成式模型,文中采用了三個預訓練任務聯合學習。構造了3種數據,分別是SSL+原始文本到結構化文本的pair對、單獨的原始文本以及單獨的結構化文本。第一個任務是SSL+原始文本到結構化文本的匹配關系,匹配的label為1,不匹配label為0,label為0的樣本是通過隨機替換spot或associate實現的。第二個任務是使用結構化文本訓練Decoder,這一步是為了讓Decoder適應結構化文本的語言形式。第三個任務是在訓練過程中引入一般的mask language modeling任務,目的是防止模型在訓練過程中丟失了文本原始的語義信息。最終的預訓練loss是下面3個loss的和:

3470d8d8-37f1-11ed-ba43-dac502259ad0.png

預訓練好的模型可以在下游任務進行finetune以應用到各類任務上。同時作者引入rejection mechanism,在結構化文本中插入一些在原始輸入中沒有的實體以及NULL,讓模型可以通過生成NULL避免被誤導生成不正確的結果。

34b4b792-37f1-11ed-ba43-dac502259ad0.png

4 實驗結果

UIE框架在信息抽取任務中的整體效果如下,主要對比了UIE和各個數據集上各類SOTA模型的效果。可以看到在大部分數據集上,UIE的效果都是最優的。對比沒有經過預訓練的模型(SEL),UIE取得非常顯著的提升,通過將多任務使用統一框架聯合訓練,實現了知識的共享和效果的互相促進。

35247a28-37f1-11ed-ba43-dac502259ad0.png

除了在正常的有監督任務上效果外,本文也對小樣本場景的效果進行了實驗,主要對比了使用T5模型finetune和使用UIE方法的效果,UIE在小樣本上的效果非常顯著。

3560cc80-37f1-11ed-ba43-dac502259ad0.png

5 開源代碼

與此論文相應的開源代碼發布在百度PaddleNLP上https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

35cc9ee2-37f1-11ed-ba43-dac502259ad0.png

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7250

    瀏覽量

    91637
  • 模型
    +關注

    關注

    1

    文章

    3507

    瀏覽量

    50255
  • NER
    NER
    +關注

    關注

    0

    文章

    7

    瀏覽量

    6326

原文標題:一個模型解決所有信息抽取任務!(含代碼)

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    文本信息抽取的分階段詳細介紹

    文本信息抽取作為監督學習的項具體運用。文本信息抽取可以分為兩個階段:學習階段和抽取階段。其過程
    發表于 09-16 15:03

    基于子樹廣度的Web信息抽取

    提出種新的網頁信息抽取方法,基于子樹的廣度可不加區分地對不同科技文獻網站的頁面信息進行自動抽取。對大量科技文獻網站進行
    發表于 03-28 10:03 ?14次下載

    基于重復模式的自動Web信息抽取

    互聯網上存在很多在線購物網站,抽取這類網站頁面里的商品信息可以為電子商務、Web查詢提供增值服務。該文針對這類網站提出種自動的Web信息抽取
    發表于 04-10 09:33 ?11次下載

    基于XML的WEB信息抽取模型設計

    對現有的信息抽取技術和XML 技術加以研究,在此基礎上提出了適合XML 的通用的web 信息抽取模型,它能夠把Web 上的數據抽取出來整合到
    發表于 12-22 13:56 ?17次下載

    基于WebHarvest的健康領域Web信息抽取方法

    針對Web信息抽取(WIE)技術在健康領域應用的問題,提出了種基于WebHarvest的健康領域Web信息抽取方法。通過對不同健康網站的結
    發表于 12-26 13:44 ?0次下載

    節點屬性的海量Web信息抽取方法

    為解決大數據場景下從海量Web頁面中抽取有價值的信息,提出了種基于節點屬性與正文內容的海量Web信息抽取方法。將Web頁面轉化為DOM樹表
    發表于 02-06 14:36 ?0次下載

    抽取式摘要方法中如何合理設置抽取單元?

    的核心問題。抽取式摘要則是文本摘要技術中效果穩定,實現簡單的類方法,本文結合COLING 2020中抽取式摘要相關的兩篇最新工作,對抽取式摘要方法中如何合理設置
    的頭像 發表于 05-03 18:23 ?1874次閱讀
    <b class='flag-5'>抽取</b>式摘要方法中如何合理設置<b class='flag-5'>抽取</b>單元?

    了解信息抽取必須要知道關系抽取

    當我們拿到信息抽取任務,需要明確我們抽取的是什么,”今天天氣真冷“,我們要抽的天氣的狀態天氣-狀態-冷,而非 今天-氣候-冷(雖然也可
    的頭像 發表于 04-15 14:32 ?2325次閱讀
    了解<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>必須要知道關系<b class='flag-5'>抽取</b>

    開放域信息抽取和文本知識結構化的3篇論文詳細解析

    開放域信息抽取信息抽取任務的另個分支任務,其中
    的頭像 發表于 04-26 14:44 ?3063次閱讀
    開放域<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>和文本知識結構化的3篇論文詳細解析

    面向知識圖譜的信息抽取

    摘要: 隨著大數據時代的到來,海量數據不斷涌現,從中尋找有用信息抽取對應知識的需求變得越來越強烈。針對該需求,知識圖譜技術應運而生,并在實現知識互聯的過程中日益發揮重要作用。信息抽取
    發表于 03-22 16:59 ?1202次閱讀
    面向知識圖譜的<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>

    實體關系抽取模型CasRel

    許多實驗證明聯合學習方法由于考慮了兩個子任務之間的信息交互,大大提升了實體關系抽取的效果,所以目前針對實體關系抽取任務的研究大多采用聯合學習
    的頭像 發表于 07-21 14:11 ?4605次閱讀

    基于統一語義匹配的通用信息抽取框架USM

    信息提取(Information Extraction,IE)需要提取句子中的實體、關系、事件等,其不同的任務具有多樣的抽取目標和異質的機構,因此,傳統的方法需要針對特定的任務進行模型
    的頭像 發表于 01-16 10:21 ?1457次閱讀

    介紹信息抽取的大統方法USM

    信息抽取任務具有多樣的抽取目標和異構的結構,而傳統的模型需要針對特定的任務進行任務設計和標簽標注
    的頭像 發表于 02-15 14:13 ?1162次閱讀

    基于統一語義匹配的通用信息抽取框架-USM

    信息提取(Information Extraction,IE)需要提取句子中的實體、關系、事件等,其不同的任務具有多樣的抽取目標和異質的機構,因此,傳統的方法需要針對特定的任務進行模型
    的頭像 發表于 02-22 11:09 ?1109次閱讀
    基于<b class='flag-5'>統一</b>語義匹配的通用<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>框架-USM

    Instruct-UIE:信息抽取統一大模型

    Instruct-UIE 統一信息抽取任務訓練方法,可以融合不同類型任務以及不同的標注規范,統一
    的頭像 發表于 04-25 10:46 ?2167次閱讀
    Instruct-UIE:<b class='flag-5'>信息</b><b class='flag-5'>抽取</b><b class='flag-5'>統一</b>大模型
    主站蜘蛛池模板: 91精品国产品国语在线不卡 | 免费无码国产欧美久久18 | 97人人看碰人免费公开视频 | 日本中文字幕伊人成中文字幕 | 人妻熟妇乱又伦精品视频中文字幕 | 伊人久久综合成人亚洲 | jizzhd中国| 果冻传媒最新视频在线观看 | 亚洲中文字幕一二三四区苍井空 | 亚洲国产成人在线 | 97色伦久久视频在观看 | 欧美 亚洲 另类 综合网 | 成人影院久久久久久影院 | 伊人大香线蕉影院在线播放 | 无码AV动漫精品一区二区免费 | 么公在浴室了我的奶 | xxxxxx视频| 国产精品自在在线午夜蜜芽tv在线 | av在线不卡中文网 | 799是什么意思网络用语 | 99久久综合精品免费 | 欧美色图一区二区三区 | 无码任你躁久久久久久久 | 美女漏bb| 香蕉动漫库| 99精品热视频30在线热视频 | 欧美成人精品高清在线观看 | 亚洲三区视频 | 色欲精品久久人妻AV中文字幕 | 日韩精品在线观看免费 | 国产午夜亚洲精品一区 | 亚洲国产精品线在线观看 | 久久精品中文字幕免费 | 99久久久无码国产AAA精品 | 菠萝视频高清版在线观看 | 国产久爱青草视频在线观看 | 超碰人人澡人人胔 | 耻辱诊察室1一4集动漫在线观看 | 国产精品99 | 丝袜足控免费网站xx91 | 久久国产精品免费网站 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品