關(guān)系抽取到底在乎什么?這是來自EMNLP20上清華大學(xué)劉知遠(yuǎn)團(tuán)隊(duì)的“靈魂發(fā)問”~ 關(guān)系抽取是每一位NLPer都很熟知的任務(wù),特別是基于BERT的神經(jīng)關(guān)系抽取模型已經(jīng)登頂各大榜單SOTA,某些甚至直逼人類表現(xiàn)。但也許你和JayJay一樣,可能只是調(diào)個(gè)包、從不過問關(guān)系抽取的核心要素是啥吧~ 在劉知遠(yuǎn)老師的EMNLP20論文《Learning from Context or Names? An Empirical Study on Neural Relation Extraction》中,就「關(guān)系抽取到底在乎什么」這一問題進(jìn)行深入全面的探究,是難得的好文!
注意:本文所稱的關(guān)系抽取也稱關(guān)系分類,即判斷兩個(gè)實(shí)體
論文下載:https://arxiv.org/pdf/2010.01923.pdfgithub開源:https://github.com/thunlp/RE-Context-or-Names 為具備更好的閱讀體驗(yàn),本文以QA形式進(jìn)行組織:
我們廢話不說,先po結(jié)論(劃重點(diǎn)): 1、對(duì)關(guān)系抽取的兩個(gè)主要特征(上下文信息和實(shí)體信息),進(jìn)行了對(duì)比分析發(fā)現(xiàn):
上下文信息 和 實(shí)體信息 對(duì)于關(guān)系模型都很關(guān)鍵;
上下文信息是關(guān)系模型的主要信息來源;
實(shí)體信息中最重要的實(shí)體類型信息,但模型會(huì)存在對(duì)實(shí)體信息的過度依賴問題;
現(xiàn)有的數(shù)據(jù)集可能會(huì)通過實(shí)體泄漏淺層的啟發(fā)式信息,導(dǎo)致當(dāng)前關(guān)系任務(wù)的指標(biāo)虛高!
2、構(gòu)建了關(guān)系預(yù)訓(xùn)練模型,基于關(guān)系抽取的實(shí)體遮蔽的對(duì)比學(xué)習(xí)框架:
能幫助模型更好地的借助上下文信息和實(shí)體類型信息,避免“死記硬背”實(shí)體表面表述;
提高了多個(gè)場(chǎng)景下神經(jīng)關(guān)系抽取模型的有效性和魯棒性,特別是在低資源場(chǎng)景下;
Q1: 關(guān)系抽取為什么主要利用「上下文信息」和「實(shí)體信息」?
為什么本篇論文會(huì)選取上下文和實(shí)體信息進(jìn)行對(duì)比研究呢?作者認(rèn)為:
上下文信息:從人的直覺來看,文本上下文是主要的信息來源;最為簡(jiǎn)單的一種方式,就是可以用關(guān)系模板進(jìn)行歸納。如上圖所示,「... be founded ... by ...」模板就可以很好地映射到某一類關(guān)系上。因此,上下文關(guān)系肯定會(huì)對(duì)關(guān)系預(yù)測(cè)結(jié)構(gòu)起著某種作用。
實(shí)體信息:實(shí)體信息主要包括實(shí)體類型、實(shí)體ID、實(shí)體屬性信息等,如果實(shí)體可以被鏈接到知識(shí)圖譜上,那么相關(guān)信息也可以被模型所利用。既然關(guān)系抽取基于實(shí)體pair進(jìn)行的分類預(yù)測(cè),那么實(shí)體信息就必不可少了。
Q2: 關(guān)系抽取的baseline模型選擇哪些?
為了更好地進(jìn)行分析驗(yàn)證,本文主要主要采取CNN、BERT、MTB三種模型進(jìn)行實(shí)驗(yàn)(如上圖所示):采取BERT時(shí)主要是提取實(shí)體pair的相關(guān)標(biāo)識(shí)符對(duì)應(yīng)的表示進(jìn)行關(guān)系分類。 MTB是由Google在2019年提出預(yù)訓(xùn)練關(guān)系模型 ,其只在獲得更好的適配于關(guān)系抽取的特征表示,其具體的預(yù)訓(xùn)練方式為:認(rèn)為包含相同實(shí)體pair的句子表示相同的關(guān)系,將相似度得分作為預(yù)訓(xùn)練目標(biāo),如下圖示意。
Q3: 「上下文信息」和「實(shí)體信息」到底哪家強(qiáng)?
為了分析「上下文信息」和「實(shí)體信息」對(duì)于關(guān)系模型的內(nèi)在影響,論文設(shè)置眾多輸入格式(如上圖所示):
Context+Mention (C+M) :即最為廣泛的使用方式,在原句子輸入的同時(shí),強(qiáng)調(diào)實(shí)體mention:對(duì)于BERT模型,采用位置向量和特殊的實(shí)體標(biāo)識(shí)符來強(qiáng)化metion。
Context+Type (C+T) :將實(shí)體mention用其實(shí)體類型Type代替,如上圖,「SpaceX」用「organization」代替,「Elon Musk」用「person」代替。
Only Context (OnlyC) :即只利用上下文信息,將實(shí)體mention用「subject」或「object」代替,通過這種方式可以將實(shí)體信息源完全阻擋。
Only Mention (OnlyM) :即只利用實(shí)體提及,忽略其他文本上下文的輸入。
Only Type (OnlyT) :即只利用實(shí)體類型信息,如「organization」「SEP」「person」。
論文通過上述設(shè)置在最大的有監(jiān)督關(guān)系數(shù)據(jù)集TACRED上(共42種關(guān)系,10w+實(shí)例)進(jìn)行了相關(guān)實(shí)驗(yàn),結(jié)果如下(指標(biāo)為micro F1值):
由上圖的紅框(OnlyC、OnlyM、OnlyT)可以看出,只利用上下文信息或?qū)嶓w信息指標(biāo)都大幅下降,這表明:上下文信息 和 實(shí)體信息 對(duì)于關(guān)系模型都很關(guān)鍵;
由上圖的紅框可以看出,C+M和C+T表現(xiàn)一致,這表明:實(shí)體提及中的類型Type信息很重要!這與之前女神的SOTA《反直覺!陳丹琦用pipeline方式刷新關(guān)系抽取SOTA》中關(guān)于「類型信息」的重要性相互佐證~
由上圖的紅框可以看出:
OnlyC總體高于OnlyM,可以看出:上下文信息比實(shí)體信息更重要~(PS:CNN中OnlyC沒有明顯高于OnlyM,也說明其上下文的捕捉能力不如BERT吧)
OnlyM也有較高指標(biāo),這表明:現(xiàn)有的數(shù)據(jù)集可能會(huì)通過實(shí)體泄漏淺層的啟發(fā)式信息,導(dǎo)致當(dāng)前關(guān)系任務(wù)的指標(biāo)虛高!
此外,本篇論文也通過Case Study進(jìn)一步證明了上述結(jié)果、并有了新的發(fā)現(xiàn):
C+M與C+T類似,共享95.7%的正確預(yù)測(cè)和68.1%的錯(cuò)誤預(yù)測(cè),充分說明了實(shí)體提及的主要的信息來源是其類型Type信息。
C+M容易對(duì)實(shí)體提及產(chǎn)生過高的偏置依賴,特別是容易對(duì)訓(xùn)練集中的實(shí)體提及進(jìn)行“死記硬背”,如下圖:模型容易死記住訓(xùn)練集中「Washington」的實(shí)體提及只存在于「stateorprovinceofresidence 」關(guān)系中,從而導(dǎo)致關(guān)系預(yù)測(cè)錯(cuò)誤。
C+T不容易捕捉共指信息和語義信息,如下圖所示,「Natalie」和「she」兩個(gè)實(shí)體如果被實(shí)體Type替代后,不容易捕捉到原有的共指關(guān)系:
再通過對(duì)OnlyC的case分析中發(fā)現(xiàn):人類可以本能地從上下文中判斷關(guān)系,但模型似乎在捕捉上下文信息的能力上還有很大缺失。如下圖所示,具體體現(xiàn)在3個(gè)方面:
Wrong:對(duì)于那些很清晰的關(guān)系模式仍然會(huì)預(yù)測(cè)錯(cuò)誤。
No pattern:對(duì)于那些不具備pattern的關(guān)系會(huì)預(yù)測(cè)錯(cuò)誤。
Confusing:對(duì)于困惑的關(guān)系類型缺乏魯棒能力。
Q4: 如何提升關(guān)系模型的預(yù)測(cè)性能? 從上文的分析中,我們可以發(fā)現(xiàn):上下文信息和實(shí)體信息對(duì)于關(guān)系模型都很重要,但在一些情況下,關(guān)系模型并不能很好地理解關(guān)系模式、會(huì)過度依賴于實(shí)體mention的淺層提示信息。 為了更好地捕捉上下文信息和實(shí)體類型Type信息,論文提出了一種基于實(shí)體遮蔽的對(duì)比學(xué)習(xí)框架,來進(jìn)行關(guān)系預(yù)訓(xùn)練。 1、對(duì)比學(xué)習(xí)數(shù)據(jù)生成方法
對(duì)比學(xué)習(xí)預(yù)訓(xùn)練框架如上圖所示,論文借鑒了「對(duì)比學(xué)習(xí)」的思想,通過聚合“neighbors”、分離“non-neighbors”來學(xué)習(xí)特征表示;通過這種模式,“neighbors”具備相似的表示。因此,定義“neighbors”對(duì)于對(duì)比學(xué)習(xí)至關(guān)重要。
本文定義:實(shí)體pair共享同種關(guān)系的句子是“neighbors”。
為了防止模型在預(yù)訓(xùn)練過程中對(duì)實(shí)體mention死記硬背、或者抽取比較淺層的表面特征,作者采取了隨機(jī)mask實(shí)體的辦法,將實(shí)體mention替換為「BLANK」,替換率為0.7. 事實(shí)上,生成預(yù)訓(xùn)練數(shù)據(jù)是通過遠(yuǎn)程監(jiān)督的方法進(jìn)行,這雖然會(huì)造成噪聲;但作者認(rèn)為噪聲問題對(duì)于預(yù)訓(xùn)練框架不是關(guān)鍵的,因?yàn)椋侯A(yù)訓(xùn)練目標(biāo)是相對(duì)于像BERT這樣的原始預(yù)訓(xùn)練模型,獲得相對(duì)更好的關(guān)系表示,而不是直接訓(xùn)練關(guān)系模型對(duì)于下游任務(wù),因此數(shù)據(jù)中的噪聲是可以接受的。 通過上述的對(duì)比學(xué)習(xí)生成方法,預(yù)訓(xùn)練模型可以學(xué)習(xí)更好地從實(shí)體metion中掌握類型Type信息,并從文本上下文中提取關(guān)系語義:
成對(duì)的兩個(gè)句子雖然包含不同的實(shí)體pair,但共享相同的關(guān)系,提示模型發(fā)現(xiàn)這些實(shí)體mention之間的聯(lián)系。此外,實(shí)體mask策略可以有效地避免簡(jiǎn)單的記憶實(shí)體mention。這最終鼓勵(lì)模型利用實(shí)體類型Type信息。
生成策略提供了相同關(guān)系類型下的多種上下文集合,這有利于模型學(xué)習(xí)從多種表達(dá)方式中提取關(guān)系pattern。
2、對(duì)比學(xué)習(xí)訓(xùn)練目標(biāo) 上述預(yù)訓(xùn)練的目標(biāo)函數(shù)共包含兩部分:對(duì)比學(xué)習(xí)目標(biāo)( Contrastive Pre-training,CP)和遮蔽語言模型(MLM):
對(duì)比損失CP采取隨機(jī)負(fù)樣本采樣,加速訓(xùn)練過程。 3、對(duì)比學(xué)習(xí)實(shí)驗(yàn)結(jié)果
基于對(duì)比學(xué)習(xí)的預(yù)訓(xùn)練框架的關(guān)系模型最終表現(xiàn)如何?作者在不同的數(shù)據(jù)集上設(shè)置不同數(shù)據(jù)使用量(1%、10%、100%)進(jìn)行了對(duì)比分析,發(fā)現(xiàn):對(duì)比學(xué)習(xí)模型CP在不同數(shù)據(jù)集上均超過了BERT和MTB,特別是在低資源(1%數(shù)據(jù)量)條件下也能呈現(xiàn)較高指標(biāo),如上圖紅框所示。 可見,對(duì)比學(xué)習(xí)機(jī)制相比于Google的MTB模型更具備多樣性的數(shù)據(jù)特征、能更充分的學(xué)習(xí)實(shí)體類型Type信息。
總結(jié) 本文主要基于「關(guān)系抽取到底在乎什么」、「上下文和實(shí)體mention如何影響關(guān)系模型」進(jìn)行了討論,發(fā)現(xiàn):
文本上下文和實(shí)體mention都給關(guān)系模型提供了關(guān)鍵信息;
關(guān)系抽取數(shù)據(jù)集可能會(huì)通過實(shí)體泄漏淺層的啟發(fā)式信息,導(dǎo)致當(dāng)前關(guān)系任務(wù)的指標(biāo)虛高!
關(guān)系模型并不能很好地理解關(guān)系模式、會(huì)過度依賴于實(shí)體mention的淺層提示信息
基于上述幾點(diǎn),論文提出了一種基于實(shí)體遮蔽的對(duì)比學(xué)習(xí)框架來改進(jìn)關(guān)系模型的表現(xiàn),最終提高了多個(gè)場(chǎng)景下神經(jīng)關(guān)系抽取模型的有效性和魯棒性(特別是在低資源條件下)。 有了本文全面的實(shí)驗(yàn)分析,或許未來我們可以進(jìn)一步研究開放關(guān)系抽取和關(guān)系發(fā)現(xiàn)問題,這些需要我們考慮zero-shot問題,但可以確信:預(yù)訓(xùn)練關(guān)系模型將對(duì)這些領(lǐng)域產(chǎn)生積極影響。
責(zé)任編輯:xj
原文標(biāo)題:劉知遠(yuǎn)老師的“靈魂發(fā)問”:關(guān)系抽取到底在乎什么?
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
自然語言
+關(guān)注
關(guān)注
1文章
288瀏覽量
13360 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22053 -
知識(shí)圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7715
原文標(biāo)題:劉知遠(yuǎn)老師的“靈魂發(fā)問”:關(guān)系抽取到底在乎什么?
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論