01
Introduction-現有什么問題、怎么解決
此部分著重介紹了兩個few-shot NER中的challenge:limited information challenge和knowledge mismatch challenge。前者主要是指樣本數少,后者是指不同的數據集中同一個實體可能被分成了不同的類別標簽。(比如“America”在Wikipedia被分為geographic , 在 OntoNotes中被分為GPE, 在WNUT17被分為location )
本文最重要的思想基于這樣一個假設:不論是否是未知的實體類別,都可以用一個概念集中的若干概念來描述(all entity types can be described using the same set of concepts)。這樣可以解決knowledge mismatch challenge,而且在給了幾個少樣本后,可以根據這幾個少樣本構建新實體類別到概念集的映射,這樣可以直接用映射后的若干概念識別實體,進而解決limited information challenge。下圖是實體類別到概念集的映射舉例。
02
SDNet: Self-describing Networks for FS-NER
2.1 SDNet核心部分: Mention describing、Entity generation
這部分將主要介紹SDNet怎么進行命名實體識別的,主要包括:Mention describing(從給的sentence構建該實體的concept description)和Entity generation(根據給的實體類型逐個生成句子中的實體詞)。
以下圖為例,輸入一個sentence(以[MD]作為起始符),SDNet將輸出novel series這樣的concept description。輸入一個以[EG]作為起始符、實體類別名+相關的concept description以及待識別的sentence作為內容的文本,SDNet將輸出Harry Potter is creative work.這樣的回答。這兩個過程分別對應Mention describing和Entity generation。
2.2 模型工作流程
a、預訓練階段
左上角的維基百科上有大量的句子,句子中的人物、地點、公司等都有相應的維基百科給的標簽和描述。預訓練階段根據2.1部分介紹的模板,進行[MD]和[EG]兩個任務的Seq2Seq任務的訓練。
b、微調與解碼階段
這部分對應于Few-shot NER的少樣本階段。給了一些帶標注的少量樣本句子,我們知道了這些句子中那些單詞是實體部分,把這些實體部分添加到以[MD]開頭的模板并輸入到SDNet中,模型會生成這些實體部分描述,并將生成的描述加入到新類別的概念描述集中,并在預測階段輸入添加了新類別的[EG]開頭的模板,根據生成的結果判斷待預測的句子中哪些單詞部分是該類別的實體。
以上圖中為例,給的少樣本中Iran是GPE類別的實體,SDNet先用[MD]開頭的模板生成了Iran是country的描述,將country加入到屬于GPE這個新類別的概念描述集合中,在預測階段用[EG]開頭的模板輸入GPE這個類別名、其包含的概念描述以及待識別的句子,生成屬于GPE的實體詞,完成實體識別。
c、Filtering Strategy
在眾多下游任務中,SDNet可能會遇到難以生成新實體類別描述的情況(或者或生成不準確的描述),因此SDNet在訓練階段可以對于那些不去確定的instance生成other的描述詞。如果給少量樣本生成的描述詞中有0.5以上的other,將在最后的decode階段直接使用新實體類別名(如GPE)。(實驗部分可以看到這個策略帶來了一定的提升)
具體實現過程將不再贅述,可以看原文的第4部分,有對預訓練和fintune階段的詳細介紹。
03
實驗部分
這種借助先驗知識的方式,在6個數據集上都取得了很好的效果,尤其是對一些之前的識別效果一直很差的(比如I2B2),這說明這種通用的實體概念集合在各種類別間是通用的。
04
評價
優點:
為少樣本NER引用外部知識提供了新思路,且提供了可直接使用的,通用的預訓練模型,可以為后來的研究工作提供參考。
可能的缺陷:
在很多新領域下(尤其涉及到domain transfer)的,可能會出現很多無法描述成概念集合的實體類別,出現大量的other,這時只能用實體類別名了,在完全不重疊的領域之間可能效果會不佳。
另外,預訓練階段使用的維基百科,大量的是事件人物地點等這些廣泛且常用的,面對實際應用中的非常見實體類別時,可能做不到很好的描述。
在大量的語料中進行訓練,可能出現了“泄露”,當然這只是一個猜測。
審核編輯:劉清
-
SDNet
+關注
關注
0文章
4瀏覽量
5625
原文標題:ACL2022 | 基于自描述網絡的小樣本命名實體識別
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論