總體說一下
NER任務大概分為三種:flat, overlapped, and discontinuousNER,如下圖所示:
aching in legs 為flat NER
aching in shoulders為discontinuous NER
aching in legs和achingin shoulders這兩個實體共同重復了aching in,為overlapped NER
最近的研究都在考慮如何通過一個大一統模型一次性解決這三種問題。目前的最佳的方法基本都是基于span-based和seq2seq的,然而span-based方法主要傾向于通過枚舉所有span組合來解決邊界問題,時間復雜度上是個問題;而后者大家都知道,存在錯誤傳播。 所以,本文提出了一種新穎的方式和框架來解決所有的NER問題:通過預測word-word之間的關系(這里稱之為W2NER)。其中word與word之間的關系主要有三種:
NNW: Next-Neighboring-Word,預測與后面詞的關系
THW-*: Tail-Head-Word-* ,預測與前面詞的關系,其中*表示具體關系(ORG、PER等)
NONE:表示沒有關系
其中,本文采用一個多粒度2D圖來表示word之間的關系,如下圖,其中為了解決圖的稀疏性,而將這兩種關系放到一個圖里,一個在右上角,一個在左下角。
最終在14個公開數據集(包含中文和英文)上做了大量實驗,并都取得了最佳值,也成為了最新的SoTA。
模型
一下子看,感覺模型想是一堆模塊堆積而成,其實細讀論文會發現這些模型都是由NER的前人經驗而來,有理有據。 具體來看,大概分為三個模塊: Encoder Layer通過BERT獲取表示信息,然后通過LSTM獲取上下文信息。 Convolution Layer這里有一個CLN(Conditional Layer Normalization)層,主要用來獲得word j在word i前提下的表示:
然后是BERT-Style Grid Representation層,這里主要是模型BERT的3個embedding層而來,這里的三個表示層為信息表示、關系位置信息表示和位置域表示組成,通過MLP融合到一起。 然后通過多粒度的空洞卷積(Multi-Granularity Dilated Convolution)采樣不同的信息。 Co-Predictor Layer這里用了一個普通的MLP和一個專門用于變長標簽預測的biaffine預測:
? 最后過一個softmax層: ? 最后是一個Decoder層,這里主要就是通過NNW和HTW-*構成一個環的部分就是一個實體,比如下面這個例子就解釋了所有情況: ?
損失的話,就簡單了:
實驗
英文flat數據集:
中文flat數據集:
英文overlapped數據集:
中文overlapped數據集,F1性能:
英文discontinuous數據集:
和前沿最佳論文作對比:
消融實驗,F1性能:
訓練速度和推理速度都得到了極大提升:
這篇文章還是非常不錯的,是一個簡單有效的NER新框架,可以較為輕松的應用于線下。
審核編輯 :李倩
-
word
+關注
關注
1文章
78瀏覽量
21933 -
數據集
+關注
關注
4文章
1208瀏覽量
24689
原文標題:一種全新易用的基于Word-Word關系的NER統一模型,刷新了14種數據集并達到新SoTA
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論