色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP:如何在只有詞典的情況下提升NER落地效果

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:NLP從入門到放棄 ? 2021-01-07 14:25 ? 次閱讀

今天介紹一個論文autoner[1],主要是為了探索如何在只有詞典的情況下,提升NER實際落地效果;

首先,如果手中含有詞典,常規操作就是遠程監督打標數據,然后做NER;

遠程監督一個比較常見的操作就是使用我們手中的字典,通過字符匹配的形式對文本中可能存在的實體打標。

但是對于這種遠程監督的形式,存在比較多的問題,這個論文主要探討兩種:多標簽(multi-label tokens) 和標簽不完善的問題;

針對multi-label tokens,論文提出的是Fuzzy-LSTM-CRF,簡單講就是講LSTM后面的CRF層變為了Fuzzy CRF層,可以在處理tokens對應多標簽的情況下,不犧牲計算效率;

第二個問題標簽不完善,是因為字典畢竟是有限的,不可能把所有的實體都覆蓋到,那么句子中沒有被字典打標成功的詞組很有可能也是某種實體,但是遠程監督并沒有對此做處理。

針對這個問題,本文提出了一種比較新的標注框架,簡單來講就是在這新的框架中,不去預測單個的token的類別,而是去判斷兩個相鄰的tokens是不是在同一個實體中被tied;

上面只是我自己簡單的分類,其實存在的兩個問題和兩種解決架構是相互融合在一起的,具體的我們下面談。

0. 詞典形式簡單介紹

首先定義一下詞典形式,包含兩個部分,第一部分是實體的表面名稱,這個包括規范名稱和對應的同義詞列表;第二個部分就是實體的類型;

其次,詞典的標注肯定是有限的,肯定存在不在詞典中的某些詞組但是也屬于某種類型的實體;

對于這部分實體,我自己的理解大體可以包含兩個大部分;第一個大部分就是比如說【科技】這個領域覆蓋的【科技】實體有有限的,所以有漏網之魚;第二部分就是詞典的實體類型是有限的,比如詞典總共包含2個實體類型,但是你真實的文本包含更多的實體類型,存在漏網之魚。

對于這些漏網之魚的實體,我們的策略是這樣的。

首先通過AutoPhrase從文中挖掘出來高質量短語,然后統一賦值為unknown type,也就是未知類型。

1. Fuzzy-LSTM-CRF

1.1 標注策略

梳理一下,我們現在手上有詞典;

詞典包含兩個部分,一部分是已知實體類型(假設是2個,當然可能更多或者更少);另一個部分就是我們通過某種方式挖掘出來的高質量實體對應的未知類型;

然后我們通過手中的詞典對原始無標注文本進行打標;

那么現在對于句子中的某個token,它存在三種可能性;第一它可能是已知實體類型中的一種或者多種;第二它屬于未知類型;第三是屬于O這種情況,就是non-entity;

基于傳統架構BIlstm-CRF如何解決多標簽的問題?

其實本質解決的思路很簡單。對于原來的每個token,只是預測一個類別,現在是預測多個類別就可以了。

詳細點講就是,首先對于遠程監督標注的過程,我們會使用三種策略。

我們先假設我們使用{I;O;B;E;S}的標注形式;

第一,對于某個token,如果它對應到了已知類型中的某一個或者多個實體,那么按照對應的位置直接標記上,不要漏掉;也就是說{I;B;E;S}和對應的一個或者多個實體類型對上標;

第二對于對于某個token,如果屬于未知類型,那么對應的這個token就需要把所有已知實體類型(區別于上面的一個或者多個已知實體類型)和 {I,O, B, E, S}對應的打標上;

注意,這里并沒有使用未知實體類型,而是使用的所有的已知實體類型;

第三個對于既不屬于已知類型的,也不屬于未知類型的,全部打上O;

1.2 Fuzzy-LSTM-CRF 模型架構

其實很好理解,傳統的CRF最大化唯一一條有效的標注序列。在這里,我們最大化所有有可能的標注序列。

公式如下:

55dae800-5036-11eb-8b86-12bb97331649.jpg

Fuzzy-LSTM-CRF優化公式

看架構圖:

55ff4420-5036-11eb-8b86-12bb97331649.jpg

Fuzzy-LSTM-CRF

2. AutoNER

區別于Fuzzy-LSTM-CRF 模型沿用傳統架構,在這里論文提出一種新的標注架構-Tie or Break;

這個標注框架更加關注的是當前token和上一個token是否在同一個實體里面;如果在同一個實體里面,那么就標注為Tie;

如果當前單詞和上一個單詞至少有一個在unkonw類型的高質量短語,那么標注為unkonw,其他情況標注為Break;

優化過程:把實體識別和實體類型判定分離開。

原論文中描述的是先做實體識別,兩個Break之間作為一個span,然后做實體類型判定;

實體識別中,對于當前單詞和上一個單詞之間類別的的輸出,對Tie和Break做二分類損失,如果類別是unkown類別,直接跳過,不計算損失。

概率公式如下:

564b4866-5036-11eb-8b86-12bb97331649.jpg

tie_break_loss

56a37752-5036-11eb-8b86-12bb97331649.jpg

tie_break_loss

第二步預測實體類型,包含None實體類型

unkonw這種,知道這屬于實體,在高質量短語詞典中,但是不知道短語類型,所在這里我們會標注為None實體類型。

其他的不在詞典中的,當然也就會被標注為None實體類型。

為了應對多標簽,也就是同一個實體對應不同的類別,這里修改了最后的CE損失函數:

57264272-5036-11eb-8b86-12bb97331649.jpg

CE_總

575eea46-5036-11eb-8b86-12bb97331649.jpg

CE_Soft

使用的是軟標簽的進行的CE的計算,并沒有使用硬標簽。

對應的是在遠程監督中,當前實體真實類型標簽集合。從公式我們可以知道,尤其是看分母,在不屬于這個集合的標簽概率我們并沒有計算在內。

總結

多提一個小細節,就是高質量短語的挖掘使用的是AutoPhrase,大家可以去試一下;

論文提出兩種結構解決多標簽和標簽不完善的問題。

首先對于標簽不完善,使用上面提到的AutoPhrase去挖掘文本中的高質量短語,作為詞典中的未知類型。

在Fuzzy-LSTM-CRF,需要注意的細節是,對于未知類型的標注,我們使用的策略是標注所有已知類型;

對于AutoNER,有兩個細節需要注意,一個是新的標注框架tie or break,重點在于去看兩個相鄰單詞是否屬于同一個實體;第二個細節就是為了解決多標簽問題,修改了損失函數,使用的軟標簽;

責任編輯:xj

原文標題:【論文解讀】如何在只有詞典的情況下提升NER落地效果

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自然語言
    +關注

    關注

    1

    文章

    288

    瀏覽量

    13355
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22049

原文標題:【論文解讀】如何在只有詞典的情況下提升NER落地效果

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    請問ADS1292R如何在MCU休眠的情況下通過脫落檢測喚醒MCU?

    請問ADS1292R如何在MCU休眠的情況下通過脫落檢測喚醒MCU?
    發表于 11-28 08:03

    在不用miniDSP的情況下,使用信號處理模塊時,aic3254怎么配置DAC的3D效果

    請問,在不用miniDSP的情況下,使用信號處理模塊時,怎么配置DAC的3D效果?找了很多資料,沒有關于這個方面的介紹,可以提供一這方面的資料嗎?謝謝
    發表于 11-08 07:34

    AIC3106如何在不改變BCLK和LRCLK的情況下,能夠調好?

    你好,請問:AIC3106現在配置為從設備、DAC采樣率為16K、數據寬度為32位。現在主設備給的BCLK是2048K,LRCLK為16K,播放現在有問題,如何在不改變BCLK和LRCLK的情況下,能夠調好?
    發表于 10-28 07:06

    PCM1795如何在通電的情況下切換PCM模式和DSD模式?

    Ti工程師您好,項目上有用到PCM1795這枚芯片,因為它具有DSD解碼與PCM解碼功能,之前沒有使用過類似產品 有兩個問題請教下: 1、用MCU初始化PCM1795讓它能正常工作,至少需要配置哪幾個相關寄存器 2、如何在通電的情況下 切換PCM模式和DSD模式或者說
    發表于 09-29 06:00

    數字地和模擬地利用磁珠隔離或者單點接地效果都不怎么好,怎樣隔離效果會比較好一些?

    數字地和模擬地利用磁珠隔離或者單點接地效果都不怎么好,怎樣隔離效果會比較好一些?
    發表于 09-20 06:23

    只有單端輸入的情況下,THS4531如何輸出差分信號?

    想請問在只有單端輸入的情況下,THS4531如何輸出差分信號。 我的輸入電壓為0-5V,想通過THS4531輸出0-3V的差分信號給DSP28377D。我用TINA做了仿真,發現了一些問題。 我將
    發表于 08-13 07:42

    什么情況下會產生零序電流

    零序電流是指在三相電力系統中,三相電流的矢量和不為零的情況。在正常情況下,三相電力系統中的三相電流是平衡的,即三相電流的矢量和為零。但是,在某些特殊情況下,三相電流的矢量和不為零,就會產生零序電流
    的頭像 發表于 07-15 14:53 ?4129次閱讀

    受控源什么情況下可看為電阻

    受控源,又稱為非獨立源,是指其電壓或電流值受電路中其他部分的電壓或電流控制的電源。受控源在電路分析中具有重要的作用,其特性和行為與獨立源(如電池、發電機等)有所不同。在某些特定情況下,受控源可以看作
    的頭像 發表于 07-12 09:29 ?2059次閱讀

    ESP8266如何在沒有SNTP的情況下寫入當前的系統時間?

    當我開發SSL應用程序時,我首先需要SNTP。我們希望通過添加外部RTC模塊來記錄有效時間,從而避免每次使用SSL時先使用SNTP。但是,我們沒有找到設置系統時間的接口。如何在沒有SNTP的情況下寫入當前的系統時間?
    發表于 07-09 07:19

    何在UDP的情況下監聽自己通信是否中斷?

    請教大佬一個問題。 我如何在UDP的情況下監聽自己通信是否中斷? 不知道有沒有什么可以參考的?
    發表于 06-24 06:04

    谷景揭秘如何在色環電感封裝尺寸不變的情況下升級電感性能

    谷景揭秘如何在色環電感封裝尺寸不變的情況下升級電感性能 編輯:谷景電子 色環電感作為電子電路中的一種特別重要的電感元件,它對于電路運行的穩定性有著重要影響。色環電感的種類很多,不同的電路需求對色環
    的頭像 發表于 06-23 09:45 ?407次閱讀

    何在不更換固件的情況下控制cyusb3014在USB 2.0和USB 3.0模式的讀寫速度?

    您好,我想通過上層機測試cyusb3014在 USB 2.0和 USB 3.0模式的讀寫速度。 如何在不更換固件的情況下控制是通過上位機以 USB 2.0 還是 USB 3.0 速度連接? 謝謝。
    發表于 02-27 06:24

    什么情況下電容器會被擊穿

    電容器是一種常見的電子元件,廣泛應用于各個領域。然而,在特定條件,電容器可能會發生擊穿現象,導致其無法正常工作甚至損壞。那么,在什么情況下電容器會被擊穿呢?
    的頭像 發表于 02-19 14:11 ?2773次閱讀

    何在幅度頻率不變的情況下將正弦波變為方波?

    何在幅度頻率不變的情況下將正弦波變為方波? 方波是一種特殊形式的波形,它的波形在周期內由兩個值之間的突然跳變組成,通常是由高電平和低電平組成。與之相反,正弦波是一種平滑連續的波形,其幅度變化是沿著
    的頭像 發表于 02-06 15:51 ?4792次閱讀

    何在沒有HAL的情況下使用SEGGER eMusb-Device嗎?

    我很喜歡 SEGGER eMusb-Device,因為它的實現方式非常全面。 但是,我想退出 HAL,我觀察到 SEGGER eMusb-Device 嚴重依賴它。 我有辦法在沒有 HAL 的情況下
    發表于 01-25 08:31
    主站蜘蛛池模板: 蜜桃麻豆WWW久久囤产精品免费| 成人影片迅雷下载| 亚洲中文字幕无码一久久区| 偷拍国产精品在线播放| 内射白浆一区二区在线观看| 男女午夜性爽快免费视频不卡 | 秘密教学93话恩爱久等了免费| 蜜桃婷婷狠狠久久综合9色| 欧美一道本一区二区三区| 日日撸影院在线| 亚洲AV久久无码精品九号软件| 亚洲区欧美日韩综合| 18videosex性欧美黑色| 成人欧美尽粗二区三区AV| 国产日韩精品一区二区三区在线| 久草免费视频在线观看| 年轻的女教师2017韩国在线看 | 国产精品涩涩涩视频网站| 国内久久久久影院精品| 巨污全肉np一女多男| 青青视频国产依人在线| 欧美性动漫3d在线观看完整版| 日日碰狠狠躁久久躁综合网| 亚洲AV精品无码国产一区| 最近中文字幕2019免费版| 大胸美女被C得嗷嗷叫动态图| 丰满女朋友在线观看中文| 国产一区日韩二区欧美三区| 韩国无遮羞禁动漫在线观看96| 久久人妻少妇嫩草AV蜜桃35I| 欧美日韩高清一区| 邪恶肉肉全彩色无遮盖| 4480YY无码午夜私人影院| 高清无码色大片中文| 高清国语自产拍免费| 精品无码国产自产在线观看水浒传 | 爽爽影院线观看免费| 一色屋精品亚洲香蕉网站| 成年人免费观看视频网站| 黄页网站18以下勿看免费| 久久99免费视频|