色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在Token中加入你感興趣的詞的邊界標(biāo)記

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:NewBeeNLP ? 作者:h1654155273.8628 ? 2022-07-13 14:33 ? 次閱讀

今天一起來(lái)看一篇騰訊和復(fù)旦大學(xué)合作的工作:MarkBERT: Marking Word Boundaries Improves Chinese BERT[1]

一句話概述:在 Token 中加入你感興趣的詞的邊界標(biāo)記。

MarkBERT 不是基于詞的 BERT,依然是基于字,但巧妙地將「詞的邊界標(biāo)記」信息融入模型。這樣可以統(tǒng)一處理任意詞,無(wú)論是不是 OOV。另外,MarkBERT 還有兩個(gè)額外的好處:

首先,在邊界標(biāo)記上添加單詞級(jí)別的學(xué)習(xí)目標(biāo)很方便,這是對(duì)傳統(tǒng)字符和句子級(jí)預(yù)訓(xùn)練任務(wù)的補(bǔ)充;

其次,可以通過(guò)用 POS 標(biāo)簽特定的標(biāo)記替換通用標(biāo)記來(lái)輕松合并更豐富的語(yǔ)義。

在 NER 任務(wù)上取得了 2 個(gè)點(diǎn)的提升,在文本分類、關(guān)鍵詞識(shí)別、語(yǔ)義相似任務(wù)上也取得了更好的精度。

這個(gè)簡(jiǎn)單但有效的中文預(yù)訓(xùn)練模型 MarkBERT,考慮了詞信息但沒(méi)有 OOV 問(wèn)題。具體有以下優(yōu)勢(shì):

統(tǒng)一的方式處理常用詞和低頻詞,沒(méi)有 OOV 問(wèn)題。

Marker 的引入允許設(shè)計(jì)詞級(jí)別的預(yù)訓(xùn)練任務(wù),這是對(duì)字級(jí)別的 MLM 和句子級(jí)別的 NSP 的補(bǔ)充。

容易擴(kuò)展加入更多單詞語(yǔ)義(詞性、詞法等)。

預(yù)訓(xùn)練階段有兩個(gè)任務(wù):

MLM:對(duì) Marker 也進(jìn)行了 MASK,以便模型能學(xué)習(xí)到邊界知識(shí)。

替換詞檢測(cè):人工替換一個(gè)詞,然后讓模型分辨標(biāo)記前面的詞是不是正確的。

MarkBERT預(yù)訓(xùn)練

MarkBERT

如下圖所示:

f641312e-026d-11ed-ba43-dac502259ad0.jpg

首先分詞,在詞中間插入特殊標(biāo)記,這些標(biāo)記也會(huì)被當(dāng)做普通的字符處理。有位置,也會(huì)被 MASK,這樣編碼時(shí)就需要注意詞的邊界,而不是簡(jiǎn)單地填充,MASK 預(yù)測(cè)任務(wù)變得更有挑戰(zhàn)(預(yù)測(cè)需要更好地理解單詞邊界)。這樣,模型依然是字符級(jí)別的,但它知道了單詞的邊界(因?yàn)閱卧~的信息是顯式給出的)。

替換詞檢測(cè)

具體而言,當(dāng)一個(gè)詞被替換成混淆詞,標(biāo)記應(yīng)該做出「被替換」的預(yù)測(cè),標(biāo)簽為 False,否則為 True。

該損失函數(shù)會(huì)和 MLM 的損失函數(shù)加在一起作為多任務(wù)訓(xùn)練過(guò)程。混淆詞來(lái)自同義詞或讀音相似的詞,通過(guò)這個(gè)任務(wù),標(biāo)記可以對(duì)上下文中的單詞跨度更敏感。使用 POS 做標(biāo)記的模型稱為 MarkBERT-POS。

預(yù)訓(xùn)練

MASK 的比例依然是 15%,30% 的時(shí)間不插入任何標(biāo)記(原始的 BERT);50% 的時(shí)間執(zhí)行 WWM 預(yù)測(cè)任務(wù);其余時(shí)間執(zhí)行 MLM 預(yù)測(cè)任務(wù)。

在插入標(biāo)記中,30% 的時(shí)間將詞替換為基于讀音的混淆詞或基于同義詞的混淆詞,標(biāo)記預(yù)測(cè)讀音混淆標(biāo)記或同義詞混淆標(biāo)記;其他時(shí)間標(biāo)記預(yù)測(cè)正常單詞標(biāo)記。為了避免不平衡標(biāo)簽,只計(jì)算正常標(biāo)記上 15% 的損失。

實(shí)驗(yàn)

在 NER 任務(wù)上的效果如下表所示:

f662f6d8-026d-11ed-ba43-dac502259ad0.jpg

可以看到,效果提升還是很明顯的。

在三個(gè)任務(wù)上做了消融實(shí)驗(yàn):

MarkBERT-MLM:只有 MLM 任務(wù)

MarkBERT-rwd:在替換詞檢測(cè)時(shí),分別移除近音詞或同義詞

MarkBERT-w/o:在下游任務(wù)微調(diào)時(shí)去掉 Marker(和原始 BERT 一樣用法)

結(jié)果如下表所示:

f68f8ba8-026d-11ed-ba43-dac502259ad0.jpg

結(jié)論如下:

MarkBERT-MLM 在 NER 任務(wù)中獲得顯著提升,說(shuō)明單詞邊界信息在細(xì)粒度任務(wù)中很重要。

不插入標(biāo)記,MarkBERT-w/o 也達(dá)到了和 baseline 相近的效果,說(shuō)明 MarkBERT 可以像 BERT 一樣使用。

對(duì) NER 任務(wù)來(lái)說(shuō),插入標(biāo)記依然重要,表明 MarkBERT 結(jié)構(gòu)在學(xué)習(xí)需要這種細(xì)粒度表示的任務(wù)的單詞邊界方面是有效的。

討論

已有的中文 BERT 融入詞信息有兩個(gè)方面的策略:

在預(yù)訓(xùn)練階段使用詞信息,但在下游任務(wù)上使用字符序列,如 Chinese-BERT-WWM,Lattice-BERT。

在下游任務(wù)中使用預(yù)訓(xùn)練模型時(shí)使用單詞信息,如 WoBERT,AmBERT,Lichee。

另外在與實(shí)體相關(guān)的 NLU 任務(wù),特別是關(guān)系分類中有探討插入標(biāo)記的想法。給定一個(gè)主語(yǔ)實(shí)體和賓語(yǔ)實(shí)體,現(xiàn)有工作注入非類型標(biāo)記或?qū)嶓w特定標(biāo)記,并對(duì)實(shí)體之間的關(guān)系做出更好的預(yù)測(cè)。

f6a46f64-026d-11ed-ba43-dac502259ad0.jpg

這篇論文當(dāng)時(shí)刷到時(shí)覺(jué)得真心不錯(cuò),方法很簡(jiǎn)單但很巧妙,一下子解決了中文預(yù)訓(xùn)練模型「詞」的處理,非常方便地就可以引入詞級(jí)別的任務(wù),以及豐富的詞語(yǔ)義。其實(shí),我們甚至可以只針對(duì)「部分感興趣的詞」添加標(biāo)記,剩下的依然按字處理。

本文參考資料

[1]

MarkBERT: Marking Word Boundaries Improves Chinese BERT: https://arxiv.org/abs/2203.06378

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    946

    瀏覽量

    54870
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3261

    瀏覽量

    48914

原文標(biāo)題:MarkBERT:巧妙地將詞的邊界標(biāo)記信息融入模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    定位模組也能打電話?Air201帶你快速實(shí)現(xiàn)!

    今天特別分享VoLTE通話功能示例,感興趣的朋友一起來(lái)學(xué)。
    的頭像 發(fā)表于 12-14 16:25 ?268次閱讀
    定位模組也能打電話?Air201帶你快速實(shí)現(xiàn)!

    如何選擇適合自己的編程語(yǔ)言

    。 1. 確定目標(biāo)和興趣 選擇編程語(yǔ)言之前,首先要明確自己的目標(biāo)和興趣。這包括你想要開(kāi)發(fā)什么類型的項(xiàng)目,以及對(duì)哪些技術(shù)領(lǐng)域感興趣。例如,
    的頭像 發(fā)表于 11-15 09:37 ?435次閱讀

    TXC 產(chǎn)品簡(jiǎn)介-Xterniti OCXO

    學(xué)習(xí)中心TXC始終專注于技術(shù)創(chuàng)新和突破。通過(guò)不斷的研發(fā),我們不斷推出新產(chǎn)品和新思路。無(wú)論是對(duì)產(chǎn)品使用、應(yīng)用探索還是理論研究感興趣一定會(huì)在這里找到感興趣的東西。產(chǎn)品簡(jiǎn)介-Xtern
    發(fā)表于 09-20 10:39 ?0次下載

    目標(biāo)檢測(cè)與圖像識(shí)別的區(qū)別在哪

    檢測(cè)(Object Detection)是指在圖像或視頻中識(shí)別并定位感興趣的目標(biāo),通常包括目標(biāo)的類別和位置。目標(biāo)檢測(cè)的目的是找出圖像中所有感興趣的目標(biāo),并為每個(gè)目標(biāo)分配一個(gè)邊界框(bounding box)和類別標(biāo)簽。 圖像識(shí)別
    的頭像 發(fā)表于 07-17 09:51 ?969次閱讀

    ESP32-S3 AT是否支持SPI接口?

    對(duì) ESP32-S3 AT 感興趣,但是不確定是否支持 SPI 接口。
    發(fā)表于 06-27 06:06

    如果要填報(bào)電子專業(yè),這些問(wèn)題最好提前知道(附院校排名名單)

    填報(bào)電子專業(yè),這些問(wèn)題最好提前知道:1、首先,興趣很重要,如果感興趣就做不好。電子專業(yè)可能以后經(jīng)常會(huì)跟各種儀器工具打交道,如果
    的頭像 發(fā)表于 06-22 08:11 ?301次閱讀
    如果<b class='flag-5'>你</b>要填報(bào)電子專業(yè),這些問(wèn)題最好提前知道(附院校排名名單)

    請(qǐng)問(wèn)如何在PSoC Creator中加入USB?

    如何在 PSoC Creator 中加入 USB?
    發(fā)表于 05-20 06:43

    labview屏幕找圖,返回找到的位置XY坐標(biāo)

    CheckSUM值。 圖中的截圖按鈕點(diǎn)擊后可截取屏幕上需要的任意位置,盡量只選擇感興趣的區(qū)域,保存為.bmp格式的圖片到路徑。選擇路徑后點(diǎn)擊找圖按鈕即可實(shí)現(xiàn)找圖。也有屏幕找色,OCR,窗口句柄等子vi,感興趣的私聊。
    發(fā)表于 05-11 08:59

    華為P70新款型號(hào)或?qū)l(fā)布,用戶可先登記感興趣機(jī)型

    2023年,華為推出Mate 60系列新款手機(jī),重新回歸高端智能手機(jī)市場(chǎng),引發(fā)廣泛關(guān)注。蘋果iPhone在華銷量下滑亦被歸因于此。
    的頭像 發(fā)表于 04-13 09:23 ?611次閱讀

    STM32L011F4Ukeil5中加入dsp庫(kù)后報(bào)錯(cuò)的原因?

    芯片STM32L011F4U,CubeMX生成的HAL庫(kù),開(kāi)發(fā)環(huán)keil5中加入路徑DriversCMSISDSP_LibSourceTransformFunctions中文件arm_cfft_f32.c,和庫(kù)文件arm_cortexM0l_math.lib報(bào)錯(cuò)。
    發(fā)表于 04-12 08:15

    APP程序中加入__set_FAULTMASK(1),通過(guò)bootloader下載后跳轉(zhuǎn)APP會(huì)卡死的原因?

    為什么我APP程序中加入__set_FAULTMASK(1);NVIC_SystemReset(); 生成BIN文件,然后通過(guò)bootloader下載后 跳轉(zhuǎn)APP會(huì)卡死, 但是把
    發(fā)表于 04-07 07:40

    激光打標(biāo)機(jī)塑料行業(yè)的高精度標(biāo)記

    隨著科技的不斷發(fā)展,激光打標(biāo)機(jī)塑料行業(yè)中的應(yīng)用越來(lái)越廣泛。這種高精度的標(biāo)記技術(shù)為塑料產(chǎn)品提供了持久、清晰、可追溯的標(biāo)識(shí),滿足了生產(chǎn)過(guò)程中的各種需求。首先,激光打標(biāo)機(jī)具有高精度的標(biāo)記能力。這種技術(shù)
    的頭像 發(fā)表于 02-29 16:13 ?398次閱讀
    激光打標(biāo)機(jī)<b class='flag-5'>在</b>塑料行業(yè)的高精度<b class='flag-5'>標(biāo)記</b>

    談?wù)剶?shù)字驗(yàn)證場(chǎng)景的“邊界”和“異常”

    IC驗(yàn)證者進(jìn)行測(cè)試點(diǎn)評(píng)審的時(shí)候,或者和DE(數(shù)字設(shè)計(jì)工程師)、SE(系統(tǒng)工程師)進(jìn)行驗(yàn)證場(chǎng)景討論的時(shí)候,常常會(huì)聽(tīng)到“邊界”“異常”這倆。他倆就像是一對(duì)形影不離的好朋友,同時(shí)出現(xiàn)在
    的頭像 發(fā)表于 01-23 13:43 ?807次閱讀

    怎么直流電源中加入噪聲

    直流電源中加入噪聲可以是為了模擬真實(shí)世界中的噪聲環(huán)境,也可以用于某些實(shí)驗(yàn)中的需要。本文將詳細(xì)介紹直流電源中加入噪聲的方法和技巧,并探討其可能的應(yīng)用。 首先,讓我們先了解噪聲的類型和
    的頭像 發(fā)表于 01-16 11:00 ?1405次閱讀

    光立方的程序軟件是怎么實(shí)現(xiàn)的呢,有誰(shuí)指導(dǎo)原理

    對(duì)光立方的取模軟件非常感興趣,有知道怎么弄的么
    發(fā)表于 01-10 18:43
    主站蜘蛛池模板: 四虎国产精品永久一区高清| ASIAN大陆明星裸休合成PICS| 亚洲妈妈精品一区二区三区| 樱花草在线影视WWW日本动漫| 99久久精品国内| 国产成人99久久亚洲综合精品| 国产野外无码理论片在线观看| 噜噜噜狠狠夜夜躁| 天天影视香色欲综合网| 在线播放一区二区精品产| 成人国产在线看不卡| 精品久久久亚洲精品中文字幕 | YELLOW视频在线观看最新| 国产精品嫩草影院在线观看免费| 久久久久久免费观看| 色欲AV精品人妻一区二区三区| 在线播放一区| 国产精品99久久久久久WWW | 精品久久久噜噜噜久久久app| 青青视频国产色偷偷| 亚洲中文字幕欧美自拍一区 | 51无码人妻精品1国产| 国产精品爽黄69天堂A片| 免费精品在线视频| 亚洲高清国产品国语在线观看| 99久久婷婷国产综合精品青草 | 国产跪地吃黄金喝圣水合集| 蜜桃最新网址| 亚洲精品久久久久无码AV片软件| cctv官网| 久久久欧美国产精品人妻噜噜| 熟女理发厅| 99久久国产露脸精品竹菊传煤| 国产性夜夜性夜夜爽91| 欧美性最猛xxxx在线观看视频| 亚洲色欲啪啪久久WWW综合网| 成人欧美一区二区三区白人| 久久综合电影| 亚洲乱码中文字幕久久孕妇黑人| 大胸美女洗澡扒奶衣挤奶| 麻花传媒XK在线观看|