色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

XLNet和Bert比,有什么不同?要進(jìn)行改進(jìn)嗎?

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:陳年麗 ? 2019-07-26 14:39 ? 次閱讀

1. XLNet和Bert

首先講講我對(duì)XLNet和Bert比,有什么異同?有什么模型方面的改進(jìn)?的理解

1.1 自回歸語(yǔ)言模型

第一次聽(tīng)到自回歸語(yǔ)言模型(Autoregressive LM)這個(gè)詞。我們知道一般的語(yǔ)言模型都是從左到右計(jì)算某個(gè)詞出現(xiàn)的概率,但是當(dāng)我們做完型填空或者閱讀理解這一類NLP任務(wù)的時(shí)候詞的上下文信息都是需要考慮的,而這個(gè)時(shí)候只考慮了該詞的上文信息而沒(méi)有考慮到下文信息。所以,反向的語(yǔ)言模型出現(xiàn)了,就是從右到左計(jì)算某個(gè)詞出現(xiàn)的概率,這一類語(yǔ)言模型稱之為自回歸語(yǔ)言模型。像堅(jiān)持只用單向Transformer的GPT就是典型的自回歸語(yǔ)言模型,也有像ELMo那種拼接兩個(gè)上文和下文LSTM的變形自回歸語(yǔ)言模型。

1.2 自編碼語(yǔ)言模型

自編碼語(yǔ)言模型(Autoencoder LM)這個(gè)名詞毫無(wú)疑問(wèn)也是第一次聽(tīng)到。區(qū)別于上一節(jié)所述,自回歸語(yǔ)言模型是根據(jù)上文或者下文來(lái)預(yù)測(cè)后一個(gè)單詞。那不妨換個(gè)思路,我把句子中隨機(jī)一個(gè)單詞用[mask]替換掉,是不是就能同時(shí)根據(jù)該單詞的上下文來(lái)預(yù)測(cè)該單詞。我們都知道Bert在預(yù)訓(xùn)練階段使用[mask]標(biāo)記對(duì)句子中15%的單詞進(jìn)行隨機(jī)屏蔽,然后根據(jù)被mask單詞的上下文來(lái)預(yù)測(cè)該單詞,這就是自編碼語(yǔ)言模型的典型應(yīng)用。

1.3 兩種模型的優(yōu)缺點(diǎn)對(duì)比

自回歸語(yǔ)言模型沒(méi)能自然的同時(shí)獲取單詞的上下文信息(ELMo把兩個(gè)方向的LSTM做concat是一個(gè)很好的嘗試,但是效果并不是太好),而自編碼語(yǔ)言模型能很自然的把上下文信息融合到模型中(Bert中的每個(gè)Transformer都能看到整句話的所有單詞,等價(jià)于雙向語(yǔ)言模型),但自編碼語(yǔ)言模型也有其缺點(diǎn),就是在Fine-tune階段,模型是看不到[mask]標(biāo)記的,所以這就會(huì)帶來(lái)一定的誤差。XLNet將二者的上述優(yōu)缺點(diǎn)做了一個(gè)完美的結(jié)合,在自回歸語(yǔ)言模型中自然地引入上下文信息,并且解決自編碼語(yǔ)言模型兩階段保持一致的問(wèn)題。

2. XLNet是怎么做的

XLNet的思路采用的是自回歸語(yǔ)言模型,根據(jù)上文來(lái)預(yù)測(cè)下一個(gè)單詞,但是在上文中添加了下文信息,這樣就既解決了[mask]帶來(lái)的兩階段不一致問(wèn)題和無(wú)法同時(shí)引入上下文信息的問(wèn)題。改進(jìn)之后,取了個(gè)新名字:Permutation Language Model。舉個(gè)例子:輸入句子為x1->x2->x3->x4,假設(shè)我們要預(yù)測(cè)的單詞是x3,那我們需要在x3的上文x1和x2的位置看到x4的信息,這樣才能解決同時(shí)引入上下文的問(wèn)題。那就可以這么做了:隨機(jī)排列組合x(chóng)1、x2、x3、x4的順序,并從中隨機(jī)選擇一部分作為新的句子輸入。比如選擇了x2->x4->x3->x1,那這個(gè)時(shí)候預(yù)測(cè)x3的時(shí)候是不是就能看到上文x2和下文x4的信息了呢,這就是XLNet的基本思路。就是通過(guò)排列組合的方式將一部分下文單詞放到上文單詞的位置,但實(shí)際形式還是一個(gè)從左到右預(yù)測(cè)的自回歸語(yǔ)言模型。

但是我們?cè)贔ine-tune的時(shí)候總不能也隨機(jī)組合輸入的句子吧,那這和加了[mask]有啥區(qū)別呢?別急,繼續(xù)往下看。XLNet在輸入階段并沒(méi)有改變輸入順序,隨機(jī)打亂輸入句子的順序這個(gè)過(guò)程是在Transformer中通過(guò)Attention mask實(shí)現(xiàn)的,就是隨機(jī)掩蓋掉序列中的一些單詞,并將未掩蓋掉的單詞作為預(yù)測(cè)單詞的上文。拿原文中的一個(gè)圖舉例:

右圖的紅色矩陣就是Attention Mask矩陣,1->2->3->4的輸入序列在Attention Mask的作用下變成了3->2->4->1,Attention Mask也分為兩種,一種是能看見(jiàn)自身的Content stream和Query stream。對(duì)于1來(lái)說(shuō)3,2,4就是1的上文,所以第一行全是紅色;對(duì)于2來(lái)說(shuō)上文就只有3,所以對(duì)應(yīng)位置為紅色;對(duì)于3來(lái)說(shuō)沒(méi)有上文,所以全為白色...以此類推。那這樣就實(shí)現(xiàn)了在輸入側(cè)不改變單詞順序,在Transformer內(nèi)部實(shí)現(xiàn)了輸入的隨機(jī)排列了。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    520

    瀏覽量

    10268
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    488

    瀏覽量

    22033

原文標(biāo)題:講講我理解的XLNet

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    BERT原理詳解

    BERT原理詳解
    發(fā)表于 07-02 16:45

    串行BERT用戶指南

    A guide on using the Serial BERT
    發(fā)表于 09-23 11:01

    J-BERT N4903A高性能串行BERT手冊(cè)

    Brochure for the Keysight J-BERT N4903A High-Performance Serial BERT: 4 pages
    發(fā)表于 09-26 12:17

    介紹XLNet的原理及其與BERT的不同點(diǎn)

    1、什么是XLNet?  首先,XLNet是一個(gè)類似于bert的模型,而不是一個(gè)完全不同的模型。但它是一個(gè)非常有前途和潛力的。總之,XLNet是一種廣義的自回歸預(yù)訓(xùn)練方法。  那么,什
    發(fā)表于 11-01 15:29

    BERT模型的PyTorch實(shí)現(xiàn)

    BertModel是一個(gè)基本的BERT Transformer模型,包含一個(gè)summed token、位置和序列嵌入層,然后是一系列相同的self-attention blocks(BERT-base是12個(gè)blocks, BERT
    的頭像 發(fā)表于 11-13 09:12 ?1.4w次閱讀

    谷歌大腦CMU聯(lián)手推出XLNet,20項(xiàng)任務(wù)全面超越BERT

    谷歌大腦和CMU聯(lián)合團(tuán)隊(duì)提出面向NLP預(yù)訓(xùn)練新方法XLNet,性能全面超越此前NLP領(lǐng)域的黃金標(biāo)桿BERT,在20個(gè)任務(wù)上實(shí)現(xiàn)了性能的大幅提升,刷新了18個(gè)任務(wù)上的SOTA結(jié)果,可謂全面屠榜!
    的頭像 發(fā)表于 06-22 11:19 ?3011次閱讀

    碾壓Bert?“屠榜”的XLnet對(duì)NLP任務(wù)意味著什么

    張俊林新作,一文帶你剖析XLnet的運(yùn)行機(jī)制,與BERT對(duì)比異同。
    的頭像 發(fā)表于 06-25 14:11 ?2504次閱讀

    簡(jiǎn)化版的XLNet在PyTorch Wrapper實(shí)現(xiàn)

    土豪土豪的用法,窮人有窮人的訣竅。最近有個(gè)韓國(guó)小哥就成功將XLNet挪到了Pytorch框架上,可以在僅使用小規(guī)模訓(xùn)練數(shù)據(jù)(批規(guī)模=1)的情況下,實(shí)現(xiàn)一個(gè)簡(jiǎn)單的XLNet實(shí)例,并弄清XLNe
    的頭像 發(fā)表于 07-07 09:15 ?4165次閱讀

    XLNet vs BERT,對(duì)比得明明白白!

    訓(xùn)練語(yǔ)料庫(kù):Wikipedia + BooksCorpus,在處理Wikipedia時(shí)使用了與BERT repo相同的工具,但出于某種原因,我們的Wiki語(yǔ)料庫(kù)僅有20億單詞,BERT使用了25億單詞,因此XLNet的訓(xùn)練數(shù)據(jù)略
    的頭像 發(fā)表于 07-27 07:14 ?4372次閱讀
    <b class='flag-5'>XLNet</b> vs <b class='flag-5'>BERT</b>,對(duì)比得明明白白!

    BERT再次制霸GLUE排行榜!BERT王者歸來(lái)了!

    不過(guò),XLNet的王座沒(méi)坐太久。就在今天,F(xiàn)acebook公布一個(gè)基于BERT開(kāi)發(fā)的加強(qiáng)版預(yù)訓(xùn)練模型RoBERTa——在GLUE、SQuAD和RACE三個(gè)排行榜上全部實(shí)現(xiàn)了最先進(jìn)的結(jié)果!
    的頭像 發(fā)表于 08-02 08:53 ?5622次閱讀
    <b class='flag-5'>BERT</b>再次制霸GLUE排行榜!<b class='flag-5'>BERT</b>王者歸來(lái)了!

    改進(jìn)BERT——SpanBERT,通過(guò)表示和預(yù)測(cè)分詞提升預(yù)訓(xùn)練效果!

    在本文中,作者提出了一個(gè)新的分詞級(jí)別的預(yù)訓(xùn)練方法 SpanBERT ,其在現(xiàn)有任務(wù)中的表現(xiàn)優(yōu)于 BERT ,并在問(wèn)答、指代消解等分詞選擇任務(wù)中取得了較大的進(jìn)展。對(duì) BERT 模型進(jìn)行了如下改進(jìn)
    的頭像 發(fā)表于 08-02 09:29 ?8837次閱讀

    語(yǔ)言建模中XLNetBERT好在哪里

    XLNet可能會(huì)改變語(yǔ)言建模,這就是為什么它是任何NLP從業(yè)者的重要補(bǔ)充。在本文中,我們將討論XLNet背后的原理,它使它比BERT更好。為了更好地理解它,我們還將研究它之前的相關(guān)技術(shù)。
    的頭像 發(fā)表于 04-20 09:30 ?2567次閱讀

    什么是XLNet,它為什么BERT效果好

    介紹最基本的XLNet的原理,理解XLNetBERT的直覺(jué)上的不同點(diǎn)。作者:Xu LIANG編譯:ronghuaiyang首發(fā):AI公園公眾號(hào)
    的頭像 發(fā)表于 12-10 19:10 ?696次閱讀

    Bert體積更小速度更快的 TinyBERT

    TinyBERT 是華為不久前提出的一種蒸餾 BERT 的方法,本文梳理了 TinyBERT 的模型結(jié)構(gòu),探索了其在不同業(yè)務(wù)上的表現(xiàn),證明了 TinyBERT 對(duì)...
    的頭像 發(fā)表于 12-10 20:35 ?471次閱讀

    如何使用BERT模型進(jìn)行抽取式摘要

      最近在梳理文本摘要相關(guān)內(nèi)容,翻到一篇19年關(guān)于基于BERT模型進(jìn)行抽取式摘要的老文「BertSum」,在這里分享給大家。該論文一開(kāi)始掛在arXiv時(shí),為《Fine-tune BERT
    的頭像 發(fā)表于 03-12 16:41 ?4814次閱讀
    如何使用<b class='flag-5'>BERT</b>模型<b class='flag-5'>進(jìn)行</b>抽取式摘要
    主站蜘蛛池模板: 日日摸夜夜添无码AVA片| 国产人妻人伦精品无码.麻豆| chinese东北老年tv视频| 99久久精品国产自免费| xxnxx美女| 国产精品嫩草影院在线观看免费| 国产精品美女WWW爽爽爽视频| 好紧小嫩嫩水的10p| 老师的蕾丝小内内湿透了| 欧美一区二区三区免费播放 | 俄罗斯乌克兰战争原因| 国产69精品麻豆久久久久| 国产永久免费观看视频软件| 久久棋牌评测| 日本不卡一二三| 亚洲欧洲日产国码久在线| 69久久国产露脸精品国产| 俄罗斯6一12呦女精品| 韩国女主播内部vip自带氏巾| 男生jj插入女生jj| 午夜影院费试看黄| 9797在线看片亚洲精品| 国产精品自产拍在线观看中文 | 欧美 亚洲 另类 综合网| 性一交一乱一色一视频| 97午夜精品| 国产一区二区三区在线看片| 欧美牲交A欧美牲交| 亚洲中文字幕永久在线全国| 草草久久久无码国产专区全集观看| 九九国产精品成人AV麻豆| 首页_亚洲AV色老汉影院| 99riav9 精品香蕉免费大视频| 国产亚洲精品久久久999无毒 | 成人在线免费看片| 欧美 国产 日产 韩国 在线| 一本道dvd久久综合高清免费 | 99影视久久电影网久久看影院| 久久国语精品| 亚洲一区免费在线观看| 国产久久re6免费热在线|