色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是XLNet,它為什么比BERT效果好

電子設(shè)計(jì) ? 來(lái)源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2020-12-10 19:10 ? 次閱讀
介紹最基本的XLNet的原理,理解XLNet和BERT的直覺(jué)上的不同點(diǎn)。
作者:Xu LIANG
編譯:ronghuaiyang
首發(fā):AI公園公眾號(hào)


在發(fā)布后不到一周,我周?chē)腘LP領(lǐng)域的每個(gè)人似乎都在談?wù)?strong>XLNet。

是的,“在20個(gè)任務(wù)上比BERT做得更好”確實(shí)吸引了我們的眼球。但更重要的是理解它是如何工作的,以及為什么它比BERT表現(xiàn)得更好。所以我寫(xiě)了這個(gè)博客來(lái)分享我讀了這篇文章后的想法。

內(nèi)容結(jié)構(gòu)如下。

  • 什么是XLNet?
  • XLNet和BERT有什么不同?
  • XLNet是如何工作的?

什么是XLNet?

首先,XLNet是一個(gè)類(lèi)似于bert的模型,而不是一個(gè)完全不同的模型。但它是一個(gè)非常有前途和潛力的。總之,XLNet是一種廣義的自回歸預(yù)訓(xùn)練方法。

那么,什么是自回歸(AR)語(yǔ)言模型

AR語(yǔ)言模型是利用上下文單詞預(yù)測(cè)下一個(gè)單詞的一種模型。但是在這里,上下文單詞被限制在兩個(gè)方向,要么向前,要么向后。

GPT和GPT-2都是AR語(yǔ)言模型

AR語(yǔ)言模型的優(yōu)點(diǎn)是擅長(zhǎng)NLP生成任務(wù)。因?yàn)樵谏缮舷挛臅r(shí),通常是正向的。AR語(yǔ)言模型在這類(lèi)NLP任務(wù)中很自然地工作得很好。

但是AR語(yǔ)言模型有一些缺點(diǎn),它只能使用前向上下文或后向上下文,這意味著它不能同時(shí)使用前向上下文和后向上下文

XLNet和BERT的區(qū)別是什么?

與AR語(yǔ)言模型不同,BERT被歸類(lèi)為自動(dòng)編碼器(AE)語(yǔ)言模型

AE語(yǔ)言模型的目的是從損壞的輸入中重建原始數(shù)據(jù)

損壞的輸入意味著我們使用在訓(xùn)練前階段將原始tokeninto替換為 [MASK] 。我們的目標(biāo)是預(yù)測(cè)into來(lái)得到原來(lái)的句子。

AE語(yǔ)言模型的優(yōu)點(diǎn)是它可以在向前和向后兩個(gè)方向上看到上下文。

但是AE語(yǔ)言模型也有其不足之處。它在預(yù)訓(xùn)練中使用了[MASK],但是這種人為的符號(hào)在finetune的時(shí)候在實(shí)際數(shù)據(jù)中時(shí)沒(méi)有的,導(dǎo)致了預(yù)訓(xùn)練 — finetune的不一致。[MASK]的另一個(gè)缺點(diǎn)是它假設(shè)所預(yù)測(cè)的(mask掉的)token是相互獨(dú)立的,給出的是未掩碼的tokens。例如,我們有一句話(huà)“It shows that the housing crisis was turned into a banking crisis”。我們蓋住了“banking”和“crisis”。注意這里,我們知道,蓋住的“banking”與“crisis”之間隱含著相互關(guān)聯(lián)。但AE模型是利用那些沒(méi)有蓋住的tokens試圖預(yù)測(cè)“banking”,并獨(dú)立利用那些沒(méi)有蓋住的tokens預(yù)測(cè)“crisis”。它忽視了“banking”與“crisis”之間的關(guān)系。換句話(huà)說(shuō),它假設(shè)預(yù)測(cè)的(屏蔽的)tokens是相互獨(dú)立的。但是我們知道模型應(yīng)該學(xué)習(xí)(屏蔽的)tokens之間的這種相關(guān)性來(lái)預(yù)測(cè)其中的一個(gè)token。

作者想要強(qiáng)調(diào)的是,XLNet提出了一種新的方法,讓AR語(yǔ)言模型從雙向的上下文中學(xué)習(xí),避免了AE語(yǔ)言模型中mask方法帶來(lái)的弊端。

XLNet如何工作?

AR語(yǔ)言模型只能使用前向或后向的上下文,如何讓它學(xué)習(xí)雙向上下文呢?語(yǔ)言模型由預(yù)訓(xùn)練階段和調(diào)優(yōu)階段兩個(gè)階段組成。XLNet專(zhuān)注于預(yù)訓(xùn)練階段。在預(yù)訓(xùn)練階段,它提出了一個(gè)新的目標(biāo),稱(chēng)為重排列語(yǔ)言建模。 我們可以從這個(gè)名字知道基本的思想,它使用重排列。

這里我們用一個(gè)例子來(lái)解釋。序列順序是[x1, x2, x3, x4]。該序列的所有排列如下。

對(duì)于這4個(gè)tokens (N)的句子,有24個(gè)(N!)個(gè)排列。假設(shè)我們想要預(yù)測(cè)x3。24個(gè)排列中有4種模式,x3在第1位,第2位,第3位,第4位。

[x3, xx, xx, xx]
[xx, x3, xx, xx]
[xx, xx, x3, xx]
[xx, xx, xx, x3]


4種模式

在這里,我們將x3的位置設(shè)為第t位,它前面的t-1個(gè)tokens用來(lái)預(yù)測(cè)x3。

x3之前的單詞包含序列中所有可能的單詞和長(zhǎng)度。直觀(guān)地,模型將學(xué)習(xí)從兩邊的所有位置收集信息

具體實(shí)現(xiàn)要比上面的解釋復(fù)雜得多,這里就不討論了。但是你應(yīng)該對(duì)XLNet有最基本和最重要的了解。

來(lái)自XLNet的靈感

與BERT將mask方法公布于眾一樣,XLNet表明重排列法是一種很好的語(yǔ)言模型目標(biāo)選擇。可以預(yù)見(jiàn),未來(lái)在語(yǔ)言模型目標(biāo)方面的探索工作將會(huì)越來(lái)越多。

—END—

關(guān)注圖像處理,自然語(yǔ)言處理,機(jī)器學(xué)習(xí)人工智能領(lǐng)域。
歡迎關(guān)注微信公眾號(hào)

審核編輯 黃昊宇
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47314

    瀏覽量

    238625
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    526

    瀏覽量

    10277
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    ADS1601的參考電壓是內(nèi)部給效果,還是外接好?

    請(qǐng)問(wèn)一下ADS1601的參考電壓是內(nèi)部給效果,還是外接好?謝謝
    發(fā)表于 12-20 07:29

    導(dǎo)電布屏蔽效果用銅箔的原因分析

    在EMC(電磁兼容)實(shí)驗(yàn)中,使用導(dǎo)電布的屏蔽效果可能優(yōu)于銅箔,主要是由于以下幾個(gè)原因: 1.高頻電磁波的吸收與反射 銅箔的作用: 銅箔是一種良好的導(dǎo)體,主要通過(guò)反射來(lái)屏蔽電磁波。但在高頻情況下,僅靠
    的頭像 發(fā)表于 11-26 10:18 ?304次閱讀

    什么兩個(gè)THS3091并聯(lián)然后和一個(gè)THS3092級(jí)聯(lián),得到的不失真波形往往不少單個(gè)的

    為什么兩個(gè)THS3091并聯(lián)然后和一個(gè)THS3092級(jí)聯(lián)...得到的不失真波形往往不少單個(gè)的??而且單個(gè)的放大最高不失真波形只有峰峰值14V?
    發(fā)表于 09-24 07:06

    內(nèi)置誤碼率測(cè)試儀(BERT)和采樣示波器一體化測(cè)試儀器安立MP2110A

    BERTWave MP2110A是一款內(nèi)置誤碼率測(cè)試儀(BERT)和采用示波器的一體化測(cè)量?jī)x器,支持光模塊的誤碼率(BERT)測(cè)量、眼圖模式測(cè)試、眼圖分析等評(píng)估操作
    的頭像 發(fā)表于 09-23 14:34 ?356次閱讀
    內(nèi)置誤碼率測(cè)試儀(<b class='flag-5'>BERT</b>)和采樣示波器一體化測(cè)試儀器安立MP2110A

    數(shù)字地和模擬地利用磁珠隔離或者單點(diǎn)接地效果都不怎么,怎樣隔離效果會(huì)比較好一些?

    數(shù)字地和模擬地利用磁珠隔離或者單點(diǎn)接地效果都不怎么,怎樣隔離效果會(huì)比較好一些?
    發(fā)表于 09-20 06:23

    osd開(kāi)啟還是關(guān)閉

    ,這主要取決于你的使用習(xí)慣和需求。 開(kāi)啟OSD的優(yōu)點(diǎn): 方便性 :通過(guò)OSD,用戶(hù)可以直接在屏幕上看到當(dāng)前的設(shè)置選項(xiàng)和調(diào)節(jié)效果,無(wú)需翻閱復(fù)雜的說(shuō)明書(shū)或進(jìn)入內(nèi)部菜單。 直觀(guān)性 :OSD菜單通常設(shè)計(jì)得直觀(guān)易懂,即使是初次使用的用戶(hù)也能快速上手。 實(shí)時(shí)反饋 :
    的頭像 發(fā)表于 09-19 16:25 ?2778次閱讀

    請(qǐng)問(wèn)光電二極管用正電源反偏效果,還是用負(fù)電源反偏效果

    請(qǐng)問(wèn)光電二極管用正電源反偏效果,還是用負(fù)電源反偏效果
    發(fā)表于 09-11 07:07

    M8020A J-BERT 高性能比特誤碼率測(cè)試儀

    M8020A 比特誤碼率測(cè)試儀 J-BERT M8020A 高性能 BERT 產(chǎn)品綜述 Keysight J-BERT M8020A 高性能比特誤碼率測(cè)試儀能夠快速、準(zhǔn)確地表征傳輸速率高達(dá) 16 或
    的頭像 發(fā)表于 08-21 17:13 ?216次閱讀

    AWG和BERT常見(jiàn)問(wèn)題解答

    隨著信號(hào)的速率越來(lái)越高,調(diào)制格式越來(lái)越復(fù)雜,對(duì)測(cè)試儀器的性能要求也越來(lái)越高。是德科技也一直在推出業(yè)界領(lǐng)先的高帶寬、高采樣率的AWG和高性能的BERT
    的頭像 發(fā)表于 08-06 17:27 ?675次閱讀

    EMC與EMI測(cè)試整改:從問(wèn)題識(shí)別到效果驗(yàn)證

    深圳創(chuàng)達(dá)電子|EMC與EMI測(cè)試整改:從問(wèn)題識(shí)別到效果驗(yàn)證
    的頭像 發(fā)表于 06-27 10:37 ?505次閱讀
    EMC與EMI測(cè)試整改:從問(wèn)題識(shí)別到<b class='flag-5'>效果</b>驗(yàn)證

    芯片膠點(diǎn)膠加工的效果和質(zhì)量的檢測(cè)方法有哪些?

    芯片膠點(diǎn)膠加工的效果和質(zhì)量的檢測(cè)方法有哪些?芯片膠在電子封裝領(lǐng)域用的是比較多的,特別是高度精密集成芯片器件。那么如何判斷點(diǎn)膠后的效果和質(zhì)量的與壞?芯片膠點(diǎn)膠加工的效果和質(zhì)量的檢測(cè)是一
    的頭像 發(fā)表于 04-26 16:27 ?592次閱讀
    芯片膠點(diǎn)膠加工的<b class='flag-5'>效果</b>和質(zhì)量的檢測(cè)方法有哪些?

    什么是邊緣計(jì)算?它為何如此重要?

    ,什么是邊緣計(jì)算?它為何如此重要?本文將對(duì)其進(jìn)行詳細(xì)的解析。 邊緣計(jì)算,簡(jiǎn)而言之,是指在靠近物或數(shù)據(jù)源頭的一側(cè),采用網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)、應(yīng)用核心能力為一體的開(kāi)放平臺(tái),就近提供最近端服務(wù)。它的核心思想是將計(jì)算任
    的頭像 發(fā)表于 04-22 15:25 ?465次閱讀

    網(wǎng)線(xiàn)扁線(xiàn)和圓線(xiàn)哪個(gè)效果

    一起難以分離。此外,扁線(xiàn)網(wǎng)線(xiàn)可以像圓線(xiàn)那樣附加屏蔽層,具備較好的抗干擾能力。在短距離應(yīng)用上,扁線(xiàn)網(wǎng)線(xiàn)的傳輸效果和圓線(xiàn)網(wǎng)線(xiàn)差別不大。但是,扁線(xiàn)網(wǎng)線(xiàn)的價(jià)格圓線(xiàn)網(wǎng)線(xiàn)高出約50%,柔軟性使其更適合在家庭環(huán)境中使用,可以輕松
    的頭像 發(fā)表于 03-28 10:03 ?5697次閱讀

    扁平線(xiàn)共模電感對(duì)CE噪聲的高效抑制?|深圳創(chuàng)達(dá)電子EMC(中)

    有遇到過(guò)類(lèi)似的情況,相同感量的扁平線(xiàn)共模電感的插損要比繞線(xiàn)共模電感強(qiáng)10dB左右,參見(jiàn)“電源用共模電感,感量越大越好?”一文)換上之后,效果出奇的,整體降到了限值線(xiàn)以下,如圖5所示,超標(biāo)最嚴(yán)重
    發(fā)表于 02-28 10:26

    ChatGPT是一個(gè)的因果推理器嗎?

    因果推理能力對(duì)于許多自然語(yǔ)言處理(NLP)應(yīng)用至關(guān)重要。最近的因果推理系統(tǒng)主要基于經(jīng)過(guò)微調(diào)的預(yù)訓(xùn)練語(yǔ)言模型(PLMs),如BERT [1] 和RoBERTa [2]。
    的頭像 發(fā)表于 01-03 09:55 ?853次閱讀
    ChatGPT是一個(gè)<b class='flag-5'>好</b>的因果推理器嗎?
    主站蜘蛛池模板: 亚洲最大在线视频| 亚洲高清在线视频| 人妖干美女| 麻豆XXXX乱女少妇精品-百度| 好大好爽好深舒服死了| 久久怡红院国产精品| 青青久在线| 亚洲国产精品一区二区第一页 | 国产麻豆AV伦| 老湿司午夜爽爽影院榴莲视频 | 多男同时插一个女人8p| 国产 高清 无码 在线播放| 福利视频久久| 久久re这里精品在线视频7| 久久这里只有精品国产99| 热热久久超碰精品中文字幕 | 乳女教师欲乱动漫无修版动画 | 一个人免费完整观看日本| xxxxx69hd杨幂| 东京热影院| 久久久精品久久| 色婷婷AV99XX| 中文字幕不卡一区二区三区| 97在线播放视频| adc我们的永久网址| 国产手机在线视频| 欧美性视频xxxxhd| 忘忧草在线影院WWW日本二| 晓雪老师我要进你里面好爽| 2018国产天天弄谢| z0000性欧美| 国产精品久久vr专区| 国产在线精品亚洲| 久久操韩国自偷拍| 四虎亚洲中文字幕永久在线 | 欧美亚洲精品一区二三区8V| 亚洲男同tv| 91avcom| 国产99网站| 嫩草影院久久精品| 亚洲中文字幕永久在线|