色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

BERT再次制霸GLUE排行榜!BERT王者歸來了!

DPVg_AI_era ? 來源:lq ? 2019-08-02 08:53 ? 次閱讀

BERT再次制霸GLUE排行榜!今天,Facebook公開一個“強力優化”版的基于BERT預訓練模型,名為RoBERTa,在GLUE、SQuAD和RACE三個排行榜上全部實現了最先進的結果。距被XLNet超越沒過多久,BERT再次回到了最強NLP預訓練模型的王座。

BERT王者歸來了!

前不久,CMU和谷歌大腦提出的XLNet預訓練模型在 20 項任務上全面碾壓曾有“最強NLP預訓練模型”之稱的BERT,可謂風光無限,吸足了眼球。

不過,XLNet的王座沒坐太久。就在今天,Facebook公布一個基于BERT開發的加強版預訓練模型RoBERTa——在GLUE、SQuAD和RACE三個排行榜上全部實現了最先進的結果!

GLUE最新排行榜

RACE排行榜

RoBERTa的名稱來"RobustlyoptimizedBERTapproach",強力優化的BERT方法,真是相當簡單粗暴呢~

這項研究由Facebook AI和華盛頓大學的研究團隊共同完成,而且第一作者是華人研究員Yinhan Liu,此外還有Jingfei Du和Danqi Chen。

作者之一的Veselin Stoyanov在推特上公布了該結果

Facebook AI負責人Yann LeCun推薦

要說RoBERTa是如何制霸3個benchmark排行榜的,簡言之,用更多的數據,采取更精妙的訓練技巧,訓練更久一些。

作者在論文中寫道:“我們對BERT預訓練(Devlin et al. , 2019)進行了一項復制研究,仔細衡量了許多關鍵超參數和訓練數據大小對結果的影響。我們發現BERT的訓練明顯不足,并且可以匹配或超過之后發布的每個模型的性能。我們最好的模型在GLUE,RACE 和 SQuAD上都實現了最先進的結果。”

作者表示,超參數的選擇對最終結果的影響很大。

他們發布了模型和代碼:https://github.com/pytorch/fairseq

接下來,新智元帶來對這篇論文的詳細解讀:

只要訓練得好,BERT可以超過所有后續方法的性能

自我訓練的方法,比如ELMo, GPT,BERT,XLM 以及XLNet等,帶來了顯著的性能提升,但要想確定這些方法的哪些方面對性能提升貢獻最多是相當有挑戰性的。由于訓練在計算上成本很高,限制了可執行的調優量,而且常常使用不同大小的私有訓練數據進行調優,限制了對建模進展效果的測量。

我們對BERT預訓練模型(Devlin et al., 2019)進行了一項復制研究,包括仔細評估了超參數調優效果和訓練集大小的影響。我們發現BERT明顯訓練不足,并提出了一個改進的訓練BERT模型的方法,我們稱之為RoBERTa,它可以達到或超過所有BERT后續方法(post-BERT)的性能。

我們做的修改很簡單,包括:

(1)對模型進行更長時間、更大批量、更多數據的訓練;

(2)刪除下一句預測的目標;

(3)對較長序列進行訓練;

(4)動態改變應用于訓練數據的masking模式。

我們還收集了一個與其他私有數據集大小相當的新數據集(CC-NEWS),以便更好地控制訓練集大小效果。

在對訓練數據進行控制時,我們的升級版訓練程序進一步提升了BERT在GLUE和SQuAD排行榜上公布的結果。

經過長時間的訓練,我們的模型在公共 GLUE排行榜上的得分為88.5分,與Yang等人(2019)報告的88.4分相當。我們的模型在GLUE 9個任務的其中4個上達到了state-of-the-art的水平,分別是:MNLI, QNLI, RTE 和 STS-B。此外,我們還在SQuAD 和 RACE 排行榜上達到了最高分。

總結而言,本文的貢獻有:

(1)我們提出了一套重要的BERT設計選擇和訓練策略,并引入了能夠提高下游任務成績的備選方案;

(2)我們使用一個新的數據集CCNEWS,并確認使用更多的數據進行預訓練可以進一步提高下游任務的性能;

(3)我們的訓練改進表明,在正確的設計選擇下,預訓練的masked language model與其他所有最近發表的方法相比都更具有競爭力。我們發布了在PyTorch中實現的模型、預訓練和微調代碼。

模型架構:Transformer

BERT使用了現在已經十分流行的transformer架構,這里我們不會詳細討論它。我們使用的是L層的transformer 架構,每個block 都使用一個self-attention head和隱藏維度H。

在訓練前,BERT使用了兩個目標:masked language modeling和下一句預測。

Masked Language Mode(MLM)選擇輸入序列中的隨機token樣本,并用特殊的token[MASK]替換。MLM的目標是預測遮擋token時的交叉熵損失。BERT一致選擇15%的輸入token作為可能的替換。在所選的token中,80%替換為[MASK], 10%保持不變,10%替換為隨機選擇的詞匯表token。

在最初的實現中,隨機遮擋和替換在開始時執行一次,并保存到訓練期間,但是在實際操作中,由于數據是重復的,所以每個訓練語句的mask并不總是相同的。

下一句預測(NSP)是一種二分類損失,用于預測兩個片段在原文中是否相互跟隨。通過從文本語料庫中提取連續的句子來創建積極的例子。反例是通過對來自不同文檔的段進行配對來創建的。正、負樣本的抽樣概率相等。

NSP的目標是為了提高下游任務的性能,比如自然語言推理,這需要對句子對之間的關系進行推理。

實驗設計

在本節中,我們描述了用于BERT復制研究的實驗設置。

我們在FAIRSEQ中重新實現了BERT。我們主要遵循第2節中給出的原始BERT優化超參數,除了峰值學習率和warmup步驟的數量,這兩個參數分別針對每個設置進行調優。

此外,我們還發現訓練對Adam epsilon項非常敏感,在某些情況下,在對其進行調優后,我們獲得了更好的性能或更好的穩定性。同樣地,我們發現設置β2 = 0.98時可以提高大的batch size訓練時的穩定性。

我們在DGX-1機器上進行混合精度浮點運算的訓練,每臺機器上有8個32GB Nvidia V100 GPU,通過Infiniband互連。

哪些選擇對于成功地訓練BERT模型至關重要

本節探討和量化哪些選擇對于成功地訓練BERT模型至關重要。我們保持模型架構不變。具體地說,我們首先以與BERTBASE相同的配置(L = 12, H = 768, A = 12, 110M params)開始訓練BERT模型。

靜態masking vs. 動態masking

正如在前文討論的,BERT依賴于隨機遮擋和預測token。原始的BERT實現在數據預處理期間執行一次遮擋,從而產生一個靜態遮擋(static mask)。為了避免在每個epoch中對每個訓練實例使用相同的mask,我們將訓練數據重復10次,以便在40個訓練epoch中以10種不同的方式對每個序列進行遮擋。因此,在訓練過程中,每個訓練序列都使用相同的mask四次。

我們將此策略與動態遮擋(dynamic masking)進行比較,在dynamic masking)中,每次向模型提供序列時都會生成masking模式。當對更多步驟或更大的數據集進行預訓練時,這一點變得至關重要。

表1:SEBERTBASE的靜態和動態masking的比較。我們報告了SQuAD 的F1分數和MNLI-m 以及 SST-2的準確性結果。報告的結果是超過5個隨機初始化的中值。參考結果來自Yang et al. (2019).

結果表1比較了Devlin等人(2019)發布的BERTBASE結果與我們使用靜態或動態masking重新實現的結果。我們發現,使用靜態masking的重新實現的性能與原始的BERT模型相似,而動態masking可以與靜態masking的結果相當,甚至略好于靜態masking。

考慮到這些結果和動態masking的額外效率優勢,我們在其余的實驗中使用動態masking。

模型輸入格式和下一句預測

在原始的BERT預訓練過程中,模型觀察到兩個連接的文檔片段,它們要么是從相同的文檔連續采樣(p = 0.5),要么是從不同的文檔采樣。除了masked language modeling 目標外,該模型還通過輔助下一句預測(NSP)損失訓練模型來預測觀察到的文檔片段是來自相同還是不同的文檔。

NSP損失被認為是訓練原始BERT模型的一個重要因素。Devlin等人(2019)觀察到,去除NSP會損害性能,QNLI、MNLI和SQuAD的性能都顯著下降。然而,最近的一些工作對NSP損失的必要性提出了質疑。

為了更好地理解這種差異,我們比較了幾種替代訓練格式:

表2:在BOOKCORPUS和WIKIPEDIA上預訓練的基本模型的開發集結果。

表2顯示了四種不同設置的結果。我們發現,使用單獨的句子會影響下游任務的性能,我們假設這是因為該模型無法學習長期依賴關系。

接下來,我們將無NSP損失的訓練與來自單個文檔(doc - sentence)的文本塊的訓練進行比較。我們發現,與Devlin等人(2019)相比,該設置的性能優于最初發布的BERTBASE結果,消除NSP損失達到或略微提高了下游任務性能。

最后,我們發現將序列限制為來自單個文檔(doc - sentence)的性能略好于打包來自多個文檔(全句)的序列。但是,由于doc - sentence格式會導致不同的batch sizes,所以我們在其余的實驗中使用完整的句子,以便與相關工作進行比較。

large batches訓練

以往的神經機器翻譯研究表明,當學習率適當提高時,非常大的mini-batches的訓練既可以提高優化速度,又可以提高最終任務性能。最近的研究表明,BERT也可以接受 large batch訓練。

Devlin等人(2019)最初訓練BERTBASE只有100萬步, batch size為256個序列。

在表3中,我們比較了BERTBASE在增大 batch size時的復雜性和最終任務性能,控制了通過訓練數據的次數。我們觀察到,large batches訓練提高了masked language modeling 目標的困惑度,以及最終任務的準確性。通過分布式數據并行訓練,large batches也更容易并行化,在后續實驗中,我們使用8K序列的batches進行并行訓練。

表3:不同批大小上訓練的基本模型的未完成訓練數據(ppl)和開發集準確性的困惑度。

RoBERTa:制霸三大基準數據集

在上一節中,我們建議修改BERT預訓練程序,以改善最終任務的性能。我們現在匯總這些改進并評估它們的綜合影響。我們將這種配置稱為RoBERTa,即“RobustlyoptimizedBERTapproach”,強力優化的BERT方法。

具體來說,RoBERTa采用了dynamic masking、沒有NSP損失的完整句子、large mini-batches和更大的字節級BPE的訓練。

此外,我們還研究了以前工作中未被強調的另外兩個重要因素:(1)用于預訓練的數據,以及(2)通過數據的訓練次數。例如,最近提出的XLNet架構使用的數據比原始BERT多近10倍。它還以8倍大的批量進行訓練,以獲得一半的優化步驟,因此在預訓練中看到的序列數是BERT的4倍。

為了將這些因素與其他建模選擇(例如,預訓練目標)的重要性區分開來,我們首先按照BertLarge架構(L=24,H=1024,A=16355m)對Roberta進行訓練。正如在Devlin et al. 中使用的一樣,我們用BOOKCORPUS和WIKIPEDIA數據集進行了100K步預訓練。我們使用1024V100GPU對我們的模型進行了大約一天的預訓練。

結果如表4所示,當控制訓練數據時,我們觀察到RoBERTa比最初報告的BERTLARGE結果有了很大的改進,再次證實我們在第4節中探討的設計選擇的重要性。

表4:當我們預先訓練了更多數據(16GB→160GB文本)和預訓練更久(100K→300K→500K步),RoBERTa的開發集(Development set)結果。每行累積上述行的改進。RoBERTa匹配BERTLARGE的架構和訓練目標。BERTLARGE和XLNetLARGE的結果分別來自Devlin et al.和Yang et al. 附錄中有所有GLUE任務的完整結果。

接下來,我們將此數據與第3.2節中描述的三個附加數據集相結合。我們用與之前相同數量的訓練步(100K)對RoBERTa進行綜合數據訓練。我們總共預處理了超過160GB的文本。我們觀察到所有下游任務的性能進一步提高,驗證了數據大小和多樣性在預訓練中的重要性。

最后,我們預先訓練RoBERTa的時間要長得多,將預訓練步數從100K增加到300K,再進一步增加到500K。我們再次觀察到下游任務性能的顯著提升,300K和500K步模型在大多數任務中的表現優于XLNetLARGE。我們注意到,即使是我們訓練時間最長的模型似乎也不會超出我們的數據范圍,而且可能會從額外的訓練中受益。

在本文的其余部分,我們根據三個不同的基準評估我們最好的RoBERTa模型:GLUE,SQuaD和RACE。具體來說,我們認為RoBERTa在第3.2節中介紹的所有五個數據集上都進行了500K步的訓練。

表5:GLUE的結果。所有結果均基于24層架構。BERTLARGE和XLNetLARGE結果分別來自Devlin et al.和Yang et al. 開發集上的RoBERTa結果是五次運行的中間數。測試集上的RoBERTa結果是單任務模型的集合。對于RTE,STS和MRPC,我們從MNLI模型而不是基線預訓練模型開始微調。平均值從GLUE leaderboard獲得。

表6:SQuAD的結果。+表示依賴于額外外部訓練數據的結果。RoBERTa在開發和測試中僅使用了提供的SQuAD數據。BERTLARGE和XLNetLARGE結果分別來自Devlin et al.和Yang et al.

表7:RACE測試集的結果。BERTLARGE和XLNetLARGE的結果來自Yang et al.

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Facebook
    +關注

    關注

    3

    文章

    1429

    瀏覽量

    54722
  • 模型
    +關注

    關注

    1

    文章

    3226

    瀏覽量

    48809

原文標題:BERT王者歸來!Facebook推出RoBERTa新模型,碾壓XLNet 制霸三大排行榜

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    潤和軟件榮登2024智慧金融企業排行榜

    近日,DBC德本咨詢發布“2024人工智能分類排行榜”,江蘇潤和軟件股份有限公司(以下簡稱“潤和軟件”)憑借在金融領域的深厚技術實力和創新應用,入選技術與應用層中“2024智慧金融企業排行”榜單。
    的頭像 發表于 11-13 16:12 ?403次閱讀

    內置誤碼率測試儀(BERT)和采樣示波器一體化測試儀器安立MP2110A

    BERTWave MP2110A是一款內置誤碼率測試儀(BERT)和采用示波器的一體化測量儀器,支持光模塊的誤碼率(BERT)測量、眼圖模式測試、眼圖分析等評估操作
    的頭像 發表于 09-23 14:34 ?333次閱讀
    內置誤碼率測試儀(<b class='flag-5'>BERT</b>)和采樣示波器一體化測試儀器安立MP2110A

    調用云數據庫更新排行榜

    內容,并能夠向朋友或群體推薦特定的項目。 需求功能模塊 主題選擇:用戶可以選擇不同的主題(如“電影”、“音樂”、“書籍”等)。 排行榜展示: 顯示每個主題下的排行榜(如TOP 10電影、TOP 5推薦書
    發表于 09-03 16:03

    M8020A J-BERT 高性能比特誤碼率測試儀

    M8020A 比特誤碼率測試儀 J-BERT M8020A 高性能 BERT 產品綜述 Keysight J-BERT M8020A 高性能比特誤碼率測試儀能夠快速、準確地表征傳輸速率高達 16 或
    的頭像 發表于 08-21 17:13 ?209次閱讀

    AWG和BERT常見問題解答

    隨著信號的速率越來越高,調制格式越來越復雜,對測試儀器的性能要求也越來越高。是德科技也一直在推出業界領先的高帶寬、高采樣率的AWG和高性能的BERT
    的頭像 發表于 08-06 17:27 ?635次閱讀

    博泰車聯網五度蟬聯“世界物聯網排行榜500強企業”

    7月19日,2024世界物聯網500強峰會在北京隆重召開,并發布了全球矚目的世界物聯網500強排行榜。?憑借領先的技術實力和行業影響力,?博泰車聯網再度入選該榜單,位列銅第4位,總第304位
    的頭像 發表于 07-23 10:31 ?762次閱讀

    安全光幕十大品牌排行榜最新2024年

    隨著工業自動化的快速發展,安全光幕作為工業自動化領域的“守護神”,安全光幕作為重要的安全保護裝置得到了廣泛應用,其重要性不言而喻。快來看看2024年的十大品牌排行榜,你會為誰打call呢?
    的頭像 發表于 06-27 13:51 ?597次閱讀
    安全光幕十大品牌<b class='flag-5'>排行榜</b>最新2024年

    2023中國PCB百強(TOP 100)排行榜

    2023中國PCB百強(TOP 100)排行榜
    的頭像 發表于 06-06 16:11 ?4387次閱讀
    2023中國PCB百強(TOP 100)<b class='flag-5'>排行榜</b>

    HarmonyOS開發案例:【排行榜頁面】

    本課程使用聲明式語法和組件化基礎知識,搭建一個可刷新的排行榜頁面。在排行榜頁面中,使用循環渲染控制語法來實現列表數據渲染,使用@Builder創建排行列表布局內容,使用裝飾器@State、@Prop、@Link來管理組件狀態。
    的頭像 發表于 04-30 16:16 ?1965次閱讀
    HarmonyOS開發案例:【<b class='flag-5'>排行榜</b>頁面】

    2023工業機器人排行榜發布

    近日,由中國科學院主管、科學出版社主辦的商業期刊《互聯網周刊》(CIW)聯合德本咨詢(DBC)、中國社會科學院信息化研究中心(CIS)發布了“2023工業機器人排行榜”。
    的頭像 發表于 04-20 09:24 ?855次閱讀
    2023工業機器人<b class='flag-5'>排行榜</b>發布

    銳成芯微再次榮登中國IC設計排行榜TOP 10 IP公司榜單

    近日,“2024中國IC設計Fabless100排行榜”公布,銳成芯微憑借在IP領域的持續創新能力和競爭優勢,獲得行業與評審廣泛認可,繼2023年初次上榜后,再次榮登“TOP 10 IP公司”榜單,綜合排名第四。
    的頭像 發表于 04-02 18:16 ?1238次閱讀
    銳成芯微<b class='flag-5'>再次</b>榮登中國IC設計<b class='flag-5'>排行榜</b>TOP 10 IP公司榜單

    敏芯股份再次入選中國IC設計排行榜TOP10傳感器公司

    4月1日下午,全球最大的技術信息集團ASPENCORE旗下中文媒體站《電子工程專輯》發布了2024年最新“中國IC設計100家排行榜”,向半導體業界人士展示了100家中國最優秀的IC設計公司,敏芯股份再次入選傳感器TOP10榜單。
    的頭像 發表于 04-02 11:41 ?950次閱讀
    敏芯股份<b class='flag-5'>再次</b>入選中國IC設計<b class='flag-5'>排行榜</b>TOP10傳感器公司

    中穎電子入選Fabless 100排行榜TOP10微控制器公司榜單

    中穎電子入選 AspenCore 2024中國IC設計Fabless 100排行榜TOP10微控制器公司榜單
    的頭像 發表于 04-01 14:12 ?553次閱讀
    中穎電子入選Fabless 100<b class='flag-5'>排行榜</b>TOP10微控制器公司榜單

    山工機械榮登2023中國工程機械用戶品牌關注度排行榜

    2024年1月,中國路面機械網發布了《2023中國工程機械用戶品牌關注度排行榜》。
    的頭像 發表于 02-25 14:17 ?556次閱讀
    山工機械榮登2023中國工程機械用戶品牌關注度<b class='flag-5'>排行榜</b>

    京東方位列2023 IFI專利授權排行榜全球第15位

    1月9日,全球知名專利服務機構IFI Claims發布的2023年度統計報告顯示,BOE(京東方)位列美國專利授權排行榜全球第15位,連續第六年躋身全球TOP20,成為為數不多上榜的中國企業之一。
    的頭像 發表于 01-10 09:09 ?929次閱讀
    主站蜘蛛池模板: 国产激情视频在线| 野花4在线观看| 日本aaaa| 免费精品一区二区三区AA片| 久久6699精品国产人妻| 韩国黄电影| 果冻传媒妈妈要儿子| 国产亚洲精品久久久闺蜜| 国产精品网红女主播久久久| 国产精品看高国产精品不卡| 高h全肉图| 国产高清在线a视频大全| 国产成人女人视频在线观看| 丰满的女朋友 在线播放| 成人网视频在线观看免费| xxxx88| 被室友C哭调教双性| 苍井空教师BD在线观看全集| 边吃胸边膜下床震免费版视频| JAPANBABES11学生老师| xxnx动漫| 国产精品1卡二卡三卡四卡乱码| 国产成人高清在线观看播放| 国产二区自拍| 国产亚洲精品香蕉视频播放| 护士喂我吃乳液我脱她内裤| 九九热这里有精品| 久久中文字幕综合不卡一二区| 老师紧窄粉嫩| 欧美内射AAAAAAXXXXX| 日日夜夜撸 在线影院| 双腿打开揉弄高潮H苏安安秦慕深| 午夜A级理论片左线播放| 亚洲国产精品一区二区第一页 | 国产精品成人免费视频99| 国产精品久久久久久搜索| 好吊日视频在线| 蜜桃人妻无码AV天堂三区| 日本久久久| 亚洲精品91| 99re2.久久热最新地址|