亚洲欧美精品,一区二区三区在线免费视频,亚洲男人的天堂久久无

1.BART

BERT等預訓練語言模型主要應用于文本理解(NLU), 而在文本生成任務(NLG)中表現不佳 -- 這主要是由預訓練階段和下游任務階段的差異造成的。因此，BART提出了一種 符合生成任務的預訓練方法。

BART的全稱是Bidirectional and Auto-Regressive Transformers，顧名思義，就是兼具上下文語境信息(雙向)和自回歸(單向)特性的Transformer。BART其實并不是一個新的模型，因為它使用的結構還是傳統的Seq2seq Transformer；它是一種針對生成任務而設計的預訓練方法。

1.1 BART和GPT、BERT的區別與聯系

BART預訓練任務和GPT、BERT的對比如下圖：

BERT: 只有Transformer Encoder部分，隨機MASK掉一些token，然后利用上下文還原。

GPT：只有Transformer Decoder部分，采用自回歸的方法訓練，每個位置只能關注到其左邊的token。

BART：使用了完整的Transformer（Encoder+Decoder）。其encoder端的輸入是加了噪音的序列，decoder端的輸入是right-shifted的序列，decoder端的目標是原序列。模型設計的目的很明確，就是在利用encoder端的雙向建模能力的同時，保留自回歸的特性，以適用于生成任務。

1.2 BART使用的noise

相對于BERT中單一的noise類型 (只有簡單地用[MASK] token進行替換這一種noise)，BART在encoder端嘗試了 多種更加靈活的noise （甚至可以改變序列的長度）然后decoder端試圖恢復這些noise。這樣做是因為：BERT的這種簡單替換導致的是encoder端的輸入攜帶了有關序列結構的一些信息（比如序列的長度等信息），而這些信息在文本生成任務中一般是不會提供給模型的。相比而言，BART采用更加多樣的noise， 意圖是破壞掉這些有關序列結構的信息 ，防止模型去依賴這樣的信息。

BART采用的noise

BART采用的一些noise包括：

Token Masking : BERT的方法--隨機將token替換成[MASK] -> 訓練模型推斷單個token的能力

Token Deletion : 隨機刪去token -> 訓練模型推斷單個token_及其位置_的能力

Text Infilling : 隨機將一段連續的token（稱作span）替換成[MASK]，span的長度服從 lambda=3 的泊松分布。注意span長度為0就相當于插入一個[MASK]。這個方法帶來了更多的 靈活性 ！->訓練模型推斷一個span對應多少token的能力

Sentence Permutation : 將一個document的句子打亂。->類似BERT中的 NSP 目標，訓練模型推斷不同句子之間關系的能力

Document Rotation : 從document序列中隨機選擇一個token，然后使得該token作為document的開頭。->訓練模型找到document開頭的能力

這些noise變換方式還可以組合，帶來了更多的靈活性。

1.3 BART在下游任務的應用

① Sequence Classification

將該序列同時輸入給encoder端和decoder端，然后取decoder最后一個token對應的final hidden state表征。注意我們需要在decoder端序列末尾增加一個[EOS]，讓它能夠關注到整個句子。

② Token Classification

將該序列同時輸入給encoder端和decoder端，使用decoder的final hidden states作為每個token的表征

③ Sequence Generation

由于BART本身就是在sequence-to-sequence的基礎上構建并且預訓練的，它天然比較適合做序列生成的任務，比如生成式問答、文本摘要、機器對話等。encoder就是輸入的序列，decoder用自回歸的方法生成輸出序列

④ Machine Translation

BART能夠提升其他語言 翻譯到英語 的效果。具體的做法是將BART encoder端的embedding層替換成隨機初始化的encoder， 新的encoder也可以用不同的vocabulary 。通過這個新加的encoder，我們可以將新的語言映射到BART能解碼到English(假設BART是在English的語料上進行的預訓練)的空間。具體的finetune過程分兩階段:

第一步凍結大部分參數，只更新新加的encoder + BART positional embedding + BART的encoder第一層的self-attention 輸入映射矩陣。

第二步更新全部參數，但是只訓練很少的幾輪。

2. MASS

Masked Sequence to sequence pre-training for Language Generation

https://arxiv.org/pdf/1905.02450.pdf

和BART類似，MASS也是使用完整的Transformer結構，并且對encoder輸入進行一些破壞，讓decoder試圖還原之。MASS的提出早于BART，因此它提出的noise方法也沒有BART那么豐富。具體做法就是mask掉句子的一部分，再用decoder去預測之，如下圖所示：

和BART不同的是，這里的decoder只輸入應該被預測的token，這是為了可以讓decoder依賴于encoder的編碼，讓兩者更好地共同訓練。

BERT的MLM預訓練任務和GPT的自回歸生成任務，分別是MASS k = 1 和 k = m 的特例：

3. Pegasus

PEGASUS: Pre-training with Extracted Gap-sentences forAbstractive Summarization

https://arxiv.org/abs/1912.08777

PEGASUS是專門針對 生成式摘要 設計的預訓練模型?；舅枷刖褪菍⑤斎胛臋n的重要句子remove/mask，然后通過其他句子預測它們。其實驗效果刷新了12項summarization任務；在low-resource摘要方面展現驚人性能，僅用了1000個example就超過了6個數據集上的最新結果。

3.1 Gap Sentences Generation (GSG)

我們知道，預訓練目標與下游任務越接近，下游任務就會表現越好。那么，為了更好的完成文本摘要，可以mask掉文本中重要的一些句子，然后拼接這些gap-sentences形成偽摘要。相應位置的Gap-sentences用[MASK1]來替換。Gap sentences ratio(GSR)表示選中的gap sentences占總文檔的比例。選擇Gap Sentence的方法有：

Random: 隨機選m個句子

Lead: 選前m個句子

Principal: 選最重要的m個句子。如何衡量句子的重要性呢？文中又提出了四種方法：

① 獨立選擇(Ind.)/連續選擇(Seq.): 句子重要性可根據一個句子與其它句子集的ROUGE1-F1來計算，其公式為獨立選擇就是選擇得分最高的m個句子；連續選擇則是貪婪地最大化選中句子集Scup{x_{i}}與其余句子集的ROUGE1-F1值，具體算法如下：

② 計算ROUGE1-F1的方式也可分為兩種 -- Uniq 和 Orig。Uniq把n-gram當成集合處理（去重）；Orig則允許重復n-gram出現。

因此，Ind/Seq 和 Uniq/Orig兩兩組合可得到四種方式。最后的實驗結果表明，選擇了文檔30%的句子作為Gap sentences，用Ind-Orig選重要句子效果最好。

3.2 預訓練任務

本文MASK的方式有兩種:

① MLM：選擇輸入文本的15%的tokens, 其中80%的被替換為[MASK2]、10%的被隨機的token替換、10%未發生變化。在encoder部分恢復這些token。

② GSG：以[MASK1]去mask選中的重要句子，在decoder部分恢復這些句子。

最終實驗表明，僅采用MLM效果最差，預訓練在100-200K steps時，GSG+MLM的效果在提升，但之后包含MLM效果在下降。因而最后PEGASUS-LARGE僅采用GSG，PEGASUS-BASE采用GSG+MLM。

4. UniLM

Unified Language Model Pre-training forNatural Language Understanding and Generation

https://arxiv.org/abs/1905.03197

UniLM是一種簡潔的預訓練方法，其模型的框架與BERT一致，是由一個多層Transformer Encoder網絡構成；但訓練方式不同，它是通過聯合訓練三種不同目標函數得到 -- 通過控制mask來控制預測單詞的 可見上下文詞語數量 ，在同一個模型中同時實現了bidirectional, unidirectional和seq2seq prediction 三種任務，因此可以同時用于語言生成和語言理解。

模型的三種預訓練目標如下圖所示：

seq2seq task在pretrain過程中，mask token可以出現在第一個文本序列中、也可以出現在第二個文本序列中；但是到了fine-tuning階段時，mask token僅出現在第二個文本序列中。

Bidirectional LM: 跟Bert模型一致。同時，與bert模型一樣，也進行NSP任務的預測。

Left-to-Right LM: 有從右到左和從左到右兩者，類似GPT。

Seq2seq LM :如果[Mask]出現在第一段文本中，僅可以使用第一段文本中所有的token進行預測；如果預測[Mask]出現在第二段文本中時，可以采用第一段文本中所有的token，和第二段文本中左側所有token預測。這種方法雖然不是seq2seq，但是通過mask可以做到seq2seq同樣的效果。

綜上，就是對于不同的語言模型，我們可以僅改變self-attention mask，就可以完成multi-task聯合訓練。

在預訓練時的一個batch中，使用1/3的數據進行bidirectional task，1/3的數據進行seq2seq task，1/6的數據進行left-to-right unidirectional task，1/6的數據進行right-to-left unidirectional task。

模型結構與BERT-large模型一致(layer = 24, hidden_size = 1024, head = 16)，約有340M參數，并由訓練好的BERT-large模型進行初始化。MASK的概率為15%，在被掩掉的token中，有80%使用[MASK]替換，10%使用字典中隨機詞進行替換，10%保持越來token不變（這與BERT一致）。此外，在80%的情況下，每次隨機掩掉一個token，在剩余的20%情況下，掩掉一個二元token組或三元token組。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

GPT

GPT

+關注

關注
0

文章
354

瀏覽量
15345

原文標題：介紹幾個語言生成的預訓練模型

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

一文詳解知識增強的語言預訓練模型

，在實際應用場景中效果不好。為了解決這個問題，將知識注入到PLMs中已經成為一個非?；钴S的研究領域。本次分享將介紹三篇知識增強的預訓練語言

發表于 04-02 17:21 ?9610次閱讀

【大語言模型：原理與工程實踐】大語言模型的基礎技術

，這也是如今生成式 AI 中大語言模型最流行訓練架構。(3) Encoder-Decoder預訓練

發表于 05-05 12:17

【大語言模型：原理與工程實踐】大語言模型的預訓練

數據格式的轉換、數據字段的匹配和整合等。通過數據級凈化，可以進一步提高數據的質量和可用性，為后續的數據分析和建模提供更有價值的數據支持。在得到了大語言模型的數據之后，就是對其進行預

發表于 05-07 17:10

大語言模型：原理與工程時間+小白初識大語言模型

種語言模型進行預訓練，此處預訓練為自然

發表于 05-12 23:57

新的預訓練方法——MASS！MASS預訓練幾大優勢！

專門針對序列到序列的自然語言生成任務，微軟亞洲研究院提出了新的預訓練方法：屏蔽序列到序列預訓練（

發表于 05-11 09:34 ?7080次閱讀

預訓練語言模型設計的理論化認識

在這篇文章中，我會介紹一篇最新的預訓練語言模型的論文，出自MASS的同一作者。這篇文章的亮點是：將兩種經典的

發表于 11-02 15:09 ?2701次閱讀

國內科學家團隊發布超大規模AI預訓練模型

據消息，北京智源人工智能研究院發布四個超大規模人工智能預訓練模型，統稱為“悟道1.0”，涵蓋中文語言、多模態、認知、蛋白質預測

發表于 03-21 10:09 ?2273次閱讀

如何向大規模預訓練語言模型中融入知識？

本文關注于向大規模預訓練語言模型（如RoBERTa、BERT等）中融入知識。

發表于 06-23 15:07 ?4232次閱讀

Multilingual多語言預訓練語言模型的套路

Facebook在Crosslingual language model pretraining（NIPS 2019）一文中提出XLM預訓練多語言模型，整體思路基于BERT，并提出了針

發表于 05-05 15:23 ?2972次閱讀

一種基于亂序語言模型的預訓練模型-PERT

由于亂序語言模型不使用[MASK]標記，減輕了預訓練任務與微調任務之間的gap，并由于預測空間大小為輸入序列長度，使得計算效率高于掩碼

發表于 05-10 15:01 ?1540次閱讀

如何更高效地使用預訓練語言模型

基本的假設:預訓練模型在不同下游任務上學習的過程，可以被重新參數化（reparameterized）為在同一個低維本征子空間上的優化過程。

發表于 07-08 11:28 ?1270次閱讀

利用視覺語言模型對檢測器進行預訓練

預訓練通常被用于自然語言處理以及計算機視覺領域，以增強主干網絡的特征提取能力，達到加速訓練和提高模型泛化性能的目的。該方法亦可以用于場景文本

發表于 08-08 15:33 ?1403次閱讀

CogBERT：腦認知指導的預訓練語言模型

另一方面，從語言處理的角度來看，認知神經科學研究人類大腦中語言處理的生物和認知過程。研究人員專門設計了預訓練的模型來捕捉大腦如何表示

發表于 11-03 15:07 ?1072次閱讀

預訓練模型的基本原理和應用

預訓練模型（Pre-trained Model）是深度學習和機器學習領域中的一個重要概念，尤其是在自然語言處理（NLP）和計算機視覺（CV）

發表于 07-03 18:20 ?2770次閱讀

大語言模型的預訓練

能力，逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟，它通過在海量無標簽數據上進行訓練，使

發表于 07-11 10:11 ?422次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

介紹四個為語言生成設計的預訓練模型

評論

一文詳解知識增強的語言預訓練模型

【大語言模型：原理與工程實踐】大語言模型的基礎技術

【大語言模型：原理與工程實踐】大語言模型的預訓練

大語言模型：原理與工程時間+小白初識大語言模型

新的預訓練方法——MASS！MASS預訓練幾大優勢！

預訓練語言模型設計的理論化認識

國內科學家團隊發布超大規模AI預訓練模型

如何向大規模預訓練語言模型中融入知識？

Multilingual多語言預訓練語言模型的套路

一種基于亂序語言模型的預訓練模型-PERT

如何更高效地使用預訓練語言模型

利用視覺語言模型對檢測器進行預訓練

CogBERT：腦認知指導的預訓練語言模型

預訓練模型的基本原理和應用

大語言模型的預訓練