亚洲视频天堂,亚洲性色永久网址,亚洲色中色

本文介紹了小組發表于EMNLP 2022的非自回歸預訓練文本生成模型ELMER，在生成質量與生成效率方面相比于之前的研究具有很大優勢。

一、背景

自從GPT-2的出現，預訓練語言模型在許多文本生成任務上都取得了顯著的效果。這些預訓練語言模型大都采用自回歸的方式從左到右依次生成單詞，這一范式的主要局限在于文本生成的過程難以并行化，因此帶來較大的生成延遲，這也限制了自回歸模型在許多實時線上應用的廣泛部署（例如搜索引擎的查詢重寫、在線聊天機器人等）。并且，由于訓練過程與生成過程存在差異，自回歸生成模型容易出現曝光偏差等問題。因此，在這一背景下，許多研究者開始關注非自回歸生成范式——所有文本中的單詞同時且獨立地并行生成。

與自回歸模型相比，非自回歸模型的生成過程具有并行化、高效率、低延遲等優勢，但與此同時，所有單詞獨立生成的模式使得非自回歸模型難以學習單詞間依賴關系，導致生成文本質量下降等問題。已有研究提出迭代生成優化、隱變量建模文本映射等方法，但仍然難以生成復雜的文本。受到早期退出技術（early exit）啟發，我們提出一個高效強大的非自回歸預訓練文本生成模型——ELMER，通過在不同層生成不同單詞的方式顯式建模單詞間依賴關系，從而提升并行生成的效果。

二、形式化定義

文本生成的目標是建模輸入文本與輸出文本之間的條件概率。目前常用的三種生成范式為：自回歸、非自回歸和半非自回歸范式。

自回歸生成自回歸生成模型基于從左到右的方式生成輸出文本：

每個單詞都依賴于輸入文本與之前生成的單詞。自回歸生成模型只建模了前向的單詞依賴關系，依次生成的結構也使得自回歸模型難以并行化。目前大部分預訓練生成模型均采用自回歸方式，包括GPT-2，BART，T5等模型。

非自回歸生成非自回歸生成模型同時預測所有位置的單詞，不考慮前向與后向的單詞依賴關系：

每個單詞的生成只依賴于輸入文本，這一獨立生成假設使得非自回歸模型易于并行化，大大提高了文本生成速度。由于不考慮單詞依賴，非自回歸模型的生成效果往往不如自回歸模型。

半非自回歸生成半非自回歸生成模型介于自回歸與非自回歸生成之間：

每個單詞的生成依賴于輸入文本和部分可見上下文，其中采用不同方式平衡生成質量與生成效率。

三、模型

ELMER模型架構如圖1所示。基于早期退出機制（early exit），在不同層生成的單詞可以建立雙向的單詞依賴關系。為了預訓練ELMER，我們提出了一個用于非自回歸生成廣泛建模單詞依賴的預訓練任務——Layer Permutation Language Modeling。

基于早期退出的Transformer非自回歸生成

ELMER采用Transformer架構，不同的是我們將解碼器中的掩碼多頭注意力替換為與編碼器一致的雙向多頭注意力用于非自回歸生成。特別地，對于數據，輸入文本由編碼器編碼為隱狀態，然后，我們將一段完全由“[MASK]”單詞組成的序列作為解碼器輸入，生成目標文本。對于每一個“[MASK]”單詞，經過層解碼器得到：

最后，第個單詞由最后一層表示計算得到：

之前的非自回歸模型需要額外模塊預測輸出文本的長度，但是，我們通過生成終止單詞“[EOS]”動態地確定生成文本的長度，即最終的文本為首單詞至第一個終止單詞。

一般的Transformer模型都在最后一層生成單詞，使用早期退出技術，單詞以足夠的置信度在低層被生成，那么高層單詞的生成可以依賴已生成的低層單詞，從而在非自回歸生成過程中建模雙向的單詞依賴關系。特別地，我們在Transformer每一層插入“off-ramp”，其使用每一層隱狀態表示預測單詞如下：

這些“off-ramp”可以獨立或者共享參數。與之前的早期退出研究聚焦于句子級別不同，我們的方法關注單詞級別的退出。在訓練過程中，如果一個單詞已經以足夠的置信度在第層生成，那么隱狀態將不會在高層中進行更新，我們的模型將直接拷貝至高層。

Layer Permutation預訓練

為了在預訓練中學習多樣化的單詞依賴關系，我們提出基于早退技術的預訓練目標——Layer Permutation Language Modeling (LPLM)，對每個單詞的退出層進行排列組合。對于長度為的序列，每個單詞可以在層的任意一層退出，因此，這一序列所有單詞的退出層共有種排列組合。如果模型的參數對于所有組合是共享的，那么每個單詞都可以學習到來自所有位置的單詞的依賴關系。形式化地，令表示長度為的序列的所有可能的退出層組合，對于任意一個組合，基于LPLM的非自回歸文本生成概率可以表示為：

其中模型在解碼器第層退出，使用隱狀態預測第個單詞。

在預訓練過程中，對于語料中的每一條文本，我們只采樣中退出層組合計算生成概率。傳統的早期退出方法需要計算閾值來估計退出層，這對于大規模預訓練來說是不方便的，而我們提出的LPLM預訓練目標自然而然地避免了對退出層的估計。遵循BART模型的預訓練模式，我們將打亂的文本輸入模型并采用基于LPLM的非自回歸生成方式還原文本，我們主要采用sentence shuffling和text infilling兩種打亂方式。

下游微調

經過預訓練的非自回歸生成模型ELMER可以微調至下游各種文本生成任務。在微調階段，可以使用小規模的任務數據集為每個生成單詞估計其退出層。在論文中，我們主要考慮兩種早期退出方式：hard early exit與soft early exit。

1）Hard Early Exit：這是一種最簡單直接的早期退出方式。通過設置閾值并計算退出置信度決定模型是否在某層退出結束生成。我們使用生成概率分布的熵來量化單詞生成的退出置信度，如下式：

模型生成概率分布的熵越低，意味著生成單詞的退出置信度越高。因此，當熵低于事先設定的閾值時，模型將在此層退出并生成單詞。

2）Soft Early Exit：上述方法對于每個單詞只退出一次并生成，因此會發生錯誤生成的情況。而soft方法則在每一層都計算單詞生成概率，并將中間層生成的單詞傳遞至下一層繼續進行計算。特別地，在位置解碼器的第層，我們使用第層的off-ramp計算生成單詞：

然后，我們將預測單詞的向量與當前層的隱狀態拼接，經過一個線性層傳遞至下一層作為新的表示：

與hard方法相比，soft方法在每層預測單詞，并將預測結果傳遞至下一次預測，因此可以起到修正預測的作用。

四、實驗

1）預訓練設置

我們收集了16G的數據（包括Wikipedia和BookCorpus）作為預訓練語料。ELMER采用6層的編碼器與解碼器，隱藏層維度為768，與大部分自回歸（例如BART）與非自回歸（BANG）預訓練生成模型的base版本一致。我們使用2e-4的學習率從頭開始訓練模型，批大小為4096。我們采用BART模型的詞表，在預訓練過程中共享所有層的off-ramp參數，預訓練語料中的每條序列采樣10種退出層組合進行訓練。相關代碼與模型已開源至https://github.com/RUCAIBox/ELMER.

2）微調數據集

我們微調ELMER至三種文本生成任務與數據集：XSUM為摘要任務數據集，SQuAD v1.1為問題生成任務數據集，PersonaChat為對話生成任務數據集。

3）基準模型

實驗中設置三類基準模型作為對比：1）自回歸生成模型：Transformer，MASS，BART和ProphetNet；2）非自回歸生成模型：NAT，iNAT，CMLM，LevT和BANG；3）半非自回歸生成模型：InsT，iNAT，CMLM，LevT和BANG。

4）評測指標

我們從effectiveness與efficiency兩個方面評測模型效果。我們使用ROUGE，BLEU，METEOR和Distinct來評測模型生成文本的effectiveness；設置生成批大小為1并計算每條樣本的生成時間來評測模型生成文本的efficiency。

5）實驗結果

表1與表2展示了在三個任務和數據集上的實驗結果。我們的ELMER-soft方法超越了大部分非自回歸與半非自回歸生成模型，展示出我們的模型在生成文本上的有效性。相比于基準模型，我們的模型采用早期退出技術，可以在并行生成過程中建模單詞間依賴關系，保證了生成文本的質量。

除此以外，ELMER取得了與自回歸預訓練模型相似的結果，并超越了非預訓練的Transformer模型，進一步縮小了非自回歸生成模型與自回歸生成模型在生成質量上的差距。對于對話任務，雖然ELMER在ROUGE，BLEU等指標不如NAT等模型，但非常重要的Distinct指標卻表現很好，說明我們方法能夠生成較為多樣的文本。

最后，在生成文本的效率上，ELMER的生成效率相比自回歸模型具有非常大的優勢，對比其他非自回歸模型如LevT也具有更快的生成速度。

五、結論

我們提出了一個高效強大的非自回歸預訓練文本生成模型ELMER，通過引入單詞級別的早期退出機制，模型可以在并行生成文本的過程中顯式建模前后單詞依賴關系。更重要的，我們提出了一個新的預訓練目標——Layer Permutation Language Modeling，對序列中每個單詞的退出層進行排列組合。最后，在摘要、問題生成與對話三個任務上的實驗結果表明，我們的ELMER模型無論是生成質量還是生成效率都具有極大優勢。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

模型

模型

+關注

關注
1

文章
3226

瀏覽量
48807
語言模型

語言模型

+關注

關注
0

文章
520

瀏覽量
10268
聊天機器人

聊天機器人

+關注

關注
0

文章
339

瀏覽量
12304

原文標題：EMNLP 2022 | ELMER: 高效強大的非自回歸預訓練文本生成模型

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

Transformer架構，利用自注意力機制對文本進行編碼，通過預訓練、有監督微調和強化學習等階段，不斷提升性能，展現出強大的語言理解和

發表于 05-04 23:55

【大語言模型：原理與工程實踐】大語言模型的預訓練

和多樣性。高質量數據能確保模型穩定收斂，而數據的多樣性則有助于模型學習廣泛的通用能力，如文本生成、信息抽取、問答和編程等。此外，數據的多樣性對于確保模型在實際應用中具有良好的泛化能力至

發表于 05-07 17:10

如何構建文本生成器？如何實現馬爾可夫鏈以實現更快的預測模型

Compose，聊天機器人都是應用的例子，本文將使用馬爾可夫鏈構建一個文本生成器。這將是一個基于字符的模型，它接受鏈的前一個字符并生成序列中的下一個字母。通過使用樣例單詞訓練我們的程

發表于 11-22 15:06

基于生成器的圖像分類對抗樣本生成模型

，并保證攻擊成功率。模型將對抗樣本生成的過程視為對原圖進行圖像増強的操作引入生成對抗網絡，并改進感知損失函數以增加對抗樣本與原圖在內容與特征空間上的相似性，采用多分類器損失函數優化訓練

發表于 04-07 14:56 ?2次下載

基于<b class='flag-5'>生成</b>器的圖像分類對抗樣<b class='flag-5'>本生成</b><b class='flag-5'>模型</b>

文本生成任務中引入編輯方法的文本生成

4. FELIX FELIX是Google Research在“FELIX: Flexible Text Editing Through Tagging and Insertion”一文中提出的文本生成

發表于 07-23 16:56 ?1729次閱讀

<b class='flag-5'>文本生成</b>任務中引入編輯方法的<b class='flag-5'>文本生成</b>

受控文本生成模型的一般架構及故事生成任務等方面的具體應用

來自：哈工大訊飛聯合實驗室本期導讀：本文是對受控文本生成任務的一個簡單的介紹。首先，本文介紹了受控文本生成模型的一般架構，點明了受控文本生成模型

發表于 10-13 09:46 ?3526次閱讀

利用對比前綴控制文本生成以及長文本生成的動態內容規劃

一些最新的研究表明，預訓練語言模型（PLM）可以通過自我監督的預訓練從大規模語料庫中自動獲取知識，然后將學到的知識編碼到

發表于 08-02 15:06 ?1432次閱讀

基于用于自然語言生成的“語境調優”技術

自然語言生成（又稱為文本生成）旨在基于輸入數據用人類語言生成合理且可讀的文本。隨著預訓練語言

發表于 10-14 15:38 ?1040次閱讀

基于VQVAE的長文本生成 利用離散code來建模文本篇章結構的方法

寫在前面近年來，多個大規模預訓練語言模型 GPT、BART、T5 等被提出，這些預訓練模型在自

發表于 12-01 17:07 ?1726次閱讀

預訓練數據大小對于預訓練模型的影響

BERT類模型的工作模式簡單，但取得的效果也是極佳的，其在各項任務上的良好表現主要得益于其在大量無監督文本上學習到的文本表征能力。那么如何從語言學的特征角度來衡量一個預

發表于 03-03 11:20 ?1421次閱讀

一種非自回歸的預訓練方法

雖然GPT模型在自然語言處理領域中表現出色，但是它們仍然存在一些問題。例如，GPT模型的自回歸設計導致它在生成新單詞或短語時需要等待整個序列

發表于 04-27 09:58 ?623次閱讀

從原理到代碼理解語言模型訓練和推理，通俗易懂，快速修煉LLM

要理解大語言模型（LLM），首先要理解它的本質，無論預訓練、微調還是在推理階段，核心都是next token prediction，也就是以自回歸

發表于 09-19 16:25 ?1389次閱讀

大語言模型的預訓練

隨著人工智能技術的飛速發展，自然語言處理（NLP）作為人工智能領域的一個重要分支，取得了顯著的進步。其中，大語言模型（Large Language Model, LLM）憑借其強大的語言理解和生成

發表于 07-11 10:11 ?421次閱讀

榮聯科技集團再度入選信通院《高質量數字化轉型產品及服務全景圖》

榮聯的知識庫管理及智能應答平臺，通過全棧自研的大語言模型底座系統，結合開源模型的靈活性與自研核心算法，提供了強大的智能服務功能，包括

發表于 09-29 11:12 ?662次閱讀

如何使用 Llama 3 進行文本生成

使用LLaMA 3（Large Language Model Family of AI Alignment）進行文本生成，可以通過以下幾種方式實現，取決于你是否愿意在本地運行模型或者使用現成的API

發表于 10-27 14:21 ?338次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

ELMER: 高效強大的非自回歸預訓練文本生成模型

評論

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

【大語言模型：原理與工程實踐】大語言模型的預訓練

如何構建文本生成器？如何實現馬爾可夫鏈以實現更快的預測模型

基于生成器的圖像分類對抗樣本生成模型

文本生成任務中引入編輯方法的文本生成

受控文本生成模型的一般架構及故事生成任務等方面的具體應用

利用對比前綴控制文本生成以及長文本生成的動態內容規劃

基于用于自然語言生成的“語境調優”技術

基于VQVAE的長文本生成利用離散code來建模文本篇章結構的方法

預訓練數據大小對于預訓練模型的影響

一種非自回歸的預訓練方法

從原理到代碼理解語言模型訓練和推理，通俗易懂，快速修煉LLM

大語言模型的預訓練

榮聯科技集團再度入選信通院《高質量數字化轉型產品及服務全景圖》

如何使用 Llama 3 進行文本生成