這是一篇關于風格遷移中如何進行數據增強的論文。在introduction部分,informal-->formal 的風格遷移問題,最大的障礙是訓練數據的不足。為了解決此問題,本篇論文提出三種數據增強的方法來獲得有用的語句對,分別為
back translation (BT)
我們使用原始語料庫訓練一個seq2seq模型。其中將formal語句作為模型的輸入,讓seq2seq模型有能力輸出對應的informal句子。則 模型輸入的formal語句和輸出的informal語句就構成了一個新的語句對。
formality discrimination (F-Dis)
F-Dis方法使用機器翻譯模型,將一個informal句子重寫為formal句子。首先使用Google翻譯API 將這些informal語句翻譯成 其他語種(比如法語),然后又翻譯回英語。如下圖所示:
其中,informal語句可以從網上論壇上收集得到。
表示收集到的第i條句子(informal), 是最后翻譯回的句子(formal), 二者構成了一個新的語句對。
本方法同時使用CNN構建了一個“格式判別器”:用來給一個句子的“正規”程度 打分。就是上圖中右邊括號內的小數。最終選出的新數據集要求如下:
其中表示句子的“正規”程度, 是閾值
multi-task transfer (M-Task)
我們觀察到,formal語句通常語法正確,而informal語句的語法經常出錯。
前人研究表明,對FST的輸出再使用一個語法錯誤糾正模型( grammatical error correction model,GEC)可以提高模型效果。受此啟發,本論文直接使用GEC的訓練數據作為增強的新數據集。如下圖
模型訓練
上面提到的seq2seq模型為Transformer (base)。
本論文首先使用增強的新數據用于 預訓練,然后使用原始語料數據做微調,將這稱為pre-training & finetuning (PT&FT)方法。下面結果證明了PT&FT的效果優于ST方法。ST是把增強數據和原數據一起訓練。
下圖展現了三種數據增強方法的效果:
下圖展現了我們的方法與前人模型的比較結果:
責任編輯:xj
原文標題:【ACL2020】關于正式風格遷移的數據增強方法
文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
-
數據
+關注
關注
8文章
7002瀏覽量
88943 -
機器學習
+關注
關注
66文章
8406瀏覽量
132567 -
自然語言處理
+關注
關注
1文章
618瀏覽量
13552
原文標題:【ACL2020】關于正式風格遷移的數據增強方法
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論