近日,在美國明尼蘇達州明尼阿波利斯的NAACL2019上,Sebastian Ruder, Matthew Peters, Swabha Swayamdipta和Thomas Wolf分享了一個長達238頁PPT關于“NLP中的遷移學習”的教程,今天拿來和大家分享。
經典的監督機器學習范式是基于對使用單個數據集的任務的單個預測模型的孤立學習。這種方法需要大量的訓練示例,并且對于定義明確、范圍狹窄的任務效果最好。遷移學習指的是一組方法,這些方法通過利用來自其他域或任務的數據來訓練具有更好泛化特性的模型來擴展此方法。
近兩年來,自然語言處理(NLP)領域出現了幾種轉移學習方法和體系結構,這些方法和體系結構大大提高了NLP任務的先進性。
這些改進,加上這些方法的廣泛可用性和易集成性,使人們想起了導致計算機視覺中預訓練字嵌入和ImageNet預訓練成功的因素,并表明這些方法很可能成為NLP中的一種常用工具以及一個重要的研究方向。
我們將概述NLP中的現代遷移學習方法,如何對模型進行預培訓,它們所學習的表示捕獲哪些信息,并回顧有關如何在下游NLP任務中集成和適應這些模型的示例和案例研究。
什么是遷移學習?
(a)傳統機器學習的學習過程:
任務1:學習系統
任務2:學習系統
任務3:學習系統
(b)遷移學習的學習過程:
源任務:知識
目標任務:學習系統
為什么是NLP遷移學習?
許多NLP任務都有共同的語言知識(例如語言表示、結構相似性)
任務可以互相通知,例如語法和語義
注釋數據很少,盡可能多地利用監督
從經驗上講,遷移學習已經在SOTA形成了許多被監督的NLP任務(例如分類、信息提取、問答等)
為什么是NLP遷移學習?(憑經驗)
在命名實體識別(NER)CONLL-2003(英語)上隨著時間推移的表現
NLP中遷移學習的類型
本教程到底講什么?
本教程講的是什么,不講的是什么:
目標:提供NLP中遷移方法的廣泛概述,重點介紹截至目前(2019年年中)最成功的經驗方法。
提供實用的、實際操作的建議→在教程結束時,每個人都有能力將最新進展應用到文本分類任務中。
不講的是什么:全面的(不可能在一個教程中涵蓋所有相關的論文!)
(Bender Rule: 本教程主要是針對用英語完成的工作,其他語言的可擴展性取決于監督是否可用。)
框架:
1、介紹
2、預訓練
3、代表中有什么?
4、適應
5、下游
6、開放問題
順序遷移學習
了解一個任務/數據集,然后遷移到另一個任務/數據集
預訓練:
word2vec
GloVe
skip-thought
InferSent
ELMo
ULMFiT
GPT
BERT
適應:
分類
序列標記
問答
預培訓任務和數據集
未標記數據和自我監督:
易于收集的大型語料庫:維基百科、新聞、網絡爬蟲、社交媒體等。
訓練利用了分布假設:“你應該知道它所保存的一個詞”(Firth,1957),通常形式化為訓練某種語言模型的變體。
注重高效算法利用豐富的數據
監督預培訓:
在視覺上非常常見,由于缺乏大的監控數據集,在NLP中較少見。
機器翻譯
句子表達的NLI
從一個問答數據集到另一個問答數據集的任務特定傳輸
目標任務和數據集
目標任務通常是受監控的,跨越一系列常見的NLP任務:
句子或文檔分類(如情感)
句子對分類(如NLI、釋義)
字級(例如序列標記、提取性問答)
結構化預測(如解析)
生成(例如對話、總結)
具體示例——詞向量
單詞嵌入方法(例如word2vec)每個單詞學習一個向量
主題:從單詞到語境中的單詞
主題:從單詞到語境中的單詞
詞向量 句子/doc向量 語境中詞向量
主題:LM預訓練
許多成功的預培訓方法都是基于語言建模的
非正式地,LM學習p(文本)或p(文本/其他文本)
不需要人工注釋
許多語言有足夠的文本來學習大容量模型
多才多藝,能學習句子和詞的表達,具有多種客觀功能
主題:由淺入深
1層 24層
主題:預培訓與目標任務
預培訓和目標任務的選擇是耦合的
句子/文檔表示法對單詞級預測無效
詞向量可以跨上下文匯集,但通常比其他方法更好。
在語境詞向量中,雙向語境很重要
一般來說:
類似的預培訓和目標任務→最佳結果
-
nlp
+關注
關注
1文章
488瀏覽量
22033 -
遷移學習
+關注
關注
0文章
74瀏覽量
5559
原文標題:【干貨】NLP中的遷移學習教程來啦!(238頁PPT下載)
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論