編者按:深度學習和人類智能存在一個顯著差異,即人類擅長通過極少量的樣本識別新類別物體,而深度學習在此情況下很容易產生過擬合。因此,小樣本問題成為了機器學習領域中重要的研究方向之一。目前已有基于度量學習、語義信息以及數據增強等多種方法,而至于大小樣本的邊界、小樣本學習的方法論等問題還備受關注。在本文中,復旦大學付彥偉、上海科技大學何旭明、北京郵電大學馬占宇、中科院計算所王瑞平(按發言順序整理),將答疑解惑探討小樣本學習的最新進展。本文整理自VALSE Webinar 2019第29 期Panel。
議題1
小樣本 vs 大樣本,多“小”才算小,多“大”才算大?什么樣的情況下,需要專門設計“小樣本”學習算法?小樣本學習在智能體學習過程中如何和不同大小樣本的數據融合?如何在數據積累中過渡到大樣本學習?
付彥偉:這個問題很基礎也很有意思,我們其實做小樣本,一般都考慮每個類只有一個三個五個、或者十來個樣本,這種one-shot 、three-shot、five-shot情況。此外在深度學習之前,從partical learning這個角度來看其實有些問題可以借鑒,在統計學,小樣本學習不叫one-shot learning,而叫做smoothing probability,也就是小樣本可能還和特征維度有關系。假設你的特征維度是D的話,當樣本量小于logD,就算一個比較小的樣本。當然現在有深度學習了,我們可能并不會從這個角度去看。
至于什么樣的情況需要專門設計小 樣本學習算法,其實這是一個很實際或者很工業的問題,比如在醫療圖像處理中解決很罕見的病變,樣本量確實不夠,我們想去學一個分類器就只能根據這個數據去設計小樣本學習算法。
小樣本學習在智能體學習過程如何和不同大小樣本的數據融合,這其實有很多角度。比如李飛飛老師在 ICCV2003年的一篇文章,通過貝葉斯這條思路去融合;我們也可以和專家系統,或者通過一些專家知識融合,甚至可以和不同的領域,比如vocabulary inference learning領域,通過NLP去學習一些語義字典幫助小樣本學習;如何在數據積累中過渡到大樣本學習,這有一個很典型的增量學習問題。
何旭明:從視覺概念的認知角度來看,小樣本的“大小”也體現在它與其他類別之間區分度的大小。即使有些類別樣本數量比較小,如果它和其他類別相似度較高,可以用很多先驗知識來幫助學習這些小樣本,因此也可以不算“小樣本”。如果碰到一個和其他類區別很大的類別,可能通常的學習就會變得非常困難,需要當作小樣本看待。
如果利用一些先驗知識能夠幫助學習小樣本類別,我覺得這種情況是可以設計相關算法的。但如果很難得到先驗知識,那無論什么設計也學不到有用信息。
針對如何從不同大小樣本中的數據融合問題,我認為可以從大樣本入手開始學習,然后擴展到小樣本。即使類別不同,如果有相關性的話,依然可以去借鑒大樣本統計上的一些規律來幫助小樣本學習。
最后,借鑒人類的學習過程來說,一開始可能是小樣本,然后不斷在數據積累和反饋機制下,可以獲得更新的數據。這樣可以把視覺概念的表征不斷地細化,最后能夠自然而然地就能過渡到大樣本。
馬占宇:關于如何與不同規模大小樣本的數據融合,我覺得還有一個不平衡的學習問題。即首先分清哪些類別樣本是小的,哪些類別是大的。這種情況下,不是簡簡單單真地把小樣本變大,或者是說把大樣本增強,理想的狀況是能夠在數據分布不平衡的情況下,去做一個比較好的分類器。
議題2
引入知識來彌補小樣本的數據不足是一個較為公認的趨勢,到底什么算是“知識”,有哪些形式?目前真正管用/好用的“知識”是什么,來自哪里?
王瑞平:現在模型能夠取得成功,基本上都是依賴數據驅動。在數據不足的情況下,尤其在零樣本學習(極端情況)里面,一定要利用語義的知識去輔助。到底什么算是“知識”,現在零樣本里面可能會用一些屬性的標注,包括一些類別在語義層面的相似性關系,都算比較底層的知識。從人類的認知角度來看,相關的知識庫和應用也可稱之為“知識”,這可能是一種更自然的方式。
那么目前真正管用或者是好用的“知識”有哪些?在零樣本和小樣本學習里面,大部分還是屬性、詞向量這種人類手工標注的語義描述,其實這種知識可擴展性比較差。我們不可能對所有類別標注它所需要的全部知識,將來更有實踐意義的,應該是從大量原始文本數據中進行類別相關的語義挖掘和提純,然后結合手工標注的屬性。這方面目前很大程度上仍受限于自然語言處理技術的發展,所以真正地用知識去彌補數據不足應該是可努力的方向。
何旭明:在一些特定專業領域里面標注是很困難的,比如醫學圖像分析。但是很多醫學學科已經建立了比較完整的知識體系,因此充分利用這些專業的知識體系,可以幫助彌補數據匱乏的弱點。
付彥偉:從貝葉斯的角度,我們可以把知識當做一個先驗信息,把小樣本或者這些知識建模成一個分布,來幫助小樣本學習。甚至可能從圖形學模型的角度去思考,比如把一些領域的知識建模成一個ontology或者是一個圖形學模型。目前這方面還沒有探索得特別清楚,掌握知識其實是一個很基礎的問題。
議題3
在小樣本學習的實際場景中,數據量缺乏會帶來domain gap(域漂移)問題,怎么看待域漂移給小樣本學習帶來的挑戰?
馬占宇:我覺得域漂移和知識遷移都屬于跨域問題,從不同域之間這個層面上來定義比較好。所以說域漂移給小樣本學習帶來了挑戰,也帶來了一些好處和機會,比如我們前面提到的跨模態、多模態,可以把不同域之間的知識融合起來,最終進行小樣本學習。
議題4
什么樣的小樣本訓練數據集能夠產生較好的模型?
付彥偉:源數據和目標數據比較相近或者相似的時候,源數據上訓練的模型用于目標數據的小樣本學習,效果還是比較好的,如果差得比較大的話,其實還是有很大影響的,這個其實直接就和域漂移有很大關系。我們在做一些缺陷檢測時也會遇到很多類似的問題。
何旭明:在實用場景里面可以依據情況來考慮樣本選擇,依據問題賦予的靈活性分兩種情況:第一類問題,如果類別是可以選的,那就選擇和源數據比較近的樣本;第二類,如果類別是預規定好的,可以在每個類別通過數據選擇產生一些比較好的數據幫助訓練。
議題5
one-shot learning要解決的是僅有少量訓練數據時模型的過擬合問題么?那傳統解決過擬合的方法(如特征選取,正則化,提高訓練樣本多樣性等)如何體現在現有的one-shot方法中呢?
付彥偉:之前基本就是以上的傳統策略。但是有了深度學習之后,我們如果不用遷移學習,每個類5個訓練樣本來訓練一個學習器,可能就要考慮特征選擇、正則化這些問題。用深度學習的話,這個問題應該還是存在的,可能只是形式變了,我們采用batch normalization 或者instance normalization來進行正則化,特征選取可能也能對應得上。因為我們在深度學習中會隱含去做這些事情,比如說注意力機制本身也是一種特征選取。
何旭明:注意力機制實際上其實是在動態地特征選取。正則化的作用,除了BN,其實你的網絡模型設計就體現了對模型的約束;還有模型訓練的損失函數設計也體現了這點,比如添加額外的約束項。提高訓練樣本的多樣性的話,現在很多的趨勢,就是做feature augmentation(特征增廣)。
議題6
機器學習(深度學習)如今依賴海量數據,樣本量過小容易過擬合,模型表達能力不足。但某些實際場景下樣本很難收集,應該如何處理這些問題,如何防止過擬合?
王瑞平:這應該就是小樣本學習的背景,小樣本和數據不平衡問題其實是共生的,實際生活當中這兩個問題是普遍存在的。從企業界的項目經驗來看,通過數據增廣、相似類別之間的知識遷移、數據合成和domain adaptation(域自適應學習)。針對樣本類別之間的不平衡問題,可以做數據的合成或者分類器的合成。
馬占宇:樣本量過小導致的過擬合不僅是小樣本學習中面臨的問題。傳統機器學習里也同樣面臨這個問題,需要結合不同場景具體分析。
議題7
在小樣本學習中如何考慮任務之間的相關程度?如何在新領域的任務中應用小樣本學習方法?
何旭明:現在的很多假設任務是獨立同分布的,也就是從一個分布中采樣出獨立的任務。在這個假設下,很難去探索任務之間的相關度。在實際應用中,這個假設是比較強的,很多時候任務之間的確是有相關度的。那么或許最后會變成一個類似于多任務學習的問題設定。
議題8
零樣本學習中,輔助信息(屬性,詞向量,文本描述等)未來的發展趨勢是怎樣的?
付彥偉:無論圖像識別、自然語言處理還是其他領域,都可能會存在零樣本學習的問題。屬性和詞向量也有很多缺點,比如多義性,你說apple是apple公司還水果apple,這本身就有歧義性。
何旭明:如果利用這些輔助信息其中的內在關聯建立起信息之間的聯系,就可能是一種有結構的知識圖譜。換個角度,因為這些屬性詞向量,就是知識表達的一個具體體現,而背后的應該是整個的一個知識體系。
議題9
可解釋性學習能否促進零樣本學習的發展?
馬占宇:我先打一個比方,可能不太恰當。在信號處理領域里,我們接受到的是信號,然后從中獲取信息,最后又把信息提煉成知識,這個是不同層次,不同內涵的事情。當然對于我們做視覺任務來說,也許就是圖像中尋找一些顯著區域,然后在該區域搜集某些特征、目標。因此,從這個角度講,可解釋性學習對零樣本的發展是有幫助的,但是目前如何促進以及結合知識,我覺得還是一個比較有挑戰或者開放的問題。
王瑞平:模型的可解釋性肯定能促進零樣本學習的發展,零樣本學習之所以能做,就是因為能夠去建立類別之間的關聯,把所謂的已知類的語義信息遷移到未知類別上面。
類別通過什么關聯的呢?其實類別背后的根本是一些概念的組合,比如有沒有四條腿、皮毛、何種顏色等概念。那么如果能夠從已有分類模型中學習出來樣本和類別間的因果關系,并知道類別之間的差異何在,以及模型與概念的對應關系,試圖去解決零樣本和小樣本之間的問題,就能追溯到可遷移的根本所在。
付彥偉:深度學習的可解釋性可能更側重于特征的描述,零樣本學習最開始的一些工作,其實一直都是以可解釋性這個思路去做,就是把X映射到一個Y,Y是H的空間,后來我們又通過這種語義的可解釋性來做零樣本學習。如果單純地只是深度學習特征的可解釋性,就相當于怎么去更好地提取X,由X去構造零樣本學習.。
小結
正所謂“巧婦難為無米之炊”,在使用深度學習這一工具解決實際問題時,難免會遇到樣本不足的情況。而受人類快速學習能力的啟發,研究人員希望機器學習模型能夠在習得一定類別數據后,只需少量樣本就可以學習新的類別,這就是小樣本學習(Few-shot Learning)要解決的問題。
“樣本量與特征維度的大小關系“、”樣本與其他類別的區分度”等因素,可能和大小樣本的界定有緊密關聯。小樣本學習可以同專家系統、自然語言處理等領域融合,并借助大樣本上的數據積累和一些反饋機制自然過渡到大樣本學習。雖然小樣本學習是人類學習的一個特長,但即便是人類,其本質上的學習也是基于大樣本的,它包括漫長的進化過程和多模態共生信息的影響,人類的“舉一反三”依舊是基于大數據和知識的轉化問題。因此,通過引入知識來彌補小樣本的數據不足是一個較為公認的趨勢。人類手工標注或者提取自大數據的語義描述、特定領域的知識體系都是可利用的“知識”。在實際應用中,小樣本和數據不平衡往往是共生的,通過數據增廣、相似類別之間的知識遷移、數據合成、結構化的知識圖譜、域自適應學習、借助模型的可解性等策略可提升小樣本學習性能。
-
算法
+關注
關注
23文章
4607瀏覽量
92840 -
小樣本
+關注
關注
0文章
7瀏覽量
6821 -
深度學習
+關注
關注
73文章
5500瀏覽量
121113
原文標題:小樣本學習,路在何方?【VALSE Webinar】
文章出處:【微信號:deeplearningclass,微信公眾號:深度學習大講堂】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論