近期,NIPS 2018 AutoML挑戰(zhàn)賽公布了最終結(jié)果。本次賽事共有近三百支隊(duì)伍參賽,包括了麻省理工學(xué)院、加州大學(xué)伯克利分校、德州農(nóng)工大學(xué)、清華大學(xué)、北京大學(xué)等國(guó)內(nèi)外頂尖高校,微軟、騰訊、阿里巴巴等科技巨頭。清華大學(xué)計(jì)算機(jī)系朱文武團(tuán)隊(duì)斬獲第二,高校排名雄踞第一!
NIPS 2018 AutoML挑戰(zhàn)賽結(jié)果出爐:印度團(tuán)隊(duì)autodidact.ai第一,清華計(jì)算機(jī)系朱文武實(shí)驗(yàn)室Meta_Learners團(tuán)隊(duì)斬獲第二。
值得注意的是,清華Meta_Learners團(tuán)隊(duì)是本次參賽高校成績(jī)第一,且僅與冠軍差0.2個(gè)排名!
AutoML,全稱為Automated Machine Learning,是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)新興方向。旨在自動(dòng)化整個(gè)機(jī)器學(xué)習(xí)的流程,降低數(shù)據(jù)預(yù)處理、特征工程、模型選擇、參數(shù)調(diào)節(jié)等環(huán)節(jié)中的人工成本。
隨著機(jī)器學(xué)習(xí)系統(tǒng)的日益復(fù)雜化,AutoML得到了產(chǎn)學(xué)研各界的廣泛關(guān)注,已成為人工智能領(lǐng)域最熱門的研究方向之一。
本次賽事共有近三百支隊(duì)伍參賽,包括了麻省理工學(xué)院、加州大學(xué)伯克利分校、德州農(nóng)工大學(xué)、清華大學(xué)、北京大學(xué)等國(guó)內(nèi)外頂尖高校,微軟、騰訊、阿里巴巴等科技巨頭,autodidact.ai、Rapids.ai等新興創(chuàng)業(yè)公司,Auto-sklearn、Auto-keras等著名AutoML開源框架的作者團(tuán)隊(duì)。
根據(jù)官方公布的排名結(jié)果來看,朱文武實(shí)驗(yàn)室Meta_Learners團(tuán)隊(duì)在Set 2和Set 4上的排名均居第一,在其它3個(gè)Set上也都取得了較高名次。
全球名校、企業(yè)同臺(tái)競(jìng)爭(zhēng):清華斬獲第二,高校第一!
Meta_Learners團(tuán)隊(duì)成員包括計(jì)算機(jī)系博士畢業(yè)生張文鵬、在讀碩士生熊錚、在讀博士生蔣繼研,由張文鵬擔(dān)任隊(duì)長(zhǎng),朱文武教授擔(dān)任指導(dǎo)教師。
團(tuán)隊(duì)從2015年開始持續(xù)關(guān)注和布局AutoML領(lǐng)域,目前已經(jīng)具備了較為豐富的領(lǐng)域知識(shí)和較為深厚的技術(shù)積累,今年首次參加AutoML比賽即摘得亞軍。
今年的賽事題目聚焦于真實(shí)應(yīng)用場(chǎng)景下存在概念遷移的大規(guī)模流式數(shù)據(jù)中的AutoML問題,對(duì)AutoML系統(tǒng)的自適應(yīng)能力、魯棒性都提出了較以往比賽更高的要求。
比賽分為兩個(gè)階段:Feedback階段和AutoML階段。
Feedback階段是代碼提交階段。主辦方會(huì)提供5個(gè)與第二階段的數(shù)據(jù)集具有相似特性的訓(xùn)練數(shù)據(jù)集;參賽者在訓(xùn)練數(shù)據(jù)集上構(gòu)建AutoML系統(tǒng),并根據(jù)線上運(yùn)行結(jié)果進(jìn)行優(yōu)化。
AutoML階段是盲測(cè)階段,無法進(jìn)行代碼提交。參賽者在Feedback階段提交的最后一版代碼會(huì)在5個(gè)全新的數(shù)據(jù)集上進(jìn)行自動(dòng)化的訓(xùn)練與測(cè)試,得到的盲測(cè)結(jié)果將作為比賽最終排名的依據(jù)。
每個(gè)數(shù)據(jù)集內(nèi)部按時(shí)間順序分為10個(gè)Batch,每個(gè)Batch代表終身(Lifelong)學(xué)習(xí)場(chǎng)景中的一個(gè)階段。
參賽者提交的AutoML系統(tǒng)使用數(shù)據(jù)集中的第一個(gè)Batch作為訓(xùn)練數(shù)據(jù)生成初始模型,并在第一個(gè)測(cè)試Batch(整個(gè)數(shù)據(jù)集中的第二個(gè)Batch)上進(jìn)行預(yù)測(cè)。隨后,系統(tǒng)將得到當(dāng)前測(cè)試Batch的標(biāo)簽,并對(duì)初始模型進(jìn)行修正。系統(tǒng)將在后續(xù)的所有測(cè)試Batch上迭代進(jìn)行預(yù)測(cè)與模型修正,直到完成對(duì)所有測(cè)試Batch的預(yù)測(cè)。
比賽制勝法寶:做好不同層次的平衡(Tradeoff)
在本次比賽中,Meta_Learners團(tuán)隊(duì)采用了梯度提升樹(Gradient Boosting Tree),在傳統(tǒng)的AutoML框架上,結(jié)合本次比賽數(shù)據(jù)的特性做了有針對(duì)性的設(shè)計(jì):
特征工程方面,主要針對(duì)類別特征高基數(shù)、長(zhǎng)尾分布的特點(diǎn),采用了頻數(shù)編碼、中值編碼等不同編碼方式,以及離散化、分位數(shù)變換等處理技巧。
遷移適應(yīng)方面,針對(duì)數(shù)據(jù)存在概念遷移的問題采用了自適應(yīng)的流式編碼技術(shù)。
資源控制方面,自動(dòng)監(jiān)測(cè)系統(tǒng)中各個(gè)組件的運(yùn)算花銷,并使用Bandit技術(shù)對(duì)搜索空間進(jìn)行壓縮和剪枝。
團(tuán)隊(duì)認(rèn)為AutoML比賽的關(guān)鍵在于做好不同層次的平衡(Tradeoff)。
首先是宏觀方法論層面的平衡。AutoML比賽和傳統(tǒng)的數(shù)據(jù)挖掘比賽有很多相似之處,但也有本質(zhì)的不同。相似之處在于特征工程都發(fā)揮著至關(guān)重要的作用。不同之處在于,傳統(tǒng)數(shù)據(jù)挖掘比賽的訓(xùn)練集和測(cè)試集一般來自于同一場(chǎng)景,在第一階段表現(xiàn)好的方法,在第二階段更換新的測(cè)試集后一般仍然會(huì)好。但是在AutoML比賽中,第二階段會(huì)更換嶄新的數(shù)據(jù)集(與第一階段的數(shù)據(jù)集有一定相似性,但并不同源)。
因此,AutoML系統(tǒng)如果過分適應(yīng)第一階段的數(shù)據(jù),就會(huì)導(dǎo)致在第二階段的排名出現(xiàn)較大波動(dòng)。所以該團(tuán)隊(duì)的策略是并不刻意追求第一階段的排名,而是注重提升整個(gè)系統(tǒng)的泛用性和自適應(yīng)能力,也就是做好第一階段和第二階段的平衡。
其次是搜索空間和資源約束之間的平衡。搜索空間大會(huì)覆蓋更多的候選配置(特征、算法和參數(shù)的組合),但太大則會(huì)超出系統(tǒng)資源的約束。AutoML系統(tǒng)需要根據(jù)不同數(shù)據(jù)集的大小和數(shù)據(jù)特性,自適應(yīng)地設(shè)計(jì)和分配搜索空間,以保證在不超出資源限制的前提下,選擇出更好的配置。
AutoML技術(shù)的關(guān)鍵在于如何理解Auto的過程
而此次比賽結(jié)果,Meta_Learners團(tuán)隊(duì)與第一名僅差0.2個(gè)排名,對(duì)此次的惜敗,團(tuán)隊(duì)成員表示時(shí)間利用不夠充分是主要理由。
比賽中期,由于一些臨時(shí)事件的耽誤,團(tuán)隊(duì)內(nèi)部交流和討論不夠充分,導(dǎo)致進(jìn)度停滯了一段時(shí)間。
在處理概念遷移的過程中,團(tuán)隊(duì)曾出現(xiàn)技術(shù)路線的偏離,在數(shù)周內(nèi)進(jìn)展緩慢。團(tuán)隊(duì)最初沿著序列化檢測(cè)和自適應(yīng)的思路進(jìn)行探索,效果并不理想;經(jīng)過仔細(xì)分析,團(tuán)隊(duì)發(fā)現(xiàn)Batch間的遷移并無趨同性,不符合序列化模型的場(chǎng)景假設(shè)。因此,團(tuán)隊(duì)放棄了該技術(shù)路線,但確實(shí)耽誤了很多時(shí)間。
由于前面時(shí)間的耽誤,比賽最后階段,模型整合優(yōu)化的時(shí)間不夠充分,一些在某些數(shù)據(jù)集上效果良好的算法并沒有納入最終AutoML框架的自動(dòng)選擇范圍內(nèi)。例如,遷移學(xué)習(xí)中基于密度比估計(jì)的重要性采樣(Importance sampling),在波動(dòng)較大的Batch上有很好的效果,但算法本身計(jì)算成本高,需要做進(jìn)一步優(yōu)化。最終由于時(shí)間有限,團(tuán)隊(duì)并沒有把該方法優(yōu)化得很好,也就沒有把它納入最終的解決方案。
對(duì)于AutoML技術(shù)本身,團(tuán)隊(duì)認(rèn)為,關(guān)鍵在于如何理解Auto的過程。對(duì)此,不同研究者有著不同的視角,進(jìn)而衍生出了基于貝葉斯優(yōu)化、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、遺傳算法、Bandit和梯度下降等不同方法的技術(shù)路線。更好的理解會(huì)有助于產(chǎn)生出更優(yōu)化的算法。
學(xué)術(shù)界和產(chǎn)業(yè)界都關(guān)注如何提高AutoML算法的性能和效率。相對(duì)而言,有一些問題學(xué)術(shù)界會(huì)關(guān)注得更多一點(diǎn),比如,算法的最優(yōu)性保證、算法中的Auto可以做多少層等;與此相對(duì)應(yīng),產(chǎn)業(yè)界可能會(huì)更關(guān)注一些具體實(shí)際場(chǎng)景中的AutoML問題,比如,本次比賽關(guān)注存在概念遷移的大規(guī)模流式數(shù)據(jù)中的AutoML問題。當(dāng)然,團(tuán)隊(duì)也從中提取了一些有研究?jī)r(jià)值的學(xué)術(shù)問題。
團(tuán)隊(duì)介紹
Meta_Learners團(tuán)隊(duì)由清華大學(xué)博士張文鵬、碩士研究生熊錚、博士研究生蔣繼研組成,由張文鵬擔(dān)任隊(duì)長(zhǎng)。
在本次比賽中,張文鵬負(fù)責(zé)技術(shù)路線的選擇和比賽節(jié)奏的把控;熊錚負(fù)責(zé)基礎(chǔ)框架、控制模塊的構(gòu)建和部分特征工程;蔣繼研負(fù)責(zé)概念遷移的處理和部分特征工程。
該團(tuán)隊(duì)從2015年開始關(guān)注AutoML領(lǐng)域,當(dāng)時(shí)谷歌還沒有提出相關(guān)概念。最初,張文鵬發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)的調(diào)參非常復(fù)雜,進(jìn)而意識(shí)到AutoML的價(jià)值和潛力。朱文武老師也非常認(rèn)同,果斷組建團(tuán)隊(duì)開始該領(lǐng)域的研究。在該團(tuán)隊(duì)中,熊錚主要關(guān)注基于貝葉斯優(yōu)化的AutoML系統(tǒng),蔣繼研則關(guān)注Bandit方法在AutoML中的應(yīng)用。
2017年,該團(tuán)隊(duì)提出了利用強(qiáng)化學(xué)習(xí)構(gòu)建決策樹模型的元學(xué)習(xí)算法并發(fā)表于NIPS 2017的Meta Learning Workshop,這也是國(guó)內(nèi)相關(guān)領(lǐng)域最早的研究成果之一。
此外,該團(tuán)隊(duì)目前也有布局特征工程、深度學(xué)習(xí)、計(jì)算機(jī)視覺、自然語言處理等領(lǐng)域的AutoML研究。
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
46027 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5506瀏覽量
121259 -
自然語言處理
+關(guān)注
關(guān)注
1文章
619瀏覽量
13579
原文標(biāo)題:清華朱文武團(tuán)隊(duì)斬獲NIPS 2018 AutoML挑戰(zhàn)賽亞軍,高校排名第一
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論