OpenAI舉辦的首屆遷移學習競賽Retro Contest結束,在全部229支隊伍里,來自中國的團隊獲得了冠亞軍。冠軍是一個6人團隊,其中有南京大學和阿里巴巴搜索事業部的研究人員;亞軍是中科院的兩名研究生。
這個競賽的目標,是評估強化學習算法從以往的經驗中泛化的能力。具體說,就是讓AI玩視頻游戲《刺猬索尼克》,這是世嘉公司開發的一款競速式2D動作游戲,其基本上模擬馬里奧的游戲方式,玩家在盡可能短的時間內到達目的地,索尼克可以通過不停加速來快速完成關卡。最后可能需要對抗BOSS。
冠軍方案展示:由南大和阿里研究人員組成的Dharmaraja隊的agent,學習穿越游戲中海洋廢墟區域(Aquatic Ruin Zone)。Agent已經在游戲的其他關進行過預訓練,但這是第一次遇到這一關。
OpenAI的這個競賽Retro Contest從2018年4月5日發布,持續時間為2個月。開始有923支隊伍報名,但最終只有229個提交了解決方案。OpenAI的自動評估系統對這些結果進行了評估。為了避免參賽者擬合數據集,評審時使用了完全不同的數據集。此外,OpenAI還將前十名的最終提交結果進行了再測試,讓這些agents在11個由游戲設計師特別設計的關卡中,分別進行了3次測試,每次都從環境中隨機生成初始狀態。最終得到的排名如下:
前五名排名
其中,冠軍Dharmaraja在測試和評審中始終排名第一,mistake以微弱的優勢戰勝aborg取得第二。這張圖顯示了排名前三的三個方案的agent在同一個關卡學習的情況。紅點代表初期,藍點代表后期。從上到下分別是Dharmaraja、aborg和mistake。
所有關卡平均下來,這幾支隊伍的學習曲線是這樣的:
值得注意的是,Dharmaraja和aborg在開始階段分數相近,而mistake的則要低很多。這是因為前兩支隊伍的方法,是對預訓練網絡進行微調(使用PPO),而mistake則是從零開始訓練(使用Rainbow DQN)。mistake的學習曲線提前結束,是因為他們在12小時的時候時間用完了。
OpenAI對這次的競賽的評價是,從整體看,雖然參賽隊伍嘗試了很多方法,但主要的結果都來自對現有算法(如PPO和Rainbow)的微調或擴展。同時,結果也顯示了我們還有很長的路要走:訓練后AI玩的最高成績是4,692分,而理論最好成績是10,000分。
但是,獲勝的解決方案是一般的機器學習方法,而不是針對這次競賽進行的hacking,表明作弊是不可能的,也就證實了OpenAI的Sonic基準是機器學習研究界一個值得去關注的問題。
獲獎團隊及方案:PPO和Rainbow優化
Dharmaraja(法王)是一個6人組成的團隊:Qing Da、Jing-Cheng Shi、Anxiang Zeng、Guangda Huzhang、Run-Ze Li 和 Yang Yu。其中,Qing Da和Anxiang Zeng來自阿里巴巴搜索事業部AI團隊,他們最近與南京大學副教授Yang Yu合作,研究如何將強化學習用于現實世界問題,尤其是電子商務場景。
Dharmaraja的解決方案是聯合PPO的變體。PPO(proximal policy optimization,近端策略優化算法),是此前OpenAI為強化學習提出的一類新的策略梯度法,可以通過與環境的交互在樣本數據中進行轉換,使用隨機梯度下降優化替代目標函數(surrogate objective function)。標準的策略梯度法是在每一個數據樣本上執行一次梯度更新,而PPO的新目標函數可以在多個訓練步驟(epoch)中實現小批量(minibatch)的更新。PPO 擁有置信域策略優化(TRPO)的一些好處,但更加容易實現,也更通用,并且有更好的樣本復雜度。OpenAI研究人員認為,考慮到總體的復雜度、操作簡便性和 wall-time,PPO 是比在線策略梯度法更好的選擇。
在PPO的基礎上,Dharmaraja的解決方案做了一些改進。首先,使用RGB圖像而不是灰度圖做輸入。其次,使用了稍微擴大的動作空間,并使用更常見的按鈕組合。第三,使用了增強獎勵功能,獎勵agent訪問新的狀態(根據屏幕的感知散列來判斷)。
除了這些改進外,團隊還嘗試了許多東西,比如DeepMimic,使用YOLO進行對象檢測,以及一些針對索尼克游戲的特定想法。不過這些方法并沒有特別起效。
代碼:https://github.com/eyounx/RetroCodes
Mistake
Mistake隊有兩名成員,Peng Xu和Qiaoling Zhong。他們都是研二的學生,來自中國科學院網絡數據科學與技術重點實驗室。
他們的解決方案是基于Rainbow基準。Rainbow是DeepMind對DQN算法進行的組合改良。DeepMind的實驗表明,從數據效率和最終性能方面來說,Rainbow能夠在Atari 2600基準上提供最為先進的性能。
Mistake團隊進行了一些有助于提升性能的修改:n對n步Q-learning的更好的值;額外添加了一層CNN層到模型,這使得訓練速度更慢但更好;DQN目標更新間隔更短。此外,團隊還嘗試與Rainbow進行聯合訓練,但發現這樣做實際上降低了性能。
代碼:https://github.com/xupe/mistake-in-retro-contest-of-OpenAI
-
阿里巴巴
+關注
關注
7文章
1613瀏覽量
47168 -
機器學習
+關注
關注
66文章
8406瀏覽量
132565 -
強化學習
+關注
關注
4文章
266瀏覽量
11246
原文標題:OpenAI首屆遷移學習競賽,南大阿里團隊奪冠,中科院第二
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論