在线看免费大片,深夜福利视频导航在线,在线中文观看亚洲自拍

OpenAI舉辦的首屆遷移學(xué)習(xí)競(jìng)賽Retro Contest結(jié)束，在全部229支隊(duì)伍里，來(lái)自中國(guó)的團(tuán)隊(duì)獲得了冠亞軍。冠軍是一個(gè)6人團(tuán)隊(duì)，其中有南京大學(xué)和阿里巴巴搜索事業(yè)部的研究人員；亞軍是中科院的兩名研究生。

這個(gè)競(jìng)賽的目標(biāo)，是評(píng)估強(qiáng)化學(xué)習(xí)算法從以往的經(jīng)驗(yàn)中泛化的能力。具體說(shuō)，就是讓AI玩視頻游戲《刺猬索尼克》，這是世嘉公司開(kāi)發(fā)的一款競(jìng)速式2D動(dòng)作游戲，其基本上模擬馬里奧的游戲方式，玩家在盡可能短的時(shí)間內(nèi)到達(dá)目的地，索尼克可以通過(guò)不停加速來(lái)快速完成關(guān)卡。最后可能需要對(duì)抗BOSS。

冠軍方案展示：由南大和阿里研究人員組成的Dharmaraja隊(duì)的agent，學(xué)習(xí)穿越游戲中海洋廢墟區(qū)域（Aquatic Ruin Zone）。Agent已經(jīng)在游戲的其他關(guān)進(jìn)行過(guò)預(yù)訓(xùn)練，但這是第一次遇到這一關(guān)。

OpenAI的這個(gè)競(jìng)賽Retro Contest從2018年4月5日發(fā)布，持續(xù)時(shí)間為2個(gè)月。開(kāi)始有923支隊(duì)伍報(bào)名，但最終只有229個(gè)提交了解決方案。OpenAI的自動(dòng)評(píng)估系統(tǒng)對(duì)這些結(jié)果進(jìn)行了評(píng)估。為了避免參賽者擬合數(shù)據(jù)集，評(píng)審時(shí)使用了完全不同的數(shù)據(jù)集。此外，OpenAI還將前十名的最終提交結(jié)果進(jìn)行了再測(cè)試，讓這些agents在11個(gè)由游戲設(shè)計(jì)師特別設(shè)計(jì)的關(guān)卡中，分別進(jìn)行了3次測(cè)試，每次都從環(huán)境中隨機(jī)生成初始狀態(tài)。最終得到的排名如下：

前五名排名

其中，冠軍Dharmaraja在測(cè)試和評(píng)審中始終排名第一，mistake以微弱的優(yōu)勢(shì)戰(zhàn)勝aborg取得第二。這張圖顯示了排名前三的三個(gè)方案的agent在同一個(gè)關(guān)卡學(xué)習(xí)的情況。紅點(diǎn)代表初期，藍(lán)點(diǎn)代表后期。從上到下分別是Dharmaraja、aborg和mistake。

所有關(guān)卡平均下來(lái)，這幾支隊(duì)伍的學(xué)習(xí)曲線是這樣的：

值得注意的是，Dharmaraja和aborg在開(kāi)始階段分?jǐn)?shù)相近，而mistake的則要低很多。這是因?yàn)榍皟芍ш?duì)伍的方法，是對(duì)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào)（使用PPO），而mistake則是從零開(kāi)始訓(xùn)練（使用Rainbow DQN）。mistake的學(xué)習(xí)曲線提前結(jié)束，是因?yàn)樗麄冊(cè)?2小時(shí)的時(shí)候時(shí)間用完了。

OpenAI對(duì)這次的競(jìng)賽的評(píng)價(jià)是，從整體看，雖然參賽隊(duì)伍嘗試了很多方法，但主要的結(jié)果都來(lái)自對(duì)現(xiàn)有算法（如PPO和Rainbow）的微調(diào)或擴(kuò)展。同時(shí)，結(jié)果也顯示了我們還有很長(zhǎng)的路要走：訓(xùn)練后AI玩的最高成績(jī)是4,692分，而理論最好成績(jī)是10,000分。

但是，獲勝的解決方案是一般的機(jī)器學(xué)習(xí)方法，而不是針對(duì)這次競(jìng)賽進(jìn)行的hacking，表明作弊是不可能的，也就證實(shí)了OpenAI的Sonic基準(zhǔn)是機(jī)器學(xué)習(xí)研究界一個(gè)值得去關(guān)注的問(wèn)題。

獲獎(jiǎng)團(tuán)隊(duì)及方案：PPO和Rainbow優(yōu)化

Dharmaraja（法王）是一個(gè)6人組成的團(tuán)隊(duì)：Qing Da、Jing-Cheng Shi、Anxiang Zeng、Guangda Huzhang、Run-Ze Li 和 Yang Yu。其中，Qing Da和Anxiang Zeng來(lái)自阿里巴巴搜索事業(yè)部AI團(tuán)隊(duì)，他們最近與南京大學(xué)副教授Yang Yu合作，研究如何將強(qiáng)化學(xué)習(xí)用于現(xiàn)實(shí)世界問(wèn)題，尤其是電子商務(wù)場(chǎng)景。

Dharmaraja的解決方案是聯(lián)合PPO的變體。PPO（proximal policy optimization，近端策略優(yōu)化算法），是此前OpenAI為強(qiáng)化學(xué)習(xí)提出的一類(lèi)新的策略梯度法，可以通過(guò)與環(huán)境的交互在樣本數(shù)據(jù)中進(jìn)行轉(zhuǎn)換，使用隨機(jī)梯度下降優(yōu)化替代目標(biāo)函數(shù)（surrogate objective function）。標(biāo)準(zhǔn)的策略梯度法是在每一個(gè)數(shù)據(jù)樣本上執(zhí)行一次梯度更新，而PPO的新目標(biāo)函數(shù)可以在多個(gè)訓(xùn)練步驟（epoch）中實(shí)現(xiàn)小批量（minibatch）的更新。PPO 擁有置信域策略優(yōu)化（TRPO）的一些好處，但更加容易實(shí)現(xiàn)，也更通用，并且有更好的樣本復(fù)雜度。OpenAI研究人員認(rèn)為，考慮到總體的復(fù)雜度、操作簡(jiǎn)便性和 wall-time，PPO 是比在線策略梯度法更好的選擇。

在PPO的基礎(chǔ)上，Dharmaraja的解決方案做了一些改進(jìn)。首先，使用RGB圖像而不是灰度圖做輸入。其次，使用了稍微擴(kuò)大的動(dòng)作空間，并使用更常見(jiàn)的按鈕組合。第三，使用了增強(qiáng)獎(jiǎng)勵(lì)功能，獎(jiǎng)勵(lì)agent訪問(wèn)新的狀態(tài)（根據(jù)屏幕的感知散列來(lái)判斷）。

除了這些改進(jìn)外，團(tuán)隊(duì)還嘗試了許多東西，比如DeepMimic，使用YOLO進(jìn)行對(duì)象檢測(cè)，以及一些針對(duì)索尼克游戲的特定想法。不過(guò)這些方法并沒(méi)有特別起效。

代碼：https://github.com/eyounx/RetroCodes

Mistake

Mistake隊(duì)有兩名成員，Peng Xu和Qiaoling Zhong。他們都是研二的學(xué)生，來(lái)自中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室。

他們的解決方案是基于Rainbow基準(zhǔn)。Rainbow是DeepMind對(duì)DQN算法進(jìn)行的組合改良。DeepMind的實(shí)驗(yàn)表明，從數(shù)據(jù)效率和最終性能方面來(lái)說(shuō)，Rainbow能夠在Atari 2600基準(zhǔn)上提供最為先進(jìn)的性能。

Mistake團(tuán)隊(duì)進(jìn)行了一些有助于提升性能的修改：n對(duì)n步Q-learning的更好的值；額外添加了一層CNN層到模型，這使得訓(xùn)練速度更慢但更好；DQN目標(biāo)更新間隔更短。此外，團(tuán)隊(duì)還嘗試與Rainbow進(jìn)行聯(lián)合訓(xùn)練，但發(fā)現(xiàn)這樣做實(shí)際上降低了性能。

代碼：https://github.com/xupe/mistake-in-retro-contest-of-OpenAI

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

阿里巴巴

阿里巴巴

+關(guān)注

關(guān)注
7

文章
1637

瀏覽量
48107
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8493

瀏覽量
134168
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
269

瀏覽量
11525

原文標(biāo)題：OpenAI首屆遷移學(xué)習(xí)競(jìng)賽，南大阿里團(tuán)隊(duì)奪冠，中科院第二

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

OpenAI舉辦的首屆遷移學(xué)習(xí)競(jìng)賽Retro Contest結(jié)束

評(píng)論

電子發(fā)燒友