色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI舉辦的首屆遷移學(xué)習(xí)競(jìng)賽Retro Contest結(jié)束

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-06-26 11:33 ? 次閱讀

OpenAI舉辦的首屆遷移學(xué)習(xí)競(jìng)賽Retro Contest結(jié)束,在全部229支隊(duì)伍里,來(lái)自中國(guó)的團(tuán)隊(duì)獲得了冠亞軍。冠軍是一個(gè)6人團(tuán)隊(duì),其中有南京大學(xué)和阿里巴巴搜索事業(yè)部的研究人員;亞軍是中科院的兩名研究生。

這個(gè)競(jìng)賽的目標(biāo),是評(píng)估強(qiáng)化學(xué)習(xí)算法從以往的經(jīng)驗(yàn)中泛化的能力。具體說(shuō),就是讓AI玩視頻游戲《刺猬索尼克》,這是世嘉公司開(kāi)發(fā)的一款競(jìng)速式2D動(dòng)作游戲,其基本上模擬馬里奧的游戲方式,玩家在盡可能短的時(shí)間內(nèi)到達(dá)目的地,索尼克可以通過(guò)不停加速來(lái)快速完成關(guān)卡。最后可能需要對(duì)抗BOSS。

冠軍方案展示:由南大和阿里研究人員組成的Dharmaraja隊(duì)的agent,學(xué)習(xí)穿越游戲中海洋廢墟區(qū)域(Aquatic Ruin Zone)。Agent已經(jīng)在游戲的其他關(guān)進(jìn)行過(guò)預(yù)訓(xùn)練,但這是第一次遇到這一關(guān)。

OpenAI的這個(gè)競(jìng)賽Retro Contest從2018年4月5日發(fā)布,持續(xù)時(shí)間為2個(gè)月。開(kāi)始有923支隊(duì)伍報(bào)名,但最終只有229個(gè)提交了解決方案。OpenAI的自動(dòng)評(píng)估系統(tǒng)對(duì)這些結(jié)果進(jìn)行了評(píng)估。為了避免參賽者擬合數(shù)據(jù)集,評(píng)審時(shí)使用了完全不同的數(shù)據(jù)集。此外,OpenAI還將前十名的最終提交結(jié)果進(jìn)行了再測(cè)試,讓這些agents在11個(gè)由游戲設(shè)計(jì)師特別設(shè)計(jì)的關(guān)卡中,分別進(jìn)行了3次測(cè)試,每次都從環(huán)境中隨機(jī)生成初始狀態(tài)。最終得到的排名如下:

前五名排名

其中,冠軍Dharmaraja在測(cè)試和評(píng)審中始終排名第一,mistake以微弱的優(yōu)勢(shì)戰(zhàn)勝aborg取得第二。這張圖顯示了排名前三的三個(gè)方案的agent在同一個(gè)關(guān)卡學(xué)習(xí)的情況。紅點(diǎn)代表初期,藍(lán)點(diǎn)代表后期。從上到下分別是Dharmaraja、aborg和mistake。

所有關(guān)卡平均下來(lái),這幾支隊(duì)伍的學(xué)習(xí)曲線是這樣的:

值得注意的是,Dharmaraja和aborg在開(kāi)始階段分?jǐn)?shù)相近,而mistake的則要低很多。這是因?yàn)榍皟芍ш?duì)伍的方法,是對(duì)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào)(使用PPO),而mistake則是從零開(kāi)始訓(xùn)練(使用Rainbow DQN)。mistake的學(xué)習(xí)曲線提前結(jié)束,是因?yàn)樗麄冊(cè)?2小時(shí)的時(shí)候時(shí)間用完了。

OpenAI對(duì)這次的競(jìng)賽的評(píng)價(jià)是,從整體看,雖然參賽隊(duì)伍嘗試了很多方法,但主要的結(jié)果都來(lái)自對(duì)現(xiàn)有算法(如PPO和Rainbow)的微調(diào)或擴(kuò)展。同時(shí),結(jié)果也顯示了我們還有很長(zhǎng)的路要走:訓(xùn)練后AI玩的最高成績(jī)是4,692分,而理論最好成績(jī)是10,000分。

但是,獲勝的解決方案是一般的機(jī)器學(xué)習(xí)方法,而不是針對(duì)這次競(jìng)賽進(jìn)行的hacking,表明作弊是不可能的,也就證實(shí)了OpenAI的Sonic基準(zhǔn)是機(jī)器學(xué)習(xí)研究界一個(gè)值得去關(guān)注的問(wèn)題。

獲獎(jiǎng)團(tuán)隊(duì)及方案:PPO和Rainbow優(yōu)化

Dharmaraja(法王)是一個(gè)6人組成的團(tuán)隊(duì):Qing Da、Jing-Cheng Shi、Anxiang Zeng、Guangda Huzhang、Run-Ze Li 和 Yang Yu。其中,Qing Da和Anxiang Zeng來(lái)自阿里巴巴搜索事業(yè)部AI團(tuán)隊(duì),他們最近與南京大學(xué)副教授Yang Yu合作,研究如何將強(qiáng)化學(xué)習(xí)用于現(xiàn)實(shí)世界問(wèn)題,尤其是電子商務(wù)場(chǎng)景。

Dharmaraja的解決方案是聯(lián)合PPO的變體。PPO(proximal policy optimization,近端策略優(yōu)化算法),是此前OpenAI為強(qiáng)化學(xué)習(xí)提出的一類(lèi)新的策略梯度法,可以通過(guò)與環(huán)境的交互在樣本數(shù)據(jù)中進(jìn)行轉(zhuǎn)換,使用隨機(jī)梯度下降優(yōu)化替代目標(biāo)函數(shù)(surrogate objective function)。標(biāo)準(zhǔn)的策略梯度法是在每一個(gè)數(shù)據(jù)樣本上執(zhí)行一次梯度更新,而PPO的新目標(biāo)函數(shù)可以在多個(gè)訓(xùn)練步驟(epoch)中實(shí)現(xiàn)小批量(minibatch)的更新。PPO 擁有置信域策略優(yōu)化(TRPO)的一些好處,但更加容易實(shí)現(xiàn),也更通用,并且有更好的樣本復(fù)雜度。OpenAI研究人員認(rèn)為,考慮到總體的復(fù)雜度、操作簡(jiǎn)便性和 wall-time,PPO 是比在線策略梯度法更好的選擇。

在PPO的基礎(chǔ)上,Dharmaraja的解決方案做了一些改進(jìn)。首先,使用RGB圖像而不是灰度圖做輸入。其次,使用了稍微擴(kuò)大的動(dòng)作空間,并使用更常見(jiàn)的按鈕組合。第三,使用了增強(qiáng)獎(jiǎng)勵(lì)功能,獎(jiǎng)勵(lì)agent訪問(wèn)新的狀態(tài)(根據(jù)屏幕的感知散列來(lái)判斷)。

除了這些改進(jìn)外,團(tuán)隊(duì)還嘗試了許多東西,比如DeepMimic,使用YOLO進(jìn)行對(duì)象檢測(cè),以及一些針對(duì)索尼克游戲的特定想法。不過(guò)這些方法并沒(méi)有特別起效。

代碼:https://github.com/eyounx/RetroCodes

Mistake

Mistake隊(duì)有兩名成員,Peng Xu和Qiaoling Zhong。他們都是研二的學(xué)生,來(lái)自中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室。

他們的解決方案是基于Rainbow基準(zhǔn)。Rainbow是DeepMind對(duì)DQN算法進(jìn)行的組合改良。DeepMind的實(shí)驗(yàn)表明,從數(shù)據(jù)效率和最終性能方面來(lái)說(shuō),Rainbow能夠在Atari 2600基準(zhǔn)上提供最為先進(jìn)的性能。

Mistake團(tuán)隊(duì)進(jìn)行了一些有助于提升性能的修改:n對(duì)n步Q-learning的更好的值;額外添加了一層CNN層到模型,這使得訓(xùn)練速度更慢但更好;DQN目標(biāo)更新間隔更短。此外,團(tuán)隊(duì)還嘗試與Rainbow進(jìn)行聯(lián)合訓(xùn)練,但發(fā)現(xiàn)這樣做實(shí)際上降低了性能。

代碼:https://github.com/xupe/mistake-in-retro-contest-of-OpenAI

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:OpenAI首屆遷移學(xué)習(xí)競(jìng)賽,南大阿里團(tuán)隊(duì)奪冠,中科院第二

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    遷移學(xué)習(xí)的原理,基于Keras實(shí)現(xiàn)遷移學(xué)習(xí)

    我面對(duì)的大多數(shù)計(jì)算機(jī)視覺(jué)問(wèn)題沒(méi)有非常大的數(shù)據(jù)集(5000-40000圖像)。即使使用極端的數(shù)據(jù)增強(qiáng)策略,也很難達(dá)到像樣的精確度。而在少量數(shù)據(jù)集上訓(xùn)練數(shù)百萬(wàn)參數(shù)的網(wǎng)絡(luò)通常會(huì)導(dǎo)致過(guò)擬合。所以遷移學(xué)習(xí)是我的救星。
    的頭像 發(fā)表于 05-09 03:44 ?1.5w次閱讀
    <b class='flag-5'>遷移</b><b class='flag-5'>學(xué)習(xí)</b>的原理,基于Keras實(shí)現(xiàn)<b class='flag-5'>遷移</b><b class='flag-5'>學(xué)習(xí)</b>

    學(xué)校舉辦嵌入式物聯(lián)網(wǎng)競(jìng)賽,需要確定一個(gè)課題,求大神們給點(diǎn)兒建議!

    學(xué)校舉辦嵌入式物聯(lián)網(wǎng)競(jìng)賽,需要確定一個(gè)課題,一點(diǎn)思路都沒(méi)有,求大神們給點(diǎn)兒建議!
    發(fā)表于 11-20 21:15

    遷移學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)

    keras 之 遷移學(xué)習(xí),改變VGG16輸出層,用imagenet權(quán)重retrain
    發(fā)表于 09-09 11:02

    遷移學(xué)習(xí)

    經(jīng)典機(jī)器學(xué)習(xí)算法介紹章節(jié)目標(biāo):機(jī)器學(xué)習(xí)是人工智能的重要技術(shù)之一,詳細(xì)了解機(jī)器學(xué)習(xí)的原理、機(jī)制和方法,為學(xué)習(xí)深度學(xué)習(xí)
    發(fā)表于 04-21 15:15

    我國(guó)首屆人工智能·多媒體信息識(shí)別技術(shù)競(jìng)賽啟動(dòng)儀式在京召開(kāi)

    中國(guó)青年網(wǎng)北京3月21日電(記者 郭凱薇)3月20日,首屆中國(guó)人工智能·多媒體信息識(shí)別技術(shù)競(jìng)賽啟動(dòng)儀式暨新聞發(fā)布會(huì)在北京召開(kāi)。據(jù)悉,競(jìng)賽旨在打造國(guó)內(nèi)具有權(quán)威性和國(guó)際水準(zhǔn)的人工智能領(lǐng)域競(jìng)賽
    發(fā)表于 03-22 08:34 ?1447次閱讀

    首屆國(guó)網(wǎng)北京電力人工智能數(shù)據(jù)競(jìng)賽正式啟動(dòng)

    為深入貫徹黨中央國(guó)務(wù)院關(guān)于加快發(fā)展數(shù)字經(jīng)濟(jì)的戰(zhàn)略部署,全面落實(shí)習(xí)近平總書(shū)記提出的科技創(chuàng)新具有引領(lǐng)國(guó)家發(fā)展的重要戰(zhàn)略意義,要大力推動(dòng)科技創(chuàng)新在實(shí)際生產(chǎn)中的落地應(yīng)用的要求,國(guó)網(wǎng)北京市電力公司舉辦首屆國(guó)
    的頭像 發(fā)表于 12-02 15:57 ?1949次閱讀

    騰訊宣布其人工智能球隊(duì)獲首屆谷歌足球Kaggle競(jìng)賽冠軍

    12月30日,騰訊宣布其人工智能球隊(duì)摘得了首屆谷歌足球Kaggle競(jìng)賽冠軍。這是一場(chǎng)由Google Research與英超曼城俱樂(lè)部在Kaggle平臺(tái)上聯(lián)合舉辦的足球AI比賽,經(jīng)過(guò)多輪角逐,騰訊AI Lab研發(fā)的絕悟WeKick
    的頭像 發(fā)表于 12-30 15:58 ?2048次閱讀

    ESPlay Retro Emulation復(fù)古模擬游戲機(jī)

    ./oschina_soft/esplay-retro-emulation.zip
    發(fā)表于 06-21 11:32 ?2次下載
    ESPlay <b class='flag-5'>Retro</b> Emulation復(fù)古模擬游戲機(jī)

    一文詳解遷移學(xué)習(xí)

    遷移學(xué)習(xí)需要將預(yù)訓(xùn)練好的模型適應(yīng)新的下游任務(wù)。然而,作者觀察到,當(dāng)前的遷移學(xué)習(xí)方法通常無(wú)法關(guān)注與任務(wù)相關(guān)的特征。在這項(xiàng)工作中,作者探索了重新聚焦模型注意力以進(jìn)行
    的頭像 發(fā)表于 08-11 16:56 ?7033次閱讀
    一文詳解<b class='flag-5'>遷移</b><b class='flag-5'>學(xué)習(xí)</b>

    商密大會(huì)傳捷報(bào)|海泰方圓喜獲首屆“熵密杯”密碼應(yīng)用安全競(jìng)賽優(yōu)勝獎(jiǎng)

    8月10日,國(guó)內(nèi)首屆“熵密杯”密碼應(yīng)用安全競(jìng)賽在“2023商用密碼大會(huì)”期間隆重舉辦。本次競(jìng)賽是貫徹落實(shí)《中華人民共和國(guó)密碼法》和新修訂的《商用密碼管理?xiàng)l例》的具體舉措和創(chuàng)新實(shí)踐,旨在
    的頭像 發(fā)表于 08-15 16:37 ?1138次閱讀
    商密大會(huì)傳捷報(bào)|海泰方圓喜獲<b class='flag-5'>首屆</b>“熵密杯”密碼應(yīng)用安全<b class='flag-5'>競(jìng)賽</b>優(yōu)勝獎(jiǎng)

    視覺(jué)深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架Torchvision介紹

    Torchvision是基于Pytorch的視覺(jué)深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架,當(dāng)前支持的圖像分類(lèi)、對(duì)象檢測(cè)、實(shí)例分割、語(yǔ)義分割、姿態(tài)評(píng)估模型的遷移學(xué)習(xí)
    的頭像 發(fā)表于 09-22 09:49 ?1221次閱讀
    視覺(jué)深度<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>遷移</b><b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練框架Torchvision介紹

    OpenAI首屆開(kāi)發(fā)者日舉辦,新模型實(shí)現(xiàn)六大升級(jí)

     openai最初提供32k的上下文長(zhǎng)度,而gpt-4 turbo則提供128k,相當(dāng)于300頁(yè)文檔。openai還為開(kāi)發(fā)者提供了更好的api、函數(shù)調(diào)用、一次調(diào)用多個(gè)函數(shù)并將響應(yīng)整合到消息輸出中的控制功能。
    的頭像 發(fā)表于 11-08 09:59 ?770次閱讀

    高能回顧 | 首屆OpenHarmony競(jìng)賽訓(xùn)練營(yíng)精彩瞬間

    點(diǎn)擊藍(lán)字 ╳ 關(guān)注我們 開(kāi)源項(xiàng)目 OpenHarmony 是每個(gè)人的 OpenHarmony 首屆OpenAtom OpenHarmony(以下簡(jiǎn)稱(chēng)“OpenHarmony”)競(jìng)賽訓(xùn)練營(yíng)線下決賽成功
    的頭像 發(fā)表于 11-11 21:10 ?612次閱讀

    深圳舉辦首屆網(wǎng)絡(luò)創(chuàng)新發(fā)展峰會(huì),OpenAI市值突破1000億美元

    大家好,歡迎收看河套 IT WALK 第 132 期。 今天,首屆網(wǎng)絡(luò)創(chuàng)新發(fā)展峰會(huì)在深圳舉辦;AI領(lǐng)域的翹楚——OpenAI市值在資本市場(chǎng)上突破了重要里程碑,超過(guò)1000億美元。 首屆
    的頭像 發(fā)表于 12-25 19:50 ?1228次閱讀
    深圳<b class='flag-5'>舉辦</b><b class='flag-5'>首屆</b>網(wǎng)絡(luò)創(chuàng)新發(fā)展峰會(huì),<b class='flag-5'>OpenAI</b>市值突破1000億美元

    預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

    預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念,它們?cè)谔岣吣P托阅?、減少訓(xùn)練時(shí)間和降低對(duì)數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定義、原理、應(yīng)用、區(qū)別和聯(lián)系等方面詳細(xì)探討預(yù)訓(xùn)
    的頭像 發(fā)表于 07-11 10:12 ?1927次閱讀
    主站蜘蛛池模板: 亚色九九九全国免费视频 | 国产极品美女视频福利 | 欧美一级成人影院免费的 | 国产AV精品一区二区三区漫画 | 妺妺窝人体色WWW偷窥女厕 | 99re8久久热在线视频 | 国产午夜免费不卡精品理论片 | 亚洲日韩有码无线免费 | 日本电影护士 | 久久久久久久久女黄 | 嗯好舒服嗯好大好猛好爽 | 久久三级视频 | 果冻传媒在线观看资源七夕 | 欧美互交人妖247 | 最近最新中文字幕MV高清在线 | 在线观看亚洲AV无码每日更新 | 人妻满熟妇AV无码区国产 | 岛国大片在线播放免费 | 国内极度色诱视频网站 | 亚洲视频无码中字在线 | 偷偷鲁手机在线播放AV | 国产人妻麻豆蜜桃色在线 | 欧美性情一线免费http | 99久久精品免费看国产免费 | 中文字幕亚洲综合小综合在线 | 极品内射少妇精品无码视频 | 久久视频这只精品99re6 | 亚洲国产中文在线视频免费 | 国产树林野战在线播放 | 蜜芽TV影院在线视频 | 51精品国产AV无码久久久 | 亚洲精品久久久久一区二区三 | 国产不卡视频在线 | 亚洲AV久久无码精品九号 | 伦理片在线线249 | 99久久综合国产精品免费 | 在线高清视频不卡无码 | 一区二区中文字幕在线观看 | 国产日韩精品一区二区三区在线 | 久久毛片免费看一区二区三区 | 伸进同桌奶罩里摸她胸作文 |

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品