色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenAI舉辦的首屆遷移學習競賽Retro Contest結束

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-06-26 11:33 ? 次閱讀

OpenAI舉辦的首屆遷移學習競賽Retro Contest結束,在全部229支隊伍里,來自中國的團隊獲得了冠亞軍。冠軍是一個6人團隊,其中有南京大學和阿里巴巴搜索事業部的研究人員;亞軍是中科院的兩名研究生。

這個競賽的目標,是評估強化學習算法從以往的經驗中泛化的能力。具體說,就是讓AI玩視頻游戲《刺猬索尼克》,這是世嘉公司開發的一款競速式2D動作游戲,其基本上模擬馬里奧的游戲方式,玩家在盡可能短的時間內到達目的地,索尼克可以通過不停加速來快速完成關卡。最后可能需要對抗BOSS。

冠軍方案展示:由南大和阿里研究人員組成的Dharmaraja隊的agent,學習穿越游戲中海洋廢墟區域(Aquatic Ruin Zone)。Agent已經在游戲的其他關進行過預訓練,但這是第一次遇到這一關。

OpenAI的這個競賽Retro Contest從2018年4月5日發布,持續時間為2個月。開始有923支隊伍報名,但最終只有229個提交了解決方案。OpenAI的自動評估系統對這些結果進行了評估。為了避免參賽者擬合數據集,評審時使用了完全不同的數據集。此外,OpenAI還將前十名的最終提交結果進行了再測試,讓這些agents在11個由游戲設計師特別設計的關卡中,分別進行了3次測試,每次都從環境中隨機生成初始狀態。最終得到的排名如下:

前五名排名

其中,冠軍Dharmaraja在測試和評審中始終排名第一,mistake以微弱的優勢戰勝aborg取得第二。這張圖顯示了排名前三的三個方案的agent在同一個關卡學習的情況。紅點代表初期,藍點代表后期。從上到下分別是Dharmaraja、aborg和mistake。

所有關卡平均下來,這幾支隊伍的學習曲線是這樣的:

值得注意的是,Dharmaraja和aborg在開始階段分數相近,而mistake的則要低很多。這是因為前兩支隊伍的方法,是對預訓練網絡進行微調(使用PPO),而mistake則是從零開始訓練(使用Rainbow DQN)。mistake的學習曲線提前結束,是因為他們在12小時的時候時間用完了。

OpenAI對這次的競賽的評價是,從整體看,雖然參賽隊伍嘗試了很多方法,但主要的結果都來自對現有算法(如PPO和Rainbow)的微調或擴展。同時,結果也顯示了我們還有很長的路要走:訓練后AI玩的最高成績是4,692分,而理論最好成績是10,000分。

但是,獲勝的解決方案是一般的機器學習方法,而不是針對這次競賽進行的hacking,表明作弊是不可能的,也就證實了OpenAI的Sonic基準是機器學習研究界一個值得去關注的問題。

獲獎團隊及方案:PPO和Rainbow優化

Dharmaraja(法王)是一個6人組成的團隊:Qing Da、Jing-Cheng Shi、Anxiang Zeng、Guangda Huzhang、Run-Ze Li 和 Yang Yu。其中,Qing Da和Anxiang Zeng來自阿里巴巴搜索事業部AI團隊,他們最近與南京大學副教授Yang Yu合作,研究如何將強化學習用于現實世界問題,尤其是電子商務場景。

Dharmaraja的解決方案是聯合PPO的變體。PPO(proximal policy optimization,近端策略優化算法),是此前OpenAI為強化學習提出的一類新的策略梯度法,可以通過與環境的交互在樣本數據中進行轉換,使用隨機梯度下降優化替代目標函數(surrogate objective function)。標準的策略梯度法是在每一個數據樣本上執行一次梯度更新,而PPO的新目標函數可以在多個訓練步驟(epoch)中實現小批量(minibatch)的更新。PPO 擁有置信域策略優化(TRPO)的一些好處,但更加容易實現,也更通用,并且有更好的樣本復雜度。OpenAI研究人員認為,考慮到總體的復雜度、操作簡便性和 wall-time,PPO 是比在線策略梯度法更好的選擇。

在PPO的基礎上,Dharmaraja的解決方案做了一些改進。首先,使用RGB圖像而不是灰度圖做輸入。其次,使用了稍微擴大的動作空間,并使用更常見的按鈕組合。第三,使用了增強獎勵功能,獎勵agent訪問新的狀態(根據屏幕的感知散列來判斷)。

除了這些改進外,團隊還嘗試了許多東西,比如DeepMimic,使用YOLO進行對象檢測,以及一些針對索尼克游戲的特定想法。不過這些方法并沒有特別起效。

代碼:https://github.com/eyounx/RetroCodes

Mistake

Mistake隊有兩名成員,Peng Xu和Qiaoling Zhong。他們都是研二的學生,來自中國科學院網絡數據科學與技術重點實驗室。

他們的解決方案是基于Rainbow基準。Rainbow是DeepMind對DQN算法進行的組合改良。DeepMind的實驗表明,從數據效率和最終性能方面來說,Rainbow能夠在Atari 2600基準上提供最為先進的性能。

Mistake團隊進行了一些有助于提升性能的修改:n對n步Q-learning的更好的值;額外添加了一層CNN層到模型,這使得訓練速度更慢但更好;DQN目標更新間隔更短。此外,團隊還嘗試與Rainbow進行聯合訓練,但發現這樣做實際上降低了性能。

代碼:https://github.com/xupe/mistake-in-retro-contest-of-OpenAI

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 阿里巴巴
    +關注

    關注

    7

    文章

    1613

    瀏覽量

    47168
  • 機器學習
    +關注

    關注

    66

    文章

    8406

    瀏覽量

    132565
  • 強化學習
    +關注

    關注

    4

    文章

    266

    瀏覽量

    11246

原文標題:OpenAI首屆遷移學習競賽,南大阿里團隊奪冠,中科院第二

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    遷移學習的原理,基于Keras實現遷移學習

    我面對的大多數計算機視覺問題沒有非常大的數據集(5000-40000圖像)。即使使用極端的數據增強策略,也很難達到像樣的精確度。而在少量數據集上訓練數百萬參數的網絡通常會導致過擬合。所以遷移學習是我的救星。
    的頭像 發表于 05-09 03:44 ?1.5w次閱讀
    <b class='flag-5'>遷移</b><b class='flag-5'>學習</b>的原理,基于Keras實現<b class='flag-5'>遷移</b><b class='flag-5'>學習</b>

    學校舉辦嵌入式物聯網競賽,需要確定一個課題,求大神們給點兒建議!

    學校舉辦嵌入式物聯網競賽,需要確定一個課題,一點思路都沒有,求大神們給點兒建議!
    發表于 11-20 21:15

    遷移學習訓練網絡

    keras 之 遷移學習,改變VGG16輸出層,用imagenet權重retrain
    發表于 09-09 11:02

    遷移學習

    經典機器學習算法介紹章節目標:機器學習是人工智能的重要技術之一,詳細了解機器學習的原理、機制和方法,為學習深度學習
    發表于 04-21 15:15

    我國首屆人工智能·多媒體信息識別技術競賽啟動儀式在京召開

    中國青年網北京3月21日電(記者 郭凱薇)3月20日,首屆中國人工智能·多媒體信息識別技術競賽啟動儀式暨新聞發布會在北京召開。據悉,競賽旨在打造國內具有權威性和國際水準的人工智能領域競賽
    發表于 03-22 08:34 ?1380次閱讀

    首屆國網北京電力人工智能數據競賽正式啟動

    為深入貫徹黨中央國務院關于加快發展數字經濟的戰略部署,全面落實習近平總書記提出的科技創新具有引領國家發展的重要戰略意義,要大力推動科技創新在實際生產中的落地應用的要求,國網北京市電力公司舉辦首屆
    的頭像 發表于 12-02 15:57 ?1733次閱讀

    騰訊宣布其人工智能球隊獲首屆谷歌足球Kaggle競賽冠軍

    12月30日,騰訊宣布其人工智能球隊摘得了首屆谷歌足球Kaggle競賽冠軍。這是一場由Google Research與英超曼城俱樂部在Kaggle平臺上聯合舉辦的足球AI比賽,經過多輪角逐,騰訊AI Lab研發的絕悟WeKick
    的頭像 發表于 12-30 15:58 ?1893次閱讀

    ESPlay Retro Emulation復古模擬游戲機

    ./oschina_soft/esplay-retro-emulation.zip
    發表于 06-21 11:32 ?1次下載
    ESPlay <b class='flag-5'>Retro</b> Emulation復古模擬游戲機

    一文詳解遷移學習

    遷移學習需要將預訓練好的模型適應新的下游任務。然而,作者觀察到,當前的遷移學習方法通常無法關注與任務相關的特征。在這項工作中,作者探索了重新聚焦模型注意力以進行
    的頭像 發表于 08-11 16:56 ?6320次閱讀
    一文詳解<b class='flag-5'>遷移</b><b class='flag-5'>學習</b>

    商密大會傳捷報|海泰方圓喜獲首屆“熵密杯”密碼應用安全競賽優勝獎

    8月10日,國內首屆“熵密杯”密碼應用安全競賽在“2023商用密碼大會”期間隆重舉辦。本次競賽是貫徹落實《中華人民共和國密碼法》和新修訂的《商用密碼管理條例》的具體舉措和創新實踐,旨在
    的頭像 發表于 08-15 16:37 ?886次閱讀
    商密大會傳捷報|海泰方圓喜獲<b class='flag-5'>首屆</b>“熵密杯”密碼應用安全<b class='flag-5'>競賽</b>優勝獎

    視覺深度學習遷移學習訓練框架Torchvision介紹

    Torchvision是基于Pytorch的視覺深度學習遷移學習訓練框架,當前支持的圖像分類、對象檢測、實例分割、語義分割、姿態評估模型的遷移學習
    的頭像 發表于 09-22 09:49 ?899次閱讀
    視覺深度<b class='flag-5'>學習</b><b class='flag-5'>遷移</b><b class='flag-5'>學習</b>訓練框架Torchvision介紹

    OpenAI首屆開發者日舉辦,新模型實現六大升級

     openai最初提供32k的上下文長度,而gpt-4 turbo則提供128k,相當于300頁文檔。openai還為開發者提供了更好的api、函數調用、一次調用多個函數并將響應整合到消息輸出中的控制功能。
    的頭像 發表于 11-08 09:59 ?590次閱讀

    高能回顧 | 首屆OpenHarmony競賽訓練營精彩瞬間

    點擊藍字 ╳ 關注我們 開源項目 OpenHarmony 是每個人的 OpenHarmony 首屆OpenAtom OpenHarmony(以下簡稱“OpenHarmony”)競賽訓練營線下決賽成功
    的頭像 發表于 11-11 21:10 ?489次閱讀

    深圳舉辦首屆網絡創新發展峰會,OpenAI市值突破1000億美元

    大家好,歡迎收看河套 IT WALK 第 132 期。 今天,首屆網絡創新發展峰會在深圳舉辦;AI領域的翹楚——OpenAI市值在資本市場上突破了重要里程碑,超過1000億美元。 首屆
    的頭像 發表于 12-25 19:50 ?1014次閱讀
    深圳<b class='flag-5'>舉辦</b><b class='flag-5'>首屆</b>網絡創新發展峰會,<b class='flag-5'>OpenAI</b>市值突破1000億美元

    預訓練和遷移學習的區別和聯系

    預訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念,它們在提高模型性能、減少訓練時間和降低對數據量的需求方面發揮著關鍵作用。本文將從定義、原理、應用、區別和聯系等方面詳細探討預訓
    的頭像 發表于 07-11 10:12 ?1015次閱讀
    主站蜘蛛池模板: 亚洲欧洲免费三级网站| 欧美日韩精品| 白人大战34厘米黑人BD| 偷拍精品视频一区二区三区| 国产小视频免费看| 在线视频 亚洲| 飘雪在线观看免费高清完整版韩国| 戳女人屁股流水羞羞漫画| 亚洲精品成人在线| 美女国产毛片A区内射| 国产99r视频精品免费观看| 亚洲精品在线看| 你的欲梦裸身在线播放| 国产福利视频在线观看福利| 一手揉着乳头一手模仿抽插视频| 欧美人妇无码精品久久| 国产人妻精品久久久久久很牛| 正在播放一区二区| 日韩精品真人荷官无码| 精品久久伦理中文字幕| aaa在线观看视频高清视频| 午夜福利电影| 美女在线永久免费网站| 国产精品久久久久AV麻豆| 最近的中文字幕免费完整| 色愁愁久久久| 久久综合久综合久久鬼色| 动漫女主被扒开双腿羞辱| 一个人免费视频在线观看高清版| 人妻激情综合久久久久蜜桃| 狠狠色狠色综合曰曰| YELLOW在线观看高清视频免费| 亚洲看片网站| 日本中文字幕伊人成中文字幕| 精品久久久久中文字幕加勒比东京热| www.av天堂网.com| 亚洲色欲H网在线观看| 日本无码免费久久久精品| 久久精品热在线观看30| 福利啪啪吧| 90后性爱视频|