色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind和OpenAI攻克蒙特祖瑪?shù)膹?fù)仇并沒有看上去意義那么重大

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-07-24 10:01 ? 次閱讀

《蒙特祖瑪?shù)膹?fù)仇》是一個出了名困難的游戲,是強化學(xué)習(xí)的一大挑戰(zhàn)。本文作者長期從事深度強化學(xué)習(xí)研究,他認為DeepMind和OpenAI攻克蒙特祖瑪?shù)膹?fù)仇并沒有看上去意義那么重大,深度強化學(xué)習(xí)的長期目標是讓智能體具備先驗知識,可以從零開始玩游戲。

最近,DeepMind和OpenAI都宣布他們開發(fā)了可以學(xué)習(xí)完成Atari 2600游戲《蒙特祖瑪?shù)膹?fù)仇》第一關(guān)的智能體。他們這些宣稱很重要,因為《蒙特祖瑪?shù)膹?fù)仇》這個游戲?qū)τ贏I研究來說很重要。與街機學(xué)習(xí)環(huán)境(Arcade Learning Environment,ALE)里的絕大多數(shù)游戲不同,大多數(shù)游戲現(xiàn)在很容易被利用深度學(xué)習(xí)的agent解決掉,達到超越人類水平的表現(xiàn)。但《蒙特祖瑪?shù)膹?fù)仇》一直沒有被深度強化學(xué)習(xí)方法解決,而且被一些人認為在未來的幾年里都無法解決。

蒙特祖瑪?shù)膹?fù)仇的第一個房間

蒙特祖瑪?shù)膹?fù)仇與ALE中其他游戲的區(qū)別在于,它的獎勵(rewards)相對少。這意味著agent只在長時間完成特定的一系列動作之后才會收到獎勵信號。在蒙特祖瑪?shù)膹?fù)仇的第一個房間里(見上圖1),這意味著agent要從梯子上下來,用繩子跳過一個空地,從另一個梯子下來,跳過一個會移動的敵人,最后還要爬上另一個梯子。所有這些只是為了在第一個房間里拿到第一把鑰匙!

在游戲的第一關(guān),有23個這樣的房間,agent要在這些房間里拿到所有鑰匙,才能完成這個關(guān)卡(見圖2)。更復(fù)雜的是,游戲中導(dǎo)致失敗的條件也相當嚴格,agent會由于很多可能的事件導(dǎo)致死亡,其中最累人的是從高的地方墜落。不熟悉這個游戲的人可以試著玩一下,看看你要花多長時間才能通過第一個房間,更不用說通過第一個關(guān)卡了。

蒙特祖瑪?shù)膹?fù)仇第一關(guān)

由于難度太高,《蒙特祖瑪?shù)膹?fù)仇》游戲被視為Deep RL方法的一大挑戰(zhàn)。事實上,這款游戲激發(fā)了一些更有趣的方法的開發(fā),這些方法可以對傳統(tǒng)的Deep RL算法進行增強或重構(gòu),利用新的方法進行分層控制、探索和體驗回放。因此,當DeepMind和OpenAI各自聲稱已經(jīng)開發(fā)出能夠如此出色地玩這個游戲的算法時,就成了大新聞(至少在有些領(lǐng)域是如此)。

DeepMind和OpenAI在這個游戲到底達到了多厲害的水平呢?是這樣先前的技術(shù)最高水平是2600分(DeepMind的FuN模型),而新方法可以達到數(shù)萬分。從工程和理論的角度來看,所有這三種方法都得到了令人印象深刻的結(jié)果,所有方法都需要學(xué)習(xí)。

但是,用深度強化學(xué)習(xí)來解決蒙特祖瑪?shù)膹?fù)仇的說法并不像它們看起來的那樣。在這三種情況下(DeepMind的兩篇論文和OpenAI的一篇博客文章),使用人類專家演示都是他們的算法的一個組成部分,這從根本上改變了學(xué)習(xí)問題的本質(zhì)。

在這篇文章中,我想討論的是,這些方法是為了解決蒙特祖瑪?shù)膹?fù)仇游戲的第一個關(guān)卡,以及為什么在游戲環(huán)境以及Deep RL的長期目標中,這些方法并沒有看上去意義重大。最后,我將簡要地討論一下這個出了名困難的游戲中真正重大的結(jié)果是什么,這將為這個領(lǐng)域指明前進的方向。

DeepMind的結(jié)果:從YouTube學(xué)習(xí)和Q-Learning

從YouTube學(xué)習(xí)

DeepMind在5月份發(fā)布了一篇引人注目的論文“通過觀看YouTube來玩困難的探索游戲”(Playing hard exploration games by watching YouTube),里面提出了我們今天介紹的解決蒙特祖瑪?shù)膹?fù)仇的三種方法中最有趣的一種。正如題目所示,研究小組設(shè)計了一種方法,可以使用專業(yè)玩家通關(guān)游戲第一關(guān)的視頻來輔助學(xué)習(xí)過程。

“從視頻學(xué)習(xí)”這個問題本身就是一個有趣的挑戰(zhàn),完全超出了游戲本身的挑戰(zhàn)。正如作者所指出的,在YouTube上發(fā)現(xiàn)的視頻包含了各種各樣的artifacts,它們可以阻止在視頻中發(fā)生的事情與在ALE中玩游戲的agent可能觀察到的事情之間進行映射。為了解決這一“差距”,他們創(chuàng)建了一種方法,能夠?qū)τ螒驙顟B(tài)(視覺的和聽覺的)的觀察結(jié)果嵌入到一個共同的嵌入空間中。

不同的演示視頻和模擬器圖像的比較

然后,利用這個嵌入空間為學(xué)習(xí)智能體提供獎勵。agent不再只接受原始游戲提供的稀疏獎勵,而是還能獲得中間獎勵,該中間獎勵對應(yīng)于沿著專家玩家提供的路徑到達檢查點。通過這種方式,agent可以獲得更強的學(xué)習(xí)信號,最終以41000的分數(shù)通過了游戲的第一關(guān)。

Q-Learning

大約在YouTube論文發(fā)表的同時,DeepMind分享了另一組實驗的結(jié)果,這次的論文標題不那么引人注目:“Observe and Look Further: Achieving Consistent Performance on Atari”。

在論文中,他們提出一系列有趣的算法改進Deep Q-learning,提高算法的穩(wěn)定性和能力。第一個是在Q-update中增加折扣因子(discount factor),這樣就可以學(xué)習(xí)更長期的時間依賴性,而不需要考慮高折扣因子的典型缺點。第二種方法是使Deep Q-learning能夠解釋不同數(shù)量級的獎勵信號,從而使算法能夠解決最優(yōu)策略涉及學(xué)習(xí)這些不同獎勵的任務(wù)。

除了這兩項改進之外,他們還建議使用人類演示(human demonstrations)作為增強探索過程的一種手段,自動向網(wǎng)絡(luò)提供專業(yè)玩家會遵循的狀態(tài)空間軌跡的信息。結(jié)合這三種改進,作者最終得到一個能夠以38000分的成績完成蒙特祖瑪?shù)膹?fù)仇第一關(guān)的agent。值得注意的是,只使用前兩項改進(沒有人類演示)不足以在游戲中獲得矚目的表現(xiàn),得分只有2000多分。

OpenAI的結(jié)果:近端策略優(yōu)化

訓(xùn)練期間使用restart

在DeepMind的結(jié)果發(fā)表幾周后,OpenAI發(fā)布了一篇博客文章,描述了一種也可以訓(xùn)練智能體完成蒙特祖瑪?shù)膹?fù)仇第一關(guān)的方法。該方法也依賴于人類的演示,但他們的方法與DeepMind的方法稍有不同。

在OpenAI的方法中,人類演示不是作為獎勵或?qū)W習(xí)信號的一部分,而是作為智能體重新啟動(restart)的一種手段。在游戲中給定人類專家的移動軌跡,agent在游戲接近尾聲時啟動,然后在每次重新啟動的過程中緩慢地往回移動軌跡。這樣做的好處是,僅將agent暴露給游戲中人類玩家已經(jīng)探索過的部分,并隨著agent本身變得更強而擴大范圍。因為使用了默認的近端策略優(yōu)化(PPO算法),這種方法對實際學(xué)習(xí)算法沒有任何改變。只要在“正確”的位置啟動agent,就足以確保它找到正確的解決方案,最終,該方法獲得了歷史最高的74500分。

模仿學(xué)習(xí)的局限性

上述所有方法都有一個共同點,就是它們都使用了一組人類專家的演示。第一種方法利用演示來學(xué)習(xí)獎勵信號,第二種方法利用演示來學(xué)習(xí)更準確的Q值,第三種方法利用演示來更智能地重新啟動agent。在這三種情況下,演示對學(xué)習(xí)過程都至關(guān)重要。一般來說,使用演示是為agent提供關(guān)于任務(wù)的有意義的知識的好方法。實際上,這就是我們?nèi)祟惸軌驅(qū)W習(xí)無數(shù)任務(wù)的方法。人類從演示中學(xué)習(xí)的能力的關(guān)鍵是,我們能夠?qū)蝹€演示進行抽象和歸納,并在新的情況中利用。就《蒙特祖瑪?shù)膹?fù)仇》這個游戲而言,與其開發(fā)一種通用的游戲解決方案(如DeepMind的兩篇論文所指出的那樣),真正被開發(fā)出來的是一種利用游戲的關(guān)鍵弱點作為實驗平臺的聰明方法:游戲的確定性(determinism)。

不管是人類還是AI智能體,每次玩《蒙特祖瑪?shù)膹?fù)仇》時,都會看到很多完全相同的房間,每個房間都有完全相同的障礙和謎題。因此,對每個房間里的動作進行簡單的記憶就足以讓你獲得高分,并且能夠通過這一關(guān)。雖然如果智能體被迫從頭開始學(xué)習(xí)不一定是明顯的缺陷,但當這種情況加入了專家演示時,就變成了一個缺陷。這三種解決方案都利用了游戲的確定性,使智能體能夠更輕松地學(xué)習(xí)解決方案的路徑。最終它學(xué)到的不是如何玩困難的游戲,而是如何執(zhí)行預(yù)先確定的一套動作,以完成特定的游戲。

OpenAI的博客文章簡要地提到了確定性的問題,但它是在Atari 模擬器本身的層面,而不是在特定的游戲?qū)用?。他們的解決方案是使用一個隨機的跳幀控制(frame-skip)來阻止agent記住軌跡。雖然這阻止了agent記憶一系列的動作,但它并不阻止通過狀態(tài)空間來記憶一般軌跡。

在所有這些情況下,《蒙特祖瑪?shù)膹?fù)仇》這個游戲不再是稀疏獎勵問題的一個很難解決的問題,而是變成了通過固定的狀態(tài)空間學(xué)習(xí)軌跡一個更容易的問題。這是令人遺憾的,因為在最初的構(gòu)想中,這個游戲仍然可能為深度強化學(xué)習(xí)的研究者提供更具吸引力的挑戰(zhàn)。

解決蒙特祖瑪?shù)膹?fù)仇——艱難的道路

幾年來,我一直密切關(guān)注著蒙特祖瑪?shù)膹?fù)仇的結(jié)果,因為我把它們看作是一種試金石,用來檢驗深度強化學(xué)習(xí)是否開始顯示出更一般的推理和學(xué)習(xí)能力的跡象。許多結(jié)果表明,給定足夠的計算能力,深度強化學(xué)習(xí),甚至隨機搜索都能解決簡單的優(yōu)化問題。然而,許多研究人員對人類水平的智能感興趣,而這不僅是簡單的優(yōu)化。它涉及在多個抽象層次上學(xué)習(xí)和推理概念,包括將從一個問題空間學(xué)到的概念知識以一種可適應(yīng)的方式推廣到許多問題空間。

當你把蒙特祖瑪?shù)膹?fù)仇的第一個房間呈現(xiàn)給任何人,并問他們需要做什么時,他們很快就會開始向你描述一系列的行動和觀察,這表明人類對游戲可能的動態(tài)有復(fù)雜的理解。最明顯的表現(xiàn)他們會認識到鑰匙是理想的物體,骷髏頭是需要避免的東西,梯子是有活動能力的東西。然后鑰匙暗示打開鎖著的門的能力,突然出現(xiàn)復(fù)雜的多步驟計劃以及如何完成關(guān)卡的方式。這種推理和計劃不僅適用于游戲的某個特定關(guān)卡,還適用于我們所遇到的任何類似的關(guān)卡或游戲。這些技能對于人類智能而言至關(guān)重要,而且對于那些試圖將深度強化學(xué)習(xí)推廣到一套簡單的優(yōu)化算法之外的人來說也很感興趣。然而,在確定性環(huán)境中使用人類演示完全繞過了對這些技能的需要。

如果沒有用來解釋視覺場景的先驗知識,像《蒙特祖瑪?shù)膹?fù)仇》這類游戲看起來可能是這樣的

當然,這些技能也是最難以用算法形式表達的,尤其是它們的人類表現(xiàn)形式尚沒有被完全理解。特別是在概念學(xué)習(xí)的情況下,通常需要把外部的一般知識引入到新的問題上。正如伯克利的一個研究團隊所指出的那樣,如果我們沒有先驗知識(無論是與生俱來來說后天學(xué)習(xí)的),許多我們認為理所當然的視頻游戲會變得更加復(fù)雜。

然后問題就變成了,AI智能體如何才能自然地學(xué)習(xí)像《蒙特祖瑪?shù)膹?fù)仇》這樣的游戲所需要的先驗知識。此外,這些習(xí)得的先驗知識如何不僅僅被用于玩一個特定游戲的特定關(guān)卡,而是可以玩任何類似游戲的任何關(guān)卡。表示學(xué)習(xí)和概念基礎(chǔ)方面正在進行一些有趣的工作,我認為這對解決這些問題是至關(guān)重要的。還有一些工作正在開發(fā)更多的隨機環(huán)境,以更好地測試智能體的泛化能力,其中最引人注目的是GVGAI競賽(通用視頻游戲AI競賽)。

我熱切地期待有一天我們可以毫無疑問地說,AI智能體可以學(xué)會從頭開始玩《蒙特祖瑪?shù)膹?fù)仇》。當那一天到來時,會有很多令人興奮的事情。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    144

    瀏覽量

    10575
  • 強化學(xué)習(xí)
    +關(guān)注

    關(guān)注

    4

    文章

    266

    瀏覽量

    11246

原文標題:深度強化學(xué)習(xí)試金石:DeepMind和OpenAI攻克蒙特祖瑪復(fù)仇的真正意義

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    揭秘:快充并沒有看上去那么簡單

    快充技術(shù)發(fā)展到今天可以說已經(jīng)比較成熟。在電池技術(shù)無法取得突破性成果的今天,快速充電技術(shù)可以說是最佳以及最合理的續(xù)航解決方案。但是快充也不是表面上看上去那么簡單,那么接下來小編就跟讀者一起探討一下快充技術(shù)。
    發(fā)表于 03-04 14:06 ?3676次閱讀

    LMH6502仿真結(jié)果顯示信號不但沒有放大,反而衰減了,為什么?

    手冊中提到可以使用單電源,按照手冊的電路做了板子,可目前在調(diào)試階段并沒有得到放大的波形,輸出看上去沒有信號。 datasheet中的電路如下: 自己做的電路為: 輸入為0.1V峰峰值的正弦波
    發(fā)表于 08-16 06:23

    自己想做個顯示器,看上去并沒有那么難!

    ,那么我們需要用到30條柵格墻,柵格墻的結(jié)構(gòu)是用Inkscape畫出的,接下來用激光切割機切割比薩盒即可得到我們需要的柵格墻。最后將他們組裝起來即可。第三步:屏幕設(shè)計和組裝要讓屏幕能夠正確地顯示你所提
    發(fā)表于 12-08 14:01

    電動自行車?看上去就是普通的單車??!

    `看到一款很好看的自行車,結(jié)果是電動單車,明明看上去和普通的自行車一模一樣,沒啥特別的。電動自行車不應(yīng)該體積更大一些嗎?我還是比較喜歡傳統(tǒng)自行車的纖細線條。不過這款德國公司Freygeist推出同名
    發(fā)表于 01-27 11:28

    【Intel Edison試用體驗】開箱--看上去有點美

    著組裝,看看底板。底板正面圖底板背面圖,絲印都非常清晰。一側(cè)的USB接口及電源接口這是啥,這就是底板與EDISON的接口了。最后上一張組裝好的效果圖呵,有點美!不止上看上去美,真的狠美!接下來
    發(fā)表于 07-16 11:03

    求一份”三兄弟DSP28335的基于模型設(shè)計部分的視頻“

    最近正在學(xué)習(xí)基于模型的設(shè)計。發(fā)現(xiàn)三兄弟里面視頻好像看上去蠻不錯的,但是因為沒有其demo板,所以并沒有視頻,希望有視頻的朋友能發(fā)我一份,僅用于學(xué)習(xí)使用。郵箱:wx_simba@163.com非常感謝?。?!
    發(fā)表于 07-04 16:11

    什么是注冊表

    什么是注冊表? 注冊表因為它復(fù)雜的結(jié)構(gòu)和沒有任何聯(lián)系的CLSID鍵使得它可能看上去很神秘。不幸的是,微軟并沒有完全公開講述
    發(fā)表于 02-24 11:40 ?801次閱讀

    華為p10新機曝光,或采用970麒麟芯片

    華為P10的原型產(chǎn)品前面板似乎并沒有按鍵,看上去和小米5s的設(shè)計很像,是一個“按不下去”的、在玻璃面板上刻出來的區(qū)域。
    發(fā)表于 12-10 09:00 ?2328次閱讀

    OpenAI宣布他們的AI僅通過一次人類演示,蒙特祖瑪復(fù)仇游戲中玩出歷史最高分

    這次,OpenAI的研究團隊訓(xùn)練了一個智能體,僅通過一次人類demo,就在蒙特祖瑪復(fù)仇游戲中獲得了74500分的成績,比以往公布的任何結(jié)果都要好。
    的頭像 發(fā)表于 07-09 09:24 ?4349次閱讀

    三星Note10曝光采用真全面屏設(shè)計支持5G擁有10GB+512GB大存儲

    從這張渲染圖來看,三星Note10并沒有采用三星S10系列的Infinity-O打孔屏設(shè)計,正面幾乎沒有任何開孔,看上去更加極致,左右邊框幾乎已經(jīng)沒有了,上下邊框極窄,
    發(fā)表于 03-12 15:44 ?1472次閱讀

    AirPods2的做工并沒有想象中的那么

    雖說蘋果出品必屬精品,從設(shè)計和功能上或許蘋果的產(chǎn)品沒有問題。但是這不代表著蘋果產(chǎn)品的做工也都是精品。最近,蘋果剛剛發(fā)布了AirPods 2代。相比第一代而言,AirPods2并沒有太明顯的提升。基本上屬于常規(guī)升級,但是價格卻增加不少。所以AirPods2在發(fā)布之后,就受到
    發(fā)表于 04-01 14:30 ?1.9w次閱讀

    新西蘭并沒有禁用華為5G

    新西蘭并沒有禁用華為5G
    發(fā)表于 04-04 08:53 ?1084次閱讀

    這款“養(yǎng)豬機器人”,外形看上去是一臺平常的喂料機

    這款“養(yǎng)豬機器人”,外形看上去是一臺平常的喂料機。實際上,它有一個聰明的“大腦”,能夠采集生豬的進食時間、時長、頻次、食量等數(shù)據(jù),并且通過機器深度學(xué)習(xí),對飼料進行預(yù)測和分配。
    的頭像 發(fā)表于 10-09 09:44 ?4471次閱讀

    董明珠表態(tài):格力手機并沒有失敗

    據(jù)國內(nèi)媒體報道,此前,董明珠在接受采訪時曾表示,在手機領(lǐng)域,到現(xiàn)在為止格力手機并沒有失敗。
    的頭像 發(fā)表于 12-14 16:02 ?1658次閱讀

    三星Z Flip3的設(shè)計從主屏幕看上去好像沒什么變化

    從網(wǎng)上曝光的圖片中可以看到,三星Z Flip3的設(shè)計雖然從主屏幕看上去好像沒什么變化,當你把手機折疊起來后再看,就會發(fā)現(xiàn)該機與上一代機型的變化還是很大的。三星Z Flip3的副屏尺寸變大了
    的頭像 發(fā)表于 01-23 10:03 ?2894次閱讀
    主站蜘蛛池模板: 亚洲精品婷婷无码成人A片在线| 狠狠色狠色综合曰曰| 97在线超碰免费视频| 一个人在线观看的视频| 亚洲成A人片在线观看中文L| 色网址在线观看| 色戒未删减版在线观看完整| 日本888 xxxx| 日本一本2017国产| 日本一区不卡在线播放视频免费| 欧美黑人巨大性极品hd欧| 女人被躁到高潮嗷嗷叫免费| 蜜柚视频网在线观看免费| 美国ZOOM动物在线观看| 免费国产久久啪久久爱| 麻豆精品传媒卡一卡二传媒短视频| 久久精品亚洲| 恋夜影院支持安卓视频美女| 麻豆免费高清完整版| 蜜臀AV人妻久久无码精品麻豆| 美女张开让男生桶| 欧美老妇与zozoz0交| 日本视频中文字幕一区二区| 日产日韩亚洲欧美综合搜索| 呻吟翘臀后进爆白浆| 午夜想想爱| 亚洲视频免费| 24小时日本在线电影| 俺也去最新地址| 国产AV亚洲精品久久久久软件| 国产乱子影视频上线免费观看 | 色噜噜狠狠色综合中文字幕| 少妇人妻偷人精品视蜜桃| 午夜福利理论片高清在线| 亚洲欧美自拍清纯中文字幕| 一个人免费观看在线视频播放| 在线播放日韩欧美亚洲日本| JEALOUSVUE成熟老师APP| 国产白浆视频在线播放| 后式大肥臀国产在线| 蜜桃狠狠色伊人亚洲综合网站|