色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

強(qiáng)化學(xué)習(xí)環(huán)境研究,智能體玩游戲?yàn)槭裁磪柡?/h1>

強(qiáng)化學(xué)習(xí)作為一種常用的訓(xùn)練智能體的方法,能夠完成很多復(fù)雜的任務(wù)。在強(qiáng)化學(xué)習(xí)中,智能體的策略是通過(guò)將獎(jiǎng)勵(lì)函數(shù)最大化訓(xùn)練的。獎(jiǎng)勵(lì)在智能體之外,各個(gè)環(huán)境中的獎(jiǎng)勵(lì)各不相同。深度學(xué)習(xí)的成功大多是有密集并且有效的獎(jiǎng)勵(lì)函數(shù),例如電子游戲中不斷增加的“分?jǐn)?shù)”。然而,設(shè)計(jì)一個(gè)良好的獎(jiǎng)勵(lì)函數(shù)需要付出大量精力。另一種方法是生成內(nèi)部獎(jiǎng)勵(lì),即由智能體自身生成的獎(jiǎng)勵(lì)。內(nèi)部獎(jiǎng)勵(lì)包括“好奇心”(把預(yù)測(cè)錯(cuò)誤當(dāng)做獎(jiǎng)勵(lì)信號(hào))和“訪問(wèn)數(shù)目”(不鼓勵(lì)智能體訪問(wèn)同樣的狀態(tài))。這些內(nèi)部獎(jiǎng)勵(lì)正是為了填補(bǔ)稀疏的外部獎(jiǎng)勵(lì)之間的空白。

但是,如果某個(gè)場(chǎng)景沒(méi)有任何外部獎(jiǎng)勵(lì)怎么辦?這并不奇怪。發(fā)展心理學(xué)認(rèn)為,內(nèi)部獎(jiǎng)勵(lì)(例如好奇心)是發(fā)展早期的重要驅(qū)動(dòng)力:嬰兒在探索世界時(shí)并不會(huì)帶有過(guò)多的目的。的確,有證據(jù)表明,在某一環(huán)境中只用內(nèi)部獎(jiǎng)勵(lì)對(duì)智能體進(jìn)行預(yù)訓(xùn)練可以讓它們?cè)谛颅h(huán)境、新任務(wù)中調(diào)整得更快。但目前為止,目前還沒(méi)有系統(tǒng)的針對(duì)完全內(nèi)部獎(jiǎng)勵(lì)學(xué)習(xí)的研究。

在這篇論文中,我們對(duì)各類模擬環(huán)境中智能體的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行了大規(guī)模實(shí)證研究。特別是我們選擇了Pathak等人提出的動(dòng)態(tài)好奇心模型中的內(nèi)部獎(jiǎng)勵(lì),因?yàn)樗蓴U(kuò)展,并且可并行計(jì)算,可以說(shuō)是大型試驗(yàn)的理想工具。研究的核心是給定智能體當(dāng)前的狀態(tài),觀察內(nèi)部獎(jiǎng)勵(lì)會(huì)在預(yù)測(cè)下一個(gè)動(dòng)作時(shí)出現(xiàn)哪些錯(cuò)誤。在研究中我們一共調(diào)查了54種環(huán)境:包括電子游戲,物理引擎模擬和虛擬3D導(dǎo)航任務(wù)。如圖1:

圖1

為了更好地理解好奇心驅(qū)動(dòng)的學(xué)習(xí),我們接著研究了決定其表現(xiàn)的關(guān)鍵因素。在高維原始觀察空間中(例如圖像)對(duì)未來(lái)狀態(tài)做預(yù)測(cè)是非常有挑戰(zhàn)性的工作,而且最近的研究表明,在輔助特征空間中的動(dòng)態(tài)學(xué)習(xí)有助于提升結(jié)果。不過(guò),如何選擇這樣的嵌入空間非常重要,目前還沒(méi)有確切的結(jié)論。經(jīng)過(guò)系統(tǒng)的研究,我們檢查了對(duì)智能體觀察的不同編碼方法有何作用。為了保證訓(xùn)練的穩(wěn)定性,我們需要選擇好的特征空間,一個(gè)好的特征空間可以讓預(yù)測(cè)更容易,并且過(guò)濾掉與觀察環(huán)境無(wú)關(guān)的因素。但是對(duì)好奇心驅(qū)動(dòng)的特征空間來(lái)說(shuō),都需要有哪些特征呢?

緊湊:在較低維度并且過(guò)濾掉與觀察空間不相關(guān)的部分之后,特征會(huì)更容易建模。

高效:特征應(yīng)該包含所有重要的信息。否則,智能體在探索到相關(guān)信息后不會(huì)得到獎(jiǎng)勵(lì)。

穩(wěn)定:非靜態(tài)獎(jiǎng)勵(lì)讓強(qiáng)化智能體學(xué)習(xí)起來(lái)有了難度。在基于動(dòng)態(tài)的好奇心驅(qū)動(dòng)環(huán)境中,非靜態(tài)的來(lái)源有兩個(gè):前動(dòng)態(tài)模型隨著時(shí)間不短發(fā)展,因?yàn)樗谟?xùn)練時(shí)特征也在發(fā)生變化。前者是內(nèi)部的,而后者應(yīng)該盡量減小。

我們發(fā)現(xiàn),在很多流行的強(qiáng)化學(xué)習(xí)中,用隨機(jī)網(wǎng)絡(luò)對(duì)觀察內(nèi)容編碼是非常簡(jiǎn)單且高效的技術(shù)。有趣的是,我們發(fā)現(xiàn)雖然隨機(jī)特征可以在訓(xùn)練中表現(xiàn)良好,但是學(xué)習(xí)過(guò)的特征似乎比它更好。

除此之外,我們發(fā)現(xiàn)重要的一點(diǎn)是,游戲會(huì)將“done”作為結(jié)束的信號(hào)。如果沒(méi)有這一結(jié)束信號(hào),很多雅達(dá)利游戲就變得很容易。例如,如果智能體活著,那么每一步的獎(jiǎng)勵(lì)就是+1,如果死了就是0。比方在“打磚塊”游戲里,智能體要盡可能“活”得長(zhǎng)一點(diǎn),保持較高分?jǐn)?shù)。如果得到了負(fù)獎(jiǎng)勵(lì),智能體會(huì)盡可能快速結(jié)束游戲。

知道了這一點(diǎn),我們?cè)谘芯繒r(shí)就不應(yīng)該對(duì)智能體抱有偏見(jiàn)。在有限的設(shè)置中,避免死亡只是智能體的另一種應(yīng)對(duì)方式,它只是為了不那么無(wú)聊。所以我們刪除了“done”,將智能體的得分與死亡信號(hào)分離開。實(shí)際上,我們的確發(fā)現(xiàn),智能體在游戲中避免死亡是因?yàn)閺挠螒蜷_頭總能遇到很多重復(fù)場(chǎng)景,它們已經(jīng)能很好地預(yù)測(cè)下一步動(dòng)作了,所以智能體會(huì)盡可能保持“生存”。這一發(fā)現(xiàn)在此前是被忽略的。

實(shí)驗(yàn)

對(duì)48種雅達(dá)利環(huán)境進(jìn)行分析的主要目的有三:

在沒(méi)有外部獎(jiǎng)勵(lì)的游戲中,運(yùn)行一個(gè)完全靠好奇心驅(qū)動(dòng)的智能體時(shí)究竟發(fā)生了什么?

你能讓智能體做出哪些行為?

這些行為中,不同的特征學(xué)習(xí)變量有哪些影響?

為了回答這些問(wèn)題,我們從一系列雅達(dá)利游戲開始。一種檢驗(yàn)完全使用好奇心的智能體表現(xiàn)得如何的方法是看它能獲得多少外部獎(jiǎng)勵(lì)。我們最終得到了8種游戲的平均外部獎(jiǎng)勵(lì)分?jǐn)?shù)(除去最右的馬里奧):

可以看出,大多數(shù)曲線都呈上升趨勢(shì),這說(shuō)明一個(gè)完全靠好奇心驅(qū)動(dòng)的智能體可以通過(guò)學(xué)習(xí)獲得外部獎(jiǎng)勵(lì),即使沒(méi)有在訓(xùn)練時(shí)運(yùn)用外部獎(jiǎng)勵(lì)。

除此之外,我們還在上圖中比較了馬里奧兄弟不同的特征學(xué)習(xí)表現(xiàn)。更多實(shí)驗(yàn)結(jié)果請(qǐng)查看原論文的附錄。

討論

在這項(xiàng)研究中,我們對(duì)好奇心驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)環(huán)境做了大量研究,包括雅達(dá)利游戲、超級(jí)瑪麗兄弟、虛擬3D、多人乒乓球等。其中對(duì)多種不同的特征空間進(jìn)行了調(diào)查,包括隨機(jī)特征、像素、逆向動(dòng)力學(xué)以及自動(dòng)編碼器,并且評(píng)估了它們對(duì)陌生環(huán)境的泛化能力。

我們證明,經(jīng)過(guò)訓(xùn)練的智能體可以靠好奇心獎(jiǎng)勵(lì)學(xué)習(xí)到有用的行為,它們可以不用獎(jiǎng)勵(lì)玩雅達(dá)利游戲;馬里奧可以在沒(méi)有獎(jiǎng)勵(lì)的情況下過(guò)11關(guān);可以生成行走和玩雜技的動(dòng)作;在雙人對(duì)戰(zhàn)的乒乓球游戲中可以生成對(duì)打模式。但是這也不總是成立的,在某些雅達(dá)利游戲中,它們的探索與外部獎(jiǎng)勵(lì)不符。

另外,這一結(jié)果也證明了,在由人類設(shè)計(jì)的環(huán)境中,外部獎(jiǎng)勵(lì)的目的可能是讓目標(biāo)物體進(jìn)行創(chuàng)新。游戲設(shè)計(jì)者創(chuàng)建的環(huán)境正是為了引導(dǎo)用戶。

但是,這里存在一個(gè)比較嚴(yán)肅的潛在限制是處理隨機(jī)動(dòng)態(tài),如果環(huán)境的轉(zhuǎn)換是隨機(jī)的,那么即使有一個(gè)完美的動(dòng)態(tài)模型,獎(jiǎng)勵(lì)也會(huì)成為過(guò)渡熵,智能體將會(huì)尋找熵值較高的過(guò)渡轉(zhuǎn)換。即使環(huán)境不是完全隨機(jī)的,不了學(xué)習(xí)算法造成的不可預(yù)測(cè)性、不良模型類別或局部觀察也會(huì)導(dǎo)致同樣問(wèn)題。

未來(lái),我們將證明我們可以利用無(wú)標(biāo)簽的環(huán)境來(lái)提高任務(wù)的性能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    144

    瀏覽量

    10575
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    266

    瀏覽量

    11246

原文標(biāo)題:強(qiáng)化學(xué)習(xí)新角度:智能體玩游戲?yàn)槭裁茨敲??因?yàn)閽斓籼珶o(wú)聊

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    [灌水]人不玩游戲智力會(huì)下降?!

      人不玩游戲智力會(huì)下降?!在我們成長(zhǎng)的過(guò)程中,隔三岔五,總會(huì)聽到老師或者父母說(shuō),玩游戲沒(méi)有出路,小孩子應(yīng)該學(xué)習(xí)古人“兩耳不聞窗外事,一心只讀圣賢書”。并有一對(duì)很經(jīng)典、書卷味濃烈
    發(fā)表于 10-11 15:39

    解決玩游戲時(shí)卡屏、死機(jī)的現(xiàn)象

    解決玩游戲時(shí)卡屏、死機(jī)的現(xiàn)象造成玩游戲時(shí)屏幕容易卡住現(xiàn)象的原因通常有多種,但仔細(xì)總結(jié)一下,筆者發(fā)現(xiàn)最容易造成這種故障現(xiàn)象的因素主要有計(jì)算機(jī)電源無(wú)法給顯卡提供足夠的運(yùn)行動(dòng)力,或者主板無(wú)法為顯卡提供合適
    發(fā)表于 02-23 15:26

    電玩森林舞會(huì)、電玩游戲平臺(tái)

    廣西趣樂(lè)動(dòng)漫專業(yè)搭建電玩森林舞會(huì)游戲平臺(tái),別再沉迷電玩游戲了,馬上投資移動(dòng)電玩城,盈利即刻翻!
    發(fā)表于 04-18 10:44

    電腦玩游戲不能全屏怎么辦 電腦玩游戲不能全屏解決方法

    電腦游戲都會(huì)有全屏模式,但是有時(shí)候電腦玩游戲不能全屏怎么辦呢?下面就給大家介紹一下電腦玩游戲不能全屏的解決方法。 1,敲擊鍵盤“win+r”組合鍵,打開運(yùn)行窗口,輸入“regedit”按回車鍵打開
    發(fā)表于 08-17 11:48

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    測(cè)試)三、主講內(nèi)容1:課程一、強(qiáng)化學(xué)習(xí)簡(jiǎn)介課程二、強(qiáng)化學(xué)習(xí)基礎(chǔ)課程三、深度強(qiáng)化學(xué)習(xí)基礎(chǔ)課程四、多智能深度
    發(fā)表于 01-10 13:42

    將深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

    深度強(qiáng)化學(xué)習(xí)DRL自提出以來(lái), 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo,將深度強(qiáng)化學(xué)習(xí)DRL成推上新的熱點(diǎn)和高度,成為人工
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    超極本玩游戲怎么樣_超極本玩游戲好用嗎_超極本為什么那么貴

    不少朋友鐘情于超級(jí)本個(gè)性外觀是出色的便攜性,打算入手超級(jí)本,但很多朋友購(gòu)買電腦主要目的是針對(duì)游戲,因此近期不少網(wǎng)友想要了解超級(jí)本玩游戲怎么樣?超極本玩游戲好嗎?等等類似問(wèn)題,下面小編針對(duì)當(dāng)下形勢(shì)而言為大家介紹超級(jí)本
    發(fā)表于 01-23 11:49 ?4804次閱讀

    人工智能機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)信號(hào)(強(qiáng)化信號(hào))函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接
    發(fā)表于 05-30 06:53 ?1409次閱讀

    什么是強(qiáng)化學(xué)習(xí)?純強(qiáng)化學(xué)習(xí)有意義嗎?強(qiáng)化學(xué)習(xí)有什么的致命缺陷?

    強(qiáng)化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一,在強(qiáng)化學(xué)習(xí)的框架中,智能通過(guò)與環(huán)境互動(dòng),來(lái)
    的頭像 發(fā)表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?純<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有意義嗎?<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有什么的致命缺陷?

    如何測(cè)試強(qiáng)化學(xué)習(xí)智能適應(yīng)性

    強(qiáng)化學(xué)習(xí)(RL)能通過(guò)獎(jiǎng)勵(lì)或懲罰使智能實(shí)現(xiàn)目標(biāo),并將它們學(xué)習(xí)到的經(jīng)驗(yàn)轉(zhuǎn)移到新環(huán)境中。
    的頭像 發(fā)表于 12-24 09:29 ?3232次閱讀

    iQOO手機(jī)玩游戲怎么樣

    iQOO手機(jī)玩游戲好用嗎?作為目前市面上少有的國(guó)產(chǎn)驍龍855旗艦,iQOO手機(jī)剛一上市,便成功吸引了不少消費(fèi)者的關(guān)注。那么問(wèn)題出現(xiàn)了,iQOO手機(jī)玩游戲好用嗎?iQOO手機(jī)值得買嗎?想入手該產(chǎn)品的朋友,不妨先看看小編分享的iQOO手機(jī)上手評(píng)測(cè)。
    的頭像 發(fā)表于 07-18 11:11 ?4272次閱讀

    OPPOFindX玩游戲怎么樣

    OPPO Find X可以玩游戲嗎?作為OPPO今年力推的旗艦機(jī)型,OPPO Find X剛一發(fā)布,便憑借獨(dú)有的“全景屏+升降式攝像頭”設(shè)計(jì)打破了國(guó)內(nèi)手機(jī)市場(chǎng)的靜寂!那么,OPPO Find X可以
    的頭像 發(fā)表于 07-03 15:05 ?1.3w次閱讀

    Ledring:用Arduino玩游戲

    電子發(fā)燒友網(wǎng)站提供《Ledring:用Arduino玩游戲.zip》資料免費(fèi)下載
    發(fā)表于 11-14 11:24 ?0次下載
    Ledring:用Arduino<b class='flag-5'>玩游戲</b>

    Ledring用Arduino玩游戲

    電子發(fā)燒友網(wǎng)站提供《Ledring用Arduino玩游戲.zip》資料免費(fèi)下載
    發(fā)表于 12-19 10:14 ?0次下載
    Ledring用Arduino<b class='flag-5'>玩游戲</b>

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    的計(jì)算圖和自動(dòng)微分功能,非常適合實(shí)現(xiàn)復(fù)雜的強(qiáng)化學(xué)習(xí)算法。 1. 環(huán)境(Environment) 在強(qiáng)化學(xué)習(xí)中,環(huán)境是一個(gè)抽象的概念,它定義了智能
    的頭像 發(fā)表于 11-05 17:34 ?280次閱讀

    主站蜘蛛池模板: 人与禽物videos另类| 一本道高清码| a级毛片黄免费a级毛片| 好姑娘BD高清在线观看免费| 漂亮的保姆3中文版完整版| 伊人久久综合| 国产色精品久久人妻无码看片软件 | 小向美奈子厨房magnet| 99精品在线免费| 久久九九少妇免费看A片| 无码天堂亚洲国产AV久久| MATURETUBE乱妇| 久久亚洲AV成人无码动态图| 亚欧视频在线观看| 大陆女人内谢69XXXORG| 女生扒开尿口| 中文字幕免费视频精品一| 好看AV中文字幕在线观看| 午夜DJ国产精华日本无码| YELLOW视频在线观看最新| 麻豆国产精品va在线观看约| 亚洲区欧美日韩综合| 国产欧美亚洲综合第一页| 色欲AV无码乱码精品国产| xxxxhdvideos动漫| 牛牛在线精品视频| 3d无遮挡h肉动漫在线播放| 久久99免费视频| 亚洲欧美日韩在线码不卡| 国产午夜人成在线视频麻豆| 色综合色综合久久综合频道| 波多野结衣 熟女| 噼里啪啦免费观看视频大全| a级成人免费毛片完整版| 美女拔萝卜| 69人体阴展网| 美女乱草鲍高清照片| 最近中文字幕免费高清MV视频6 | 免费在线视频a| 538在线播放| 美女内射少妇一区二区四区|