色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費(fèi)注冊(cè)]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

深度強(qiáng)化學(xué)習(xí)分析研究

大小:0.6 MB 人氣:0 2017-10-09 需要積分:1
原作者Tambet Matiisen在文章結(jié)尾列出了對(duì)本文內(nèi)容給出意見和建議的讀者,以及深入了解這些技術(shù)的在線文檔和視頻鏈接,受篇幅所限,譯文不再贅述。感謝Tambet Matiisen授權(quán)《程序員》翻譯和刊載。
  原文鏈接:http://neuro.cs.ut.ee/demystifyingdeep-reinforcement-learning/
  本文為《程序員》文章,未經(jīng)允許不得轉(zhuǎn)載,更多精彩請(qǐng)訂閱2016年《程序員》
  盡管監(jiān)督式和非監(jiān)督式學(xué)習(xí)的深度模型已經(jīng)廣泛被技術(shù)社區(qū)所采用,深度強(qiáng)化學(xué)習(xí)仍舊顯得有些神秘。這篇文章將試圖揭秘這項(xiàng)技術(shù),并解釋其背后的邏輯。受眾讀者主要是有機(jī)器學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)背景,卻還沒來得及深入鉆研強(qiáng)化學(xué)習(xí)技術(shù)的朋友。
  文章大綱如下:
  強(qiáng)化學(xué)習(xí)面臨的主要挑戰(zhàn)是什么?我們將會(huì)在此討論credit assignment問題和探索-利用的取舍。
  如何用數(shù)學(xué)表達(dá)式表示強(qiáng)化學(xué)習(xí)過程?我們將定義馬爾科夫決策過程,并用它來解釋強(qiáng)化學(xué)習(xí)過程。
  該如何構(gòu)建長期策略?我們定義了“未來回報(bào)折扣(discounted future reword)”概念,它構(gòu)成了下一節(jié)算法的基礎(chǔ)。
  如何預(yù)測(cè)和估計(jì)未來回報(bào)?我們將會(huì)定義并且解釋簡(jiǎn)單的基于表的Q-learning算法。
  如果狀態(tài)空間過大了怎么辦?我們演示了如何用一個(gè)(深度)神經(jīng)網(wǎng)絡(luò)模型來替換Q-table算法。
  在真正使用它之前我們還需要做些什么?我們將會(huì)討論經(jīng)驗(yàn)重播技術(shù),用神經(jīng)網(wǎng)絡(luò)來穩(wěn)定學(xué)習(xí)過程。
  都完成了嗎?最后,我們會(huì)考慮一些針對(duì)探索-利用問題的簡(jiǎn)單解決方案。
  強(qiáng)化學(xué)習(xí)
  我們以Breakout(打磚塊)游戲?yàn)槔T谟螒蛑校婕覍⒉倏仄聊坏撞康囊粔K滑板,讓球反彈后撞擊屏幕上部的磚塊,直到所有磚塊都破碎。每當(dāng)球擊中了磚塊,磚塊會(huì)消失,玩家的得分會(huì)增加——玩家得到了獎(jiǎng)勵(lì)回報(bào)。
  深度強(qiáng)化學(xué)習(xí)分析研究
  圖1 Atari Breakout游戲(圖片來源:DeepMind)
  假設(shè)你想訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)模型來玩這款游戲。網(wǎng)絡(luò)的輸入將是屏幕圖像,輸出結(jié)果是三種動(dòng)作:向左、向右和撞擊(接住球)。我們可以把它當(dāng)做一個(gè)分類問題——對(duì)每一幀屏幕圖像,你是需要左移、右移還是撞擊。聽起來很直白嗎?沒錯(cuò),接著你需要,大量的訓(xùn)練樣本數(shù)據(jù)。當(dāng)然,你可以用專家級(jí)玩家的游戲視頻作為訓(xùn)練數(shù)據(jù),但這不是我們的學(xué)習(xí)方式。我們不需要外人千百次地告訴我們每一幀圖像該選擇哪一種操作動(dòng)作。我們只需要偶爾得到一些正反饋信息,剩下的一切事情我們自己就能搞定。
  這就是強(qiáng)化學(xué)習(xí)試圖去解決的任務(wù)。強(qiáng)化學(xué)習(xí)介于監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)之間。監(jiān)督式學(xué)習(xí)的每個(gè)訓(xùn)練樣本都有一個(gè)標(biāo)簽,非監(jiān)督式學(xué)習(xí)的訓(xùn)練樣本沒有標(biāo)簽,強(qiáng)化學(xué)習(xí)的訓(xùn)練樣本有稀疏并且時(shí)間滯后的標(biāo)簽——即獎(jiǎng)勵(lì)回報(bào)。模型僅基于這些獎(jiǎng)勵(lì)回報(bào)從環(huán)境中學(xué)習(xí)正確的行為。
  盡管概念非常直觀,在實(shí)際操作中卻充滿了挑戰(zhàn)。舉個(gè)例子,當(dāng)你在“打磚塊”游戲中擊中了磚塊并且得到了獎(jiǎng)勵(lì)回報(bào),這個(gè)回報(bào)往往與最近的幾次動(dòng)作(移動(dòng)滑板)并沒有關(guān)聯(lián)。調(diào)整滑板位置、撞擊球使其反彈,所有這些復(fù)雜工作在得到回報(bào)之前早已完成了。這被稱為credit assignment問題——也就是說,是由于之前的哪些行為才取得的回報(bào),它們的貢獻(xiàn)程度是什么。
  當(dāng)你用某一種策略取得了一定的回報(bào)之后,你是打算繼續(xù)做下去,還是嘗試一些可能獲得更大回報(bào)的方法呢?在上面的“打磚塊”游戲中,一種簡(jiǎn)單的策略就是移到屏幕的左邊界等著。球飛向左側(cè)的情況總是比右側(cè)更多些,所以你在游戲結(jié)束前總是能很容易地得到大概10分。你對(duì)這個(gè)成績(jī)已經(jīng)感到滿意了,還是想得到更多?這就是所謂的探索-利用困境——是應(yīng)該利用好已知有效的方法,還是要發(fā)掘其它可能更好的方法。
  強(qiáng)化學(xué)習(xí)是我們(或者所有的動(dòng)物)如何學(xué)習(xí)的一種重要模型。來自父母的獎(jiǎng)勵(lì)、在學(xué)習(xí)取得的成績(jī)、工作的薪水——這些都是回報(bào)的形式。Credit assignment問題和探索-利用困境在我們每天的工作和感情生活中都會(huì)遇到。因此研究這個(gè)問題是十分重要的,游戲組成了一只嘗試各種新方法的絕妙沙盒。

非常好我支持^.^

(0) 0%

不好我反對(duì)

(0) 0%

      ?
      主站蜘蛛池模板: qvod 韩国| 免费看a视频| 欧美亚洲曰韩一本道 | 精油按摩日本 | 夜色福利院在线观看免费 | 精品AV国产一区二区三区 | 男人和女人一起愁愁愁很痛 | 麻豆国产96在线日韩麻豆 | 果冻传媒完整免费网站在线观看 | 精品久久久久久久国产潘金莲 | 漂亮的保姆3集电影免费观看中文 | 亚洲国产在线精品国 | 护士一级片 | 国产精品自产拍在线观看中文 | 两个人在线观看的视频720 | 国产午夜人成在线视频麻豆 | 久久久精品免费免费直播 | 国产精品色无码AV在线观看 | 九九免费精品视频 | 狂野猛交xxxx吃奶 | 最近2018年手机中文字幕 | 国产成人精品视频 | 海角国精产品一区一区三区糖心 | 色狠狠婷婷97 | 一起洗澡的老师免费播放 | 亚洲色大成网站WWW永久麻豆 | 正在播放国产尾随丝袜美女 | 国产成人精品亚洲线观看 | 二级片免费看 | 怡红院美国分院一区二区 | 久久久久嫩草影院精品 | 日本亚欧热亚洲乱色视频 | 中文字幕成人 | 伊人久久99热这里只有精品 | 综合久久久久久久综合网 | 久久精品一区二区影院 | 国精产品一区一区三区有限 | 国产真实女人一级毛片 | 人人模人人干 | 久久久久久久久久久福利观看 | 久久久久综合网 |