亚洲国产成人久久笫一页,在线精品国产第一页,亚洲日本一区二区在线

前段時(shí)間，OpenAI的游戲機(jī)器人在Dota2的比賽中贏了人類(lèi)的5人小組，取得了團(tuán)隊(duì)勝利，是強(qiáng)化學(xué)習(xí)攻克的又一游戲里程碑。但是本文作者Andrey Kurenkov卻表示，強(qiáng)化學(xué)習(xí)解決的任務(wù)也許沒(méi)有看起來(lái)那么復(fù)雜，深究起來(lái)是有缺陷的。以下是論智帶來(lái)的編譯。

在這篇文章中，我們來(lái)討論討論AI核心領(lǐng)域——強(qiáng)化學(xué)習(xí)的缺陷。我們先從一個(gè)有趣的比喻開(kāi)始，之后會(huì)關(guān)注一個(gè)重要因素——先驗(yàn)知識(shí)，接著我們會(huì)對(duì)深度學(xué)習(xí)進(jìn)行介紹，最后進(jìn)行總結(jié)。

首先我們將對(duì)強(qiáng)化學(xué)習(xí)是什么進(jìn)行介紹，以及它為什么有基礎(chǔ)性缺陷（或者至少某個(gè)版本，我們稱(chēng)為“純粹的強(qiáng)化學(xué)習(xí)”）。如果你是AI專(zhuān)業(yè)人才，可以跳過(guò)這部分簡(jiǎn)介。

棋盤(pán)游戲

假設(shè)你的一位朋友給你介紹了一款你從未聽(tīng)說(shuō)過(guò)的游戲，并且你之前從來(lái)沒(méi)玩過(guò)任何游戲。你朋友告訴你怎樣算有效的移動(dòng)，但是卻不告訴你這樣做的意義是什么，也不告訴你游戲怎么計(jì)分。在這種情況下你開(kāi)始參與游戲，沒(méi)有任何問(wèn)題，也不會(huì)有任何解釋。結(jié)果就是不斷地輸……慢慢地你發(fā)現(xiàn)了輸局的某些規(guī)律，雖然之后還是會(huì)輸，但起碼能堅(jiān)持玩一段時(shí)間了。經(jīng)過(guò)幾周后，甚至幾千盤(pán)對(duì)抗后，你甚至能贏下一局。

聽(tīng)起來(lái)很傻，為什么不在一開(kāi)始就問(wèn)游戲的目標(biāo)以及應(yīng)該怎樣獲勝呢？總之，上面的場(chǎng)景是當(dāng)下大多數(shù)強(qiáng)化學(xué)習(xí)方法的做法。

強(qiáng)化學(xué)習(xí)（RL）是AI的一個(gè)基礎(chǔ)子領(lǐng)域，在強(qiáng)化學(xué)習(xí)的框架中，智能體（agent）在與環(huán)境的交互中學(xué)習(xí)應(yīng)該在特定狀態(tài)下做出哪些動(dòng)作從而使長(zhǎng)期獎(jiǎng)勵(lì)最大化。這也就是說(shuō)在上述棋盤(pán)游戲中，玩家在棋盤(pán)中學(xué)習(xí)怎么走能讓最后的分?jǐn)?shù)最高。

在強(qiáng)化學(xué)習(xí)的典型模型中，智能體最初只知道它可以做哪些動(dòng)作，除此之外對(duì)環(huán)境一無(wú)所知，人們希望它能在與環(huán)境的交互中，以及在收到獎(jiǎng)勵(lì)后學(xué)會(huì)該做什么動(dòng)作。缺少先驗(yàn)知識(shí)的意思是，智能體從零開(kāi)始學(xué)習(xí)，我們將這種從零開(kāi)始的方法稱(chēng)為“純粹的強(qiáng)化學(xué)習(xí)”。純強(qiáng)化學(xué)習(xí)可以用到西洋棋或者圍棋中，也可以應(yīng)用到機(jī)器人等其他領(lǐng)域。

最近很多強(qiáng)化學(xué)習(xí)受到了深度學(xué)習(xí)的啟發(fā)，但基礎(chǔ)模型沒(méi)怎么改變。畢竟這種從零開(kāi)始學(xué)習(xí)的方法是強(qiáng)化學(xué)習(xí)的開(kāi)端，并且在大多數(shù)基礎(chǔ)等式中都有表現(xiàn)。

所以這里有個(gè)基本問(wèn)題：如果純強(qiáng)化學(xué)習(xí)的過(guò)程特別不合常理，那么在此基礎(chǔ)上設(shè)計(jì)的AI模型能有多可靠？如果我們認(rèn)為讓人類(lèi)通過(guò)純強(qiáng)化學(xué)習(xí)全新的棋盤(pán)游戲很荒唐，那么這個(gè)框架對(duì)智能體來(lái)說(shuō)也是有缺陷的呢？?jī)H僅通過(guò)獎(jiǎng)勵(lì)信號(hào)而不借助先驗(yàn)知識(shí)和高水平指導(dǎo)，就開(kāi)始學(xué)習(xí)一項(xiàng)新技能真的有意義嗎？

先驗(yàn)知識(shí)和高水平指導(dǎo)在經(jīng)典強(qiáng)化學(xué)習(xí)中是不存在的，隱式或顯式地改變這些方法可能對(duì)所有用于訓(xùn)練強(qiáng)化學(xué)習(xí)的算法有很大影響，所以這是個(gè)非常大的問(wèn)題，要回答它需要兩部分：

第一部分即本文，我們將從展示純強(qiáng)化學(xué)習(xí)的主要成果開(kāi)始，這些成果可能不會(huì)像你想象得那樣重要。接著，我們會(huì)展示一些更復(fù)雜的成果，它們?cè)诩儚?qiáng)化學(xué)習(xí)下可能無(wú)法完成，因?yàn)橹悄荏w會(huì)受到多種限制。

在第二部分中，我們將瀏覽各種能解決上述限制的方法（主要是元學(xué)習(xí)和zero-shot學(xué)習(xí)）。最后，我們會(huì)總結(jié)基于這種方法的令人激動(dòng)的成果并進(jìn)行總結(jié)。

純強(qiáng)化學(xué)習(xí)真的有道理嗎？

看到這個(gè)問(wèn)題，大多數(shù)人可能會(huì)說(shuō)

當(dāng)然了，AI智能體不是人類(lèi)，不會(huì)像我們一樣學(xué)習(xí)，純強(qiáng)化學(xué)習(xí)已經(jīng)能解決很多復(fù)雜任務(wù)了。

但是我不同意。根據(jù)定義，AI研究指的是讓機(jī)器做只有動(dòng)物和人類(lèi)目前能做的事，因此，將機(jī)器和人類(lèi)智慧相比是不恰當(dāng)?shù)?。至于純?qiáng)化學(xué)習(xí)已經(jīng)解決的問(wèn)題，人們常常忽視了重要的一點(diǎn)：這些問(wèn)題通常看起來(lái)并不那么復(fù)雜。

這聽(tīng)起來(lái)可能很驚訝，因?yàn)楹芏啻笮脱芯繖C(jī)構(gòu)都努力地用強(qiáng)化學(xué)習(xí)做出各種成果。這些成果確實(shí)很棒，但是我仍然認(rèn)為這些任務(wù)并不像他們看起來(lái)那么復(fù)雜。在深入解釋之前，我列舉了一些成就，并且指出它們?yōu)槭裁粗档萌藗冄芯浚?/p>

DQN：這項(xiàng)由DeepMind推出的項(xiàng)目在五年前引起了人們對(duì)強(qiáng)化學(xué)習(xí)極大的興趣，該項(xiàng)目展示了將深度學(xué)習(xí)和純強(qiáng)化學(xué)習(xí)結(jié)合后，可以解決比此前更復(fù)雜的問(wèn)題。雖然DQN只包含少量的創(chuàng)新，但對(duì)于讓深度強(qiáng)化學(xué)習(xí)變得更實(shí)用是很重要的。

AlphaGo Zero和AlphaZero：這種純強(qiáng)化學(xué)習(xí)模型已經(jīng)超越了人類(lèi)最佳水平。最初的AlphaGo是監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合的產(chǎn)物，而AlphaGo Zero是完全通過(guò)強(qiáng)化學(xué)習(xí)和自我對(duì)抗實(shí)現(xiàn)的。因此，它是最接近純強(qiáng)化學(xué)習(xí)方法的產(chǎn)物，雖然它仍然有提供游戲規(guī)則的模型。

在與人類(lèi)對(duì)戰(zhàn)獲勝后，AlphaGo Zero被很多人看作是一種游戲顛覆者。接著一種更通用的版本——AlphaZero出現(xiàn)了，它不僅能玩圍棋，還能下國(guó)際象棋和日本將棋，這是第一次有一種算法可以完成兩種棋類(lèi)比賽。所以AlphaGo Zero和AlphaZero是非常了不起的成就。

OpenAI可以打Dota的機(jī)器人：深度強(qiáng)化學(xué)習(xí)能夠在Dota2中多人模式中擊敗人類(lèi)了。去年，OpenAI的機(jī)器人在1v1對(duì)抗中擊敗了人類(lèi)就已經(jīng)令人印象深刻了，這次是更加困難的5v5。它同樣不需要先驗(yàn)知識(shí)，并且也是通過(guò)自我對(duì)抗訓(xùn)練的。

這種在復(fù)雜游戲中的團(tuán)隊(duì)模式中獲勝的成績(jī)比此前的雅達(dá)利游戲和圍棋對(duì)抗更驚艷。另外，這一模型還沒(méi)有進(jìn)行主要的算法更新，完全依靠大量計(jì)算和已有的純強(qiáng)化學(xué)習(xí)算法和深度學(xué)習(xí)進(jìn)行的。

所以，純強(qiáng)化學(xué)習(xí)已經(jīng)做出了很多成績(jī)。但是就像我之前說(shuō)的，他們有些地方可能被高估了。

首先從DQN開(kāi)始。

它可以超越人類(lèi)水平玩很多雅達(dá)利游戲，但也并不是全部。一般來(lái)說(shuō)，它適合玩靈活度較高的、不需要推理和記憶的游戲。即使五年之后，也不會(huì)有純強(qiáng)化學(xué)習(xí)攻下推理和記憶游戲。相反，能完成這些游戲的都經(jīng)過(guò)了指導(dǎo)和示范。

即使在DQN表現(xiàn)良好的游戲中，它也需要非常大量的時(shí)間和經(jīng)驗(yàn)去學(xué)習(xí)。

同樣的限制在AlphaGo Zero和AlphaZero上都有體現(xiàn)。圍棋的很多性質(zhì)都能讓學(xué)習(xí)任務(wù)變得簡(jiǎn)單，例如它是必然的、完全可觀測(cè)的、單一智能體等等。但唯獨(dú)一件事讓圍棋變得麻煩：它的分支因數(shù)太多了。

所以，圍棋可能是變數(shù)最多的簡(jiǎn)易游戲。有人說(shuō)強(qiáng)人工智能（AGI）因?yàn)锳lphaGo的成功即將到來(lái)，這種說(shuō)法不攻自破。多數(shù)研究者認(rèn)為，真實(shí)的世界比一個(gè)簡(jiǎn)單游戲復(fù)雜得多，盡管AlphaGo的成功令人贊賞，但是它和它所有的變體從根本上和“深藍(lán)”是相似的：它只是一套昂貴的系統(tǒng)罷了。

說(shuō)到Dota，它的確比圍棋更復(fù)雜，并且是非靜止的、多人的游戲。但是它仍然是可以用靈活的API操控的游戲，并且成本巨大。

所以，盡管這些成就很偉大，我們?nèi)孕枰獙?duì)它們的本質(zhì)進(jìn)行了解，同時(shí)要思考，純強(qiáng)化學(xué)習(xí)難道不能成為獲取這些成就的最佳方法嗎？

純強(qiáng)化學(xué)習(xí)的基礎(chǔ)缺陷——從零開(kāi)始

有沒(méi)有更好的方法讓智能體下圍棋、玩dota呢？AlphaGo Zero的名字來(lái)源正是暗示它是從零開(kāi)始學(xué)習(xí)的模型，但是讓我們回到文章開(kāi)頭說(shuō)的那個(gè)小故事，如果讓你從零開(kāi)始學(xué)習(xí)下圍棋，不給任何解釋?zhuān)?tīng)起來(lái)很荒謬對(duì)嗎？所以為什么要把這定為AI的目標(biāo)呢？

事實(shí)上，如果你正在學(xué)的那個(gè)棋盤(pán)游戲是圍棋，你會(huì)怎么開(kāi)始？可能你會(huì)先讀一遍規(guī)則，學(xué)一些高級(jí)策略，回憶一下之前的對(duì)戰(zhàn)，總結(jié)經(jīng)驗(yàn)……確實(shí)，讓AlphaGo Zero和Dota機(jī)器人從零開(kāi)始學(xué)習(xí)是有點(diǎn)不公平的，它們只依靠更多數(shù)量的游戲經(jīng)驗(yàn)和運(yùn)用比人類(lèi)大得多的計(jì)算力。

AlphaGo Zero技能增長(zhǎng)曲線，注意，它花了一整天的時(shí)間和好幾千局游戲才達(dá)到人類(lèi)最低水平

實(shí)際上，純強(qiáng)化學(xué)習(xí)技術(shù)可以在更“窄”的任務(wù)中應(yīng)用，例如連續(xù)控制或是像dota和星際爭(zhēng)霸這樣的復(fù)雜游戲。然而隨著深度學(xué)習(xí)的成功，AI研究者正嘗試解決更復(fù)雜的問(wèn)題例如汽車(chē)駕駛和對(duì)話。

所以，純強(qiáng)化學(xué)習(xí)，或者從零開(kāi)始的學(xué)習(xí)方法，是解決復(fù)雜任務(wù)的正確方法嗎？

是否應(yīng)該堅(jiān)持純強(qiáng)化學(xué)習(xí)？

答案可能如下：

當(dāng)然，純強(qiáng)化學(xué)習(xí)是除了圍棋和dota之外的其他問(wèn)題的正確解決方法。雖然在棋盤(pán)類(lèi)游戲中有點(diǎn)講不通，但是在通用事物的學(xué)習(xí)上還是可以說(shuō)得通的。另外，就算不受人類(lèi)的啟發(fā)，智能體在沒(méi)有先驗(yàn)知識(shí)的條件下也能表現(xiàn)得更好。

讓我們先說(shuō)最后一點(diǎn)，不考慮人類(lèi)的啟發(fā)，從零開(kāi)始的典型做法就是另一種方法會(huì)限制模型的精確度，將人類(lèi)的想法編碼到模型上是很困難的，甚至?xí)档托阅?。這種觀點(diǎn)在深度學(xué)習(xí)的成功之后成為了主流，即用百萬(wàn)級(jí)參數(shù)學(xué)習(xí)端到端模型，并在大量數(shù)據(jù)上訓(xùn)練，同時(shí)有一些內(nèi)在先驗(yàn)知識(shí)。

但問(wèn)題時(shí)，加入先驗(yàn)知識(shí)和知道并不會(huì)將人類(lèi)知覺(jué)中含有的有限結(jié)構(gòu)加入到智能體上。換句話說(shuō)，我們可以教會(huì)智能體或模型關(guān)于怎樣執(zhí)行任務(wù)，而不會(huì)添加對(duì)其能力有限制的因素。

對(duì)大多數(shù)AI問(wèn)題來(lái)說(shuō)，不從零開(kāi)始就不會(huì)限制智能體學(xué)習(xí)的方式。目前還沒(méi)有確切的原因解釋?zhuān)瑸槭裁碅lphaGo Zero如此執(zhí)著于“從零開(kāi)始”，事實(shí)上它可以借助人類(lèi)知識(shí)表現(xiàn)得更好。

那么純強(qiáng)化學(xué)習(xí)是最佳解決辦法嗎？這個(gè)答案曾經(jīng)很簡(jiǎn)單，在無(wú)梯度優(yōu)化領(lǐng)域，純強(qiáng)化學(xué)習(xí)是你可以選擇的最可靠的方法。但是最近的一些論文質(zhì)疑了這一說(shuō)法，并認(rèn)為更簡(jiǎn)單的基于演化策略的方法能達(dá)到相似效果。具體論文：

Simple random search provides a competitive approach to reinforcement learning

Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

Towards Generalization and Simplicity in Continuous Control

Ben Recht，是理論和實(shí)際優(yōu)化算法的頂尖研究者，也是Simple random search provides a competitive approach to reinforcement learning一文的作者之一，他準(zhǔn)確地總結(jié)了以上觀點(diǎn)：

我們看到，隨機(jī)搜索在簡(jiǎn)單線性問(wèn)題上表現(xiàn)良好，并且比一些強(qiáng)化方法，例如策略梯度表現(xiàn)得更好。但是當(dāng)我們提出更難的問(wèn)題時(shí)，隨機(jī)搜索崩潰了嗎？不好意思，沒(méi)有。

所以，將純強(qiáng)化學(xué)習(xí)用來(lái)從零開(kāi)始學(xué)習(xí)不一定是正確的方法。但是回到人類(lèi)從零開(kāi)始學(xué)習(xí)的問(wèn)題，人們會(huì)在具備一些技巧，卻沒(méi)有指示信息的情況下開(kāi)始學(xué)習(xí)嗎？不會(huì)的。

也許在一些通用基礎(chǔ)問(wèn)題上，純強(qiáng)化學(xué)習(xí)可能有用，因?yàn)檫@些問(wèn)題很廣泛。但是在AI中，很大部分的問(wèn)題是否適合強(qiáng)化學(xué)習(xí)還并不清楚。事實(shí)上，之所以選擇從零開(kāi)始，是因?yàn)槟壳暗腁I和強(qiáng)化學(xué)習(xí)都有著很多缺陷：

目前的AI非常需要數(shù)據(jù)。很多項(xiàng)目都需要大量的數(shù)據(jù)進(jìn)行計(jì)算，而從零學(xué)習(xí)只需要高效的采樣方法即可。

目前的AI是不透明的。也就是“黑箱”問(wèn)題，很多時(shí)候我們只能從較高層次了解AI算法的學(xué)習(xí)和工作流程。

目前的AI應(yīng)用范圍有限。很多模型一次只能執(zhí)行一種任務(wù)，而且很容易崩潰。

現(xiàn)有AI很脆弱。只有在大量數(shù)據(jù)訓(xùn)練的基礎(chǔ)上，模型才可能對(duì)從未見(jiàn)過(guò)的輸入生成較好結(jié)果。即使如此也經(jīng)常崩潰。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
30728

瀏覽量
268886
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
266

瀏覽量
11246

原文標(biāo)題：斯坦福學(xué)者冷思考：強(qiáng)化學(xué)習(xí)存在基礎(chǔ)性缺陷

文章出處：【微信號(hào)：jqr_AI，微信公眾號(hào)：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知，人類(lèi)擅長(zhǎng)解決各種挑戰(zhàn)性的問(wèn)題，從低級(jí)的運(yùn)動(dòng)控制(如：步行、跑步、打網(wǎng)球)到高級(jí)的認(rèn)知任務(wù)。

發(fā)表于 07-01 10:29 ?1437次閱讀

什么是深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法應(yīng)用分析

反向強(qiáng)化學(xué)習(xí)的思路

強(qiáng)化學(xué)習(xí)的另一種策略（二）

發(fā)表于 04-03 12:10

深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

一：深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn)：1 月 15日— 1 月18 日二：深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn)： 1 月 27 日— 1 月30 日(第一天報(bào)到授課三天；提前環(huán)境部署電腦

發(fā)表于 01-10 13:42

將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

深度強(qiáng)化學(xué)習(xí)DRL自提出以來(lái)，已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo，將深度強(qiáng)化學(xué)習(xí)DRL成推上新的熱點(diǎn)和高度，成為人工智能歷史上一個(gè)新的里程碑。因此，深

發(fā)表于 06-29 18:36 ?2.8w次閱讀

如何深度強(qiáng)化學(xué)習(xí) 人工智能和深度學(xué)習(xí)的進(jìn)階

傳統(tǒng)上，強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域占據(jù)著一個(gè)合適的地位。但強(qiáng)化學(xué)習(xí)在過(guò)去幾年已開(kāi)始在很多人工智能計(jì)劃中發(fā)揮更大的作用。

發(fā)表于 03-03 14:16 ?4213次閱讀

人工智能機(jī)器學(xué)習(xí)之強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí)，以使獎(jiǎng)勵(lì)信號(hào)（強(qiáng)化信號(hào)）函數(shù)值最大，強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督

發(fā)表于 05-30 06:53 ?1409次閱讀

什么是強(qiáng)化學(xué)習(xí)？純強(qiáng)化學(xué)習(xí)有意義嗎？強(qiáng)化學(xué)習(xí)有什么的致命缺陷？

強(qiáng)化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一，在強(qiáng)化學(xué)習(xí)的框架中，智能體通過(guò)與環(huán)境互動(dòng)，來(lái)學(xué)習(xí)采取何種動(dòng)作能使其在給定環(huán)境中的長(zhǎng)期獎(jiǎng)勵(lì)最大化，就像在上述的棋盤(pán)游戲寓言中，你通過(guò)與棋盤(pán)的互動(dòng)來(lái)

發(fā)表于 07-15 10:56 ?1.8w次閱讀

什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>？純<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有意義嗎？<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有什么的致命<b class='flag-5'>缺陷</b>？

谷歌推出新的基于Tensorflow的強(qiáng)化學(xué)習(xí)框架，稱(chēng)為Dopamine

強(qiáng)化學(xué)習(xí)（RL）研究在過(guò)去幾年取得了許多重大進(jìn)展。強(qiáng)化學(xué)習(xí)的進(jìn)步使得 AI 智能體能夠在一些游戲上超過(guò)人類(lèi)，值得關(guān)注的例子包括 DeepMind 攻破 Atari 游戲的 DQN，在圍棋中獲得矚目的 AlphaGo 和 Alph

發(fā)表于 08-31 09:20 ?3691次閱讀

Google強(qiáng)化學(xué)習(xí)框架，要滿足哪三大特性

強(qiáng)化學(xué)習(xí)是一種非常重要 AI 技術(shù)，它能使用獎(jiǎng)勵(lì)（或懲罰）來(lái)驅(qū)動(dòng)智能體（agents）朝著特定目標(biāo)前進(jìn)，比如它訓(xùn)練的 AI 系統(tǒng) AlphaGo 擊敗了頂尖圍棋選手，它也是 DeepMind 的深度

發(fā)表于 09-03 14:06 ?2846次閱讀

基于PPO強(qiáng)化學(xué)習(xí)算法的AI應(yīng)用案例

Viet Nguyen就是其中一個(gè)。這位來(lái)自德國(guó)的程序員表示自己只玩到了第9個(gè)關(guān)卡。因此，他決定利用強(qiáng)化學(xué)習(xí)AI算法來(lái)幫他完成未通關(guān)的遺憾。

發(fā)表于 07-29 09:30 ?2795次閱讀

機(jī)器學(xué)習(xí)中的無(wú)模型強(qiáng)化學(xué)習(xí)算法及研究綜述

強(qiáng)化學(xué)習(xí)（ Reinforcement learning，RL）作為機(jī)器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)并列的第三種

發(fā)表于 04-08 11:41 ?11次下載

機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的無(wú)模型<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法及研究綜述

模型化深度強(qiáng)化學(xué)習(xí)應(yīng)用研究綜述

強(qiáng)化學(xué)習(xí)。無(wú)模型強(qiáng)仳學(xué)習(xí)方法的訓(xùn)練過(guò)程需要大量樣本，當(dāng)采樣預(yù)算不足，無(wú)法收集大量樣本時(shí)，很難達(dá)到預(yù)期效果。然而，模型化強(qiáng)化學(xué)習(xí)可以充分利用環(huán)境模型，降低真實(shí)樣本需求量，在一定程度上提高樣本效率。將以模型化

發(fā)表于 04-12 11:01 ?9次下載

模型化深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>應(yīng)用研究綜述

徹底改變算法交易：強(qiáng)化學(xué)習(xí)的力量

強(qiáng)化學(xué)習(xí)（RL）是人工智能的一個(gè)子領(lǐng)域，專(zhuān)注于決策過(guò)程。與其他形式的機(jī)器學(xué)習(xí)相比，強(qiáng)化學(xué)習(xí)模型通過(guò)與環(huán)境交互并以獎(jiǎng)勵(lì)或懲罰的形式接收反饋來(lái)學(xué)習(xí)

發(fā)表于 06-09 09:23 ?529次閱讀

什么是強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的方式之一，它與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)并列，是三種機(jī)器學(xué)習(xí)訓(xùn)練方法之一。在圍棋上擊敗世界第一李世石的 AlphaGo、在《

發(fā)表于 10-30 11:36 ?4084次閱讀

如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）是一種機(jī)器學(xué)習(xí)方法，它通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)如何做出決策，以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開(kāi)源機(jī)器學(xué)習(xí)庫(kù)，

發(fā)表于 11-05 17:34 ?281次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

AI核心領(lǐng)域——強(qiáng)化學(xué)習(xí)的缺陷