亚洲伦理在线观看,曰批视频免费120分钟,无限观看的免费视频西瓜

谷歌最近提出一種新的強化學習算法：模擬策略學習 (SimPLe) ，使用游戲模型來學習選擇動作的策略，在兩款Atari游戲中獲得了最高分數，并且效率比以前的最先進方法高出2倍以上。

深度強化學習(RL)技術可用于從視覺輸入中學習復雜任務的策略，并已成功地應用于經典的Atari 2600游戲。最近在這一領域的工作表明，即使在具有挑戰性的探索體系中，例如《蒙特祖瑪的復仇》游戲，AI也可以獲得超越人類的表現。

然而，許多最先進的方法都有的一個限制是，它們需要與游戲環境進行大量的交互，通常比人類學習如何玩好游戲所需要的交互要多得多。

為什么人類能更有效地學習這些任務？一個可能的假設是，他們能夠預測自己行為的影響，從而隱式地學習了一個關于哪些動作序列將導致理想結果的模型。

這種一般性的想法——構建一個所謂的游戲模型，并使用它來學習選擇行動的良好策略——是基于模型的強化學習(model-based reinforcement learning, MBRL)的主要前提。

Google的研究人員最近提出一種新的MBRL算法——模擬策略學習(Simulated Policy Learning, SimPLe)，使用游戲模型來學習選擇動作的質量策略。

SimPLe比當前最先進的技術更高效，并且僅使用了~100K與游戲的交互即可顯示出有競爭力的結果(相當于一個人約2小時的實時玩游戲)。

研究人員在論文“Model-Based Reinforcement Learning for Atari”中描述了該算法，并已將代碼作為tensor2tensor開源庫的一部分開源。該版本包含一個預訓練的世界模型，可以使用簡單的命令行運行，并且可以使用類似于Atari的界面播放。

學習一個SimPLe世界模型

SimPLe背后的想法是在學習游戲行為的世界模型和在模擬游戲環境中使用該模型優化策略(使用model-free強化學習)之間進行交替。該算法的基本原理已經在Sutton的“Dyna, an integrated architecture for learning, planning, and reac ting”中很好地建立起來，并且已經應用到許多最近的基于模型的強化學習方法中。

SimPLe的主循環。1) agent開始與真實環境交互。2)收集的觀測結果用于更新當前的世界模型。3) agent通過學習世界模型更新策略。

為了訓練一個玩Atari游戲的模型，我們首先需要在像素空間中生成合理的未來版本。換句話說，我們通過將一系列已經觀察到的幀和給到游戲的命令(如“左”、“右”等)作為輸入，來試圖預測下一幀會是什么樣子。在觀察空間中訓練一個世界模型的一個重要原因在于，它實際上是一種自我監督的形式，在我們的例子中，觀察(像素)形成了一個密集且豐富的監督信號。

如果成功地訓練了這樣一個模型(如一個視頻預測器)，則基本上有了一個游戲環境的學習模擬器(learned simulator)，可用于生成用來訓練良好策略的軌跡，即選擇一系列使智能體的長期獎勵最大化的動作。

換句話說，我們不是在真實游戲的操作序列上訓練策略，這在實踐和計算上都非常密集，而是在來自世界模型/學習模擬器的序列之上訓練策略。

我們的世界模型是一個前饋卷積網絡，它接收4個幀，并預測下一幀以及獎勵(見上圖)。然而，在Atari游戲的情況下，只考慮4幀的視界的話，未來是非確定性的。例如，游戲中的暫停時間就已經超過四幀，比如在《乒乓球》(Pong)游戲中，當球掉出框時，可能會導致模型無法成功預測后續的幀。我們使用一種新的視頻模型架構來處理諸如此類的隨機性問題，在這種情況下能做得更好。

當SimPle模型應用于《成龍踢館》(Kung Fu Master)游戲時，可以看到一個由隨機性引起的問題的例子。在動畫中，左邊是模型的輸出，中間是groundtruth，右邊是兩者之間的像素差異。在這里，模型的預測由于產生了不同數量的對手而偏離了真實游戲。

在每次迭代中，在訓練好世界模型之后，我們使用這個learned simulator來生成用于使用近似策略優化(PPO)算法改進游戲策略的rollouts(即動作、觀察和結果的樣本序列)。

SimPLe工作的一個重要細節是，rollouts的采樣是從實際數據集幀開始的。由于預測錯誤通常會隨著時間的推移而增加，使長期預測變得非常困難，因此SimPLe只使用中等長度的rollouts。幸運的是，PPO算法也可以從其內部價值函數中學習動作和獎勵之間的長期影響，因此有限長度的rollouts對于像《Freeway》這樣獎勵稀疏的游戲來說也是足夠的。

SimPLe的效率：比其他方法高2倍以上

衡量成功的一個標準是證明該模型是高效的。為此，我們在與環境進行了100K次交互之后，評估了我們的策略輸出，這相當于一個人玩了大約兩個小時的實時游戲。

我們將SimPLe方法與兩種最先進的model-free RL方法：Rainbow和PPO，進行了比較。在大多數情況下，SimPLe方法的采樣效率比其他方法高出兩倍以上。

和我們SimPLe方法取得的得分匹配的話，兩種model-free算法所需的交互次數(左- Rainbow;右-PPO)。紅線表示我們的方法使用的交互次數。

SimPLe的成功：2款游戲獲得最高分

SimPLe方法的一個令人興奮的結果是，對于Pong和Freeway這兩款游戲，在模擬環境中訓練的智能體能夠獲得最高分數。下面是智能體使用為Pong游戲學習的模型玩游戲的視頻:

對于Freeway、Pong和Breakout這3款游戲，SimPLe可以生成50步以內的近乎完美的像素預測，如下圖所示。

SimPLe可以在Breakout(上圖)和Freeway(下圖)生成幾乎完美的像素預測。在每個動畫中，左邊是模型的輸出，中間是groundtruth，右邊是兩者之間的像素差異。

SimPLe的局限

SimPLe的預測并不總是正確的。最常見的失敗是由于世界模型沒有準確地捕獲或預測小但高度相關的對象。

例如:(1)在《Atlantis》和《Battlezone》游戲中，子彈是如此之小，以至于它們往往會消失不見；(2)《Private Eye》游戲中，agent穿越不同的場景，從一個場景傳送到另一個場景。我們發現，我們的模型通常很難捕捉到如此巨大的全局變化。

在《Battlezone》中，我們發現模型很難預測小但高度相關的部分，比如子彈。

結論

model-based的強化學習方法的主要前景是在交互要么成本高昂、速度緩慢，要么需要人工標記的環境中，比如許多機器人任務。在這樣的環境中，一個learned simulator能夠更好地理解智能體的環境，并能夠為執行多任務強化學習提供新的、更好、更快的方法。

雖然SimPLe還沒有達到標準的model-free RL方法的性能，但它的效率要高很多。我們期望未來的工作能夠進一步提高model-based的技術的性能。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

谷歌

谷歌

+關注

關注
27

文章
6172

瀏覽量
105619
算法

算法

+關注

關注
23

文章
4619

瀏覽量
93041
強化學習

強化學習

+關注

關注
4

文章
267

瀏覽量
11266

原文標題：谷歌提出強化學習新算法SimPLe，模擬策略學習效率提高2倍

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

華為云 Flexus X 實例部署安裝 Jupyter Notebook，學習 AI，機器學習算法

前言由于本人最近在學習一些機器算法，AI 算法的知識，需要搭建一個學習環境，所以就在

發表于 01-02 13:43 ?94次閱讀

華為云 Flexus X 實例部署安裝 Jupyter Notebook，<b class='flag-5'>學習</b> AI，機器<b class='flag-5'>學習</b><b class='flag-5'>算法</b>

螞蟻集團收購邊塞科技，吳翼出任強化學習實驗室首席科學家

領域的研究與發展。令人矚目的是，邊塞科技的創始人吳翼已正式加入該實驗室，并擔任首席科學家一職。吳翼在其個人社交平臺上對這一變動進行了回應。他表示，自己最近接受了螞蟻集團的邀請，負責大模型強化

發表于 11-22 11:14 ?618次閱讀

NPU與機器學習算法的關系

在人工智能領域，機器學習算法是實現智能系統的核心。隨著數據量的激增和算法復雜度的提升，對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習

發表于 11-15 09:19 ?507次閱讀

一種基于深度學習的二維拉曼光譜算法

近日，天津大學精密儀器與光電子工程學院的光子芯片實驗室提出了一種基于深度學習的二維拉曼光譜算法，成果以“Rapid and accurate bacteria identificati

發表于 11-07 09:08 ?238次閱讀

如何使用 PyTorch 進行強化學習

強化學習（Reinforcement Learning, RL）是一種機器學習方法，它通過與環境的交互來學習如何做出決策，以最大化累積獎勵。PyTorch 是

發表于 11-05 17:34 ?325次閱讀

AI大模型與深度學習的關系

AI大模型與深度學習之間存在著密不可分的關系，它們互為促進，相輔相成。以下是對兩者關系的介紹：一、深度學習是AI大模型的基礎技術支撐：深度學習是

發表于 10-23 15:25 ?901次閱讀

【「大模型時代的基礎架構」閱讀體驗】+ 第一、二章學習感受

常用的機器學習算法，重點剖析了一元線性回歸算法，由此引出機器學習算法的運算特征，此后分別描述了使

發表于 10-10 10:36

谷歌AlphaChip強化學習工具發布，聯發科天璣芯片率先采用

近日，谷歌在芯片設計領域取得了重要突破，詳細介紹了其用于芯片設計布局的強化學習方法，并將該模型命名為“AlphaChip”。據悉，AlphaChip有望顯著加速芯片布局規劃的設計流程，并幫助芯片在性能、功耗和面積方面實現更優表現。

發表于 09-30 16:16 ?432次閱讀

深度學習的基本原理與核心算法

隨著大數據時代的到來，傳統機器學習方法在處理復雜模式上的局限性日益凸顯。深度學習（Deep Learning）作為一種新興的人工智能技術，以其強大的非線性表達能力和自學習能力，在圖像識

發表于 07-04 11:44 ?2185次閱讀

機器學習算法原理詳解

機器學習作為人工智能的一個重要分支，其目標是通過讓計算機自動從數據中學習并改進其性能，而無需進行明確的編程。本文將深入解讀幾種常見的機器學習算法

發表于 07-02 11:25 ?1130次閱讀

機器學習的經典算法與應用

關于數據機器學習就是喂入算法和數據，讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據集是一個經典數據集，在統計

發表于 06-27 08:27 ?1678次閱讀

通過強化學習策略進行特征選擇

更快更好地學習。我們的想法是找到最優數量的特征和最有意義的特征。在本文中，我們將介紹并實現一種新的通過強化學習策略的特征選擇。我們先討論強化學習

發表于 06-05 08:27 ?375次閱讀

谷歌提出大規模ICL方法

谷歌DeepMind團隊近日取得了一項突破性的研究成果。他們提出了強化和無監督兩種新型的ICL（In-Context Learning）

發表于 05-14 14:17 ?368次閱讀

一文詳解Transformer神經網絡模型

Transformer模型在強化學習領域的應用主要是應用于策略學習和值函數近似。強化學習是指讓機器在與環境互動的過程中，通過試錯來學習最優的

發表于 02-20 09:55 ?1.5w次閱讀

AI算法的本質是模擬人類智能，讓機器實現智能化

電子發燒友網報道（文/李彎彎）AI算法是人工智能領域中使用的算法，用于模擬、延伸和擴展人的智能。這些算法可以通過機器學習、深度

發表于 02-07 00:07 ?5847次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

谷歌最近提出一種新的強化學習算法：模擬策略學習 (SimPLe)

評論

華為云 Flexus X 實例部署安裝 Jupyter Notebook，學習 AI，機器學習算法

螞蟻集團收購邊塞科技，吳翼出任強化學習實驗室首席科學家

NPU與機器學習算法的關系

一種基于深度學習的二維拉曼光譜算法

如何使用 PyTorch 進行強化學習

AI大模型與深度學習的關系

【「大模型時代的基礎架構」閱讀體驗】+ 第一、二章學習感受

谷歌AlphaChip強化學習工具發布，聯發科天璣芯片率先采用

深度學習的基本原理與核心算法

機器學習算法原理詳解

機器學習的經典算法與應用

通過強化學習策略進行特征選擇

谷歌提出大規模ICL方法

一文詳解Transformer神經網絡模型

AI算法的本質是模擬人類智能，讓機器實現智能化