四虎波多野结衣天海翼,综合在线视频精品专区,永久免费看黄在线播放

從世界矚目的圍棋游戲 AlphaGo，近年來，強化學習在游戲領域里不斷取得十分引人注目的成績。自此之后，棋牌游戲、射擊游戲、電子競技游戲，如 Atari、超級馬里奧、星際爭霸到 DOTA 都不斷取得了突破和進展，成為熱門的研究領域。

突然襲來的回憶殺~

今天為大家介紹一個在街機游戲《街頭霸王 3》中進行模擬來訓練改進強化學習算法的工具包。不僅在 MAME 游戲模擬器中可以使用，這個 Python庫可以在絕大多數的街機游戲中都可以訓練你的算法。

下面營長就從安裝、設置到測試分步為大家介紹一下。

目前這個工具包支持在Linux系統，作為MAME的包裝器來使用。通過這個工具包，你可以定制算法逐步完成游戲過程，同時接收每一幀的數據和內部存儲器的地址值來跟蹤游戲狀態，以及發送與游戲交互的動作。

首先你需要準備的是：

操作系統：Linux

Python 版本：3.6+

▌安裝

你可以使用 pip來安裝該庫，運行下面的代碼:

▌《街頭霸王3》示例

這個工具包目前已用于游戲《街頭霸王 3》（Street Fighter III Third Strike: Fight for the Future）, 還可以用于MAME上的任何游戲。下面的代碼演示了如何在街頭霸王的環境下編寫一個隨機智能體。

此外，這個工具包還支持hogwild訓練:

▌游戲環境設置

游戲 ID

在創建一個模擬環境之前，大家需要先加載游戲的 ROM，并獲取 MAME所使用的游戲 ID。比如，這個版本街頭霸王的游戲 ID是“sfiii3n”，你可以通過運行以下代碼來查看游戲ID：

該命令會打開 MAME模擬器，你可以從游戲列表中選擇你所要的那款游戲。游戲的 ID通常位于標題后面的括號中。

內存地址

實際上該工具包與模擬器本身不需要太多的交互，只需要查找和內部狀態相關聯的內存地址，同時用所選取的環境對狀態進行跟蹤。你可以使用 MAME Cheat Debugger 來觀察隨著時間的變化，內存地址值發生了怎樣的改變。

可以使用以下命令運行Debugger：

更多關于該調試工具的使用說明請參考此教程：

https://www.dorkbotpdx.org/blog/skinny/use_mames_debugger_to_reverse_engineer_and_extend_old_games

當你確定了所要跟蹤的內存地址后可以執行以下命令進行模擬：

該命令會啟動模擬器，并在工具包導入到模擬器進程時暫停。

分步模擬

在工具包導入完成后，你可以使用 step 函數分步進行模擬：

step 函數將以 Numpy 矩陣的形式返回 frame 和 data 的值，同時也會返回總時間步長的所有內存地址整數值。

發送輸入

如果要向仿真器輸入動作，你還需要確定游戲支持的輸入端口和字段。例如，在街頭霸王游戲中需要執行以下代碼進行投幣：

可以使用 list ac tions命令查看所支持的輸入端口，代碼如下：

以下返回的列表就包含了街頭霸王游戲環境中可用于向 step 函數發送動作的所有端口和字段：

模擬器還有一個 frame_ratio參數，可以用來調整你的算法幀率。在默認設置下，NAME每秒能生成 60幀。當然，如果你覺得這樣太多了，你也能通過以下代碼將其改為每秒 20幀：

▌性能基準測試

目前該工具包的開發和測試已經在8核AMD FX-8300 3.3GHz CPU以及3GB GeForce GTX 1060 GPU上完成。在使用單個隨機智能體的情況下，街頭霸王游戲環境可以以正常游戲速度的600%+運行。而如果用8個隨機智能體進行hogwild訓練的話，街頭霸王游戲環境能以正常游戲速度的300%+運行。

▌簡單的 ConvNet 智能體

為了確保該工具包能夠訓練算法，我們還設置了一個包含 5 層 ConvNet 的架構，只需進行微調，你就能用它來進行測試。在街頭霸王的實驗中，這個算法能夠成功學習到游戲中的一些簡單技巧如：連招 (combo) 和格擋 (blocking)。街頭霸王的游戲機制是由易到難設置了 10 個關卡，玩家在每個關卡都要與不同的對手對戰。剛開始時，智能體平均只能打到第二關，而當經過了 2200 次訓練后，它平均能打到第 5 關。學習率的設置是通過每一局中智能體所造成的凈傷害和所承受的傷害來計算的。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

存儲器

存儲器

+關注

關注
38

文章
7553

瀏覽量
164899
python

python

+關注

關注
56

文章
4813

瀏覽量
85301
強化學習

強化學習

+關注

關注
4

文章
269

瀏覽量
11366

原文標題：用這個Python庫，訓練你的模型成為下一個街頭霸王！

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關注！文章轉載請注明出處。

Facebook推出ReAgent AI強化學習工具包

Facebook近日推出ReAgent強化學習（reinforcement learning）工具包，首次通過收集離線反饋（offline feedback）來實現策略評估（policy evaluation）。

發表于 10-19 09:38 ?1643次閱讀

樹莓派街機

` 本帖最后由 goyuqinghua 于 2016-3-1 16:24 編輯還記得小時候的街頭游戲機嗎？一毛錢一個游戲幣，投到機器里就可以操作搖桿玩的那種，《核金彈頭》、《

發表于 02-22 15:30

深度強化學習實戰

內容2:課程一： TensoRFlow入門到熟練：課程二：圖像分類：課程三：物體檢測：課程四：人臉識別：課程五：算法實現：1、卷積神經網絡CNN2、循環神經網絡RNN3、強化學習DRL4、對抗性生成

發表于 01-10 13:42

什么是強化學習？純強化學習有意義嗎？強化學習有什么的致命缺陷？

強化學習是人工智能基本的子領域之一，在強化學習的框架中，智能體通過與環境互動，來學習采取何種動作能使其在給定環境中的長期獎勵最大化，就像在上述的棋盤

發表于 07-15 10:56 ?1.8w次閱讀

基于強化學習的MADDPG算法原理及實現

之前接觸的強化學習算法都是單個智能體的強化學習算法，但是也有很多重要的應用場景牽涉到多個智能體之間的交互。

發表于 11-02 16:18 ?2.2w次閱讀

如何構建強化學習模型來訓練無人車算法

本文作者通過簡單的方式構建了強化學習模型來訓練無人車算法，可以為初學者提供快速入門的經驗。

發表于 11-12 14:47 ?4974次閱讀

NVIDIA遷移學習工具包 ：用于特定領域深度學習模型快速訓練的高級SDK

對于設計和集成智能視頻分析（IVA）端應用程序（如停車管理、安全基礎設施、零售分析、物流管理和訪問控制等）的開發人員，NVIDIA 的遷移學習工具包提供了端到端的深度學習工作流，可以加速深度學

發表于 12-07 14:45 ?3240次閱讀

谷歌AI發布足球游戲強化學習訓練環境“足球引擎”

該強化學習環境的核心是一種先進的足球游戲模擬，稱為“足球引擎”，它基于一個足球游戲版本經大量修改而成。根據兩支對方球隊的輸入動作，模擬了足球

發表于 06-15 10:33 ?4273次閱讀

基于PPO強化學習算法的AI應用案例

Viet Nguyen就是其中一個。這位來自德國的程序員表示自己只玩到了第9個關卡。因此，他決定利用強化學習AI算法來幫他完成未通關的遺憾。

發表于 07-29 09:30 ?2892次閱讀

機器學習中的無模型強化學習算法及研究綜述

強化學習（ Reinforcement learning，RL）作為機器學習領域中與監督學習、無監督學習并列的第三種學習范式，通過與環境

發表于 04-08 11:41 ?11次下載

基于強化學習的虛擬場景角色乒乓球訓練

基于強化學習的虛擬場景角色乒乓球訓練

發表于 06-27 11:34 ?62次下載

7個流行的強化學習算法及代碼實現

作者：Siddhartha Pramanik 來源：DeepHub IMBA 目前流行的強化學習算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。這些算法

發表于 02-03 20:15 ?1236次閱讀

7個流行的強化學習算法及代碼實現

作者：SiddharthaPramanik來源：DeepHubIMBA目前流行的強化學習算法包括Q-learning、SARSA、DDPG、A2C、PPO、DQN和TRPO。這些算法已被用于在

發表于 02-06 15:06 ?1740次閱讀

模擬矩陣在深度強化學習智能控制系統中的應用

訊維模擬矩陣在深度強化學習智能控制系統中的應用主要是通過構建一個包含多種環境信息和動作空間的模擬矩陣，來模擬和預測深度

發表于 09-04 14:26 ?661次閱讀

如何使用 PyTorch 進行強化學習

強化學習（Reinforcement Learning, RL）是一種機器學習方法，它通過與環境的交互來學習如何做出決策，以最大化累積獎勵。PyTorch 是一個流行的開源機器

發表于 11-05 17:34 ?563次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

街機游戲《街頭霸王 3》中進行模擬來訓練改進強化學習算法的工具包

評論

Facebook推出ReAgent AI強化學習工具包

樹莓派街機

深度強化學習實戰

什么是強化學習？純強化學習有意義嗎？強化學習有什么的致命缺陷？

基于強化學習的MADDPG算法原理及實現

如何構建強化學習模型來訓練無人車算法

NVIDIA遷移學習工具包：用于特定領域深度學習模型快速訓練的高級SDK

谷歌AI發布足球游戲強化學習訓練環境“足球引擎”

基于PPO強化學習算法的AI應用案例

機器學習中的無模型強化學習算法及研究綜述

基于強化學習的虛擬場景角色乒乓球訓練

7個流行的強化學習算法及代碼實現

7個流行的強化學習算法及代碼實現

模擬矩陣在深度強化學習智能控制系統中的應用

如何使用 PyTorch 進行強化學習