色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

Dota2敗給OpenAI-Five究竟是為什么？

OpenAI昨日發布研究成果，宣布Dota2 5v5在限定條件下（英雄陣容固定，部分道具和功能禁用）戰勝人類半職業選手。本文主要對其模型技術架構做一些分析總結。

一、模型輸入與輸出

模型的輸入是使用RAM(內存信息)，如位置坐標，技能血量數值狀態等，而不是圖像像素信息。

模型輸入主要分為兩個部分：

直接觀測的信息：場面其他英雄的絕對位置，相對距離，相對角度，血量，狀態等。

人工定義抽象的信息：是否被攻擊以及正在被誰攻擊，炮彈距離命中的時間，朝向的cos與sin，最近12幀內的英雄的血量變化等。

模型的輸出即是指AI所選擇的動作，包括移動，攻擊釋放技能等。OpenAI將連續的動作，離散化對應到網格，并對各種技能定制化釋放動作，以減少動作空間的大小。以下圖為例，AI要釋放一個攻擊技能，需要選取這個技能，并選擇一個目標單位周圍網格內的一個位置：

值得注意的是，在Dota2游戲內還有其他動作，例如操控信使，購買裝備，技能升級與天賦等，這些都是人工定義好，而不需AI決策的。而操控幻象分身，召喚物等涉及更復雜的多單位操作，則未在OpenAI當前版本的考慮范圍內。

二、網絡架構與訓練方式

網絡架構架構局部如下圖：

Dota2敗給OpenAI-Five究竟是為什么？

模型大圖下載鏈接：https://d4mucfpksywv.cloudfront.net/research-covers/openai-five/network-architecture.pdf

總的來看，大量信息通過連接(concatenate)與全連接層(dense)層進行綜合，作為1024維的LSTM的輸入。LSTM綜合時序信息，并輸出決策向量，再用決策向量解構出詳細動作。

訓練方式：

純自我對弈訓練。

隨機化訓練：隨機初始狀態（血量速度移動等）的訓練，以增強泛化能力。

使用很高的γ=0.9997。γ為獎勵衰減值，一般在其他環境中設置為0.98，0.998。

大量計算：128,000CPU+256GPU，能做到每天模擬玩180年的游戲。

獎勵(reward)設計：

總體獎勵：當前局面評估（塔的情況等），KDA（個人戰績），補兵表現等。

合作獎勵：全隊的表現作為自己獎勵的一部分。

分路對線的獎勵與懲罰：最開始分配一條路，前期發育時如果偏離就會懲罰。

三、總結

用強化學習玩Dota2需要面對4個挑戰：狀態空間大，局面不完全可見（有視野限制），動作空間大，時間尺度大。

近期論文中提出的解決方案，大致有以下幾個方向：

狀態空間大：解決方法如先用World Models抽象，再進行決策。

局面不完全可見：一般認為需要進行一定的搜索，如AlphaGo的MCTS（蒙特卡洛樹搜索）。

動作空間大：可以使用模仿學習(Imitation Learning)，或者與層次強化學習結合的方法。

時間尺度大：一般認為需要時間維度上的層次強化學習(Hierarchical Reinforcement Leanring)來解決這個問題。

而神奇的是，OpenAI沒有使用上述任一方法，而僅僅使用高γ值的PPO基礎算法，就解決了這些問題。這說明憑借非常大量的計算，強化學習的基礎算法也能突破這些挑戰。

OpenAI沒有使用的WorldModels，MCTS，IL，HRL等方法，既是學術界研究的重點方向，也是OpenAI-Five潛在的提升空間。這些更高效的方法若被合理應用，可以加快模型的學習速度，增強模型的遷移能力，并幫助模型突破當前的限制。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
30745

瀏覽量
268896
模型

模型

+關注

關注
1

文章
3229

瀏覽量
48809

原文標題：技術架構分析：攻克Dota2的OpenAI-Five

文章出處：【微信號：AItists，微信公眾號：人工智能學家】歡迎添加關注！文章轉載請注明出處。

《DotA2》同時在線人數首次突破100萬，全民打年獸？

早在2015年2月2日，Steam同時在線人數最高曾超過840萬名PC玩家。當時根據Steam統計，當時《DotA2》是玩的人最多的游戲，其次是《CS：GO》，《軍團要塞2》，《足球經

發表于 02-26 15:06

S參數究竟是什么？

S參數究竟是什么？起決定性作用的S參數將S參數擴展到多端口器件和差分器件

發表于 03-01 11:46

一文讀懂eMMC究竟是啥？

eMMC究竟是啥？eMMC長什么樣？eMMC用在哪？主要是干嘛用的？eMMC究竟是如何工作的呢？

發表于 06-18 06:04

spec究竟是什么？有誰可以分享一下嗎

spec究竟是什么?哪位同行可以幫忙分享下DFI 5.0的spec?

發表于 06-21 07:16

AI在簡化了的DOTA2擊敗前1％玩家，學習能力很出色

”、沒有隱身裝備、沒有召喚單位和幻象、以及少了一些裝備等。這也使整個比賽簡化了不少，從另一個角度看AI仍然沒能力完全加入人類版的DOTA2游戲中。

發表于 06-29 19:39 ?603次閱讀

AI也能相互協作的玩游戲，玩Dota2戰勝了人類玩家

據悉，OpenAI開發了出了一套名為“OpenAI Five”的算法，雖然單獨來看這種算法并沒有什么突破，只是針對玩Dota2的一種神經網絡，并且此前也曾有AI算法在1對1的

發表于 06-27 05:29 ?623次閱讀

AI之間能團隊合作嗎？AI團隊挑戰Dota2職業選手團隊

近日，馬斯克和Sam Altman所創立的人工智能非營利組織OpenAI宣布：其開發的AI能夠組隊在5V5對戰中戰勝Dota2頂尖業余玩家，這些人類玩家的平均天梯分數超過4200分。這也是繼阿爾法狗

發表于 07-17 11:51 ?3496次閱讀

OpenAI Five在Dota2國際競賽TI8中進行首次對戰以失敗告終

OpenAI Five是一個由5個人工神經網絡組成的隊伍，可以把它想象成一個模擬的“大腦”，是專門為學習Dota而設計的。OpenAI Five

發表于 08-24 08:53 ?5185次閱讀

人工智能戰隊OpenAI將戰Dota2人類最強戰隊的最終決戰

人工智能戰隊OpenAI將戰Dota2人類最強戰隊，人工智能在圍棋上擊敗人類之后，很多技術人員就開始展望 AI 在視頻游戲中的表現了。2017 年的 Dota2 國際邀請賽 TI7 上，Ope

發表于 07-04 11:09 ?1392次閱讀

S參數究竟是什么？

S參數究竟是什么？

發表于 11-01 08:24 ?2次下載

精選推薦
更多

文章

資料

帖子

算力荒緩解，自主化智算還有必要嗎？

腦極體
41分鐘前

66 閱讀

芯對話|賦能通信變革，創享無限互聯

芯佰微電子
1小時前

70 閱讀

折疊屏2024的新東西、好東西、舊東西

腦極體
1天前

752 閱讀

艾為車規氛圍燈驅動芯片AW23003QNR-Q1解析已過AEC-Q100認證

艾為之家
1天前

693 閱讀

使用Keithley源表進行DC-DC電源管理芯片效率測試

泰克科技
2天前

915 閱讀

LED充電手電筒維修

lanlanw
743 KB

免費

1305下載

太陽能功率變換器隔離：理解iec62109-1安全標準

charia1
1.38 MB

1積分

0下載

openharmony第三方組件適配移植的開源圖表框架

姚小熊27
9.34 MB

免費

2下載

xBlog C++開發的BLOG程序

golabs
4.11 MB

2積分

1下載

快速瞬態響應1.5-A低壓差穩壓器TPS751xxQ TPS753xxQ數據表

楊雪
621.6KB

免費

0下載

飛凌嵌入式-ELFBOARD 硬件知識分享-ELF 2電源電路講解

jf_02372380
11小時前

124 閱讀

CSU-IDE是否支持函數指針

七月小子
1天前

95 閱讀

【正點原子STM32H7R3開發套件試用體驗】開箱、簡介、上電、工程測試

jf_07365693
1天前

87 閱讀

【RA-Eco-RA4E2-64PIN-V1.0開發板試用】+小白折騰瑞薩RA系列全過程02

jf_80431208
1天前

270 閱讀

【敏矽微ME32G070開發板免費體驗】新建工程（MDK）

吉吉祥
2天前

443 閱讀

推薦專欄
更多

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

Dota2敗給OpenAI-Five究竟是為什么？

一、模型輸入與輸出

二、網絡架構與訓練方式

三、總結

評論

《DotA2》同時在線人數首次突破100萬，全民打年獸？

圖解：IGBT究竟是什么？

S參數究竟是什么？

我們仿真DDR究竟是仿真什么

電感飽和究竟是什么

真正軟件定義無線電究竟是怎樣的？

分貝究竟是什么？如何去理解它?

一文讀懂eMMC究竟是啥？

spec究竟是什么？有誰可以分享一下嗎

AI在簡化了的DOTA2擊敗前1％玩家，學習能力很出色

AI也能相互協作的玩游戲，玩Dota2戰勝了人類玩家

AI之間能團隊合作嗎？AI團隊挑戰Dota2職業選手團隊

OpenAI Five在Dota2國際競賽TI8中進行首次對戰以失敗告終

人工智能戰隊OpenAI將戰Dota2人類最強戰隊的最終決戰

S參數究竟是什么？

搜索歷史

Dota2敗給OpenAI-Five究竟是為什么？

一、 模型輸入與輸出

二、 網絡架構與訓練方式

三、 總結

評論

一、模型輸入與輸出

二、網絡架構與訓練方式

三、總結