在线播放一区二区精品产,无限在线看免费视频大全,一个人免费观看高清视频

去年，OpenAI 在 DOTA 的 1v1 比賽中戰勝了職業玩家 Dendi，而在距離進階版 OpenAI Five 系統戰勝人類業余玩家不過一個月的時間，今天凌晨，它又以 2:1 的戰績再次完成對人類高級玩家的“屠殺”，GG（人類贏的最后一局純屬耍賴）。

相比之下，人類這次輸給的是怎樣的進階版“AI 英雄”？

此次，OpenAI Five 對陣 5 個高級玩家（解說員+前職業玩家）——Blitz, Cap, Fogged, Merlini 和 Moonmeander，他們的平均天梯分 6000 以上。反觀 OpenAI Five，根據公開資料，它的實力相當于人類玩了 180 年的游戲，而且每天都與自己進行對抗學習，學習過程非常復雜，需要在 256 個 GPU 和 128,000 個 CPU 上運行擴展版本的近端策略優化（PPO）進行訓練。

它對每個英雄使用了單獨的 LSTM（長短期記憶遞歸神經網絡），并且沒有人類數據，它會學習可識別的策略，這表明強化學習可以產生可實現規模的長期規劃。

此外，就應用環境而言，不同于棋牌游戲的固定規則，像 DOTA2 這樣的復雜視頻游戲是 5v5 對決的戰略游戲，況且，DOTA 游戲已經不斷開發了十幾年，游戲邏輯中有數十萬行代碼，且每兩周更新一次，游戲語義在不斷產生變化。

因此，AI 玩 DOTA 的難度可想而知，它首先需要解決以下四大問題：長時視野；局部觀察狀態；高維、連續的動作空間；高維、連續的觀察空間。

▌模型架構

OpenAI Five 的每個網絡都包含一個單層的、1024-unit 的 LSTM，它可以查看當前的游戲狀態（從 Valve 的 Bot API 中抓取），并通過幾個可能的 ac tion heads 發出動作。每個 head 都具有語義含義，例如延遲動作的刻度數，選擇哪一個動作，該動作在單元周圍網格中的 X 或 Y 坐標等。Action heads 是獨立計算的。

OpenAI Five 使用觀察空間（observation space）和動作空間（action space）進行交互式演示。OpenAI Five 將世界視為 20000 個數字的列表，并通過發出一個包含 8 個枚舉值（enumeration values）的列表來執行操作。通過選擇不同的行動和目標，我們可以了解 OpenAI Five 如何編碼每個動作，以及如何觀察世界。下圖是人類會看到的場景。

OpenAI Five 可以對與它所看到的相關的丟失狀態片段做出反應。例如，直到最近，OpenAI Five 的觀察區域才包括狙擊手的技能范圍（子彈落在敵人身上的區域）。然而，我們觀察到 OpenAI Five 可以學習走出（雖然不能避免進入）狙擊手的技能范圍，因為當進入這個區域時，它可以看到自己的血量是在減少的。

▌探索

就算有學習算法能夠處理較長的視野，我們仍然需要對環境進行探索。因為即使我們設定了各種限制，仍然有數百種道具、幾十種建筑、法術、單元類型、長尾游戲機制，以及因此產生的各種組合，想要有效地探索這個巨大的空間其實并不容易。

OpenAI Five 可以從隨機權重開始，從自我博弈中學習。為了避免“策略崩潰”，智能體在訓練的時候，80％的游戲都是自我對抗，另外 20％則是與過去的自己進行對抗。在自我對抗時，英雄首先會漫無目的繞著地圖游走。經過幾個小時的訓練后，智能體開始有了一些概念，例如建造、中路對線等。幾天之后，他們始終采用基本的人類策略：試圖從對手那里偷走 Bountyrunes等。通過進一步的訓練，它們可以熟練掌握 5 個英雄集中推塔的高級策略。

OpenAI Five 使用了 1v1 機器人里的隨機化的方法。它還使用了一個新的路線分配（lane assignment）策略。在每個訓練游戲開始時，他們隨機地將每個英雄“分配”到一些 lane 的子集，在到隨機選擇的時間之前，如果英雄偏離這些路線，就會受到懲罰。

當然，也有獎勵來幫助智能體探索環境，主要包括凈值（net worth）、殺敵數（kills）、死亡數（deaths）、助攻（assists）、最后一擊（last hits）等指標。他們通過減少其他團隊的平均獎勵，來對每個智能體的獎勵進行后續處理，以防止智能體找到正和博弈（positive-sum）的情況。

他們也對道具和技能構建進行了硬編碼，同時，也通過腳本基線（ scripted baseline）引入了信使管理（Courier management）。

▌Rapid

這個系統的實現使用了被稱為“Rapid”的通用 RL 訓練系統，它適用于任何多人模式環境。

訓練系統分為 rolloutworkers，運行游戲副本，智能體（agent），用來收集經驗，優化器節點（optimizer nodes）執行跨 GPU 組的同步梯度下降。每次訓練還包括分別對訓練機器人以及樣本機器人進行評估的組件，以及監視軟件，比如 TensorBoard，Sentry 以及 Grafana。

在同步梯度下降運算過程中，每一個 GPU 組件都會運算自己負責的批處理部分的梯度計算，隨后整體梯度再進行平均計算。他們原本使用消息傳遞借口的規約算法進行平均計算，現在則使用英偉達的多卡通型框架 NCCL2 的封裝函數來實行 GPU 并行計算以及網絡間數據傳輸。同步 58MB 大小數據（用于 OpenAI Five 的參數）的延遲顯示在表格之中，延遲時間足夠低能滿足大部分數據被進行并行運算的 GPU 標記。

▌與人類的不同

OpenAI Five 獲取的信息和人類完全一致，但是系統能馬上反應到類似位置、生命值以及物品更新情況等等人類玩家需要定時觀察的信息。OpenAI Five 的平均 APM 在 150-170 之間(理論上最快可以達到 450 考慮到每四幀一動)，平均反應時間為 80 毫秒，比人類平均速度要快很多。

很多職業選手在去年 TI 結束后都使用 bot 進行訓練。根據 Blitz 的說法 solo bot已經改變了人們對 solo 賽節奏的看法，bot 偏向于快節奏風格，現在大多數選手也已經使用快節奏風格來和 bot 抗衡。

AI 在 Dota2 中的節奏和執行力非常強了，這是不是意味著它沒有優化空間了？當然不是，此次的 OpenAI Five 還是有諸多限制，比如系統在進行最后一擊時較弱，其客觀優先級與一個共同的專業策略相匹配，獲得戰略地圖控制等長期獎勵往往需要犧牲短期獎勵。

Open AI 方面稱，在今年后續的 TI 表演賽上，還會有職業玩家繼續挑戰 AI，但結果想來也是實力“嘲諷”人類。或許，更讓人期待的是，在 Dota2 這樣的復雜游戲中，是否會出現“AI vs AI”的神仙打架比賽？

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4771

瀏覽量
100720
AI

AI

+關注

關注
87

文章
30758

瀏覽量
268903

原文標題：Dota2團戰實力蔑視人類，解剖5只“AI英雄”

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關注！文章轉載請注明出處。

人類智慧水平AI即將到來，AI芯片已提前布局

電子發燒友網報道（文/黃山明）在生成式AI的高速發展下，不少人正在焦慮AI是否會取代他們的工作。就在近期，OpenAI首席執行官Sam?Altman在瑞士達沃斯經濟論壇上分享了對未來AI

發表于 01-22 06:44 ?2593次閱讀

請問ADC的電源產生的噪聲為何會反應在ADC輸出數據的頻譜上？

請問ADC的電源產生的噪聲為何會反應在ADC輸出數據的頻譜上，有沒有講這類原理的書？因為看了很多論文，只是給出了結論，沒有說為什么。求大家推薦一本書，謝謝。

發表于 12-05 08:09

HUAWEI Mate系列旗艦新品發布：小藝再進階解鎖更多創新AI功能

與 OS 深度融合，構筑全新鴻蒙原生智能框架。AI 能力與操作系統深度融合，小藝也完成了向系統級智能體的升級，有著強大的推理規劃能力、知識問答能力、記憶能力等。在 Mate 系列新機的加持下，小藝能力再進階

發表于 11-27 09:36 ?171次閱讀

AI智能體逼真模擬人類行為

近日，據外媒最新報道，斯坦福大學、華盛頓大學與Google DeepMind的科研團隊攜手合作，成功開發出一種能夠高度逼真模擬人類行為的AI智能體。該智能體的構建得益于研究團隊將詳細的訪談記錄

發表于 11-26 10:24 ?350次閱讀

為何這個電路L2電感接上后鋰電會短路？

看一下為何這個L2電感接上后鋰電會短路，但不接5407的8腳vout又沒有輸出0電壓，只有插上vin輸入才有5v輸出

發表于 09-30 14:10

平衡創新與倫理：AI時代的隱私保護和算法公平

的發展不應背離人類的倫理道德。在推動技術創新的同時，我們必須確保每一步都走得穩健和負責。通過提高透明度、保障算法公平性、保護個人隱私權以及加強國際合作，我們可以確保AI技術的健康發展，使其成為促進社會進步和增進人類福祉的力量。

發表于 07-16 15:07

智謀紀 AI+Multi LED 打開人類健康新寶藏

技術。智謀紀創始人&CEO朱東亮先生受邀出席論壇，帶來題為《AI+ Multi LED，打開人類健康新寶藏》的專題演講。演講精彩瞬間回顧：AI+ Multi LED，智謀紀AI照明

發表于 06-17 12:23 ?325次閱讀

AI芯片未來會控制這個世界嗎？

AI芯片行業資訊

芯廣場
發布于 :2024年03月27日 18:21:28

AI會取代誰?

AI行業芯事

電子發燒友網官方
發布于 :2024年03月13日 16:29:17

富士通發布最新的人工智能（AI）戰略，聚焦深化人類與AI之間的協作

富士通株式會社（以下簡稱“富士通”）發布了最新的集團人工智能（AI）戰略，聚焦深化人類與AI之間的協作，并提出了將AI作為“可信賴的助手”這一愿景，為提升

發表于 02-21 17:09 ?820次閱讀

RK3568驅動指南｜驅動基礎進階篇-進階5 自定義實現insmod命令實驗

RK3568驅動指南｜驅動基礎進階篇-進階5 自定義實現insmod命令實驗

發表于 02-20 14:10 ?678次閱讀

RK3568驅動指南｜驅動基礎進階篇-進階8 內核運行ko文件總結

RK3568驅動指南｜驅動基礎進階篇-進階8 內核運行ko文件總結

發表于 01-31 14:58 ?1145次閱讀

奧特曼稱相信AI無法替代人類

奧特曼稱相信AI無法替代人類 AI對于人類的威脅一直有很多討論，各有不同觀點，很多人對于科幻電影中的場景AI機器人傷害

發表于 01-19 11:43 ?873次閱讀

OpenAI CEO稱人類水平的AI即將出現

OpenAI首席執行官山姆·奧特曼（Sam Altman）近日表示，達到人類水平的人工智能（AI）即將出現，但他認為這種技術對世界的影響可能遠沒有人們想象的那么大。

發表于 01-17 14:59 ?835次閱讀

AI跟人類搶工作？微軟小科普消除對AI的四大誤解

隨著AI的普及和快速發展，對其能力、影響和未來發展的誤解也隨之增多。AI是否會搶走每個人的工作？

發表于 01-10 16:05 ?836次閱讀