双子母性本能在线,手机在线黄色网站,依人在线

說起 MOBA 類手游，想必大家都能想到王者榮耀。它近日又有了新動(dòng)作。11 月 28 日騰訊宣布，旗下騰訊 AI Lab 與王者榮耀聯(lián)合研發(fā)的策略協(xié)作型 AI “絕悟” 推出升級(jí)版本 “絕悟 “完全體。目前，“絕悟 “背后采用的創(chuàng)新算法突破了 AI 的英雄上限，英雄池?cái)?shù)量也從 40 個(gè)增至 100 + 個(gè)。創(chuàng)新算法能夠讓 AI 完全掌握所有英雄的所有技能，同時(shí)應(yīng)對(duì)高達(dá) 10 的 15 次方的英雄組合數(shù)變化，幾乎覆蓋人類玩家能夠選出的組合。另一技術(shù)亮點(diǎn)則是優(yōu)化了禁選英雄（BanPick，簡(jiǎn)稱 BP）博弈策略，能綜合自身技能與對(duì)手情況等多重因素派出最優(yōu)英雄組合。相關(guān)研究已被 AI 頂級(jí)會(huì)議 NeurIPS 2020 與頂級(jí)期刊 TNNLS 收錄，兩篇論文的一作均為騰訊的 Deheng Ye（葉德珩）。

同時(shí)，“絕悟” 完全體版本已在王者榮耀 App 限時(shí)開放。各榮耀玩家可以上線與之對(duì)戰(zhàn)，體驗(yàn)時(shí)間為 11 月 14 日至 30 日，絕悟在 20 個(gè)關(guān)卡的能力不斷提升，最強(qiáng)的 20 級(jí)于 11 月 28 日開放，接受 5v5 組隊(duì)挑戰(zhàn)。

AI 策略：紅方 AI 鎧大局觀出色，繞后蹲草叢扭轉(zhuǎn)戰(zhàn)局積少成多，自古英雄出少年

王者榮耀中，最吸引人的稱號(hào)是：“全能高手”。想要獲得它卻很難，你需要在五個(gè)職業(yè)中（對(duì)抗路、中路、發(fā)育路、游走、打野）都擁有 4 個(gè)紫色熟練度英雄。但因?yàn)榫毩?xí)時(shí)間與精力限制，很少有人能精通所有英雄。而 “絕悟”技術(shù)團(tuán)隊(duì)一年內(nèi)讓 AI 掌握的英雄數(shù)從 1 個(gè)增加到 100 + 個(gè)，完全解禁英雄池，此版本因此得名 “絕悟完全體”。那么 “絕悟完全體” 是怎樣做到的呢？我們知道，從零學(xué)會(huì)單個(gè)陣容易如反掌，但面對(duì)多英雄組合時(shí)就難如登天。在對(duì)戰(zhàn)中，因?yàn)榈貓D龐大且信息不完備，不同的 10 個(gè)英雄組合應(yīng)該有不同的策略規(guī)劃、技能應(yīng)用、路徑探索及團(tuán)隊(duì)協(xié)作方式，這將使決策難度幾何級(jí)增加。并且，多英雄組合也帶來了 “災(zāi)難性遺忘” 問題，這使得模型容易邊學(xué)邊忘，是長(zhǎng)期困擾開發(fā)者的大難題。

為了應(yīng)對(duì)上述問題，技術(shù)團(tuán)隊(duì)先引入 “老師分身” 模型，讓每個(gè) AI 老師在單個(gè)陣容上訓(xùn)練至精通，再引入一個(gè) AI 學(xué)生模仿學(xué)習(xí)所有的 AI 老師，最終讓 “絕悟” 掌握了所有英雄的所有技能，成為一代宗師。同時(shí)，團(tuán)隊(duì)還制定了長(zhǎng)期目標(biāo)，就是要讓 “絕悟” 學(xué)會(huì)所有英雄的技能，且每個(gè)英雄都能達(dá)到頂尖水平。為此他們?cè)诩夹g(shù)上做了三項(xiàng)重點(diǎn)突破：首先團(tuán)隊(duì)構(gòu)建了一個(gè)最佳神經(jīng)網(wǎng)絡(luò)模型，讓模型適配 MOBA 類任務(wù)、表達(dá)能力強(qiáng)、還能對(duì)英雄操作精細(xì)建模。模型綜合了大量 AI 方法的優(yōu)勢(shì)，具體而言： 1. 在時(shí)序信息上引入長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTM）優(yōu)化部分可觀測(cè)問題； 2. 在圖像信息上選擇卷積神經(jīng)網(wǎng)絡(luò)（CNN）編碼空間特征； 3. 用注意力（Attention）方法強(qiáng)化目標(biāo)選擇； 4. 用動(dòng)作過濾（Action Mask）方法提升探索效率； 5. 用分層動(dòng)作設(shè)計(jì)加快訓(xùn)練速度； 6. 用多頭值估計(jì)（Multi-Head Value）方法降低估計(jì)方差等。

圖 | 網(wǎng)絡(luò)架構(gòu) 其次，團(tuán)隊(duì)借用圍棋的思路，采用了 CSPL（Curriculum Self-Play Learning，課程自對(duì)弈學(xué)習(xí)），能夠有效拓寬英雄池，讓 “絕悟 “掌握所有英雄技能。 CSPL 是一種讓 AI 從易到難的漸進(jìn)式學(xué)習(xí)方法，具體有以下幾個(gè)步驟： 1．“老師分身” 模型：挑選多組覆蓋全部英雄池的陣容，在小模型下用強(qiáng)化學(xué)習(xí)訓(xùn)練，得到多組 “老師分身” 模型； 2．遷移模型：蒸餾，把第一步得到的多個(gè)模型的能力遷移到同一個(gè)大模型中； 3．隨機(jī)陣容的強(qiáng)化訓(xùn)練：在蒸餾后的大模型里，隨機(jī)挑選陣容繼續(xù)強(qiáng)化訓(xùn)練和微調(diào)。通過多種傳統(tǒng)和新穎技術(shù)方法的結(jié)合，實(shí)現(xiàn)了在大的英雄池訓(xùn)練，同時(shí)還能不斷擴(kuò)展的目標(biāo)。

圖 | CSPL 流程圖。任務(wù)由易到難，模型從簡(jiǎn)單到復(fù)雜，知識(shí)逐層深入。實(shí)驗(yàn)結(jié)果表明，使用 CSPL 方法擴(kuò)展英雄池有明顯優(yōu)勢(shì)，能夠在非常有效地減少訓(xùn)練時(shí)間，同時(shí)保持良好的效果。

圖 | 實(shí)驗(yàn)結(jié)果最后，團(tuán)隊(duì)還搭建了大規(guī)模訓(xùn)練平臺(tái) —— 騰訊開悟（aiarena.tencent.com）。該平臺(tái)依托項(xiàng)目積累的算法經(jīng)驗(yàn)、脫敏數(shù)據(jù)及騰訊云的算力資源，為訓(xùn)練所需的大規(guī)模運(yùn)算保駕護(hù)航。目前，開悟平臺(tái)于今年 8 月對(duì) 18 所高校開放，未來希望為更多科研人員提供技術(shù)與資源支持，深化課題研究。排兵布陣，致人而不致于人

作為團(tuán)隊(duì)的大腦，教練在整個(gè)比賽中都起到了非常重要的作用。無論是在 BP 環(huán)節(jié)（禁選英雄）的選擇，還是陣容的壓制上面，稍有不慎就為給對(duì)手帶來先天優(yōu)勢(shì)，造成 “致于人” 的局面。因此，“絕悟” 要取得勝利就必須找到一個(gè)能排兵布陣的 AI 教練。

目前，簡(jiǎn)單的做法是選擇貪心策略，即選擇當(dāng)前勝率最高的英雄。這針對(duì)單個(gè)英雄而言或許可以，但王者榮耀有上百個(gè)英雄，任意英雄間都有或促進(jìn)或克制的關(guān)系，只按勝率選擇很容易被對(duì)手針對(duì)，更需要綜合考慮敵我雙方、已選和未選英雄的相關(guān)信息，最大化己方優(yōu)勢(shì)，最小化敵方優(yōu)勢(shì)。受到圍棋 AI 算法（Alpha Go）的啟發(fā)，團(tuán)隊(duì)使用蒙特卡洛樹搜索（MCTS）和神經(jīng)網(wǎng)絡(luò)結(jié)合的自動(dòng) BP 模型來解決這一問題。 MCTS 方法包括了選擇、擴(kuò)張、模擬和反向傳播四個(gè)步驟，會(huì)不斷迭代搜索，估算出可選英雄的長(zhǎng)期價(jià)值。在這其中模擬部分最耗時(shí)，所以團(tuán)隊(duì)用估值神經(jīng)網(wǎng)絡(luò)替代該環(huán)節(jié)，加快了搜索速度，這樣能夠又快又準(zhǔn)地選出具備最大長(zhǎng)期價(jià)值的英雄。要提到的是，圍棋等棋牌類游戲結(jié)束就能確定勝負(fù)，但 BP 結(jié)束只到確定陣容，還未對(duì)戰(zhàn)，所以勝負(fù)未分。因此團(tuán)隊(duì)利用絕悟自對(duì)弈產(chǎn)生的超過 3000 萬條對(duì)局?jǐn)?shù)據(jù)訓(xùn)練出一個(gè)陣容勝率預(yù)測(cè)器，用來預(yù)測(cè)陣容的勝率。勝率預(yù)測(cè)器得到的陣容勝率又被用來監(jiān)督訓(xùn)練估值網(wǎng)絡(luò)。

圖 | 蒙特卡洛搜索樹除了常見的單輪 BP，AI 教練還學(xué)會(huì)了王者榮耀 KPL 賽場(chǎng)上常見的多輪 BP 賽制，該模式下不能選重復(fù)英雄，對(duì)選人策略要求更高。為此，團(tuán)隊(duì)引入多輪長(zhǎng)周期判定機(jī)制，在 BO3/BO5 賽制中可以全局統(tǒng)籌、綜合判斷，做出最優(yōu) BP 選擇。訓(xùn)練后的 BP 模型在對(duì)陣基于貪心策略的基準(zhǔn)方法時(shí)，能達(dá)到近 70% 勝率，對(duì)陣按位置隨機(jī)陣容的勝率更接近 90%。至此，強(qiáng)兵加軍師的組合，使得 “絕悟” 成為了不折不扣的一代宗師。

除了上述的 RL（強(qiáng)化學(xué)習(xí)）算法外，團(tuán)隊(duì)還開發(fā)了 SL（監(jiān)督學(xué)習(xí)）算法，針對(duì)大局觀和微操策略同時(shí)建模，讓絕悟同時(shí)擁有優(yōu)秀的長(zhǎng)期規(guī)劃和即時(shí)操作，達(dá)到了非職業(yè)玩家的頂尖水平。

相關(guān)技術(shù)成果曾在 2018 年 12 月公開亮相對(duì)戰(zhàn)人類玩家。其實(shí)，團(tuán)隊(duì)對(duì)于監(jiān)督學(xué)習(xí)的研發(fā)一直在持續(xù)進(jìn)行中。今年 11 月 14 日起開放的絕悟第 1 到 19 級(jí)，就有多個(gè)關(guān)卡由監(jiān)督學(xué)習(xí)訓(xùn)練而成。

從研究方法上看，監(jiān)督學(xué)習(xí)對(duì)于 AI 智能體的研發(fā)有很高的價(jià)值。 1.“更像人”：通過挖掘人類數(shù)據(jù)預(yù)測(cè)未來的監(jiān)督學(xué)習(xí)是通常是研發(fā)游戲 AI 的第一步，并在眾多視頻游戲上取得較好效果。比如在明星大亂斗等復(fù)雜電子游戲中，純監(jiān)督學(xué)習(xí)能也學(xué)到達(dá)到人類高手玩家水平的 AI 智能體。 2. 多種深度學(xué)習(xí)的結(jié)合：監(jiān)督學(xué)習(xí)能復(fù)用為強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò)，如 AlphaGo 就是監(jiān)督學(xué)習(xí)結(jié)合強(qiáng)化學(xué)習(xí)。 3. 節(jié)約訓(xùn)練時(shí)間：同時(shí)適當(dāng)?shù)夭迦氡O(jiān)督學(xué)習(xí)可以縮短強(qiáng)化學(xué)習(xí)探索時(shí)間，比如 DeepMind 的星際爭(zhēng)霸 AI AlphaStar 就用監(jiān)督學(xué)習(xí)做強(qiáng)化訓(xùn)練的隱含狀態(tài)。

圖 | 網(wǎng)絡(luò)架構(gòu) 應(yīng)用上述諸多優(yōu)點(diǎn)，“絕悟 “可以實(shí)現(xiàn)一系列效果：訓(xùn)練快，在 16 張 GPU 卡上只需幾天，而強(qiáng)化學(xué)習(xí)則需幾個(gè)月；拓展能力強(qiáng)，能完成全英雄池訓(xùn)練；使用真實(shí)玩家的脫敏數(shù)據(jù)，配合有效采樣，產(chǎn)出的 AI 行為上會(huì)更接近人類。隨著 AI 在游戲世界的發(fā)展，它們?cè)跀?shù)據(jù)的記憶和處理方面的優(yōu)勢(shì)能夠進(jìn)一步體現(xiàn)出來。那么如何利用 AI 來強(qiáng)化自己的隊(duì)伍，或許是當(dāng)下游戲教練需要思索的問題。 -End-

原文標(biāo)題：登上NeurIPS 2020：騰訊AI聯(lián)合王者榮耀推出“絕悟”完全體

文章出處：【微信公眾號(hào)：DeepTech深科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4771

瀏覽量
100719
AI

AI

+關(guān)注

關(guān)注
87

文章
30745

瀏覽量
268896

原文標(biāo)題：登上NeurIPS 2020：騰訊AI聯(lián)合王者榮耀推出“絕悟”完全體

文章出處：【微信號(hào)：deeptechchina，微信公眾號(hào)：deeptechchina】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

騰訊AI推出“絕悟”完全體

評(píng)論

蘋果探討與騰訊、字節(jié)跳動(dòng)終端AI合作

騰訊申請(qǐng)注冊(cè)“騰訊云AI代碼助手”商標(biāo)

騰訊云AI助力FAST發(fā)現(xiàn)51顆脈沖星

MediaTek天璣移動(dòng)平臺(tái)賦能騰訊會(huì)議端側(cè)AI人像分割模型

商湯絕影首發(fā)智能座艙大模型創(chuàng)新產(chǎn)品

騰訊申請(qǐng)注冊(cè)多枚“騰訊AI助手”商標(biāo)

高通與騰訊混元達(dá)成戰(zhàn)略合作

英特爾與騰訊攜手共繪AI與云計(jì)算新藍(lán)圖

騰訊推出自主研發(fā)的AI引擎,工作效率提升超40倍

耐能推出最新的邊緣AI服務(wù)器及內(nèi)置耐能AI芯片的PC設(shè)備

飛利浦影音推出首款AI會(huì)議降噪耳機(jī)飛利浦“8號(hào)”

商湯絕影攜手經(jīng)緯恒潤(rùn)推出智能感知后視鏡

阿里大模型“通義聽悟”升級(jí)

阿里大模型產(chǎn)品發(fā)布多項(xiàng)新功能，音視頻問答助手“小悟”上線

Stability AI與Morph AI共同推出一體化AI視頻創(chuàng)作工具