亚洲精品色综合色在线观看,伊人影院在线播放,一二三四社区在线播放

雖然人類已經(jīng)無望在電子競技中打敗AI多智能體，但DeepMind的研究仍在繼續(xù)往前推進。最近他們公布了在強化學(xué)習(xí)方面的最新進展，并對未來進行了展望。AI智能體的能力還會繼續(xù)提高嗎？會有極限嗎？

是的是的我們都知道，已經(jīng)沒有什么電子競技能夠讓人類抱有哪怕1%穩(wěn)贏的希望了。但是！你有沒有想過，AI會不會有一個極限？它的潛力還有多少，無窮大？還是最終止步于某個境界？DeepMind的科學(xué)家也想知道。

他們最近更新了博客，以雷神之錘為例，為我們重新介紹了強化學(xué)習(xí)的最新發(fā)展、AI在《雷神之錘3·奪旗》中達到了什么樣的程度，以及未來的期望。

多智能體最大的挑戰(zhàn)：既要獨自打拼，還要團隊協(xié)作

掌握多人游戲中涉及到的策略、戰(zhàn)術(shù)、團隊配合，是AI研究的關(guān)鍵挑戰(zhàn)。而DeepMind的科學(xué)家已經(jīng)將AI調(diào)教到了和人類相當(dāng)?shù)乃剑@一點在《雷神之錘3·奪旗》體現(xiàn)的淋漓盡致。

AI智能體在游戲中，無論是跟同類打配合，還是跟人類組團，完全天衣無縫，表現(xiàn)的不像個機器人。DeepMind的科學(xué)家已經(jīng)在籌劃將奪旗中的方法，應(yīng)用在雷神之錘3的全部游戲模式中。

Quake III有非常多的游戲模式。自身提供4種，分別是Free For All（競技場模式）、Team Deathmatch（紅藍兩隊對戰(zhàn)模式）、Tournament（Duel）（單挑模式）、奪旗（紅藍兩隊奪旗模式）。其他包括MOD和以其開源游戲引擎衍生出的獨立游戲也非常多。

https://zh.wikipedia.org/wiki/%E9%9B%B7%E7%A5%9E%E4%B9%8B%E9%94%A4III%E7%AB%9E%E6%8A%80%E5%9C%BA

作為社群生物，我們幾十億人類共同生活在同一個地球上，每個人都有自己獨立的目標(biāo)和行為，但仍然能夠通過團隊、組織和社會聚集在一起，展示出令人驚嘆的集體智慧。這樣的設(shè)置，我們稱之為多智能體學(xué)習(xí)：每個智能體獨立行動，同時要學(xué)會與其他智能體的互動以及合作。

參考系都是動態(tài)的，自由度非常高。想想我們?nèi)祟愔g團隊配合的難度，就知道設(shè)計這樣的多智能體有多難了！

多智能體克服難題的秘訣

具體到《雷神之錘3·奪旗》中，智能體面臨的挑戰(zhàn)是直接從原始像素中學(xué)習(xí)以產(chǎn)生動作。這種復(fù)雜性使得第一人稱多人游戲成為AI社區(qū)內(nèi)富有成效且活躍的研究領(lǐng)域。

奪旗原本是一項廣受歡迎的戶外運動，被廣泛的應(yīng)用于電子游戲中。在一張給定的地圖中，紅藍雙方保護自己的旗子并搶奪對方旗子，5分鐘時間內(nèi)，奪旗次數(shù)最多的隊伍獲勝。在游戲中，還可以標(biāo)記敵方隊員并將其送回出生點。

越是簡單的規(guī)則，越能衍生出多種多樣的玩法，在人類來說是增加了趣味性，在多智能體來講就是增加了難度。為了繼續(xù)刁難多智能體，游戲地圖被設(shè)置成每局一換，以防止多智能體靠著優(yōu)于人類的記憶來獲得地利優(yōu)勢。

多智能體應(yīng)對時局變化的訣竅，來自基于強化學(xué)習(xí)的三個概念：

訓(xùn)練一組多智能體而非只訓(xùn)練單一個體，使其能夠在游戲中互相學(xué)習(xí)，提供多樣化的隊友和對手

每個智能體都學(xué)習(xí)自己的內(nèi)部獎勵信號，刺激智能體產(chǎn)生他們自己的內(nèi)在目標(biāo)比如搶到旗子。然后使用雙層優(yōu)化流程直接優(yōu)化智能體的內(nèi)部獎勵以獲勝，同時利用內(nèi)部獎勵的強化學(xué)習(xí)來了解智能體的政策。

智能體以快速和慢速兩種速度運行，這提高了它們使用內(nèi)存和生成一致動作序列的能力

由此產(chǎn)生的智能體，被稱為For The Win（獨孤求勝）智能體，學(xué)會了以非常高的水平來玩奪旗。至關(guān)重要的是，學(xué)到的智能體政策，對地圖的大小、隊友的數(shù)量以及團隊中的其他玩家都很有用。

DeepMind組織了40個人，和多智能體一起隨機組隊。最終獨孤求勝智能變得比強基線方法強大得多，超過了人類玩家的勝率。事后調(diào)查顯示，智能體相比我們?nèi)祟悾朴诖蚺浜希∷宰璧K人類勝利的關(guān)鍵是人類不會好好打配合咯。

智能體在訓(xùn)練期間的游戲表現(xiàn)。我們訓(xùn)練的新智能體FTW游戲模式下的Elo得分比人類玩家和自游戲+ RS、自游戲的基線方法更高，該分?jǐn)?shù)反映出游戲獲勝的概率。

除了對游戲表現(xiàn)進行評估之外，了解這些智能體的行為和內(nèi)部表示的復(fù)雜度也很重要。

為了理解智能體如何表示游戲狀態(tài)，我們來看一下在平面上表示的智能體神經(jīng)網(wǎng)絡(luò)的激活模式。下圖中的點集群表示在游戲期間與附近表示類似激活模式的點的游戲情況。這些點按照智能體發(fā)現(xiàn)自己的高級CTF游戲狀態(tài)著色：在哪個房間？旗幟的狀態(tài)是什么？可以看到哪些隊友和對手？我們觀察到相同顏色的聚類，表明智能體以類似的方式表示類似的高級游戲狀態(tài)。

我們的智能體在游戲世界中的表示。在上圖中，根據(jù)神經(jīng)的相似程度繪制出給定時間的神經(jīng)激活模式：圖中兩點在空間中距離越近，表明它們的激活模式越相似。然后根據(jù)實時比賽情況對它們進行上色：顏色相同，表示情況相同。這些神經(jīng)激活模式是有組織的，形成了顏色簇，表明智能體以刻板、有組織的方式表示出有意義的游戲玩法。訓(xùn)練后的智能體甚至展示了一些人工神經(jīng)元，用于直接針對游戲中的特定情形。

智能體從未被告知有關(guān)游戲規(guī)則的任何內(nèi)容，但卻了解基本的游戲概念，并對CTF產(chǎn)生了有效的直覺。事實上，我們可以找到直接為某些最重要的游戲狀態(tài)編碼的特定神經(jīng)元，例如在智能體一方的旗子被奪時激活的神經(jīng)元，或者當(dāng)智能體的隊友拿著旗幟時激活的神經(jīng)元。本文對此提供了進一步的分析，包括了智能體對記憶和視覺注意力的應(yīng)用。

超強智能體：強加反應(yīng)延遲，游戲中仍然勝過人類

我們的智能體在游戲中表現(xiàn)如何？首先，它們的反應(yīng)時間非常短。由于人類的生物信號傳導(dǎo)速度較慢，人類處理和作用于感官輸入的速度也就相對較慢。因此，我們的智能體在游戲中的卓越表現(xiàn)，可能是因為它們具備更快的視覺處理能力和運動控制的結(jié)果。

然而，在我們?nèi)藶榻档土酥悄荏w的瞄準(zhǔn)精度和反應(yīng)時間后，發(fā)現(xiàn)這其實只是其表現(xiàn)優(yōu)秀的其中一個因素。在進一步的研究中，我們訓(xùn)練了內(nèi)置延遲約四分之一秒（267毫秒）的智能體，也就是說，它們在觀察世界之前存在267毫秒的延遲，這與人類游戲玩家的反應(yīng)時間差不多。但這些自帶反應(yīng)延時的智能體仍然在游戲中的表現(xiàn)仍然優(yōu)于人類玩家，后者的勝率只有21%。

人類玩家面對響應(yīng)延遲的智能體的勝率仍然很低，這表明，即使被加上了與人類相當(dāng)?shù)姆磻?yīng)延時，智能體的游戲表現(xiàn)依然勝過人類玩家。此外，通過查看人類和相應(yīng)延時的智能體的平均游戲事件數(shù)量，雙方的標(biāo)記事件數(shù)量差不多，表明這些智能體在這方面沒有占據(jù)優(yōu)勢。

通過無監(jiān)督學(xué)習(xí)，我們建立了代理人和人類的典型行為，發(fā)現(xiàn)智能體實際上學(xué)習(xí)了類似人類的行為，比如跟隨隊友并在對手的基地安營扎寨等。

訓(xùn)練后的智能體做出的幾種行為：防守己方基地、騷擾敵方基地、跟隨隊友。

這些行為在強化學(xué)習(xí)的訓(xùn)練過程中逐步出現(xiàn)，智能體能夠逐漸學(xué)會以更加互補的方式進行合作。

一群獨孤求勝智能體的訓(xùn)練進程。左上角：30個智能體的Elo評分，它們之間可以互相訓(xùn)練和進化。右上：進化事件樹。下圖顯示了在整個智能體訓(xùn)練過程中知識進展、一些內(nèi)部獎勵機制和行為概率。

《星際爭霸2》并不是極限，多智能體將繼續(xù)前進

AI智能體在《雷神之錘》中的成功經(jīng)驗，被DeepMind應(yīng)用在更復(fù)雜的即時戰(zhàn)略游戲中。比如基于人口信息學(xué)的多智能體強化學(xué)習(xí)，構(gòu)成了面向《星際爭霸2》的AlphaStar智能體構(gòu)建的基礎(chǔ)。這款游戲被稱為“人類最后的尊嚴(yán)”，但最終也沒能擋住AIphaStar稱霸的腳步。

而且，《星際爭霸2》不會成為AI多智能體能力的極限，DeepMind還在不斷給多智能體加大難度，利用多智能體訓(xùn)練中總結(jié)出的經(jīng)驗，用于開發(fā)高魯棒性的、甚至可以與人類合作的強大智能體。

智能體在全尺寸地圖上玩《雷神之錘3》其他多人游戲模式

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
30985

瀏覽量
269273
智能體

智能體

+關(guān)注

關(guān)注
1

文章
152

瀏覽量
10586
強化學(xué)習(xí)

強化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
267

瀏覽量
11262

原文標(biāo)題：DeepMind制霸《雷神之錘3》！碾壓人類的超級多智能體這樣訓(xùn)練

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

深圳云棲大會人工智能專場：探索視頻+AI，玩轉(zhuǎn)智能視頻應(yīng)用

提高視頻生產(chǎn)制作的效率的。傳統(tǒng)的編輯是人來做的，當(dāng)AI和視頻采集生產(chǎn)環(huán)節(jié)結(jié)合，我們可以引入智能編輯技術(shù)，快速生產(chǎn)視頻。天下武功，唯快不破，應(yīng)用在視頻領(lǐng)域也是一樣的。設(shè)想我們很快的生產(chǎn)視頻，第一時間發(fā)布

發(fā)表于 03-30 15:15

全球首家！訊飛AI電話能力平臺開放合作！

能力的機器人。科大訊飛AI電話機器人平臺使得傳統(tǒng)客服平臺能夠在最短的時間內(nèi)，以極少成本集成訊飛AI電話機器人全部功能，為自己產(chǎn)品新增一個聰明的人工智能機器人。幫助平臺客戶實現(xiàn)業(yè)務(wù)知識自

發(fā)表于 09-10 09:47

新能力｜AI為腦 · AR為眼，訊飛能力星云助你看見智能未來

星云計劃——除了自研能力，科大訊飛還會與業(yè)內(nèi)優(yōu)秀的技術(shù)廠商進行合作，實現(xiàn)戰(zhàn)略互補。訊飛開放平臺經(jīng)過8年的積累，現(xiàn)已開放近百項AI能力，賦能88萬開發(fā)者團隊。在

發(fā)表于 09-14 10:23

微型微控制器與強大的人工智能（AI）世界有什么關(guān)系

嵌入式應(yīng)用可能的極限，嵌入式設(shè)計已經(jīng)能夠提高網(wǎng)絡(luò)攻擊的實時響應(yīng)能力和設(shè)備安全性。支持AI的MCU云計算推動了對具有AI功能的MCU的需求；它減少了數(shù)據(jù)傳輸所需的帶寬，并節(jié)省了云服務(wù)器的

發(fā)表于 11-01 08:55

用嵌入式AI技術(shù)提升智能硬件應(yīng)用能力

，更有人工智能開放平臺MAGIK。X2000 建立在其圖像、視頻、互聯(lián)等各方面的強大的能力組合之上的 AI 能力，必將使其成為智能互聯(lián)時代不

發(fā)表于 10-09 14:33

AI 人工智能的未來在哪？

人工智能、AI智能大模型已經(jīng)孵化；繁衍過程將突飛猛進，ChatGPT已經(jīng)上線。世界首富馬斯克認(rèn)為AI對人類是一種威脅；谷歌前CEO施密特認(rèn)為AI

發(fā)表于 06-27 10:48

AI智能呼叫中心

可以自動識別和響應(yīng)來電，通過分析用戶的語音、文字和情緒等信息，并給出針對性的應(yīng)答，與傳統(tǒng)的人工處理相比，AI智能呼叫中心能夠?qū)崿F(xiàn)24/7不間斷的服務(wù)，大幅提高了處理效率和用戶滿意度。二、個性化服務(wù)

發(fā)表于 09-20 17:53

AI時代到來如何提高孩子創(chuàng)造未來的能力

之前分享過創(chuàng)新工場人工智能工程院執(zhí)行院長王詠剛的《AI時代，提高孩子創(chuàng)造未來的能力，陪孩子玩什么游戲？》一文。很多家長看了文章后，想知道玩這些游戲到底有什么用？

發(fā)表于 05-09 11:03 ?2882次閱讀

極視角發(fā)布首款軟硬一體極光幫助客戶低成本擁有應(yīng)用AI能力

極光是一款集平臺、算法、存儲為一體的智能邊緣計算產(chǎn)品，基于極視角強大算法能力，結(jié)合高算力AI模塊，致力于幫助客戶低成本擁有應(yīng)用AI的

發(fā)表于 05-25 14:30 ?2478次閱讀

大模型不夠用，還有“AI智能體”？

前不久，在一場活動中有人工智能專家圍繞“AI智能體”的話題展開了討論，他們表示，AI智能

發(fā)表于 05-12 08:04 ?344次閱讀

智能體逼近大爆發(fā)？李彥宏再談AI應(yīng)用

AI時代的未來，為什么是智能體？

發(fā)表于 06-20 16:08 ?428次閱讀

長虹發(fā)布滄海智能體AI TV與智匯家AI大模型

2024年德國柏林消費電子展覽會（IFA2024）盛大啟幕，長虹集團攜全球首款滄海智能體AI TV與長虹美菱智匯家AI大模型驚艷亮相。滄海智能

發(fā)表于 09-10 18:21 ?873次閱讀

使用全新NVIDIA AI Blueprint開發(fā)視覺AI智能體

為提高生產(chǎn)力、優(yōu)化流程和創(chuàng)造更加安全的空間，埃森哲、戴爾科技和聯(lián)想等公司正在使用全新 NVIDIA AI Blueprint 開發(fā)視覺 AI 智能體

發(fā)表于 11-06 13:58 ?411次閱讀

AI智能體生態(tài)圈和軟件棧

原文鏈接：https://www.letta.com/blog/ai-agents-stack 一，理解AI智能體盡管市面上有許多關(guān)于智能

發(fā)表于 12-03 15:49 ?138次閱讀

AI智能體是什么_AI智能體如何重塑企業(yè)業(yè)務(wù)流程

AI技術(shù)的飛速發(fā)展令人矚目。就在企業(yè)領(lǐng)導(dǎo)者們剛開始熟悉AI助手時，AI智能體Agent（國際版）已經(jīng)迅速成為討論的焦點。它們之所以受到廣泛關(guān)

發(fā)表于 12-19 17:55 ?287次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

AI智能體的能力還會繼續(xù)提高嗎？

評論

深圳云棲大會人工智能專場：探索視頻+AI，玩轉(zhuǎn)智能視頻應(yīng)用

全球首家！訊飛AI電話能力平臺開放合作！

新能力｜AI為腦 · AR為眼，訊飛能力星云助你看見智能未來

微型微控制器與強大的人工智能（AI）世界有什么關(guān)系

用嵌入式AI技術(shù)提升智能硬件應(yīng)用能力

AI 人工智能的未來在哪？

AI智能呼叫中心

AI時代到來如何提高孩子創(chuàng)造未來的能力

極視角發(fā)布首款軟硬一體極光幫助客戶低成本擁有應(yīng)用AI能力

大模型不夠用，還有“AI智能體”？

智能體逼近大爆發(fā)？李彥宏再談AI應(yīng)用

長虹發(fā)布滄海智能體AI TV與智匯家AI大模型

使用全新NVIDIA AI Blueprint開發(fā)視覺AI智能體

AI智能體生態(tài)圈和軟件棧

AI智能體是什么_AI智能體如何重塑企業(yè)業(yè)務(wù)流程