剛剛,在更復(fù)雜的《星際爭霸 II》游戲中,DeepMind AI 以總比分 2:0 分別戰(zhàn)勝兩位職業(yè)人類選手。這或許是自 2017 年 AlphaGo 在圍棋上戰(zhàn)勝人類后,再次讓人類刷新 AI 認(rèn)知的人機(jī)大戰(zhàn)。
此次與人類對戰(zhàn)的 AI 是 AlphaGo 兄弟:AlphaStar。開賽前幾個小時,DeepMind CEO 在 Twitter 上公布了這一名字。而在開賽前一天,DeepMind 宣布 AI 將與人類在《星際爭霸 II》中公開對戰(zhàn)的消息,并表示在《星際爭霸 II》游戲的瘋狂難度模式下,其 AI 的勝率為 50%。
需要說明的是,正如之前打 Dota 的 OpenAI 受到的降低反應(yīng)速度一樣,DeepMind 此次將 AlphaStar 的反應(yīng)速度“限制”到 APM 280,大致相當(dāng)于星際中等職業(yè)玩家的水平。就 AlphaStar 的表現(xiàn)來看,雖然最終在現(xiàn)場 PK 時輸了最后一局比賽,但整體上還是完虐人類。
比賽開始,與 AlphaStar 對戰(zhàn)的第一個職業(yè)選手是 TLO,其世界排名為第 68 位。此次人機(jī)大戰(zhàn)是五局三勝制,TLO 雖然不是頂級星際選手,但讓人足夠驚嘆的是,AlphaStar 最終在約五十分鐘內(nèi)結(jié)束戰(zhàn)斗,以 3:0 的成績獲勝,人類職業(yè)選手似乎毫無還手之力。
先來簡單回顧下人機(jī)大戰(zhàn)第一場:AlphaStar 第一局一開始就表現(xiàn)的很有全局觀,在 PvP 兩礦打一礦的情況下,TLO 很快被擊敗;第二局一度打得很焦灼,但 AlphaStar 依然以 2:0 再贏一局;十分鐘后,TLO 潰敗給 AlphaStar,有網(wǎng)友說選手太初級,批評 TLO 作為職業(yè)選手在瞎打,沒有尊重熬夜看人機(jī)大賽的觀眾。不過,也有人說 AI 很可怕。
如果說第一回合 AlphaStar 戰(zhàn)勝的是“初級”選手,那隨后與其對戰(zhàn)的職業(yè)選手是世界排名第 19 位的 MaNa ,其職業(yè)水平至少是中上游。
上圖顯示的是 AlphaStar 的決策過程,具體比賽過程就不說了,結(jié)果是 MaNa 在大約 45 分鐘內(nèi)連輸五局被 AlphaStar 斬落馬下。
前一個職業(yè)選手 TLO 在 MaNa 輸?shù)舯荣惡蠓Q,“相信我, 和一個像 AlphaStar 這樣的對手比賽是非常困難的, 它的打法和人類完全不同,是你以前從未有過的經(jīng)驗(yàn)。 AlphaStar 給人留下了極深的印象, 這在游戲 AI 中也是前所未有的。"
AlphaStar 遇神殺神,干脆利落。這次應(yīng)該沒人責(zé)怪 MaNa 打得不好,他顯然拼盡了全力,而網(wǎng)友發(fā)出的慨嘆是希望終結(jié)者不會來那么快。
但最后一局讓網(wǎng)友們?yōu)槿祟惷\(yùn)緊張的情緒稍稍放松,與 MaNa 現(xiàn)場對戰(zhàn)的 AlphaStar 一著不慎,讓 MaNa 扳回一局,但最終以 1:5 輸?shù)舯荣悺?/p>
AlphaStar 的來歷
早在 2016 年,谷歌 DeepMind 的 AI 研究人員已經(jīng)開始關(guān)注暴雪娛樂的《星際爭霸 II》。通過游戲來確定 AI 是否可以勝過人類相對簡單的復(fù)雜任務(wù)是 DeepMind 的研究人員長期以來都在嘗試的項(xiàng)目。同年 11 月,DeepMind 曾在暴雪嘉年華上宣布與暴雪達(dá)成合作協(xié)議,將在《星際爭霸》系列游戲中進(jìn)行合作,將在游戲平臺中引入機(jī)器學(xué)習(xí)方法,進(jìn)行人工智能研究。
2017 年 8 月,Deepmind 與暴雪共同發(fā)布了合作計(jì)劃的首個成果:基于《星際爭霸 II》的人工智能研究環(huán)境 SC2LE,它允許研究者在 Linux 系統(tǒng)中接入游戲 API,開放了 65000 場比賽的數(shù)據(jù)緩存用于訓(xùn)練 AI,并將添加 50 萬場游戲數(shù)據(jù)到緩存中。
2018 年,同樣在暴雪嘉年華上,他們分享了人工智能模型在《星際爭霸》游戲中的突破。人工智能模型能執(zhí)行基本的宏觀戰(zhàn)略,還能防御像 Tower Rush 這樣的激進(jìn)戰(zhàn)術(shù)。而剛剛結(jié)束的“星際爭霸”賽則是是一項(xiàng)“重大挑戰(zhàn)”,因?yàn)檫@要求 AI 智能體“實(shí)現(xiàn)和平衡一些子目標(biāo)”,以便最終擊敗人類選手。
例如,雖然游戲的目標(biāo)是擊敗對手,但玩家還必須考慮平衡多個子目標(biāo),比如收集資源(水晶和氣礦)或建筑。此外,一場比賽的時間通常為幾分鐘到一小時不等,這意味著游戲中提早執(zhí)行的行動會在很長時間不見成效。最后,由于玩家智能看到部分地圖,這意味著智能體必須結(jié)合記憶與規(guī)劃才能成功。
AlphaStar 背后的 AI 技術(shù)
在圍棋任務(wù)中,對手間可以看到整個棋盤,但《星際爭霸 II》與此不同,我們通常無法看到整個地圖,需要派小兵出去偵查。而且游戲是不間斷進(jìn)行的,整個游戲甚至?xí)谐^ 5000 步的操作。
DeepMind 科學(xué)家 Oriol Vinyals 曾在去年的一場以《AI 對戰(zhàn)星際爭霸勝算幾何?》的演講中提到,這個游戲基本上就是建造一些建筑物以及單位,在同一個地圖里與不同的組織相互競爭。在這個游戲中,哪怕只是建造建筑物,也需要做出許多決策。除此之外,他們還要不斷收集和利用資源、建造不同的建筑物、不斷擴(kuò)張,因此整個游戲非常具有挑戰(zhàn)性。
他們在這個游戲中使用的方法依舊是強(qiáng)化學(xué)習(xí)。他們要讓 AI 模仿人類玩這個游戲的方式,但即使是模仿人類點(diǎn)擊鼠標(biāo)和敲擊鍵盤的行為也非常困難,需要收集整個《星際爭霸》玩家的行為進(jìn)行分析。為此還引入了一個游戲引擎。
DeepMind 還為游戲過程設(shè)計(jì)了不同的指令和模式,這使得整個玩《星際爭霸》的過程變得獨(dú)一無二。如今,我們看到的 AlphaStar 正是上述想法的結(jié)晶。
現(xiàn)在的 AlphaStar 還是剛出生的嬰幼兒,不過以其極快的進(jìn)化速度,你也能想到日后的進(jìn)化版會是多么無可匹敵。到現(xiàn)在,或許還有很多人期待 2 月 15 日 AlphaStar 與世界排名第一的 Serral 進(jìn)行終極對決,但最終的結(jié)果可想而知。正如柯潔輸給 AlphaGo 時面臨的絕望一樣,人類可能不愿意面對這樣的現(xiàn)實(shí):在更多復(fù)雜的場景中,人類可能正以難以想象的速度輸給 AI。
-
AI
+關(guān)注
關(guān)注
87文章
30763瀏覽量
268913 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8408瀏覽量
132576 -
DeepMind
+關(guān)注
關(guān)注
0文章
130瀏覽量
10852
原文標(biāo)題:2:0!谷歌 AI “AlphaStar“ 虐殺職業(yè)星際玩家
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論