12月30日,騰訊宣布其人工智能球隊摘得了首屆谷歌足球Kaggle競賽冠軍。這是一場由Google Research與英超曼城俱樂部在Kaggle平臺上聯(lián)合舉辦的足球AI比賽,經(jīng)過多輪角逐,騰訊AI Lab研發(fā)的絕悟WeKick版本以1785.8的總分成為冠軍球隊。
創(chuàng)立于2010年的Kaggle是全球最大的數(shù)據(jù)科學(xué)社區(qū)和數(shù)據(jù)科學(xué)競賽平臺,今年,也是Kaggle首次針對足球AI領(lǐng)域發(fā)布賽題。
比賽使用Google Research Football強化Learning環(huán)境,基于開源足球游戲Gameplay Football開發(fā),采取11vs11的賽制,參賽團隊需要控制其中1個智能體與10個內(nèi)置智能體組成球隊。
WeKick的比賽場景該賽事發(fā)布后,吸引了來自世界頂級院校和研究機構(gòu)的1100多支隊伍參加,而騰訊此次派出的隊伍其實是11月底剛剛升級為完全體的“絕悟”,當(dāng)時,騰訊“絕悟”首次精通了王者榮耀所有英雄的所有技能,此次參加足球賽,就是在其基礎(chǔ)上進行了一些針對足球的調(diào)整。
AI如何踢足球?
Google Football(on Kaggle)以流行的足球游戲為模型,就像是一款由AI操作的FIFA游戲,智能體控制足球隊中的一個或所有足球運動員,學(xué)習(xí)如何在他們之間傳球,并設(shè)法克服對手的防守以進球。其競賽規(guī)則與普通足球比賽類似,比如目標(biāo)都是將球踢入對方球門以及越位、黃牌和紅牌規(guī)則。
不同于常見足球視頻游戲的統(tǒng)一調(diào)控式NPC球隊,在本次Kaggle競賽中,每個球員都各由一個單獨的智能體控制,而參賽的AI模型則根據(jù)比賽情況控制其中一個智能體,與其他10個內(nèi)置智能體配合。這要求每個球員不僅需要觀察對手的行為,還需要留意己方隊員的情況,背后需要非常復(fù)雜的團隊協(xié)作和競爭策略作為支撐。
比如,當(dāng)對方球員控球時,己方智能體不僅要根據(jù)球場上雙方球員的分布位置預(yù)測控球球員的下一步動作,還需要與己方其他球員協(xié)同如何合規(guī)地奪取足球的控制權(quán)。且由于球場動態(tài)瞬息萬變,因此高速的實時決策能力也是必需的。
此外,從零開始完全采用強化學(xué)習(xí)方法來訓(xùn)練完整的足球AI實際上也相當(dāng)困難。與MOBA游戲中不斷有經(jīng)濟、血量、經(jīng)驗等實時學(xué)習(xí)信號不同,足球的游戲激勵非常稀疏,基本只能依靠進球,而稀疏激勵一直是目前強化Learning一大難題。
“絕悟”的冠軍之路
據(jù)騰訊方面介紹,絕悟WeKick版本首先采用了強化學(xué)習(xí)和自博弈(Self-Play)來從零開始訓(xùn)練模型,并部署了一種異步的分布式強化學(xué)習(xí)框架。雖然該異步架構(gòu)犧牲了訓(xùn)練階段的部分實時性能,但靈活性卻得到顯著提升,而且還支持在訓(xùn)練過程中按需調(diào)整計算資源,使其能適應(yīng) 11 智能體足球游戲訓(xùn)練環(huán)境。
由于MOBA游戲和足球游戲任務(wù)目標(biāo)的差異,絕悟WeKick版本還采用了生成對抗模擬學(xué)習(xí)(GAIL)與人工設(shè)計的獎勵結(jié)合,在特征與獎勵設(shè)計上進行了擴展和創(chuàng)新。
該方案利用了生成對抗訓(xùn)練機制來擬合專家行為的狀態(tài)和動作分布,使得絕悟WeKick版本可以從其它球隊學(xué)習(xí)。然后,再將 GAIL 訓(xùn)練的模型作為固定對手進行進一步自博弈訓(xùn)練,進一步提升策略的穩(wěn)健性。
但這種通過自博弈強化學(xué)習(xí)得到的模型有一個天然的缺點:很容易收斂到單一風(fēng)格。在實際比賽的時候單一風(fēng)格的模型很容易發(fā)生由于沒見過某種打法而表現(xiàn)失常,最終導(dǎo)致成績不佳的情況。因此,為了提升策略的多樣性和穩(wěn)健性,絕悟還采用了針對多智能體學(xué)習(xí)任務(wù)的League(若干策略池)多風(fēng)格強化學(xué)習(xí)訓(xùn)練方案。
這種League多風(fēng)格強化學(xué)習(xí)訓(xùn)練方案的主要流程可簡單總結(jié)為先專精后綜合。
首先訓(xùn)練一個具備一定程度競技能力的基礎(chǔ)模型,比如運球過人、傳球配合、射門得分;
接著基于基礎(chǔ)模型訓(xùn)練出多個風(fēng)格化模型,每個模型專注一種風(fēng)格打法,在風(fēng)格化模型訓(xùn)練的過程中會定期加入主模型作為對手,避免過度堅持風(fēng)格,丟失基本能力;
最后基于多個基礎(chǔ)模型訓(xùn)練一個主模型,主模型除了以自己的歷史模型為對手以外,還會定期加入所有風(fēng)格化對手的最新模型作為對手,確保主模型能夠適應(yīng)風(fēng)格完全不同的對手。
最終,基于絕悟完全體的架構(gòu)遷移,定制化的框架改進,加上關(guān)鍵性的生成對抗模擬學(xué)習(xí)(GAIL)方案和 League (若干策略池)多風(fēng)格強化學(xué)習(xí)訓(xùn)練方案,使得絕悟?qū)崿F(xiàn)了優(yōu)于其它競爭AI球隊的優(yōu)勢,成就了冠軍之路。
責(zé)任編輯:pj
-
谷歌
+關(guān)注
關(guān)注
27文章
6161瀏覽量
105304 -
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238265 -
騰訊
+關(guān)注
關(guān)注
7文章
1652瀏覽量
49423
發(fā)布評論請先 登錄
相關(guān)推薦
評論