據外媒報道,DeepMind的使命是向人們展示,人工智能不僅能夠真正精通游戲甚至在不需要被告知游戲規則也能做到這一點。該公司最新的AI代理產品MuZero不僅可以通過具有復雜策略的視覺簡單游戲如圍棋、國際象棋和日本將棋實現這一目標,還可以通過視覺復雜的雅達利游戲實現這一目標。
DeepMind的早期AI的成功至少在一定程度上得益于巨大決策樹的非常有效的導航,這些決策樹代表了游戲中可能的行動。在圍棋或象棋中,這些樹則是由非常具體的規則控制,如棋子的移動位置、這個棋子移動時會發生什么等等。
在圍棋比賽中擊敗世界冠軍的AI AlphaGo在研究人類棋手之間和對手之間的比賽時了解了這些規則并把它們牢記于心從而形成了一套最佳實踐和策略。它的續作AlphaGo Zero則在沒有人類數據的情況下就做到了這一點。AlphaZero在2018年對圍棋、象棋和將棋也做了同樣的事情并由此創造了一個可以熟練玩所有這些游戲的AI模型。
但在所有這些情況下,AI都獲得了一系列不變的已知游戲規則并圍繞著這些規則創造了一個框架去創造自己的策略。
DeepMind在一篇關于他們新研究的博文中指出,如果AI提前被告知規則,“這就很難將它們應用到混亂的現實世界問題中,這些問題通常都很復雜且很難提煉成簡單的規則。”
該公司的最新進展是MuZero,它不僅可以玩上述游戲還可以玩雅達利的各種游戲,且完全無需任何規則手冊。最終的模型不僅通過自己的實驗(沒有人類數據)甚至沒有被告知最基本的規則就學會玩所有這些游戲。
MuZero并沒有使用規則去尋找最佳情況,而是學會考慮游戲環境的方方面面并自己觀察它是否重要。在數以百萬計的游戲中,它不僅學會了規則還學會了位置的一般價值、領先的一般政策以及事后評估自己行為的方法。據悉,后一種能力能幫助AI從自己的錯誤中吸取教訓、重新開始并嘗試不同的方法進而進一步完善位置和策略價值。
責編AJX
-
游戲
+關注
關注
2文章
742瀏覽量
26313 -
機器視覺
+關注
關注
161文章
4369瀏覽量
120282 -
AI
+關注
關注
87文章
30736瀏覽量
268896
發布評論請先 登錄
相關推薦
評論