在蒙特祖瑪的復仇(Montezuma's Revenge)和瑪雅人的冒險(Pitfall!)這兩款游戲里,如果有一個算法能記住游戲里的探索過程,那么這個算法就能幫助計算機和機器人更好地學習和適應真實世界。
由懷俄明大學的副教授 Jeff Clune 領導,來自優步在舊金山的人工智能研究團隊,提供了一種新型的機器學習算法剛剛攻克了一些對人工智能來說非常困難的電子游戲。
(圖片來源:麻省理工科技評論)
熟悉的人知道,人工智能算法已經在古老、優雅的策略游戲——圍棋中擊敗了世界上最優秀的人類選手,圍棋已經是是可以想象到的最困難的游戲之一。但是,來自上個世紀的 8 位計算機游戲時代的兩個經典像素游戲——蒙特祖瑪的復仇和瑪雅人的冒險,一直困擾著人工智能研究人員。
這看似矛盾的背后其實是有原因的。蒙特祖瑪的復仇和瑪雅人的冒險雖然看似簡單,但對本來就擅長征服電子游戲的強化學習來說仍是一大挑戰。DeepMind 是谷歌母公司 Alphabet 的子公司,專注于人工智能領域,以其算法能夠以專業玩家的水準來學習幾個經典的電子游戲的而著名。強化學習算法在大多數游戲里效果都不錯,因為它們可以根據正反饋(得分升高)調整他們的行為。強化學習的成功使人們產生了希望,認為人工智能算法可以自己教會自己做各種有用的事情,而這目前對機器來說是不可能做到的。
蒙特祖瑪的復仇和瑪雅人的冒險的問題是所需要的獎勵(rewards)信號很少。兩個游戲都涉及典型場景:主角要探索充滿致命生物和陷阱的方塊世界,在游戲中許多所必需的行為都無助于提高分數,只在長時間完成特定的一系列動作之后才會收到獎勵信號。普通的強化學習算法甚至過不去蒙特祖瑪的復仇和瑪雅人的冒險的第一關,他們得分完全為零。
但是來自優步在舊金山的人工智能研究團隊的算法,在一個給算法提供線索很少的環境中展示了一種完全不同的機器學習方法。這種方法引出了一些有趣的實際應用,Clune 和他的團隊在 11 月 26 日發布的博客文章中寫道,這可能可以應用在機器人學習中。這是因為未來的機器人需要弄清楚在一個只提供較少的獎勵的復雜的環境中應該做些什么。
Uber 于 2016 年 12 月建立人工智能實驗室,其目標是實現可能對其業務有用的基礎性突破。更好的強化學習算法最終可用于自動駕駛和優化車輛路線等項目上。
很多人工智能研究人員經常通過指導強化學習算法不定時隨機探索、同時為探索過程增加獎勵——也就是所謂的”內在動機”(intrinsic motivation), 來試圖解決蒙特祖瑪的復仇與瑪雅人的冒險遇到的問題。
但 Uber 的研究人員認為,這種方法忽略了人類探索好奇心的一個重要角度。“我們認為目前的”內在動機”算法的一個主要弱點是 detachment,”他們寫道,“算法忘記了他們訪問過的有價值的區域,他們不會回到那些區域,看看是否會產生新的狀態。”
該團隊設計了新的強化學習算法,稱為 Go-Explore,這種算法可以記住之前的狀態,并會在隨后返回特定區域或重復特定任務,看看這樣做是否會使效果變好。研究人員還發現,通過讓人類玩家突出有趣或重要的區域來增加一些領域信息時,可以大大加快算法的學習過程。這一過程非常重要,因為在真實環境中,有很多情況是需要算法和人一起工作來解決一項艱巨的任務的。
他們的算法在蒙特祖瑪的復仇中平均得分為 400,000 分——比人類玩家的平均值高出一個數量級。在瑪雅人的冒險游戲中,平均得分為 21,000,同樣遠遠超過大多數人類玩家。
“這些結果令人印象深刻,”研究強化學習的斯坦福大學助理教授 Emma Brunskill 說,“令人驚訝和興奮的是,這些算法產生了如此巨大的優勢。”
其他人工智能研究人員也一直在努力攻克這些電子游戲。10 月,舊金山的非營利組織——OpenAI 的一個團隊,展示了一種能夠在蒙特祖瑪的復仇游戲中取得重大進展的算法。
就在最近,斯坦福大學的 Brunskill 小組在瑪雅人的冒險游戲方面也取得了一些的進展,他們使用的方法與 Uber 團隊類似。
現在人工智能算法可以解決這些視頻游戲,真正的挑戰是從街機游戲中脫離出來,解決現實問題。
Brunskill 同意這種算法可能對機器人技術產生重大影響。但是她表示,在其他現實世界的情況中,特別是那些涉及人類行為建模的情況,要遠遠困難得多。“想看看這種方法對于更復雜的環境表現的如何,這將非常有趣,”她說。
-
機器人
+關注
關注
211文章
28476瀏覽量
207419 -
算法
+關注
關注
23文章
4617瀏覽量
93030 -
機器學習
+關注
關注
66文章
8423瀏覽量
132752
原文標題:Uber公司設計新型AI算法,有望對機器人工作產生巨大影響
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論