在圍棋上打敗天下無敵手之后,DeepMind旗下的Alpha家族開始深入探究所有棋類,其中就包括國際象棋、日本將軍棋。
2018年12月初,在AlphaZero誕生一周年之際,《自然》雜志以封面文發布了AlphaZero經過同行審議的完整論文,Deepmind創始人兼CEO哈薩比斯親自執筆了這一論文。
AlphaGo Zero發布于2017年10月,而起真正受到重視是在去年12月初發布的《科學》雜志上,論文顯示,AlphaGo Zero在三天內自學了三種不同的棋類游戲,包括國際象棋、圍棋和日本將軍棋,而且無需人工干預。這一成果震驚了國際象棋世界,幾個小時內,AlphaGo Zero就成為了世界上最好的棋類玩家。
眾所周知,在國際象棋方面,IBM的深藍在20年前就打敗了國際象棋大師,而后續的Stockfish和Komodo這些國際象棋程序也早已獨霸國際象棋世界。在AlphaGo Zero發布之后,很多人質疑了其在國際象棋領域的價值。而本次的完整論文,對一些人認為機器算法下國際象棋沒有價值的論調提出了幾個措辭頗為嚴厲的批評。這是因為,在過去的12個月里,AlphaZero清楚展示了人類從未見過的一種智慧。
下面,就讓我們通過論文來分析下AlphaZero到底。
深藍、Stockfish和Komodo雖然能贏人類,但不能真正理解棋局
文章指出,在過去的二十年里,用機器算法下國際象棋已經取得了很大進步。1997年,IBM公司的國際象棋程序“深藍”(Deep Blue)在一場六局的比賽中擊敗了當時的人類世界冠軍卡斯帕羅夫(Garry Kasparov)。現在看來,這一成就并不神秘。深藍每秒可以計算2億個位置。它從不疲倦,從不在計算中出錯,也從不會忘記片刻之前的想法。
無論結果是好是壞,“深藍”都像一臺真正的機器,粗暴而物質化。它的計算能力遠超過卡斯帕羅夫,但卻無法真正從思維上超越他。在第一局的比賽中,深藍貪婪地接受了卡斯帕羅夫用車換一名主教的犧牲,卻在16步之后輸了比賽。現在,諸如Stockfish和Komodo等當前世界上最強的國際象棋程序仍然在以這種方式下棋。它們喜歡吃掉對手的棋子;它們防守像鋼鐵一樣強悍。但是,盡管這些國際象棋程序要比任何人類棋手強大得多,但并沒有真正理解棋局本身的意義。
經過幾十年的發展,人類大師關于棋類游戲的經驗都被作為復雜的評估工具編進程序中,表明在下棋中該尋求什么樣的有利位置以及避免陷入什么樣的不利境地。比如,王的安全性,棋子的活動、兵形、中心控制,以及如何平衡利弊。但以往很多國際象棋程序卻天生無視這些原則,給人留下的印象是野蠻粗暴的,這些程序速度快得驚人,但卻完全缺乏洞察力。
| AlphaGo Zero不僅打敗了人類和所有程序,還擁有洞察力
所有這些都隨著機器學習的興起而改變。AlphaZero通過與自己對弈并根據經驗更新神經網絡,從而發現了國際象棋的原理,并迅速成為史上最好的棋手。它不僅能夠輕而易舉地擊敗所有最強大的人類棋手,還能擊敗當時的計算機國際象棋世界冠軍Stockfish。在與Stockfish進行的100場比賽中,AlphaZero取得28勝72平的好成績。它沒有輸掉一場比賽。
最令人不可思議的是,AlphaZero似乎表達出一種天然的洞察力。它具備浪漫而富有攻擊性的風格,以一種直觀而優美的方式發揮著電腦所沒有的作用。它會玩花招,冒險。在其中幾局中,它使Stockfish癱瘓并玩弄它。當AlphaZero在第10局進行進攻時,它把自己的皇后佯退到棋盤的角落里,遠離Stockfish的國王。通常來說,這并不是攻擊皇后應該被放置的地方。
然而,這種奇怪的撤退行為充滿了惡意,不管Stockfish如何應對,它都注定要失敗。經過數十億次殘酷的計算后,AlphaZero幾乎是在等待Stockfish意識到,自己的處境是多么無望,就像一頭被擊敗的公牛面對斗牛士一樣平靜落敗。大師們從未見過這樣的機器。AlphaZero擁有精湛的技藝,同時也擁有機器的力量。這是人類第一次瞥見一種令人敬畏的新型智能。
很明顯,AlphaZero獲勝靠的是更聰明的思維,而不是更快的思維。它每秒只計算6萬個位置,而Stockfish會計算6千萬個。它更明智,知道該思考什么,該忽略什么。卡斯帕羅夫在《科學》雜志文章附帶的一篇評論中寫道,AlphaZero通過自主發現國際象棋的原理,開發出一種“反映游戲真相”的玩法,而不是“程序員式的優先級和偏見”。
| 除了棋類,AlphaZero還能做什么?
現在的問題是,機器學習能否幫助人類發現所關心問題的真相?比如像癌癥和意識、免疫系統之謎、基因組之謎等科學和醫學尚未解決的重大問題。
早期跡象令人鼓舞。去年8月份,《自然醫學》上的兩篇文章探討了機器學習如何應用于醫學診斷。在一項研究中,DeepMind研究人員與倫敦莫爾菲爾德眼科醫院(Moorfields Eye Hospital)的臨床醫生合作,開發出一種深度學習算法,可以準確地對各種視網膜病變進行分類。
另一篇文章也涉及一種機器學習算法,其能夠確定急診室病人的CT掃描是否顯現出中風、顱內出血或其他重要神經疾病的跡象。對于中風患者來說,每一分鐘都很重要;治療耽誤的時間越長,結果就越糟。新算法的準確性堪比人類專家,而且比人類專家快150倍。一個更快的診斷有助于醫生對最緊急病例進行快速分類,并由人類放射科醫生進行復查。
然而令人沮喪的是,機器學習算法還無法清晰表達它們的想法。我們不知道它們如何得出結論,所以也就無從確定能否信任機器。AlphaZero似乎已經發現了一些有關國際象棋的重要原則,但它無法與我們分享這種洞察力。作為人類,我們想要的不僅僅是答案,我們想要的是洞察力。從現在起,這將成為我們與電腦互動交流的開始。
事實上,這一情況在數學領域中早有耳聞。四色映射定理就是這樣一個長期存在的數學問題。該定理指出在一定的合理約束條件下,有關相鄰國家的任何地圖都可以只使用四種顏色進行著色,這樣相鄰兩個國家的顏色就不會相同。
雖然人們最終在計算機幫助下于1977年證明了四色映射定理,但是沒有人能夠檢驗論證中的所有步驟。從那以后,這個定理的證明得到了驗證和簡化,但仍有一些部分需要進行蠻力計算。這種發展使許多數學家感到惱火。他們不需要確認四色定理是正確的,但他們想知道為什么這是真的,但是證明沒有幫助。
暢想未來:通用算法何時到來?
但是設想有一天,也許就在不久的將來,AlphaZero已經發展成為一種更通用的解決問題算法,其將擁有至高無上的洞察力,它能夠拿出漂亮的證據,就像AlphaZero與Stockfish對弈時一樣優雅,而且每一個證明都會揭示為什么定理是正確的。
對于人類數學家和科學家來說,這一天將標志著一個新時代的到來。機器的速度越來越快,相比之下人類神經元卻以毫秒級的速度緩慢運轉,我們再也跟不上機器的理解速度,人類洞察力的黎明可能很快就會變成黃昏。
無論是基因調控或癌癥,還是免疫系統的編排,抑或是亞原子粒子的運動,其中或許還存在有待于發現的更深層模式。假設這些模式需要超越人類的更高智能來預測,而AlphaZero的繼任者又能夠識別并理解它們,那么在我們人類看來算法就像是一個神諭。
或許未來,我們不再明白為什么計算機的結論總是正確的,但我們可以通過實驗和觀察來檢驗它的計算和預測。科學將把我們的角色降低到旁觀者的角色,在驚奇和困惑中目瞪口呆。
也許最終我們不再糾結于人類自身關于洞察力的匱乏。畢竟機器算法將能夠治愈我們所有的疾病,解決我們所有的科學問題,并讓我們所有的一切順利前行。在我們作為智人存在的最初30萬年時間里,我們在沒有多少洞察力的情況下一樣生存得相當好。我們將自豪地回憶起人類洞察力的黃金時代,這段幾千年的輝煌插曲就發生在我們不理解的過去和我們不可思議的未來之間。
| Alpha家族高手煉成記
Alpha家族系列出自DeepMind公司,這家公司是2010年由杰米斯·哈薩比斯,謝恩·列格和穆斯塔法·蘇萊曼創立的。在2014年,DeepMind榮獲了劍橋大學計算機實驗室的“年度公司”獎項。2014年1月26日,Google宣布收購DeepMind科技,收購的價格大概為4億美元。
顯然,DeepMind真正被全球熟知是在第一次人機大戰之后,從2016年的那場對弈之后,DeepMind旗下的圍棋AI就開始了超神之路。
2016年1月27日,AlphaGo在沒有任何讓子的情況下,以5:0完勝歐洲圍棋冠軍、職業二段選手樊麾。在圍棋人工智能領域,實現了一次史無前例的突破。計算機程序能在不讓子的情況下,在完整的圍棋競技中擊敗專業選手,這是第一次。
2016年3月,阿爾法圍棋與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以4比1的總比分獲勝,舉世嘩然,人工智能概念開始被大眾熟知。
2016年末2017年初,該程序在中國棋類網站上以“大師”(Master)為注冊賬號與中日韓數十位圍棋高手進行快棋對決,連續60局無一敗績;
2017年5月,在中國烏鎮圍棋峰會上,阿爾法圍棋以3比0的總比分戰勝排名世界第一的世界圍棋冠軍柯潔。在這次圍棋峰會期間的2017年5月26日,阿爾法圍棋還戰勝了由陳耀燁、唐韋星、周睿羊、時越、羋昱廷五位世界冠軍組成的圍棋團隊。在柯潔與阿爾法圍棋的人機大戰之后,阿爾法圍棋團隊宣布阿爾法圍棋將不再參加圍棋比賽。
2017年10月18日,DeepMind團隊公布了最強版AlphaGo ,代號AlphaGo Zero。它的獨門秘籍是“自學成才”。而且,是從一張白紙開始,零基礎學習,在短短3天內,成為頂級高手。經過短短3天的自我訓練,AlphaGo Zero就強勢打敗了此前戰勝李世石的舊版AlphaGo,戰績是100:0的。
2017年12月5日,AlphaGo Zero迎來升級,這個被稱為AlphaZero的程序在三天內自學了三種不同的棋類游戲,包括國際象棋、圍棋和日本的將軍棋,無需人工干預,一篇描述這一成就的論文今年12月初在《科學》雜志發表。在AlphaZero之外,DeepMind在醫療領域還打造了一個名為AlphaFold的AI系統,它能夠應對當今生物學中最大的挑戰之一:模擬蛋白質的形狀。
2018年12月,AlphaGo Zero登上《自然》雜志封面,完整論文首次公開。
評論
查看更多