2017 年 1 月 4 日晚上,Master 完勝第 59 盤棋的時候,突然發聲自認:“我是 AlphaGo 的黃博士”,Master 之前以橫掃千軍的姿態戰勝幾乎所有中國的圍棋大師,包括“棋圣”聶衛平和柯潔。本文帶來新智元智庫專家白碩、鄧侃的獨家解讀。同時,中國圍棋 AI 的一名開發者也透露了他的看法:Master 的水平略有些讓人失望。新智元還采訪了中國圍棋隊總教練俞斌,他在文中談了自己的看法和理解。這一次,機器可能不再借用人類經驗,而是憑借自我對弈和學習戰勝了人類,讓人類認識到另一個“真理”的存在。從某種程度上來說,這是一個新的“紀元”的開啟。
1 月 4 日晚上,之前橫掃圍棋界的神秘大師“Master”忽然發聲,自揭身份,它寫道:我是 AlphaGo 黃博士。
此時,Master 剛剛取得第 59 場不敗紀錄,將對戰人類棋手的紀錄變為 59:0。之前,人們的猜測是Master 在完成 60 場比賽后,會隱退或者發聲。但是,沒有人想到,在 59 場的時候,Master 自己表明了身份。
官方聲明:
Master 已經在線上平臺上接連戰勝了聶衛平、柯潔、樸廷桓、唐韋星、范廷鈺、王古力、周俊勛和黃云嵩等多位圍棋高手。
戰勝“棋圣”,黃博士是誰?
2017 年下午 3 點 04 分,聶衛平執白三又四分之一子之差負于 Master,Master 取得第 54 勝!
聶衛平在圍棋圈有“棋圣”之稱,只是這次,他也拿 Master 沒辦法。對弈結束后,Master 用繁體字打出了“謝謝聶老師”的消息。這個時候,其實 Master 的身份已經有所暗示了。后來 Master 所說的“黃博士”,指的是黃士杰博士。黃博士是***人。
如果大家有看 3 月份李世乭與 AlphaGo 對奕的話,應該會注意到在李世乭對面有個將 AlphaGo 的棋步下到棋盤,并且將李世乭的棋步再輸到電腦上的人。這位就是 Google DeepMind 的資深研究員,也是 AlphaGo 的主要程序開發者、***出身的黃士杰博士。
▲ 黃士杰(前左)在替 AlphaGo 執子。
黃士杰博士畢業于***師范大學,博士論文就是以“應用于電腦圍棋之蒙地卡羅樹狀搜索演算法的新啟發式演算法”,本身也是業余六段的圍棋棋手。
之前,黃士杰在接受 Engadget 的采訪時曾說,如果再給 AlphaGo 一年半載的話,說不定李世乭真的就是史上唯一贏過 AlphaGo 一場的人了……
果然,半載之后,我們看到令人嘆服的結果。
Master 的技術沒有想像得那么好?
對于此次掀起風暴的 Master,新智元智庫專家白碩評價說:
第一,并不意外。如果世界上還有另外一個團隊達到這樣的水平反而是意外。
第二,又有進步。現在的 AlphaGo 水平比去年戰勝李世乭的時候發揮更穩定、對人類棋手更有啟發性,對人類觀眾更有觀賞性,導致人類對棋理的認識正在醞釀重大的突破。
第三,還有潛力。按現在勢頭發展,基于對弈棋譜的深度學習和左右互搏的增強學習,正在形成良性互動的局面,但愿這一階段不要太快結束。
第四,除了不斷增強對弈能力外,讓機器以人類能理解的方式講述其棋路,以全新的體驗變革人類傳授和學習圍棋的方式,其意義不亞于戰勝人類。
新智元問及其他的機器包括國內的一些圍棋 AI 是否有機會超越 Master 呢?是否需要重大演算法突破才能破解 Master 的時間積累優勢?
白碩說:“我知道有人在做。如果能大幅提高演算法的效率,就意味著在同樣時間內可以遍歷更多有意義的變化,增強學習會做得越好。個人判斷,演算法上的優化仍有空間,趕超仍有機會。未來機器之間的對弈會是新的看點。”
然而,也有專業人士表示有些失望。一名要求匿名的中國某大型網絡公司 AI 開發者對新智元表示,Master 橫掃人類棋手毫不意外,但是對過程有點失望,Master 的技術沒有想像得那么好,畢竟去年 7 月份 Aja Huang 在一次演講中透露可以讓頂尖棋手 2 子,半年過去了,看不出一定能讓 2 子。也許這并不是最新版。
棋風奔放怪異,因為沒有學習過人類棋譜?
在 DeepMind 官方宣布之前,“Master”的身份激發了多方猜測,有不少人認為這就是 AlphaGo 的升級版,但與后者不同的是“Master”的招法極其奔放,推翻了很多人類棋手常走的定式,棋風與去年 3 月的 AlphaGo 大不相同。
值得注意的是,DeepMind 公司創始人 Hassabis 曾在一次采訪中透露,他們正在嘗試訓練一個沒有學習過人類棋譜的人工智能,而這可能就是 Master 和 AlphaGo 不同的原因。
CMU 博士鄧侃對新智元表示:
3 月份 AlphaGo 與李世乭對決第一盤,取得勝利后,就說明演算法已經超越人類頂級高手。接下去的幾盤,AlphaGo 贏了,這是預料之中。輸了一盤,反倒有點奇怪。因為演算法只會越變越強大。
隨著訓練越來越強化,AlphaGo 的棋藝越來越精致,這是自然而然的趨勢。戰勝所有人類高手,只不過是時間的問題。但是看不出 (現在的)AlphaGo 的演算法,有本質突破。至少沒有讀到 DeepMind 在這個領域的新論文。
AlphaGo 系統中,有 Monte Carlo tree search(蒙地卡羅樹狀搜索演算法),不妨把它理解為左右手互博,互博時間越長,實際上就是把各種可能的對弈方案,統統演練一遍。所以,AlphaGo 的訓練時間越長,它對各種對弈方案的了解就越全面。
在自我對弈中成長起來的新 AlphaGo,可能完全不需要人類棋譜。
被認為與 AlphaGo“必有一戰”的世界第一柯潔,在這次對戰中也敗下陣來,但是柯潔在微博上寫的感想倒是很值得深思。
他寫道:“新的風暴即將來襲。我從 3 月份到現在研究了大半年的圍棋軟件,無數次的理論、實踐,就是想知道電腦到底強在哪里。昨夜輾轉反側,不想竟一夜難眠,人類數千年的實戰演練進化,電腦卻告訴我們人類全是錯的。我覺得,甚至沒有一個人沾到圍棋真理的邊。但我想說,從現在開始,我們棋手將結合電腦,邁進全新的領域達到全新的境界。”
專訪中國圍棋隊總教練俞斌:慢棋是人類最后的機會,但是懸念不大
在 Master 身份確定后,新智元第一時間聯系了中國圍棋隊總教練俞斌進行專訪。
新智元:您覺得人類棋手還有機會嗎?
俞斌:基本上沒有。只留有一絲懸念,就是長時間的慢棋,但只是懸念,我判斷慢棋也不行。
新智元:如果下慢棋,人類棋手最后的突破口可能是什么呢?
俞斌:慢棋人的錯誤會少很多,但能否一爭勝負有懸念。感覺可能性很小。
新智元:之前有人認為,人類棋手以后只和人模擬,而機器棋手只會和機器棋手對決了,您認為圍棋最后是這樣嗎?
俞斌:人與人比會,機器與機器比也有,但不會只是這兩種。人與機器、人帶機器,用時、讓子等等,還是會有不少比的類型的。也許會有機器參加的團隊賽等。
新智元:看來機器的加入反而有了更多玩法。那么您認為機器的出現,看起來像人類的天花板,人類圍棋是否會放下勝負心,真正達到人和人對圍棋本身的享受呢?
俞斌:哲學問題。圍棋是勝負的游戲。享受的是勝負的樂趣。有人工智能高手,并不影響享受圍棋的樂趣。沒有勝負而享受圍棋,我理解不了。這是我個人的哲學觀點。
一次橫掃千軍的網絡對戰,Master 的進擊之路
2016 年 12 月 29 日晚上 7 點多,一位名叫“Master”的新手登錄弈城,起初沒有高手搭理,但在戰勝謝爾豪四段、孟泰齡六段、于之瑩五段、韓一洲四段、喬智健四段后這個賬號熱度陡增。這晚 Master 十戰全勝,已注定其出世不凡。
第二天中午“Master”再度現身,在對王昊洋六段、嚴在明三段等職業棋手 4 連勝后,終于引出了韓國第一人樸廷桓九段。重頭戲開始上演,結果也是重量級的,樸廷桓在必敗局面下超時負。此結果在高手中掀波,接著等級分排名第 7 的連笑七段登場挑戰,卻連敗兩場!值得注意的是,緊接著 Master 與帳號為“吻別”的網絡棋手交鋒兩次,均以中盤獲勝。弈城網工作人員表示,“吻別”很有可能就是擁有 4 個世界冠軍頭銜的當今世界圍棋第一人柯潔。如果“吻別”真是柯潔,那就意味著 Master 對當今中、韓第一人的戰績是 6:0。
31 日,“Master”又連續戰勝各大挑戰者,其中新科百靈杯冠軍陳耀燁九段也以失敗告終,最后的最后,這位堪比“掃地僧”的神秘高手連續 30 盤不敗,像是在逗大夥玩似的來了句:“今天累了,明天休息一天。”
最終敗在“Master”棋下的有江維杰九段、辜梓豪五段、樸永訓九段、柁嘉熹九段、井山裕太九段、孟泰齡六段、金志錫九段……
連一旁觀戰的柯潔九段都大驚失色:“從來沒見過這樣的招法,圍棋還能這么下?”為此他感嘆:看 Master 的著法,等于說以前學的圍棋都是錯誤的,原來學棋的時候要被罵的著法現在 Master 都下出來了。同樣的,知乎網友 @趙小康 評論,Master 對陣這些圍棋高手,“大多數對局都是中盤取勝,人類數千年時間總結出的定式、大局觀在 Master 面前顯得陳腐可笑。”
2017 年 1 月 3 日 9:30,棋手古力九段按捺不住,最終發出 10 萬元懸賞,獎勵給戰勝 Master 的勇士。但其后又有 4 位頂尖棋手被擊敗……
不過就在 51 場連勝之后,1 月 4 日,“Master”第 52 盤以和棋結束,“Master”的 51 連勝紀錄就此終止。這場比賽中,“Master”挑戰中國圍棋職業選手陳耀燁。 “Master”執黑棋、陳耀燁執白棋,30 秒 3 次快棋。不過陳耀燁出現了斷線情況,30 秒沒有落子,系統判定和棋。
今日,“Master”出現以來最受矚目的比賽在 Master 和聶衛平之間進行。年屆 64 歲的中國棋圣和“Master”的比賽也是這個人工智能程序進行的第 54 局比賽。本局“Master”特意把比賽用時調整為每方 1 分鐘一手,以示對聶衛平的尊敬。
最終本局進行至手,執白的聶衛平以 7 目半的劣勢落敗。本局“Master”在右上角下出犀利的手段,吃掉了聶衛平一塊棋由此確立優勢,并保持到了最后。而隨著棋圣聶衛平落敗,“Master”將自己的不敗紀錄延續至 54 場,中日韓高手無一能在這次“快棋”對決中取勝。
4 日晚,隨著古力敗下陣來,Master 對人類棋手獲得了 60 場不敗的紀錄。
AlphaGo 技術原理
AlphaGo 從 3 月份至今,經過 10 個月的發展,已經有了非常長足的進步,不過要追溯其技術原理,最詳細的還是 3 月份發布在 Nature 的封面論文:Mastering the game of Go with deep neural networks and tree search(透過深度神經網露和樹狀搜索,學會圍棋游戲)。
AlphaGo 給圍棋帶來了新方法,它背后主要的方法是 Value Networks(價值網絡)和 Policy Networks(策略網絡),其中 Value Networks 評估棋盤位置,Policy Networks 選擇下棋步法。這些神經網絡模型透過一種新的方法訓練,結合人類專家比賽中學到的監督學習,以及在自己和自己下棋(Self-Play)中學到強化學習。這不需要任何前瞻式的 Lookahead Search,神經網絡玩圍棋游戲的能力,就達到了最先進的蒙地卡羅樹狀搜索演算法的級別(這種演算法模擬了上千種隨機自己和自己下棋的結果) 。我們也引入了一種新搜索演算法,這種演算法將蒙地卡羅模擬和價值、策略網絡結合起來。
透過將 Value Networks、Policy Networks 與樹狀搜索結合起來,AlphaGo 達到了專業圍棋水準,讓我們看到了希望:在其他看起來無法完成的領域中,AI 也可以達到人類級別的表現!
評論
查看更多