中文字幕亚洲精品资源网,中文字幕欧美一区,中文字幕在线视频第一页

Deepmind在Alphago上的成就把強化學(xué)習(xí)這一方法帶入了人工智能的主流學(xué)習(xí)領(lǐng)域，【從零開始學(xué)習(xí)】也似乎成為了拋棄人類先驗經(jīng)驗、獲取新的技能并在各類游戲擊敗人類的“秘訣”。來自斯坦福的Andrey Kurenkov對強化學(xué)習(xí)的這一基礎(chǔ)提出了質(zhì)疑。本文中，他從強化學(xué)習(xí)的基本原則及近期取得的成就說起，肯定了其成果，也指出了強化學(xué)習(xí)的基礎(chǔ)性局限。大數(shù)據(jù)文摘對本文進(jìn)行了精華編譯。

玩過棋牌游戲么？

假設(shè)你不會玩，甚至從來沒有接觸過。

現(xiàn)在你的朋友邀請你和他對戰(zhàn)一局，并且愿意告訴你玩兒法。

你的朋友很耐心，他手把手教了你下棋的步驟，但是卻始終不告訴你他所走每一步的含義，只在最后告訴你這盤棋的輸贏結(jié)果。

對局開始。由于“沒經(jīng)驗”，你一直輸。但在經(jīng)歷了多次“失敗的經(jīng)驗”后，你漸漸地發(fā)現(xiàn)了一些規(guī)律。

幾個禮拜過去了，在幾千把游戲?qū)崙?zhàn)的“磨練”下，你終于可以在對戰(zhàn)中獲得勝利。

挺傻的對吧？為什么你不直接問為什么下這個棋以及怎么下棋呢？

但是，這種學(xué)下棋的方法其實是今天大部分的強化學(xué)習(xí)方法的縮影。

什么是強化學(xué)習(xí)？

強化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一，在強化學(xué)習(xí)的框架中，智能體通過與環(huán)境互動，來學(xué)習(xí)采取何種動作能使其在給定環(huán)境中的長期獎勵最大化，就像在上述的棋盤游戲寓言中，你通過與棋盤的互動來學(xué)習(xí)。

在強化學(xué)習(xí)的典型模型中，智能體只知道哪些動作是可以做的，除此之外并不知道其他任何信息，僅僅依靠與環(huán)境的互動以及每次動作的獎勵來學(xué)習(xí)。

先驗知識的缺乏意味著角色要從零開始學(xué)習(xí)。我們將這種從零開始學(xué)習(xí)的方法稱作“純強化學(xué)習(xí)（Pure RL）”。

純強化學(xué)習(xí)在西洋雙陸棋和圍棋這類游戲中被廣泛應(yīng)用，同時也應(yīng)用于機器人技術(shù)等領(lǐng)域。

什么是強化學(xué)習(xí)？純強化學(xué)習(xí)有意義嗎？強化學(xué)習(xí)有什么的致命缺陷？

在傳統(tǒng)的強化學(xué)習(xí)中，只有在最終狀態(tài)才有非零獎勵。這一領(lǐng)域的研究最近因為深度學(xué)習(xí)而再次受到關(guān)注，但是其基本的模型卻并沒有什么改進(jìn)。

畢竟這種從零開始的學(xué)習(xí)方法可以追溯到強化學(xué)習(xí)研究領(lǐng)域的最初創(chuàng)建時期，也在最初的基本公式中就被編碼了。

所以根本的問題是：如果純強化學(xué)習(xí)沒有什么意義，那么基于純強化學(xué)習(xí)來設(shè)計AI模型還合理嗎？

如果人類通過純強化學(xué)習(xí)來學(xué)習(xí)新的棋類游戲聽起來如此荒謬，那我們是不是應(yīng)該考慮，這是不是一個本身就有缺陷的框架，那么AI角色又如何通過這一框架進(jìn)行有效的學(xué)習(xí)呢？不依靠任何先前經(jīng)驗或指導(dǎo)，僅僅靠獎勵信號來學(xué)習(xí)，是否真的有意義呢？

什么是強化學(xué)習(xí)？純強化學(xué)習(xí)有意義嗎？強化學(xué)習(xí)有什么的致命缺陷？

強化學(xué)習(xí)的基本公式

純強化學(xué)習(xí)是否真的有意義？

關(guān)于這個問題，強化學(xué)習(xí)專家們眾說紛紜：

有！純強化學(xué)習(xí)當(dāng)然有意義，AI智能體不是真正的人類，不用像我們一樣學(xué)習(xí)。何況純強化學(xué)習(xí)已經(jīng)可以解決很多復(fù)雜問題了。

沒有！從定義上看，AI研究包括讓機器也能做目前只有人類能做的事情，所以跟人類智能來比較很合理。至于那些純強化學(xué)習(xí)現(xiàn)在能解決的問題，人們總是忽視一點：那些問題其實沒有它們看起來那么復(fù)雜。

既然業(yè)內(nèi)無法達(dá)成共識，那就讓我們來用事實說話。

基于純強化學(xué)習(xí)，以DeepMind為代表的業(yè)內(nèi)玩家已經(jīng)達(dá)成了很多“炫酷”的成就：

1）DQN (Deep Q-Learning)—— DeepMind的著名研究項目，結(jié)合了深度學(xué)習(xí)與純強化學(xué)習(xí)，并加入了一些別的創(chuàng)新，解決了很多以前解決不了的復(fù)雜問題。這個五年前的項目大大提高了人們對強化學(xué)習(xí)的研究興趣。

毫不夸張的說，DQN是憑借一己之力重燃了研究者對于強化學(xué)習(xí)的熱情。雖然DQN只有幾項簡單的創(chuàng)新，但是這幾項創(chuàng)新對于深度強化學(xué)習(xí)的實用性至關(guān)重要。

雖然這個游戲現(xiàn)在看起來非常簡單，僅僅是通過像素輸入來學(xué)習(xí)，但在十年前，玩這個游戲是難以想象的。

2）AlphaGo Zero和AlphaZero——純粹用于戰(zhàn)勝人類的圍棋、國際象棋及日本將棋的強化學(xué)習(xí)模型

首先來進(jìn)行一個科普：AlphaGo Zero是谷歌DeepMinwd項目開發(fā)的最新的升級版AlphaGo。不同于原始的結(jié)合了監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)方式的AlphaGo，AlphaGo Zero單純依靠強化學(xué)習(xí)和自我對弈來進(jìn)行算法學(xué)習(xí)。

因此，盡管該模型也利用了一個預(yù)先提供的算法規(guī)則，即棋類的游戲規(guī)則和自我對弈來進(jìn)行更可靠而持續(xù)的迭代更新，AlphaGo Zero更遵循純強化學(xué)習(xí)的整體方法論：算法從零開始，通過學(xué)習(xí)結(jié)果的獎勵信號反饋進(jìn)行迭代。

由于它不是從人類身上直接學(xué)習(xí)游戲規(guī)則的，AlphaGo Zero也因此被許多人認(rèn)為是一個比AlphaGo更具顛覆性的算法。然后就誕生了AlphaZero：作為一個更通用的算法，它不僅可以學(xué)習(xí)如何下圍棋，還可以學(xué)習(xí)下國際象棋和日本將棋。

這是史上第一次出現(xiàn)用單一算法來破解象棋和圍棋的算法。并且，它并沒有像過去的深藍(lán)計算機或者AlphaGo那樣對任何一種游戲規(guī)則做特殊定制。

毫無疑問，AlphaGo Zero和AlphaZero是強化學(xué)習(xí)發(fā)展史上里程碑式的案例。

歷史性的時刻——李世乭輸給了AlphaGo

3）OpenAI的Dota機器人–由深度強化學(xué)習(xí)算法驅(qū)動的AI智能體，可以在流行的復(fù)雜多人對戰(zhàn)游戲Dota2上擊敗人類。OpenAI在2017年在變化有限的1v1游戲中戰(zhàn)勝了職業(yè)玩家的戰(zhàn)績已經(jīng)足夠讓人驚嘆。最近，它更是在一局復(fù)雜得多的5v5比賽中戰(zhàn)勝了一整隊人類玩家。

這一算法也與AlphaGo Zero一脈相承，因為它不需要任何人類知識，純粹通過自我對弈對算法進(jìn)行訓(xùn)練。在下面的視頻里，OpenAI自己出色地解釋了它的成就。

毫無疑問，在這種以團隊合作為基礎(chǔ)的高度復(fù)雜的游戲中，算法取得的好成績，遠(yuǎn)遠(yuǎn)優(yōu)于先前在Atari電子游戲和圍棋上取勝的戰(zhàn)績。

更重要的是，這種進(jìn)化是在沒有任何重大算法進(jìn)步的情況下完成的。

這一成就歸功于驚人的計算量、已經(jīng)成熟的強化學(xué)習(xí)算法、以及深度學(xué)習(xí)。在人工智能業(yè)內(nèi)，大家普遍的共識是Dota機器人的勝利是令人驚嘆的成就，也是強化學(xué)習(xí)一系列重要里程碑的下一個：

沒錯，純強化學(xué)習(xí)算法已經(jīng)取得了很多成就。

但仔細(xì)一想，我們就會發(fā)現(xiàn)，這些成就其實也“不過爾爾”。

純強化學(xué)習(xí)的局限性

讓我們從DQN開始回顧，在剛剛提到的這些案例中，純強化學(xué)習(xí)到底存在哪些局限性。

它可以在很多Atari游戲中達(dá)到超人的水平，但一般來說，它只能在基于反射的游戲中做得很好。而在這種游戲中，你其實并不需要推理和記憶。

即使是5年后的今天，也沒有任何一種純強化學(xué)習(xí)算法能破解推理和記憶游戲；相反，在這方面做得很好的方法要么使用指令，要么使用演示，而這些在棋盤游戲中也行得通。

什么是強化學(xué)習(xí)？純強化學(xué)習(xí)有意義嗎？強化學(xué)習(xí)有什么的致命缺陷？

盡管DQN在諸如Breakout之類的游戲中表現(xiàn)出色，但它仍然無法完成像蒙特祖瑪?shù)膹?fù)仇這樣相對簡單的游戲。

而即使是在DQN表現(xiàn)得很好的游戲里，和人類相比，它還是需要大量的時間和經(jīng)驗來學(xué)習(xí)。

同樣的局限性在AlphaGo Zero和AlphaZero中也存在。

也就是說，它的每一種性質(zhì)都使學(xué)習(xí)任務(wù)變得容易：它是確定性的、離散的、靜態(tài)的、完全可觀察的、完全已知的、單智能體的、適用于情景的、廉價的、容易模擬的、容易得分的……

但在此前提下，對于圍棋游戲來說，唯一的挑戰(zhàn)是：它具有龐大的分支因子。

所以，盡管圍棋可能是easy模式下最難的一道題，但它仍然是easy模式。而大多數(shù)研究人員都認(rèn)識到，現(xiàn)實世界的多數(shù)問題比圍棋這類簡單的游戲復(fù)雜得多。

盡管有很多卓越的成就，但AlphaGo的所有變體在本質(zhì)上仍與“深藍(lán)”(Deep Blue)相似：它是一個經(jīng)過多年設(shè)計的、投入高達(dá)數(shù)百萬美元的昂貴系統(tǒng)，卻純粹只是為了玩一款抽象的棋盤游戲——除此之外別無其他用途。

現(xiàn)在到Dota了。

是的，這是一個比圍棋復(fù)雜得多的游戲，缺乏很多使游戲變得簡單的特性：它不是離散的、靜態(tài)的、完全可觀察的、單智能體的或適用于情景的——這是一個極具挑戰(zhàn)性的問題。

但是，它仍然是一款很容易模擬的游戲，通過一個漂亮的API來控制——它完全消除了需要感知或運動控制。因此，與我們每天在真實世界中解決問題時所面臨的真正的復(fù)雜性相比，它依然是簡單的。

它仍然像AlphaGo一樣，需要大規(guī)模投資。許多工程師為了得到一個算法，使用長到離譜的時間來解決這個問題。這甚至需要數(shù)千年的游戲訓(xùn)練并使用多達(dá)256個的GPU和128000個CPU核。

因此，僅僅因為強化學(xué)習(xí)的這些成果就認(rèn)為純強化學(xué)習(xí)很強大，是不正確的。

我們必須要考慮的是，在強化學(xué)習(xí)領(lǐng)域，純強化學(xué)習(xí)可能只是最先使用的方法，但也許，它不一定是最好的？

純強化學(xué)習(xí)的根本缺陷——從零開始

是否有更好的方法讓AI智能體學(xué)習(xí)圍棋或Dota呢?

“AlphaGo Zero”這個名字的含義就是指模型從零開始學(xué)習(xí)圍棋。讓我們回憶一下開頭講的那個例子。既然試著從頭學(xué)起棋盤游戲而不作任何解釋是荒謬的，那么AI為什么還一定要從零開始學(xué)習(xí)呢？

讓我們想象一下，對于人類來說，你會如何開始學(xué)習(xí)圍棋呢?

首先，你會閱讀規(guī)則，學(xué)習(xí)一些高層次的策略，回想過去你是如何玩類似游戲的，然后從高手那里獲取一些建議。

因此，AlphaGo和OpenAI Dota機器人從零開始學(xué)習(xí)的限制，導(dǎo)致他們和人類學(xué)習(xí)相比，依靠的是許多數(shù)量級的游戲指令和使用更原始的、無人能及的計算能力。

AlphaGo Zero的進(jìn)展。請注意，要達(dá)到ELO分?jǐn)?shù)為0，它需要一整天的時間和成千上萬次的游戲(而即使是最弱的人也能輕松做到)。

公平地說，純強化學(xué)習(xí)可以合理地用于諸如持續(xù)控制之類的“狹義”任務(wù)，或者最近的復(fù)雜游戲，如Dota或星際爭霸。

然而，隨著深度學(xué)習(xí)的成功，AI研究社區(qū)現(xiàn)在正試圖解決越來越復(fù)雜的任務(wù)，這些任務(wù)必須面對現(xiàn)實世界中到復(fù)雜性。正是這些復(fù)雜性，我們可能需要一些超越純強化學(xué)習(xí)的東西。

那么，讓我們繼續(xù)討論我們的修正問題：純強化學(xué)習(xí)，以及總體上從零開始學(xué)習(xí)的想法，是完成復(fù)雜任務(wù)的正確方法嗎?

我們還應(yīng)該堅持純強化學(xué)習(xí)嗎？

乍一看，這個問題的答案也許是：應(yīng)該。為什么這么說呢？

從零開始的學(xué)習(xí)意味著它沒有任何先入為主的主觀因素，這樣的話，經(jīng)過學(xué)習(xí)的人工智能會比我們更加優(yōu)秀，就像AlphaGo Zero一樣。畢竟，如果人類的直接存在錯誤，那不就限制了機器的學(xué)習(xí)能力了么？

隨著深度學(xué)習(xí)方法的成功，這個觀點已經(jīng)成為主流，雖然訓(xùn)練模型的數(shù)據(jù)量驚人，但是我們依舊只給予少量的先驗知識。

以前的非傳統(tǒng)語音識別和端對端深度學(xué)習(xí)方法的圖例，后者有更好的表現(xiàn)，并成為了現(xiàn)代語音識別的基礎(chǔ)。

不過，讓我們重新審視這個問題：結(jié)合人類的先驗知識就一定會限制機器的學(xué)習(xí)能力么？

答案是否定的。也就是說，我們可以在深度學(xué)習(xí)的框架下（也就是只由數(shù)據(jù)出發(fā)），對手頭的任務(wù)下達(dá)一定的指示，而不至于限制機器的學(xué)習(xí)能力。

目前，這個方向已經(jīng)出現(xiàn)了諸多研究，相信這樣的技術(shù)也能很快被應(yīng)用到實際例子中。

比如像AlphaGo Zero這樣的算法，我們大可不必從零開始學(xué)習(xí)，而是在不限制其學(xué)習(xí)能力的前提下加入人類知識的指導(dǎo)。

即使你覺得這個方向不靠譜，堅持要從零學(xué)習(xí)，那純強化學(xué)習(xí)就是我們最佳的選擇嗎？

以前的話，答案是毋庸置疑的；在無梯度優(yōu)化的領(lǐng)域中，純強化學(xué)習(xí)是理論最完備而方法最可靠的。

不過近期很多文章都質(zhì)疑這個論斷，因為他們發(fā)現(xiàn)了相對簡單的方法（而且總體而言沒那么受到重視的）、基于進(jìn)化策略的方法在一些典型的任務(wù)中似乎和純強化學(xué)習(xí)表現(xiàn)得一樣好：

《Simple random search provides a competitive approach to reinforcement learning》

《Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning》

大數(shù)據(jù)文摘微信公眾號后臺回復(fù)“缺陷”下載這兩篇論文。

Ben Recht是最優(yōu)化算法的理論與實踐研究的帶頭人，他總結(jié)說：

我們發(fā)現(xiàn)隨機搜索在簡單線性問題中比強化學(xué)習(xí)更加優(yōu)秀，比如策略梯度。不過，當(dāng)我們遇到更加困難的問題時，隨機搜索就會崩潰嗎？并沒有。

因此，并不能說強化學(xué)習(xí)是從零學(xué)習(xí)的最佳方法。

回到人類從零學(xué)習(xí)的問題上來，人類學(xué)習(xí)一個新的復(fù)雜技巧時就沒有任何先驗知識嗎（比如組裝一個家具或駕駛汽車）？其實并不是這樣子的，對不對？

也許對于一些非常基礎(chǔ)的問題來說（比如嬰兒要學(xué)習(xí)的），我們可以從零開始，使用純強化學(xué)習(xí)，但是對于AI領(lǐng)域中的很多重要問題，從零開始并沒有特別的優(yōu)勢：我們必須清楚，我們想要AI學(xué)會什么，而且必須要提供這方面的演示和指導(dǎo)。

實際上，目前人們廣泛認(rèn)為，從零開始學(xué)習(xí)是強化學(xué)習(xí)模型受到限制的主要原因：

目前的AI是“數(shù)據(jù)依賴”的——大多數(shù)情況下，AI需要海量的數(shù)據(jù)才能發(fā)揮它的作用。這對于純強化學(xué)習(xí)技術(shù)來說非常不利。回想一下，AlphaGo Zero需要上百萬的對局來達(dá)到ELO分?jǐn)?shù)為0的水平，而人類用很少的時間就能達(dá)到這個水平。顯然，從零開始學(xué)習(xí)是效率最低的一種學(xué)習(xí)方法；

目前的AI是不透明的——在多數(shù)情況下，對于AI算法的學(xué)習(xí)，我們只有高層次的直覺。對于很多AI問題，我們希望算法是可預(yù)測和可解釋的。但是一個什么都從零開始學(xué)習(xí)的巨型神經(jīng)網(wǎng)絡(luò)，其解釋性和預(yù)測性都是最差的，它只能給出一些低層次的獎勵信號或是一個環(huán)境模型。

目前AI是狹隘的——在很多情況下，AI模型只能夠在特定領(lǐng)域表現(xiàn)的非常好，而且非常不穩(wěn)定。從零開始學(xué)習(xí)的模式限制了人工智能學(xué)習(xí)能力。

目前的AI是脆弱的——AI模型只能把海量數(shù)據(jù)作為無形的輸入進(jìn)行泛化，但是結(jié)果非常不穩(wěn)定。因此，我們只能知道我們要AI智能體學(xué)習(xí)的是什么。

如果是一個人，那么在開始學(xué)習(xí)前，應(yīng)該能夠?qū)θ蝿?wù)進(jìn)行解釋并提供一些建議。這對于AI來說，同樣適用。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴