我們探索構建通用強化學習環境中的生成式神經網絡模型。我們的世界模型(world model)可以以一種無監督的方式進行快速訓練,以學習環境的壓縮時空表征。通過使用從世界模型中提取的特征作為智能體的輸入,我們可以對一個非常簡潔且簡單的策略進行訓練,以解決所需的任務。我們甚至可以在一個完全由智能體本身的世界模型所生成的夢幻夢境中對智能體進行訓練,并將此策略遷移回實際環境中。
人類根據他們使用有限的感官對世界的感知,開發出一個有關世界的心智模型。而我們所做的決策和行動都是基于這種內部模型的。系統動力學之父——Jay Wright Forrester將心智模型定義為:
我們腦海中所承載的有關周圍世界的圖像,只是一個模型。世界上沒有一個人能夠在其腦海中對全部的世界、政府或國家進行透徹的想象。他只是選擇了概念,以及它們之間的關系,并用它們來表示真實的系統。(Forrester于1971年提出)
為了處理流經我們日常生活中的大量信息,我們的大腦學習對這些信息進行時空方面的抽象表征。我們能夠觀察一個場景,并記住有關它的一個抽象描述(Cheang和Tsao于2017年、Quiroga等人于2005年提出)。還有證據表明,我們在任何特定時刻所感知的事物,都是由我們的大腦基于內部模型對未來做出的預測所掌控的(Nortmann等人于2015年、Gerrit等人于2013年提出)。
理解我們大腦中的預測模型的一種方法是,它可能不是僅僅預測未來的一般情況,而是根據當前的運動動作預測未來的感官數據(Keller等人于2012年、Leinweber等人于2017年提出)。當我們面臨危險時,我們能夠本能地依據這個預測模型采取相應的行動,并執行快速的反射行為(Mobbs等人于2015年提出),而無需有意識地規劃出行動計劃。
我們所看到的事物是基于我們大腦對未來進行的預測(Kitaoka于2002年、Watanabe等人于2018年提出)
以棒球為例。一個擊球手只有幾毫秒的時間來決定該如何揮棒擊球,讓這要比視覺信號到達我們的大腦所需的時間短得多。他們之所以能夠打出每小時115英里的快速球,是因為我們有能力本能地預測出球將何時何地走向何方。對于職業球員來說,這一切都是在潛意識中發生的。他們的肌肉在適當的時間和地點按照他們的內部模型的預測反射性地揮棒擊球(Gerrit 等人于2013年提出)。他們可以迅速根據自身對未來的預測采取行動,而無需有意識地將可能的未來場景鋪展開以進行規劃(Hirshon于2013年提出)。
在許多強化學習(RL)(Kaelbling等人于1996年、Sutton和Barto于1998年、Wiering和van Otterlo于2012年提出)問題中,人工智能體也受益于具有良好的對過去和現在狀態的表征,以及良好的對未來的預測模型(Werbos等人于1987年、Silver于2017年提出),最好是在通用計算機上實現的強大的預測模型,如循環神經網絡(RNN)(Schmidhuber于1990、 1991年提出)。
大型RNN是具有高度表達性的模型,可以學習數據的豐富的時空表征。然而,在以往的研究中,許多無模型強化學習方法通常只使用參數很少的小型神經網絡。強化學習算法常常具有信用分配問題(credit assignment problem)的局限性,這使得傳統的強化學習算法難以學習大型模型的數百萬個權重,因此,在實踐中往往使用較小的網絡,因為它們在訓練期間能夠更快地迭代形成一個良好的策略。
在這項研究中,我們構建了OpenAI Gym環境的概率生成模型。使用從實際游戲環境中收集的記錄觀測值對基于RNN的世界模型進行訓練。對世界模型進行訓練之后,我們可以使用它們來模擬完整的環境并訓練對智能體進行訓練
理想情況下,我們希望能夠有效地對基于RNN的大型智能體進行訓練。反向傳播算法(Linnainmaa于1970年、Kelley于1960年、Werbos于1982年提出)可以用來對大型神經網絡進行有效的訓練。在這項研究中,我們通過將智能體分為一個大的世界模型和一個小的控制器模型,從而對大型神經網絡進行訓練以解決強化學習任務。首先,我們對大型神經網絡進行訓練,以無監督的方式學習智能體的世界模型,然后訓練較小的控制器模型,學習使用這個世界模型執行任務。一個小型控制器讓訓練算法專注于小型搜索空間上的信用分配問題,同時不會以大的世界模型的容量和表現力為代價。通過智能體世界模型的視角對智能體進行訓練,我們表明,它可以學習一個高度緊湊的策略以執行其任務。
雖然有大量關于基于模型的強化學習的研究,但本文并不是對該領域當前狀態的評述(Arulkumaran等人于2017年、Schmidhuber于2015年提出)。相反,本文的目標是從1990—2015年關于基于RNN的世界模型和控制器組合的一系列論文中提煉若干個關鍵概念(Schmidhuber于1990年、1991年、1990年、2015年提出)。
我們證明了在模擬潛在空間夢境中訓練智能體執行任務的可能性。這一方法擁有許多切實優點。例如,在運行計算密集型游戲引擎時,需要使用大量的計算資源來將游戲狀態渲染到圖像幀中,或計算與游戲不直接相關的物理量。相信我們都不情愿在現實環境中浪費訓練智能體的周期,而是更樂意在模擬環境中盡可能多地訓練智能體。此外,在現實世界中訓練智能體的代價甚至更大,因此,漸進式地進行訓練以模擬現實的世界模型可以更容易地嘗試使用不同方法來訓練我們的智能體。
此外,我們可以利用深度學習框架,在分布式環境中使用GPU,從而加速世界模型的模擬。將世界模型作為一個完全可微的循環計算圖的好處在于,我們可以直接在夢境中使用反向傳播算法對其策略進行微調,從而實現目標函數最大化(Schmidhuber于上世紀90年代提出)。
對視覺模型V使用VAE并將其作為獨立模型進行訓練也存在局限性,因為它可能會對與任務無關的部分觀測進行編碼。畢竟,根據定義來看,無監督學習不知道哪些是對當前任務有用的。例如,在Doom環境中,它在側墻上復制了不重要的詳細磚瓦圖案,但在賽車環境中,它沒有在道路上復制與任務相關的磚瓦圖案。通過與預測獎勵的M模型一起訓練,VAE可以學習專注于圖像中與任務相關的領域,但這里需要權衡的一點是,如果不進行重復訓練,那么我們或許就不能有效地利用VAE再次執行新任務。
學習任務的相關特性也與神經科學有所關聯。當受到獎勵時,基本感覺神經元便會從抑制中釋放出來,這意味著它們通常僅學習與任務相關的特征,而非任何特征,至少自在成年期是這樣的(Pi等人于2013年提出)。
今后的工作可能會探討如何使用無監督分割層(Byravan等人于2017年提出)來提取更好的特征表征,這與所學習的VAE表征相比具有更好的實用性和可解釋性。
另一個令人關切的問題是,我們世界模型的容量有限。盡管現代存儲設備可以存儲使用迭代訓練過程生成的大量歷史數據,但我們基于長短期記憶網絡(LSTM)(Hochreiter和Schmidhuber于1997年提出;Gers等人于2000年提出)的世界模型可能無法在其權重連接中存儲所有記錄的信息。雖然人類的大腦可以保存幾十年甚至幾個世紀的記憶(Bartol等人于2015年提出),但我們通過反向傳播訓練的神經網絡容量有限,并受災難性遺忘等問題的影響(Ratcliver 于1990年,French于1994年,Kirkpatrick等人于2016年提出)。如果我們希望智能體學會探索更復雜的世界,那么今后可以探索用更高容量的模型取代小型MDNRNN網絡(Shazeer等人于2017年,Ha等人于2016年,Suarez等人于2017年,van den Oord等人于2016年,Vaswani等人于2017年提出),或加入外部記憶模塊(Gemici等人于2017年提出)。
基于RNN的控制器與環境交互的古代繪圖(Schmidhuber于1990年提出)
就像早期基于RNN的C-M系統一樣(Schmidhuber等人于上世紀90年代提出),我們模擬了可能的未來時間步長,而沒有從人類的層次化規劃或抽象推理中獲益,這往往忽略了不相關的時空細節。然而,更常見的“學會思考”(Schidhuber于2015年提出)方法并不局限于這種相當幼稚的方法。相反,它允許循環C學習循環M的子例程,并重用它們以任意的計算方式解決問題,例如,通過層次化規劃或利用類似M的程序權重矩陣的其他部分。近期,One Big Net(Schmidhuber,2018年)擴展了C-M方法,它將C和M合并成一個網絡,并使用類似Power Play的行為回放(Schmidhuber于2013,Srivastava等人于2012年提出)(其中教師網絡(teacher net)的行為被壓縮成學生網絡(student net)(Schmidhuber于1992年提出)),以避免在學習新網絡時忘記舊的預測和控制技能。這些具有更通用方法的實驗在未來有待進一步研究。
-
算法
+關注
關注
23文章
4610瀏覽量
92859 -
計算機
+關注
關注
19文章
7492瀏覽量
87902 -
強化學習
+關注
關注
4文章
266瀏覽量
11250
發布評論請先 登錄
相關推薦
評論