讓兒童(和成年人)整理東西已經是件難事了,但是想讓AI像人一樣整理東西是個不小的挑戰。一些視覺運動的核心技能是取得成功的關鍵:接近一個物體,抓住并且提起它,然后打開一個盒子,將其放入盒中。要完成更復雜的動作,必須按照正確順序應用這些技能。
控制任務,比如整理桌子或堆疊物體,都需要智能體決定如何、何時并且在哪里協調機械臂和手指的六個關節以移動并實現目標。在某一特定時刻,可能的動作會有多種組合,并且要想把它們按順序組合好,就產生了嚴重的問題——這也使得強化學習成為一個有趣的領域。
類似獎勵塑造(reward shaping)、學徒式學習(apprenticeship learning)或從展示中學習有助于解決上述問題。但是,這些方法需要對任務有足夠的了解——利用很少的先驗知識學習復雜的控制任務仍然是未解決的挑戰。
昨天,DeepMind提出了一種新的學習模式,名為“計劃輔助控制(SAC-X)”以解決上述問題。SAC-X的工作原理是,為了從零開始掌握復雜任務,智能體必須先學習探索一系列基礎技能,并掌握他們。正如嬰兒在學會爬行和走路前必須學會保持平衡一樣,讓智能體學習簡單技能以增強內部協調性,有助于它們理解并執行復雜任務。
研究人員在一些模擬環境和真實機器人上試驗了SAC-X方法,其中包括堆疊不同目標物體和整理桌子(其中需要移動對象)。他們所指的輔助任務的通用原則是:鼓勵智能體探索它的感應空間。例如,激活手指的觸覺感應器、在腕部的感應器感受力度的大小、將本體感應器的關節角度最大化或強制物體在其視覺相機傳感器中移動。如果達到目標,每個任務都會得到一個簡單的獎勵,否則沒有獎勵。
模擬智能體最終掌握了“堆疊”這一復雜任務
智能體最后能自己決定它現在的“目的”,即下一步要完成什么目標,這有可能是一項輔助任務,或是外部決定的目標任務。重要的是,通過廣泛使用off-policy學習,智能體可以檢測到獎勵信號并從中學習。比如,在撿起或移動目標物體時,智能體可能會不經意間完成堆疊動作,這樣會使獎勵觀察到這一動作。由于一系列簡單任務能導致稀有的外部獎勵,所以對目標進行規劃是十分重要的。它可以根據收集的相關知識創建個性化的學習課程。事實證明這是在如此寬廣的領域開發知識的有效方式,并且當只有少量外部獎勵信號可用時,這種方法更加有用。我們的智能體通過調度模塊決定下一個目標。調度器在訓練過程中通過元學習算法得到改進,該算法試圖讓主任務的進度實現最大化,顯著提高數據效率。
探索了一些內部輔助任務后,智能體學會了如何堆疊及清理物品
對SAC-X的評估表示,使用相同的底層輔助任務,SAC-X能從零開始解決問題。令人興奮的是,在實驗室里,SAC-X能在真實的機械臂上從零學習拾取和放置任務。這在過去是很有難度的,因為在真實的機械臂上學習需要數據效率。所以人們通常會訓練一個模擬智能體,然后再轉移到真正的機械臂上。
DeepMind的研究人員認為SAC-X的誕生是從零學習控制任務的重要一步(只需要確定任務的最終目標)。SAC-X允許你設定任意的輔助任務:它可以是一般的任務(如激活傳感器),也可以是研究人員需要的任何任務。也就是說在這方面,SAC-X是一種通用的強化學習方法,除了用于控制任務和機器人任務之外,能廣泛適用于一般的稀疏強化學習環境。
-
DeepMind
+關注
關注
0文章
130瀏覽量
10883
原文標題:DeepMind提出SAC-X學習范式,無需先驗知識就能解決稀疏獎勵任務
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論