人類每天都在進行高層次的規(guī)劃來指導自己的各種活動,但對于機器人來說這并不容易。幸運的是,越來越多的工作表明,層級抽象(即視覺運動子程序)可以提高強化學習中的樣本效率,這是一種人工智能訓練技術,它利用獎勵來推動智能體實現目標。
傳統上,這些層次結構必須通過端到端訓練進行手動編程或者獲取,這需要大量的時間、持續(xù)的注意力和足夠的耐心。但是在 Arxiv.org 上新發(fā)布的論文「通過觀看視頻學習導航子程序」中,FacebookAI Research、加州大學伯克利分校和伊利諾伊大學厄巴納 - 香檳分校的科學家描述了一個通過使用逆機器學習模型攝取視頻“偽標記”來學習層次結構。
這讓人想起去年 Facebook 開源的一對模型Talk the Walk。該模型可以使用 360 度圖像、自然語言以及具有標志性地標(如銀行、餐廳等)的地圖來指導紐約市的街道,能夠在不知道用戶位置的情況下提供步行路線。
早上來杯咖啡成為很多都市白領每天必不可少的“自我喚醒”環(huán)節(jié)。坐在辦公室的人類如果想去茶水間倒杯咖啡,你會從門廳走到底,拐向左邊的走廊,然后再進入右邊的房間。當人類在做這一系列思考與動作的時候,我們不是決定具體需要調動哪塊肌肉,而是通過組合這些可重復使用的低級視覺運動子程序來達到目標,從而達成更高抽象水平的規(guī)劃。
研究人員表示,這些視覺運動子程序,使規(guī)劃能夠減輕傳統規(guī)劃中的高計算成本和強化學習中的高樣本復雜性等已知問題。
Facebook的系統包含兩個階段。第一階段,研究人員通過運行訓練模型,使用隨機勘探數據的自我監(jiān)督來生成偽標簽。模型學習了分布在四個不同環(huán)境中的1500個位置點,然后隨機執(zhí)行30個步驟的動作,產生45,000個交互樣本。
在第二階段,大約217,000個偽標記視頻被切成220萬個互相獨立的剪輯片段然后被輸入一個模型,這個模型預測參考視頻中采取的相應動作的模型,而一個單獨的網絡檢查參考視頻中的動作序列并將行為編碼為矢量(例如數學表示)。另一個模型通過預測來自第一幀的軌跡的推斷編碼,針對任何給定視頻幀選擇調用哪些學習子例程。
在一個實驗中,機器人被部署在真實的辦公環(huán)境中。研究表明,學習視頻(比如如何最有效的方式前往目標位置)能夠讓機器人的表現比用純交互方法學習達到更好的效果,至少能夠顧及到以前看不見的環(huán)境。
也許最令人印象深刻的是,這個訓練有素的模型學會了有利于前進導航并避免障礙物,導航任務比曾經的最佳基準快4倍,這使得它能夠完全自主地進行長距離行進。
-
AI
+關注
關注
87文章
31490瀏覽量
269880 -
Facebook
+關注
關注
3文章
1429瀏覽量
54885
原文標題:如何在辦公室不動聲色地繞過老板視線?Facebook的AI通過看視頻自學成才
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論