色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種新型的基于情景記憶的模型,能夠讓智能體用“好奇心”探索環境

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-27 09:35 ? 次閱讀

強化學習是機器學習領域最熱門的研究技術之一,如果智能體做了正確的行為就能得到積極的獎勵,反之則會得到負獎勵。這種方法簡單通用,DeepMind用這種方法教會DQN算法玩雅達利游戲以及讓AlphaGoZero下圍棋,甚至還讓OpenAI訓練算法來打Dota。但是,盡管強化學習很成功,想要高效地使用它仍然有很多挑戰。

傳統的強化學習算法常常因為環境對智能體稀疏的反饋而遇到重重困難,但這樣的環境在現實中是很常見的。例如,你想在大型超市中找到最喜歡的那種奶酪,找了半天也沒找到奶酪區。如果在這一過程中,你并沒有收到任何反饋,那么就完全沒有頭緒該往哪走。在這種情況下,只有好奇心會驅使你試著走向別處。

現在,谷歌大腦團隊、DeepMind和蘇黎世聯邦理工學院合作提出了一種新型的基于情景記憶的模型,能夠讓智能體用“好奇心”探索環境。研究人員不僅僅想讓智能體了解環境,而且還想讓它們解決最初的任務,他們在原始稀疏任務獎勵中添加了一些反饋獎勵,讓標準的強化學習算法從中學習。所以這樣加入了好奇心的方法能讓強化學習智能體解決的問題更多。

以下是論智對這一方法的介紹:

這種方法的核心思想是將智能體所觀察到的環境存儲在情景記憶中,并且如果智能體獲取了存儲中沒有的觀察,也會對其進行獎勵。我們的方法創新之處就在于,如何找到這種“沒有被存儲的”場景,這就是讓智能體找到不熟悉的場景。這一目標就會讓智能體走到一個新位置,直到找到目標。我們的方式不會讓智能體做出無用的行為,通俗地講,這些行為有點像“拖延癥行為”。

此前的好奇心方法

在此之前,已經有多個有關好奇心的研究了,在這篇文章中,我們會重點關注一個很常見的方法:在預測過程中感到驚喜而產生的好奇心(通常稱為ICM方法),這在最近的論文Curiosity-driven Exploration by Self-supervised Prediction中有過研究。為了解釋好奇心是如何引起驚奇的,我們還會到上文中提到的在超市中找奶酪的例子。

當你在超市中搜索時,心里可能會想:現在我在肉類區域,所以接下來可能到水產品區。這些都應該是相近的。如果你預測錯了,可能會驚訝:誒?怎么是蔬菜區?從而得到獎勵。這就會激勵你進一步尋找,直到找到目標。

同樣的,ICM方法會針對環境變化搭建一個預測模型,如果模型沒有做出好的預測,就會給智能體反饋,這也就是我們得到的“驚訝”。注意,探索一個陌生環境并不是ICM好奇心模塊的直接組成部分,對ICM方法來說,觀察不同的位置,就是為了獲得更多“驚奇”之情,從而讓總體獎勵最大化。結果變成,在某些環境下,可能有其他的造成驚訝之情的路線,導致看到陌生的場景。

智能體遇到電視就被困住了

“拖延”的危險

在Large-Scale Study of Curiosity-Driven Learning一文中,ICM方法的作者和OpenAI的研究人員提出,當驚訝最大化后,會有隱藏的危險:智能體可以學習做一些無用的拖延動作,而不去為了完成任務而做些有用的事。作者舉了一個“noisy TV problem”的例子,智能體被安排在一個迷宮里,它的任務是找到最高獎勵的對象(和在超市里找奶酪的道理一樣)。迷宮中有一臺電視,而智能體有它的遙控器。但是電視只有幾個臺(每個臺放的節目不一樣),每按一下遙控器,電視就會隨機切換頻道。在這種情況下,智能體應該怎么做呢?

對于基于驚訝的好奇心方程來說,調換頻道會導致較大的獎勵,因為每次換臺都是無法預測的,充滿驚喜。重要的是,當所有頻道輪換一遍之后,隨機選擇仍會讓智能體感到驚奇,智能體仍然可能會預測錯誤。所以,智能體為了獲得不斷的驚喜、得到獎勵,就會一直站在電視機前不走。所以為了避免這種情況,該如何重新定義好奇心呢?

情景式好奇心

在我們的論文中,我們研究了一個基于情景記憶的好奇心模型,結果發現模型并不容易讓自己依賴即時滿足。為什么會這樣?利用上文電視機的例子,智能體換了一會兒臺之后,所有的節目都已經被存儲了。于是,電視機不再有吸引力了,即使電視機上的頻道是隨機出現的、無法預測的。這就和剛剛依靠驚奇的好奇心模型有了區別:我們的方法不對未來做判斷,而是智能體檢查自己此前是否觀察到相似情景。所以,我們的智能體不會在這臺電視機上浪費太多時間,它會繼續尋找更多獎勵。

但是我們如何確定智能體看到了和記憶里相同的事物呢?檢查二者的匹配程度顯然是不現實的,因為現實生活中,智能體很少能兩次都看到相同的事物。例如,即使智能體回到了同一個房間,它看房間的視角也會和之前不同。

所以,我們在這里使用神經網絡來確定,該網絡在訓練時會評估兩次經歷有幾分相似。為了訓練這一網絡,我們讓它判斷兩次觀察的時間是否接近。時間接近性是判斷兩段經歷是否是同一個場景的有效方法。這一訓練就對“新鮮”進行了通用定義。

實驗結果

為了比較研究好奇心的不同方法,我們在兩個3D場景中對其進行了測試,分別是ViZDoom和DMLab。在這些環境中,智能體要完成多種任務,例如在迷宮中找目標或者收集好的目標,避開壞的物體。DMLab環境給智能體配置了類似激光的發射器,智能體可以選擇性地使用。有趣的是,和上面的電視機實驗類似,基于驚訝的ICM方法在很多不必要的情況下也使用了激光!當進行“迷宮尋寶”任務時,智能體一直對著墻做標記,因為這樣會獲得更高的獎勵。理論上來說,通過標記墻壁預測結果是可行的,但實際上操作難度比較大,因為它需要很深的物理學知識,對智能體來說還做不到。

而我們的方法在同樣的條件下學習了可行的探索行為。這是因為它不用預測行為之后的結果,而是尋找存儲以外的情景觀察。換句話說,智能體追求的目標需要花費比記憶中已有的更多努力,而不僅僅是做標記。

有趣的是,我們的方法在發現智能體原地繞圈后,會進行獎勵懲罰,這是由于轉了第一圈之后,智能體沒有再遇到新情景了,所以沒有獎勵:

紅色表示負獎勵,綠色表示正獎勵

與此同時,我們的方法還會對探索行為給予獎勵:

希望我們的研究對探索方法有所幫助。具體細節,請看論文。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6161

    瀏覽量

    105304
  • 智能體
    +關注

    關注

    1

    文章

    144

    瀏覽量

    10575
  • 強化學習
    +關注

    關注

    4

    文章

    266

    瀏覽量

    11247

原文標題:促使強化學習智能體持續探索環境的新方法:利用情景記憶激發好奇心

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    好奇心HPC和PIC18F26K83不能通過USB連接器程序的設備

    大家好,我有好奇心的HPC和個PIC18F26K83.MPLAB X 4.10和XC8版本1.45。我不能通過USB連接器程序的設備,因為我得到了錯誤:程序員不能啟動:無法連接到工具硬件
    發表于 10-30 15:18

    Microchip Technology的好奇心板的新設計

    即使在這個低成本的32位微控制器時代,8位微控制器仍然具有相關性,并將繼續用于新設計。 Microchip Technology的好奇心板是款經濟高效,完全集成的8位開發平臺,面向首次使用者
    發表于 10-31 11:55

    智能機器人的視覺傳感器技術和應用

    一種新型的工業機器人已經走到行業的前沿, 他們的主要特點是能夠安全地協助人類工作。在網上有很多人談論它們,但你認真了解過它嗎?在2008年,很多人愛它們只是處于好奇心。在2012年,機
    發表于 08-17 06:00

    強化學習“好奇心模型:訓練無需外部獎勵,全靠自己

    我們的思路是,將內在獎勵表示為預測agent在當前狀態下的行為后果時出現的錯誤,即agent學習的前向動態的預測誤差。我們徹底調查了54環境中基于動力學的好奇心:這些場景包括視頻游戲、物理引擎模擬和虛擬3D導航任務等,如圖1所
    的頭像 發表于 08-20 08:55 ?1.2w次閱讀

    人工智能研究人員正在探索如何給算法賦予好奇心

    團隊用于人工好奇心的定義相對簡單:該算法將嘗試預測其環境在未來瞬看起來會是什么樣子。當下幀發生時,算法會因預測錯誤而得到獎勵。這想法是
    的頭像 發表于 08-29 15:19 ?2971次閱讀

    Deepmind“好奇心學習”新機制:智能體不再偷懶

    盡管在過去有許多嘗試來形成好奇心,但本文關注的是一種自然且非常流行的方法:基于“意外”的好奇心機制。最近篇題為“Curiosity-driven Exploration
    的頭像 發表于 10-26 10:02 ?2966次閱讀

    OpenAI提出了一種回報設置方法RND

    在開發RND之前,OpenAI的研究人員和加州大學伯克利分校的學者進行了合作,他們測試了在沒有環境特定回報的情況下,智能體的學習情況。因為從理論上來說,好奇心提供了一種更簡單的方法來教
    的頭像 發表于 11-05 15:15 ?3168次閱讀

    人工智能要想更快更好 好奇心必不可少

    這個問題可能有些寬泛,無法給出個確切的答案。但如果你想要把接新任務,升級或者再玩把等系列概括起來,最簡單的解釋就是“好奇心”——只是想看看接下來會發生什么。事實證明,在指導人工
    發表于 11-07 09:51 ?692次閱讀

    機器人擁有好奇心機器人變得更加聰明

    擁有人類探索世界的好奇心,是機器人變得更加聰明的關鍵因素之。德國波鴻大學的人工好奇心專家瓦倫康培拉指出,
    發表于 06-11 09:24 ?3146次閱讀

    好奇心對于學習人工智能有幫助嗎

    好奇心或進化驅動的人工智能體可應用于學習的早期階段,也更適合缺乏大量數據的零散環境
    發表于 07-01 15:30 ?454次閱讀

    “扎針機器人”何以點燃大眾的好奇心

    同濟大學科研團隊自主研發的全自動靜脈采血機器人,點燃了大眾的好奇心。 這項目由同濟大學醫學、計算機、軟件、控制、機械、交互設計等多學科團隊研發。記者印象深刻的,是這個醫工交叉研發團隊的
    的頭像 發表于 03-03 17:46 ?1851次閱讀

    可同步目標導向行為和記憶空間結構的視覺導航方法

    框架,同時添加碰撞預測作為模型輔助仼務;然后,在智能體學刁導航過程中,利用時間相關性網絡祛除冗余觀測及尋找導航節點,實現通過情景記憶遞増描述環境結構;最后,將空間拓撲地圖作為路徑規劃模
    發表于 03-24 14:36 ?11次下載
    可同步目標導向行為和<b class='flag-5'>記憶</b>空間結構的視覺導航方法

    Apple Watch Series 9智能手表能夠吸引你的好奇心嗎?S9配56億個晶體管

    比 Series 8 多出 60%,而且 GPU 性能快 30%。 Apple Watch Series 9 智能手表能夠吸引你的好奇心嗎? S9 SIP 配備神經引擎,機器學習的速度是前代的兩倍
    的頭像 發表于 09-13 01:35 ?1918次閱讀
    Apple Watch Series 9<b class='flag-5'>智能</b>手表<b class='flag-5'>能夠</b>吸引你的<b class='flag-5'>好奇心</b>嗎?S9配56億個晶體管

    石墨烯之父——安德烈·海姆,好奇心驅使下的幽默大師和創新者

    安德烈·海姆教授是卓越科學家,被譽為“石墨烯之父”,獲諾貝爾物理學獎,對石墨烯材料有重大貢獻。他重視好奇心,鼓勵將好奇心集中在研究領域。他認為石墨烯是一種非常年輕的材料,未來有著無限的可能性,可以應用于電池、光照材料、冷卻LED
    的頭像 發表于 10-31 21:36 ?927次閱讀
    石墨烯之父——安德烈·海姆,<b class='flag-5'>好奇心</b>驅使下的幽默大師和創新者

    Victor Labián Carro:以好奇心成就 RISC-V 職業成功之路

    將對邏輯的熱情融入RISC-V職業生涯IT職業的成功之路通常是由好奇心、奉獻精神和不斷發展的意愿鋪蓋而成的。VictorLabiánCarro,RVFA,現職為AxeleraAI的客戶工程師,他把
    的頭像 發表于 09-10 08:08 ?263次閱讀
    Victor Labián Carro:以<b class='flag-5'>好奇心</b>成就 RISC-V 職業成功之路
    主站蜘蛛池模板: 欧美日韩一级黄色片| 久久日本片精品AAAAA国产| 国产精品亚洲AV色欲在线观看 | 欧美精品成人a多人在线观看| 欧美506070| 三级叫床震大尺度视频| 无码内射成人免费喷射| 亚洲欧美自拍明星换脸| 最近的中文字幕2019国语| 99这里只有是精品2| 大伊人青草狠狠久久| 国产乱辈通伦影片在线播放亚洲| 国产最新精品亚洲2021不卡| 久久性色AV亚洲电影无码| 欧美视频精品一区二区三区| 丝袜足控免费网站xx91| 亚洲精品天堂无码中文字幕影院| 自慰弄湿白丝袜| 俄罗斯雏妓的BBB孩交| 韩国hd高清xxx| 男生J桶进女人P又色又爽又黄| 色尼玛亚洲综合| 夜夜精品视频一区二区| GAY空少被体育生开菊| 国产情侣真实露脸在线| 久久这里有精品| 日韩AV爽爽爽久久久久久| 亚洲欧美视频在线| gv手机在线观看| 国产亚洲欧洲日韩在线三区| 免费观看视频成人国产| 偷拍自怕亚洲在线第7页| 中国农村妇女真实BBWBBWBBW| 超碰国产亚洲人人| 久草青青在线| 日韩人妻精品久久日| 友田真希息与子中文字幕| 粉嫩小护士| 么么哒日本影院| 亚洲 国产 日韩 欧美 在线| 99re热精品视频国产免费|