色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

薩頓科普了強化學習、深度強化學習,并談到了這項技術的潛力和發展方向

人工智能和機器人研究院 ? 2017-12-27 09:07 ? 次閱讀

地處加拿大埃德蒙頓的阿爾伯塔大學(UAlberta)可謂是強化學習重鎮,這項技術的締造者之一薩頓(Rich Sutton)在這里任教。

△薩頓

薩頓常被稱為“強化學習之父”,他對強化學習的重要貢獻包括時序差分學習和策略梯度方法。

如果你研究過強化學習,可能對他和巴爾托(Andrew Barto)合著的一本書很熟悉:《強化學習導論》(Reinforcement Learning, an introduction)。這本書被引用了2.5萬多次,如今,第二版即將出版,全書草稿也已經在網上公開。

薩頓科普了強化學習、深度強化學習,并談到了這項技術的潛力和發展方向

△Reinforcement Learning, an introduction草稿http://incompleteideas.net/book/bookdraft2017nov5.pdf

巴爾托是薩頓的博士論文導師,薩頓的博士論文《強化學習的時間學分分配》(Temporal Credit Assignment in Reinforcement Learning)中,引入了一種評價器結構和“時間信用分配”。他們把“顯而易見”的強化學習理念,變成了一個以數學為基礎的可行理論。

薩頓獲得了斯坦福大學心理學學士學位(1978年)和碩士學位(1980),以及馬薩諸塞大學安姆斯特分校計算機博士學位(1984)。

從1985年到1994年,Sutton擔任GTE實驗室的首席技術員。之后,他在麻省大學安姆斯特分校做了3年的高級研究員,然后又到AT&T香農實驗室做了5年的首席技術員。2003年以來,他一直在阿爾伯塔大學計算機系擔任教授兼iCORE主席,領強化學習和人工智能實驗室。

2003年以來,薩頓在阿爾伯塔大學計算機系任教授、iCORE主席,領導著強化學習和人工智能實驗室。今年6月,DeepMind在埃德蒙頓和阿爾伯塔大學聯合設立首個海外研究院,薩頓也是這個研究院的領導者之一。

最近,機器學習和數據科學社區KDnuggets董事長,數據科學會議KDD和ACM SIGKDD的聯合發起者Gregory Piatetsky專訪了薩頓。

薩頓在專訪中(再次)科普了強化學習、深度強化學習,并談到了這項技術的潛力,以及接下來的發展方向:預測學習。

量子位將專訪內容搬運如下:

△典型的強化學習過程

我在上世紀80年代遇到了Rich Sutton,我和他當時都剛開始在波士頓地區的GTE實驗室讀博士。我研究智能數據庫,他在強化學習部門,但是我們在GTE實驗室的項目還遠沒有實際應用。我們經常下象棋,我們倆在這方面勢均力敵,但在機器學習方面,Rich遠遠領先于我。

Q:強化學習的主要思想是什么?它與監督學習有何不同?

薩頓:在與世界的正常互動過程中,強化學習會通過試錯法利用獎勵來學習。因此,它跟自然學習過程非常相似,而與監督學習不同。

在監督學習中,學習只發生在一個特殊的訓練階段,這個階段中會出現一個正常情況下不會出現的監督或教學信號。

例如,語音識別目前通過監督學習來完成,需要使用大量的語音數據集和正確的文本內容。這些文本內容就是一種監督信號,等系統開始工作、輸入了新的語音時,就沒有這個監督信號了。

AI打游戲,通常就是通過強化學習來實現的,需要利用游戲的結果作為獎勵。即使你玩了一個新游戲,也會看到自己是贏是輸,并且可以用強化學習算法來提高你的游戲技術。

監督式游戲學習方法則需要借助一些“正確”的動作來實現,這些動作可以來自人類專家。這很方便,但在正常的游戲中是不可用的,而且會導致學習系統的技能局限在人類專家的技能范疇內。在強化學習中,你可以用較少的訓練信息,這樣做的優勢是信息更充足,而且不受監督者的技能限制。

Q:你跟Andrew Barto合著的經典著作《強化學習導論》的第二版很快就要出版,具體什么時候?第二版的主要修訂了哪些內容?你能跟我們講講新章節里關于強化學習與心理學之間有趣聯系嗎(第14章)?還有跟神經科學之間的有趣聯系(第15章)?

薩頓:第二版的完整草稿目前已經可以在richsutton.com上看到。Andy Barto和我正在定稿:驗證所有的參考文獻,諸如此類。印刷版將于明年初發行。

從第一版發行以來的20年里,強化學習領域發生了很多事情。其中最重要的或許是強化學習思想對神經科學的巨大影響,現在,大腦獎勵系統的標準理論是,它們是一種時間差異學習的實例(這是強化學習的基本學習方法之一)。

特別地,現在的理論認為,神經遞質多巴胺的主要作用是攜帶時間差異誤差,也稱為獎勵預測誤差。這是一個巨大的發展,有許多來源、影響和測試,我們只能在書中進行概括。15和14章中介紹的這項發展和其他的發展概括了它們在心理學中的重要前提。

總的來說,第二版比第一版多了三分之二內容。函數逼近的內容從一章擴充到五章。還有關于心理學和神經科學的兩個新章節。在強化學習的前沿也有一個新章節,有一節專門介紹它的社會影響。所有的東西都在這本書中不斷更新和擴展。例如,新的應用程序章節涵蓋了Atari游戲和AlphaGo Zero。

Q:什么是深度強化學習?它與強化學習有何不同?

薩頓:深度強化學習是深度學習和強化學習的結合。這兩種學習方式在很大程度上是正交問題,二者結合得很好。

簡而言之,強化學習需要通過數據逼近函數的方法來部署其所有的組件——值函數、策略、世界模型、狀態更新——而深度學習是最近開發的函數逼近器中最新、最成功一個。

我們的教科書主要介紹線性函數逼近器,并給出一般情況下的方程。我們在應用一章和一節中介紹了神經網絡,但要充分了解深度強化學習,就必須用Goodfellow、Bengio、和Courville的《深度學習》來補充我們的書。

Q:強化學習在游戲中取得了巨大的成功,例如AlphaGo Zero。你預計強化學習還將在哪些方面有優異表現?

薩頓:當然,我相信,從某種意義上講,強化學習是人工智能的未來。有人認為,智能系統必須能夠在不接受持續監督的情況下自主學習,而強化學習正是其中的最佳代表。一個AI必須能夠自己判斷對錯,只有這樣才能擴展到大量的知識和一般技能。

Q:Yann LeCun評論說,AlphaGo Zero的成功很難推廣到其他領域,因為它每天都玩數百萬局游戲,但是你不能在現實世界里跑得更快。強化學習在哪些方面目前還沒有成功(例如,當反饋稀疏時)?如何能夠解決?

薩頓:Yann應該會認同這個觀點:關鍵是要從普通的無監督數據中學習。我和Yann也都會認同這樣一個觀點:在短期內,這將通過專注于“預測學習”來實現。

預測學習可能很快就會成為一個流行詞。它的意思是預測將要發生的事情,然后根據實際情況進行學習。因為你從發生的事情中學習,沒有一個監督員告訴你應該預測什么。但因為你通過等待發現了結果,你就有了一個監督信號。預測學習是無監督的監督式學習。預測學習可能會在應用中取得重大進展。

唯一的問題是,你希望把預測學習看成是監督學習還是強化學習的產物?強化學習的學生知道強化學習有一個主要的子問題,稱為“預測問題”,如何有效地解決這個問題正是大部分算法工作的重點。事實上,第一篇討論時間差異學習的論文題目是《學會用時間差異的方法來預測》。

Q:20世紀80年代,當研究強化學習時,你認為它會取得這樣的成功嗎?

薩頓:20世紀80年代,強化學習根本沒有流行。它本質上并不是一個科學或工程的概念。但卻是一個顯而易見的想法。對心理學家來說很明顯,對普通人來說也很明顯。所以我認為,這顯然是一件值得研究的事情,最終會得到認可。

Q:強化學習的下一個研究方向是什么?你現在在做什么?

薩頓:除了預測學習之外,我想說的是,當我們有用訓練過的世界模型來做規劃的系統時,下一個重大進步就會到來。

我們目前擁有優秀的規劃算法,但只有當有模型提供給它們時才行,就像所有游戲系統中所看到的那樣,模型是由游戲規則(和自我對局)提供的。但我們在現實世界中并沒有跟游戲規則類似的東西。我們需要物理定律,沒錯,但我們也需要知道很多其他的事情,從如何走路和觀察到別人如何回應我們所做的事情。

我們在第八章的Dyna系統中描述了一個完整的規劃和學習系統,但卻局限為幾種方式。第17章闡述了可能克服這種局限的方法。我將從那里入手。

Q:強化學習可能是通用人工智能(AGI)發展的核心。你的觀點是什么——在可預見的未來,研究人員會開發AGI嗎?如過會,這將會對人類產生巨大的好處,還是像埃隆·馬斯克(Elon Musk)警告的那樣,會對人類構成威脅?

薩頓:我認為人工智能是試圖通過制造與人類思想類似的東西來理解人類的思想。正如費曼所說,“我無法創造的東西,我就不理解它”。在我看來,會發生的重大事件是我們即將第一次真正理解意識。這種認識本身將產生巨大的影響。

這將是我們這個時代最偉大的科學成就,其實任何時候都是如此。它也將是有史以來人文學科最偉大的成就——深刻地理解我們自己。如果這樣來看待,那就不會把它看成是一件壞事。雖然是挑戰,但并不是壞事。我們將揭示哪些東西是真實的。那些不想讓它成為現實的人會把我們的工作看成是壞事,就像科學拋棄了靈魂的概念一樣,那些珍視這些想法的人認為是壞的。

毫無疑問,當我們更深入地了解大腦如何運作時,我們今天所珍視的一些觀點也會面臨同樣的挑戰。

Q:當你遠離電腦智能手機的時候,你喜歡做什么?你最近讀過什么書?你喜歡什么書?

薩頓:我是自然的愛好者,也喜歡哲學、經濟學和科學的思辨思想。我最近讀了尼爾·斯蒂芬森的《Seveneves》、尤瓦爾·赫拉利的《人類簡史》,以及G.愛德華·格里芬的《美聯儲傳》。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 強化學習
    +關注

    關注

    4

    文章

    266

    瀏覽量

    11246
  • 深度強化學習

    關注

    0

    文章

    14

    瀏覽量

    2300

原文標題:“強化學習之父”薩頓:預測學習馬上要火,AI將幫我們理解人類意識

文章出處:【微信號:gh_ecbcc3b6eabf,微信公眾號:人工智能和機器人研究院】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    螞蟻集團收購邊塞科技,吳翼出任強化學習實驗室首席科學家

    領域的研究與發展。令人矚目的是,邊塞科技的創始人吳翼已正式加入該實驗室,擔任首席科學家一職。 吳翼在其個人社交平臺上對這一變動進行了回應。他表示,自己最近接受了螞蟻集團的邀請,負責大模型強化學習領域的研究工
    的頭像 發表于 11-22 11:14 ?561次閱讀

    NPU在深度學習中的應用

    隨著人工智能技術的飛速發展深度學習作為其核心驅動力之一,已經在眾多領域展現出了巨大的潛力和價值。NPU(Neural Processing
    的頭像 發表于 11-14 15:17 ?503次閱讀

    如何使用 PyTorch 進行強化學習

    強化學習(Reinforcement Learning, RL)是一種機器學習方法,它通過與環境的交互來學習如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機器學習庫,
    的頭像 發表于 11-05 17:34 ?280次閱讀

    激光雷達技術的基于深度學習的進步

    信息。這使得激光雷達在自動駕駛、無人機、機器人等領域具有廣泛的應用前景。 二、深度學習技術發展 深度
    的頭像 發表于 10-27 10:57 ?366次閱讀

    谷歌AlphaChip強化學習工具發布,聯發科天璣芯片率先采用

    近日,谷歌在芯片設計領域取得了重要突破,詳細介紹其用于芯片設計布局的強化學習方法,并將該模型命名為“AlphaChip”。據悉,AlphaChip有望顯著加速芯片布局規劃的設計流程,幫助芯片在性能、功耗和面積方面實現更優表現
    的頭像 發表于 09-30 16:16 ?419次閱讀

    FPGA做深度學習能走多遠?

    。 總之,FPGA 在深度學習領域具有很大的發展潛力和機會,但也面臨一些挑戰。隨著技術的不斷進步和市場的不斷發展,FPGA 在
    發表于 09-27 20:53

    深度學習中的時間序列分類方法

    發展,基于深度學習的TSC方法逐漸展現出其強大的自動特征提取和分類能力。本文將從多個角度對深度學習在時間序列分類中的應用進行綜述,探討常用
    的頭像 發表于 07-09 15:54 ?876次閱讀

    基于深度學習的小目標檢測

    )的廣泛應用,小目標檢測的性能得到了顯著提升。本文將詳細探討基于深度學習的小目標檢測技術,包括其定義、挑戰、常用方法以及未來發展方向
    的頭像 發表于 07-04 17:25 ?856次閱讀

    深度學習與卷積神經網絡的應用

    隨著人工智能技術的飛速發展深度學習和卷積神經網絡(Convolutional Neural Network, CNN)作為其中的重要分支,已經在多個領域取得了顯著的應用成果。從圖像識
    的頭像 發表于 07-02 18:19 ?885次閱讀

    通過強化學習策略進行特征選擇

    更快更好地學習。我們的想法是找到最優數量的特征和最有意義的特征。在本文中,我們將介紹實現一種新的通過強化學習策略的特征選擇。我們先討論強化學習,尤其是馬爾可夫決策
    的頭像 發表于 06-05 08:27 ?346次閱讀
    通過<b class='flag-5'>強化學習</b>策略進行特征選擇

    淺談AI技術在SSD控制器中的應用

    當前AI技術蓬勃發展深度學習強化學習技術不斷突破,使得AI在圖像識別、語音識別、自然語言處
    的頭像 發表于 04-20 10:02 ?871次閱讀
    淺談AI<b class='flag-5'>技術</b>在SSD控制器中的應用

    嵌入式熱門發展方向有哪些?

    嵌入式熱門發展方向有哪些? 現在越來越多的計算機、電子、通信、自動化等相關專業跨行學習嵌入式,嵌入式開發作為未來職業發展方向,不論從薪資待遇還是
    發表于 04-11 14:17

    一文詳解Transformer神經網絡模型

    Transformer模型在強化學習領域的應用主要是應用于策略學習和值函數近似。強化學習是指讓機器在與環境互動的過程中,通過試錯來學習最優的行為策略。
    發表于 02-20 09:55 ?1.4w次閱讀
    一文詳解Transformer神經網絡模型

    技術科普】主流的深度學習模型有哪些?AI開發工程師必備!

    深度學習在科學計算中獲得了廣泛的普及,其算法被廣泛用于解決復雜問題的行業。所有深度學習算法都使用不同類型的神經網絡來執行特定任務。 什么是深度
    的頭像 發表于 01-30 15:26 ?620次閱讀
    【<b class='flag-5'>技術科普</b>】主流的<b class='flag-5'>深度</b><b class='flag-5'>學習</b>模型有哪些?AI開發工程師必備!

    碳化硅晶片的化學機械拋光技術研究

    材料 去除的影響。重點綜述傳統化學機械拋光技術中的游離磨料和固結磨料工藝以及化學機械拋光的輔助增效工藝。同時從工藝條件、加工效果、加工特點及去除機理 4 個方面歸納
    的頭像 發表于 01-24 09:16 ?1997次閱讀
    碳化硅晶片的<b class='flag-5'>化學</b>機械拋光<b class='flag-5'>技術</b>研究
    主站蜘蛛池模板: 贤妻良母电影日本| 最近日本MV字幕免费观看视频| 久久香蕉国产线看观看精品| 欧美夜夜噜2017最新| 伊人精品国产| 国产精品资源网站在线观看| 在线亚洲97se| 麻豆蜜桃国语精品无码视频| 国产系列在线亚洲视频| GOGOGO高清免费播放| 伊人久久大香线蕉观看| 我半夜摸妺妺的奶C了她软件| 美女视频黄a视频全免费网站色窝 美女伸开两腿让我爽 | 国产99精品视频一区二区三区| 老鸭窝毛片| 亚洲视频无码高清在线| 国产精品亚洲国产三区| 日韩人妻双飞无码精品久久| 97精品伊人久久大香线蕉app | 美女pk精子4| 一本久道视频无线视频| 国产亚洲精品久久久久久禁果TV | 91精品国产色综合久久| 久久99re热在线观看视频| 新图解av吧| 国产精品久久久久久久久久久| 日本枯瘦娇小| qovd伦理| 强奷表妺好紧2| 99热久久视频只有精品6国产| 久青草国产在视频在线观看| 亚洲色图影院| 花蝴蝶在线高清视频观看免费播放| 校花娇喘呻吟校长陈若雪视频| 古装性艳史电影在线看| 日本又黄又裸一级大黄裸片| xxnxx美女| 日日踫夜夜爽无码久久| 动漫美女禁区| 神马电影我不卡国语版| 国产69精品久久久久无码麻豆 |