色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI智能體學習如何跑步、躲避跨越障礙物

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-10-22 08:58 ? 次閱讀

AI智能體學習如何跑步、躲避跨越障礙物

近年來,深度學習受到全球關注。成就最為突出的便是深度強化學習,例如Alpha Go等。本文作者Artem Oppermann基于此,對深度強化學習訓練AI智能體所需要的數學背景知識——馬爾科夫鏈做了深入淺出的介紹。

近年來,世界各地的研究員和媒體對深度學習極其關注。而深度學習方面成就最為突出的就是深度強化學習——從谷歌Alpha Go擊敗世界頂級棋手,到DeepMind的AI智能體自學走路、跑步以及躲避障礙物,如下圖所示:

圖2:AI智能體學習如何跑步、躲避跨越障礙物

圖3:AI智能體學習如何跑步、躲避跨越障礙物

還有一些AI智能體打破了自2014年以來人類玩家在雅達利游戲中的最高紀錄。

圖4:AI智能體學習如何玩兒雅達利游戲

而這一切最令人驚奇的是這些AI智能體中,沒有一個是由人類明確編程或者指導他們如何完成這些任務的。他們僅僅是通過深度學習和強化學習的力量在自學!

本文作者Artem Oppermann在Medium中開設了《自學AI智能體》的“連載”課程,本文是其第一篇文章,詳細介紹了AI智能體自學完成任務這一過程背后需要了解的數學知識——馬爾可夫鏈。

Nutshell中的深度強化學習

深度強化學習可以概括為構建一種算法(或AI智能體),直接從與環境的交互中學習。

圖5:深度強化學習示意圖

環境可以是真實世界,電腦游戲,模擬,甚至棋盤游戲,比如圍棋或象棋。就像人類一樣,人工智能代理人從其行為的結果中學習,而不是從明確的教導中學習。

在深度強化學習中,智能體是由神經網絡表示的。神經網絡直接與環境相互作用。它觀察環境的當前狀態,并根據當前狀態和過去的經驗決定采取何種行動(例如向左、向右移動等)。根據采取的行動,AI智能體收到一個獎勵(Reward)。獎勵的數量決定了在解決給定問題時采取的行動的質量(例如學習如何走路)。智能體的目標是學習在任何特定的情況下采取行動,使累積的獎勵隨時間最大化。

馬爾可夫決策過程

馬爾可夫決策過程(MDP)是一個離散時間隨機控制過程。

MDP是迄今為止我們對AI智能體的復雜環境建模的最佳方法。智能體要解決的每個問題都可以看作是S1、S2、S3、……Sn(狀態可以是圍棋/象棋的棋局配置)的序列。智能體采取行動并從一個狀態移動到另一個狀態。

馬爾可夫過程

馬爾可夫過程是一個描述可能狀態序列的隨機模型,其中當前狀態僅依賴于以前的狀態。這也被稱為馬爾科夫性質(公式1)。對于強化學習,這意味著AI智能體的下一個狀態只依賴于最后一個狀態,而不是之前的所有狀態。

公式1:馬爾可夫性質

馬爾可夫過程是一個隨機過程。這意味著從當前狀態s到下一個狀態s'的轉變“只能在一定概率下發生”(公式2)。在馬爾科夫過程中,一個被告知向左移動的智能體只會在一定概率下向左移動,例如0.998。在概率很小的情況下,由環境決定智能體的最終位置。

公式2:從狀態s到狀態s'的轉變概率

Pss '可以看作是狀態轉移矩陣P中的一個條目,它定義了從所有狀態s到所有后續狀態s'的轉移概率(公式3)。

公式3:轉移概率矩陣

馬爾可夫獎勵(Reward)過程

馬爾可夫獎勵過程是一個元組。這里R是智能體希望在狀態s(公式4)中獲得的獎勵。這一過程的動機是基于AI智能體是“需要達成一定目標”這樣的一個事實,例如贏得國際象棋比賽,在某些狀態下(游戲配置)比起其它狀態來說贏得比賽的概率會更大一些。

公式4:在狀態s中期望獲得獎勵

總獎勵Gt(公式5),它是智能體在所有狀態序列中所獲得的預期累積獎勵。每個獎勵都由所謂的折扣因子γ∈[0,1]加權。

公式5:所有狀態的獎勵總額

價值函數(Value Function)

另一個重要的概念是價值函數v(s)中的一個。價值函數將一個值映射到每個狀態s。狀態s的值被定義為AI智能體在狀態s中開始其進程時將得到的預期總獎勵(公式6)。

公式6:價值函數,從狀態s開始的期望返回值

價值函數可以分解為兩個部分:

處于狀態s時,智能體收到的即使獎勵(immediate reward)R(t+1);

在狀態s之后的下一個狀態的折現值(discounted value)v(s(t+1));

公式7:價值函數的分解

貝爾曼方程

馬爾可夫獎勵過程的貝爾曼方程

分解后的值函數(公式8)也稱為馬爾可夫獎勵過程的貝爾曼方程。

該函數可以在節點圖中可視化(圖6),從狀態s開始,得到值v(s)。在狀態s中,我們有特定的概率Pss '到下一個狀態s'中結束。在這種特殊情況下,我們有兩個可能的下一個狀態為了獲得值v(s),我們必須總結由概率Pss'加權的可能的下一個狀態的值v(s'),并從狀態s中添加直接獎勵。 這就產生了公式9,如果我們在等式中執行期望算子E,那么這只不是公式8。

公式8:價值函數分解

圖6:從s到s'的隨機轉變

公式9:執行期望算子E后的貝爾曼方程

馬爾可夫決策過程——定義

馬爾可夫決策過程是一個有決策的馬爾可夫獎勵過程。

馬爾可夫決策過程是馬爾可夫獎勵過程的決策。 馬爾可夫決策過程由一組元組描述,A是智能體可以在狀態s中采取的一組有限的可能動作。 因此,現在處于狀態s中的直接獎勵也取決于智能體在這種狀態下所采取的行動(公式10)。

公式10:期望獎勵取決于狀態s中的行為

策略

在這一點上,我們將討論智能體如何決定在特定狀態下必須采取哪些行動。 這由所謂的策略π(公式11)決定。 從數學角度講,策略是對給定狀態的所有行動的分配。 策略確定從狀態s到智能體必須采取的操作a的映射。

公式11:策略作為從s到a的一個映射

該策略導致狀態價值函數v(s)的新定義(公式12),我們現在將其定義為從狀態s開始的預期返回,然后遵循策略π。

公式12:狀態值函數

動作價值函數

除狀態值函數之外的另一個重要功能是所謂的動作值函數q(s,a)(公式13)。 動作值函數是我們通過從狀態s開始,采取行動a然后遵循策略π獲得的預期回報。 請注意,對于狀態s,q(s,a)可以采用多個值,因為智能體可以在狀態s中執行多個操作。 Q(s,a)的計算是通過神經網絡實現的。 給定狀態作為輸入,網絡計算該狀態下每個可能動作的質量作為標量(圖7)。 更高的質量意味著在給定目標方面采取更好的行動。

圖7:動作價值函數說明

公式13:動作價值函數

狀態值函數v(s)可以分解為以下形式:

公式14:狀態價值函數分解

同樣的分解也適用于動作價值函數:

公式15:動作價值函數分解

在這一點上,我們討論v(s)和q(s,a)如何相互關聯。 這些函數之間的關系可以在圖中再次可視化:

圖8:v(s)和q(s,a)之間關系的可視化

在這個例子中,處于狀態s允許我們采取兩種可能的行動a,根據定義,在特定狀態下采取特定的行動給了我們動作值q(s,a)。價值函數v(s)是概率q(s,a)的和,由在狀態s中采取行動a的概率來賦予權重。

公式16:狀態值函數是動作值的加權和

現在讓我們考慮圖9中的相反情況。二叉樹的根現在是一個我們選擇采取特定動作的狀態。 請記住,馬爾可夫過程是隨機的。 采取行動并不意味著你將以100%的確定性結束你想要的目標。 嚴格地說,你必須考慮在采取行動后最終進入其他狀態的概率。 在采取行動后的這種特殊情況下,你可以最終處于兩個不同的下一個狀態s':

圖9:v(s)與q(s,a)關系的可視化

為了獲得動作值,你必須用概率加權的折現狀態值來最終得到所有可能的狀態(在本例中僅為2),并加上即時獎勵:

公式17:q(s,a)和v(s)之間的關系

既然我們知道了這些函數之間的關系,我們就可以將公式16中的v(s)插入公式17中的q(s,a)中。我們得到公式18,可以看出當前的q(s,a)和下一個動作值q(s,a)之間存在遞歸關系。

公式18:動作值函數的遞歸性質

這種遞歸關系可以再次在二叉樹中可視化(圖10)。

圖10:q(s,a)遞歸行為的可視化

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 智能體
    +關注

    關注

    1

    文章

    163

    瀏覽量

    10604
  • 強化學習
    +關注

    關注

    4

    文章

    268

    瀏覽量

    11278

原文標題:AlphaGo等智能體是如何煉成的?你需要懂得馬爾科夫鏈

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    遇到障礙物自動返回?

    為什么有些東西,遇到障礙物會自動返回,是哪一種傳感器嗎?哪里有沒有這類的電路圖介紹下,非常感謝
    發表于 09-10 21:14

    強悍版智能小車

    ` 智能小車一直以來都是電子設計大賽題目的座上賓。尤其是難度高的那一類題目,讓不少單片機愛好者和參加大賽的學生頭疼。小車在各個模塊的協同作用下,可以上坡、測量和障礙物的距離,跨越障礙物如履平地。完美
    發表于 03-09 17:04

    設計完PCB后走線不能躲避障礙物時什么情況

    本帖最后由 gk320830 于 2015-3-8 20:36 編輯 設計完PCB后走線不能躲避障礙物時什么情況?已經設置了躲避障礙物還是不能
    發表于 12-20 08:47

    求教 障礙物感應類開關

    本帖最后由 gk320830 于 2015-3-8 14:20 編輯 急需用到2米內障礙物感應器,帶開關功能或者高手幫忙設計個輔助開關電路,24V電源供電,多謝
    發表于 03-07 21:58

    越障小車電機、輪胎選擇

    本帖最后由 化雨眠66 于 2013-4-3 12:48 編輯 [table=98%][tr][td]題目:越障竟速小車場地:草地、距離30m,寬度1m,直線場地障礙物:木棍、小石塊、小土塊,障礙物高度
    發表于 04-03 12:43

    智能壁障車

    項目說明:本小車采用智能控制,能夠按照設定程序自行躲避障礙物,實現自身的特色。傳統的無線遙控汽車只能通過人為的干涉躲避行駛途中的障礙物,但人
    發表于 10-26 23:40

    基于AT89S52芯片的簡易智能小車的設計

    為了使小車具有簡易智能,在自動行駛的同時完成檢測金屬位置,顯示行駛路程,記錄并顯示行駛時間,躲避障礙物等任務。通過傳感器采集外部環境信號,在經過單片機對信號進行處理并對執行機構進行控制,小車可以實現
    發表于 10-31 14:49

    障礙物時 語音提示 前方危險,請注意。

    障礙物時語音提示前方危險,請注意。語音模塊是isd1820單片機51 求幫忙
    發表于 02-24 21:43

    基于labview機器視覺的障礙物時別

    通過攝像頭對周圍環境信息的實時采集,如果當鏡頭前方出現障礙物時候,以一定的方式(聲音或振動之類的)反饋出來。主要考慮的是實現盲人室內導盲作用,不需要太過于考慮實際使用,只要能實現判定到障礙物,自動提醒就行啦。怎么判定前方出現障礙物
    發表于 03-14 07:58

    新人求教AD中Pullback(障礙物)到底是一個什么概念或作用?

    邊界有一個安全間距,根據設置,內電層邊界將自動從板邊界回退。 本來第二種說法讓我覺得這個“障礙物”是個非銅的區域,但看第一種說法卻是指銅構成的一種區域?請懂的大神抽空指點小菜2句?不勝感激
    發表于 11-04 11:27

    ANYmal機器人具有腿和腳,可跨越障礙物

    ANYmal機器人的實驗版本具有腿和腳,蘇黎世聯邦理工學院步行,有腿的機器人可能擅長于越過障礙物,但車輪在光滑地面上行駛仍然更有效率。這就是蘇黎世聯邦理工學院的工程師向其現有的ANYmal四足機器人
    發表于 08-30 08:02

    障礙物檢測實驗

    障礙物檢測實驗 一、實驗目的“旋風”小車在運動過程中要成功避開障礙物必須在一定距離外就探測到障礙物。在小車上探測障礙物
    發表于 03-23 10:47 ?2892次閱讀
    <b class='flag-5'>障礙物</b>檢測實驗

    障礙物方位檢測實驗

    障礙物方位檢測實驗 一、實驗目的小車在運動中要成功避開障礙物,除了要檢測是否有障礙物外,還需要判斷障礙物的方位,以便小
    發表于 03-23 10:48 ?2018次閱讀
    <b class='flag-5'>障礙物</b>方位檢測實驗

    獵豹機器人配備新的算法_沒有攝像頭也可以躲避障礙物

    麻省理工學院最新發布的新研究視頻顯示,該學院研制的Cheetah 3獵豹機器人不需要直視而爬上樓梯臺階。視頻顯示,這個90磅重的機器人配備了新的算法,即使沒有攝像頭的幫助也可以躲避障礙物,機器人通過觸感來適應整個環境并完成任務。
    的頭像 發表于 07-08 10:07 ?3248次閱讀

    嵌入式AI新技術助力無人機躲避移動障礙

    能夠實現自動躲避的無人機并不新穎,例如大疆的無人機一直擁有這樣的功能。但是有沒有可以躲避快速移動障礙物的無人機呢?
    發表于 06-13 11:06 ?1022次閱讀
    主站蜘蛛池模板: 亚洲精品第一综合99久久| 亚洲成人一区二区| 亚洲国产精品天堂在线播放| 国产AV亚洲一区精午夜麻豆| 欧美阿v在线免播播放| 98久久人妻无码精品系列蜜桃| 亚洲国产欧美日本大妈| 国产成人综合视频| 偷拍自怕亚洲在线第7页| 高中生被C到爽哭视频免费| 日韩欧美视频一区二区| 国产a在线不卡| 性派对xxxhd| 国产综合在线观看| 一区三区三区不卡| 美女裸露胸部100%无遮挡| FREEHDXXXX学生妹| 少妇精品无码一区二区三区 | 色琪琪丁香婷婷综合久久| 国产成人精品午夜福麻豆报告| 无码人妻精品国产婷婷 | 国产乱码伦人偷精品视频| 亚洲欧美视频在线| 蜜臀AV浪潮99国产麻豆| 草莓视频免费在线观看| 我半夜摸妺妺的奶C了她软件| 花蝴蝶高清在线视频免费观看| 伊人情涩网| 琪琪婷婷五月色综合久久| 国产91网站在线观看免费| 亚洲精品AV无码喷奶水糖心| 里番※琉璃全彩acg奈亚子| 扒开黑女人p大荫蒂老女人| 无码AV精品久久一区二区免费| 精品一区二区三区四区五区六区| 自拍黄色片| 日韩精品一区二区亚洲AV观看 | 国产精品成人免费| 伊人久久大香线蕉综合电影网| 飘雪在线观看免费完整版| 国产在线精品亚洲另类|