色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

強化學習在自動駕駛的應用

8g3K_AI_Thinker ? 來源:未知 ? 作者:胡薇 ? 2018-07-10 09:00 ? 次閱讀

制造真正的自動駕駛汽車(即能夠在任何要求的環境中安全駕駛)的關鍵是更加重視關于其軟件的自學能力。換句話說,自動駕駛汽車首先是人工智能問題,需要一個非常具體的機器學習開發技能。而強化學習是機器學習的一個重要分支,是多學科多領域交叉的一個產物,它的本質是解決決策(decision making)問題,即自動進行決策,并且可以做連續決策。今天人工智能頭條給大家介紹強化學習在自動駕駛的一個應用案例,無需 3D 地圖也無需規則,讓汽車從零開始在二十分鐘內學會如何自動駕駛。

▌前言

強化學習是通過對未知環境一邊探索一邊建立環境模型以及學得一個最優策略。強化學習具有以下特征:

沒有監督數據,只有獎勵(reward)信號

獎勵信號不一定是實時的,而很可能是延后的,有時甚至延后很多;

時間(序列)是一個重要因素;

智能體當前的行為影響后續接收到的數據。

而有監督學習則是事先給你了一批樣本,并告訴你哪些樣本是優的哪些是劣的(樣本的標記信息),通過學習這些樣本而建立起對象的模型及其策略。在強化學習中沒有人事先告訴你在什么狀態下應該做什么,只有在摸索中反思之前的動作是否正確來學習。從這個角度看,可以認為強化學習是有時間延遲標記信息的有監督學習。

其他許多機器學習算法中學習器都是學得怎樣做,而強化學習是在嘗試的過程中學習到在特定的情境下選擇哪種行動可以得到最大的回報。

簡而言之,強化學習采用的是邊獲得樣例邊學習的方式,在獲得樣例之后更新自己的模型,利用當前的模型來指導下一步的行動,下一步的行動獲得獎勵之后再更新模型,不斷迭代重復直到模型收斂。

強化學習有廣泛的應用:像直升機特技飛行、經典游戲、投資管理、發電站控制、讓機器人模仿人類行走等等。

英國初創公司 wayve 日前發表的一篇文章 Learning to drive in a day,闡述了強化學習在自動駕駛汽車中的應用。Wayve是英國兩位劍橋大學的機器學習博士創立的英國自動駕駛汽車公司,正在建立“端到端的機器學習算法”,它聲稱使用的方法與大部分自駕車的思維不同。具體來說,這家公司認為制造真正的自動駕駛汽車的關鍵在于軟件的自學能力,而其他公司使用更多的傳感器并不能解決問題,它需要的是更好的協調。

自動駕駛的人工智能包含了感知、決策和控制三個方面。

感知指的是如何通過攝像頭和其他傳感器的輸入解析出周圍環境的信息,例如有哪些障礙物、障礙物的速度和距離、道路的寬度和曲率等。而感知模塊不可能做到完全可靠。Tesla 的無人駕駛事故就是在強光的環境中感知模塊失效導致的。強化學習可以做到,即使在某些模塊失效的情況下也能做出穩妥的行為。強化學習可以比較容易地學習到一系列的行為。自動駕駛中需要執行一系列正確的行為才能成功的駕駛。如果只有標注數據,學習到的模型每個時刻偏移了一點,到最后可能會偏移非常多,產生毀滅性的后果。強化學習能夠學會自動修正偏移。

自動駕駛的決策是指給定感知模塊解析出的環境信息如何控制汽車的行為達到駕駛的目標。例如,汽車加速、減速、左轉、右轉、換道、超車都是決策模塊的輸出。決策模塊不僅需要考慮到汽車的安全性和舒適性,保證盡快到達目標地點,還需要在旁邊的車輛惡意的情況下保證乘客的安全。因此,決策模塊一方面需要對行車的計劃進行長期規劃,另一方面需要對周圍車輛和行人的行為進行預測。而且,無人駕駛中的決策模塊對安全性和可靠性有嚴格的要求。現有的無人駕駛的決策模塊一般是根據規則構建的。雖然基于規則的構建可以應付大部分的駕駛情況,對于駕駛中可能出現的各種各樣的突發情況,基于規則的決策系統不可能枚舉到所有突發情況。我們需要一種自適應的系統來應對駕駛環境中出現的各種突發情況。

現在,讓我們來看看 Wayve 的自動駕駛汽車的解決方案有什么新穎的地方。

▌從零開始學會如何通過試錯法來學會自動駕駛

還記得小時候學騎自行車的情景嗎?又興奮,又有一點點焦慮。你可能是第一次坐在自行車上,踩著踏板,大人跟隨在你身邊,準備在你失去平衡的時候扶住你。在一些搖擺不定的嘗試之后,你可能設法保持了幾米距離的平衡。幾個小時過去后,你可能在公園里的沙礫和草地上能夠飛馳了。大人只會給你一些簡短的提示。你不需要一張公園的密集 3D 地圖,也不需要在頭上裝一個高保真激光攝像頭。你也不需要遵循一長串的規則就能在自行車上保持平衡。大人只是為你提供了一個安全的環境,讓你學會如何根據你所見來決定你的行為,從而成功學會騎車。

如今,自動駕駛汽車安裝了大量的傳感器,并通過緩慢的開發周期中被告知如何通過一長串精心設計的規則來駕駛車輛。在本文中,我們將回到基礎,讓汽車從零開始學會如何通過試錯法來學會自動駕駛,就像你學騎自行車一樣。

看看我們做了什么:只用了 15~20 分鐘,我們就能夠教會一輛汽車從零開始沿著一條車道行駛,而這只有當安全駕駛員接手時作為訓練反饋才使用。

譯注:試錯(trial and error)是一種用來解決問題、獲取知識的常見方法。此種方法可視為簡易解決問題的方法中的一種,與使用洞察力和理論推導的方法正好相反。在試錯的過程中,選擇一個可能的解法應用在待解問題上,經過驗證后如果失敗,選擇另一個可能的解法再接著嘗試下去。整個過程在其中一個嘗試解法產生出正確結果時結束。

像學騎自行車的方法只有一種:試錯。雖然簡單,但這個思想實驗突出了人類智能的一些重要方面。對于某些任務,我們采用試錯法;而對于其他任務我們則使用規劃的方法。在強化學習中也出現了類似的現象。按照強化學習的說法,實證結果表明,一些任務更適合無模型(試錯)方法,而另一些則更適合基于模型的(規劃)方法。

▌無需密集 3D 地圖,無需手寫規則

這是自動駕駛汽車在網上學習的第一個例子,每一次嘗試都會讓它變得更好。那么,我們是怎么做到的呢?

我們采用了一種流行的無模型深度強化學習算法(深度確定性策略梯度:deep deterministic policy gradients,DDPG)來解決車道跟蹤問題。我們的模型輸入是單目鏡攝像頭圖像。我們的系統迭代了三個過程:探索、優化和評估。

譯注:DDPG,由DeepMind的Lillicrap 等于 2016 年提出,全稱是:Deep Deterministic Policy Gradient,是將深度學習神經網絡融合進DPG的策略學習方法。而 DPG 是由 DeepMind 的 D.Silver 等人在 2014 年提出的: Deterministic Policy Gradient,即確定性的行為策略。在此之前,業界普遍認為,環境模型無關(model-free)的確定性策略是不存在的,在 2014 年的 DPG 論文中,D.Silver 等通過嚴密的數學推導,證明了 DPG 的存在。DDPG 相對于 DPG 的核心改進是:采用卷積神經網絡作為策略函數μ 和 Q 函數的模擬,即策略網絡和 Q 網絡;然后使用深度學習的方法來訓練上述神經網絡。

DDPG 算法是利用 QDN 擴展 Q 學習算法的思路對 DPG 方法進行改造,提出的一種基于行動者-評論家(Actor-Critic,AC)框架的算法,該算法可用于解決連續動作空間上的 DRL 問題。

可參考論文《Continuous control with deep reinforcementlearning》(https://arxiv.org/abs/1509.02971)

無模型的 DDPG 方法學習更慢,但最終優于基于模型的方法。

我們的網絡架構是一個深度網絡,有 4 個卷積層和 3 個完全連接的層,總共略低于 10k 個參數。為了比較,現有技術的圖像分類體系結構有數百萬個參數。

所有的處理都是在汽車上的一個圖形處理單元(GPU)上執行的。

在危險的真實環境中使用真正的機器人會帶來很多新問題。為了更好地理解手頭的任務,并找到合適的模型架構和超參數,我們進行了大量的仿真測試。

上組動圖所示,是我們的車道跟隨不同角度顯示的模擬環境的示例。這個算法只能看到駕駛員的視角,也就是圖中有青色邊框的圖像。在每一次模擬中,我們都會隨機生成一條彎曲的車道,以及道路紋理和車道標記。智能體會一直探索,直到模擬終止時它才離開。然后根據手機到的數據進行策略優化,我們重復這樣的步驟。

在安全駕駛員接管之前,汽車行駛的距離與模擬探索的數量有關。

我們使用模擬測試來嘗試不同的神經網絡架構和超參數,直到我們找到一致的設置,這些設置在很少的訓練集中,也就是幾乎沒有數據的情況下,始終如一地解決了車道跟隨的問題。例如,我們的發現之一,是使用自動編碼器重構損失訓練卷積層可以顯著提高訓練的穩定性和數據效率。

▌潛在的影響力

我們的方法的潛在影響是巨大的。想象一下,部署一支自動駕駛車隊,使用一種最初只有人類司機 95% 質量的駕駛算法會怎么樣。這樣一個系統將不會像我們的演示視頻中的隨機初始化模型那樣搖搖晃晃地行駛,而是幾乎能夠處理交通信號燈、環形交叉路口、十字路口等道路情況。經過一天的駕駛和人類安全駕駛員接管的在線改進后,系統也許可以提高到 96%。一個星期以后,提高到 98%。一個月以后,提高到99%。幾個月以后,這個系統可能會變得超人類,因為它從許多不同的安全駕駛員的反饋中受益得以提高。

今天的自動駕駛汽車仍停留在良好的狀態,但性能水平還不夠好。在本文中,我們為第一個可行的框架提供了證據,以便快速改善駕駛算法,使其從不堪造就到可安全行駛。通過巧妙的試錯法快速學習解決問題的能力,使人類擁有具備進化和生存能力的萬能機器。我們通過各種各樣的模仿來學習,從騎自行車到學習烹飪,我們經歷了很多試錯的過程。

DeepMind 向我們展示了深度強化學習方法可以在許多游戲中實現超人類的表現,包括圍棋、象棋和電腦游戲,幾乎總是比任何基于規則的系統表現的更好。我們發現,類似的哲學在現實世界中也是可能的,特別是在自動駕駛汽車中。有一點需要注意的是,DeepMind 的 Atari算法需要數百萬次試驗才能完成一個任務。值得注意的是,我們在不到 20 次試驗中,一貫都學會了沿著車道行駛。

▌結束語

20 分鐘,我們從零開始,學會了沿著車道行駛。想象一下,我們一天可以學到什么?

Wayve 的理念是構建機器人智能,不需要大量的模型、花哨的傳感器和無盡的數據。我們需要的是一個聰明的訓練過程,可以快速有效地學習,就像我們上面的視頻一樣。人工設計的自動駕駛技術在性能上達到了令人不滿意的玻璃天花板。Wayve 正視圖通過更智能的機器學習來開發自動駕駛功能。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自動駕駛
    +關注

    關注

    784

    文章

    13784

    瀏覽量

    166384
  • 強化學習
    +關注

    關注

    4

    文章

    266

    瀏覽量

    11246

原文標題:講真?一天就學會了自動駕駛——強化學習在自動駕駛的應用

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    MEMS技術自動駕駛汽車中的應用

    MEMS技術自動駕駛汽車中的應用主要體現在傳感器方面,這些傳感器為自動駕駛汽車提供了關鍵的環境感知和數據采集能力。以下是對MEMS技術自動駕駛
    的頭像 發表于 11-20 10:19 ?315次閱讀

    如何使用 PyTorch 進行強化學習

    的計算圖和自動微分功能,非常適合實現復雜的強化學習算法。 1. 環境(Environment) 強化學習中,環境是一個抽象的概念,它定義了智能體(agent)可以執行的動作(acti
    的頭像 發表于 11-05 17:34 ?280次閱讀

    自動駕駛汽車安全嗎?

    隨著未來汽車變得更加互聯,汽車逐漸變得更加依賴技術,并且逐漸變得更加自動化——最終實現自動駕駛,了解自動駕駛汽車的安全問題變得非常重要,這樣你才能回答“自動駕駛汽車安全嗎”和“
    的頭像 發表于 10-29 13:42 ?502次閱讀
    <b class='flag-5'>自動駕駛</b>汽車安全嗎?

    自動駕駛HiL測試方案案例分析--ADS HiL測試系統#ADAS #自動駕駛 #VTHiL

    自動駕駛
    北匯信息POLELINK
    發布于 :2024年10月22日 15:20:19

    自動駕駛HiL測試方案介紹#ADAS #自動駕駛 #VTHiL

    自動駕駛
    北匯信息POLELINK
    發布于 :2024年10月12日 18:02:07

    FPGA自動駕駛領域有哪些優勢?

    FPGA(Field-Programmable Gate Array,現場可編程門陣列)自動駕駛領域具有顯著的優勢,這些優勢使得FPGA成為自動駕駛技術中不可或缺的一部分。以下是FPGA
    發表于 07-29 17:11

    FPGA自動駕駛領域有哪些應用?

    FPGA(Field-Programmable Gate Array,現場可編程門陣列)自動駕駛領域具有廣泛的應用,其高性能、可配置性、低功耗和低延遲等特點為自動駕駛的實現提供了強有力的支持。以下
    發表于 07-29 17:09

    深度學習自動駕駛中的關鍵技術

    隨著人工智能技術的飛速發展,自動駕駛技術作為其中的重要分支,正逐漸走向成熟。自動駕駛系統中,深度學習技術發揮著至關重要的作用。它通過模擬人腦的學習
    的頭像 發表于 07-01 11:40 ?755次閱讀

    中級自動駕駛架構師應該學習哪些知識

    是一個新興且不斷發展的職業。隨著技術的進步,這一領域將繼續吸引更多人才,推動自動駕駛技術的發展。 自動駕駛架構師設計和開發自動駕駛系統時將面臨一系列挑戰,包括:安全關鍵的邊緣情況、領
    的頭像 發表于 06-20 21:47 ?285次閱讀

    初級自動駕駛架構師應該學習哪些知識

    是一個新興且不斷發展的職業。隨著技術的進步,這一領域將繼續吸引更多人才,推動自動駕駛技術的發展。 自動駕駛架構師設計和開發自動駕駛系統時將面臨一系列挑戰,包括:安全關鍵的邊緣情況、領
    的頭像 發表于 06-20 21:45 ?298次閱讀

    通過強化學習策略進行特征選擇

    更快更好地學習。我們的想法是找到最優數量的特征和最有意義的特征。本文中,我們將介紹并實現一種新的通過強化學習策略的特征選擇。我們先討論強化學習,尤其是馬爾可夫決策
    的頭像 發表于 06-05 08:27 ?346次閱讀
    通過<b class='flag-5'>強化學習</b>策略進行特征選擇

    未來已來,多傳感器融合感知是自動駕駛破局的關鍵

    方面表示,這是L4級自動駕駛公司和車企為了打造Robotaxi量產車,國內成立的首個合資公司。首款車型已完成產品定義,正在進行設計造型的聯合評審,計劃明年實現量產。未來已來,2024年是全球L3
    發表于 04-11 10:26

    自動駕駛發展問題及解決方案淺析

    汽車的發展提供有益的參考。 ? 自動駕駛汽車發展的現狀與挑戰 (一)技術難題 自動駕駛汽車的核心在于通過先進的傳感器、算法和控制系統實現車輛的自主駕駛。然而,實際應用中,
    的頭像 發表于 03-14 08:38 ?1131次閱讀

    兩種端到端的自動駕駛系統算法架構

    基于學習自動駕駛是一個活躍的研究領域。采用了一些基于學習駕駛方法,例如可供性和強化學習,取得了不錯的性能,模仿方法也被用來回歸人類演示的
    發表于 01-18 09:33 ?1393次閱讀
    兩種端到端的<b class='flag-5'>自動駕駛</b>系統算法架構

    語音數據集自動駕駛中的應用與挑戰

    隨著人工智能技術的快速發展,自動駕駛汽車已經成為交通領域的研究熱點。語音數據集自動駕駛中發揮著重要的作用,為駕駛員和乘客提供了更加便捷和安全的交互方式。本文將詳細介紹語音數據集
    的頭像 發表于 12-25 09:48 ?555次閱讀
    主站蜘蛛池模板: 久草在线福利视频在线播放| 国产99久久久欧美黑人刘玥| 国产精品美女WWW爽爽爽视频| 成人公开免费视频| 荡乳乱公小说| 国产久久re6免费热在线| 国产亚洲精品久久久闺蜜| 九九在线免费视频| 美女脱三角裤| 日本阿v在线资源无码免费| 婷婷四房播客五月天| 亚洲永久在线观看| 99国产精品免费视频| 高清 仑乱 一级 a| 黄色a三级免费看| 门事件快播| 色综合久久网女同蕾丝边| 亚洲黄色网页| 99久久精品费精品国产一区二| yy8090理论三级在线看| 国产精品自在在线午夜精品| 九色PORNY真实丨国产大胸| 暖暖高清视频免费| 午夜视频在线网站| 中文字幕在线播放| 国产99视频在线观看| 久久re这里视频只精品首页| 欧美自拍亚洲综合图区| 亚洲国产av| 99国产在线视频有精品视频| 国产成人8x视频一区二区| 久久精品亚洲精品国产欧美| 日本高清天码一区在线播放| 亚洲日韩成人| 大肥婆丰满大肥奶bbw肥| 果冻传媒 在线播放观看| 欧美日韩精品一区二区三区高清视频| 亚洲qvod图片区电影| 99RE8国产这里只有精品| 国内精品日本久久久久影院| 欧洲馒头大肥p|