色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PWIL:不依賴對抗性的新型模擬學(xué)習(xí)

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2020-10-13 10:01 ? 次閱讀

強化學(xué)習(xí) (Reinforcement Learning,RL) 是一種通過反復(fù)試驗訓(xùn)練智能體 (Agent) 在復(fù)雜環(huán)境中有序決策的范式,在游戲、機(jī)器人操作和芯片設(shè)計等眾多領(lǐng)域都取得了巨大成功。智能體的目標(biāo)通常是最大化在環(huán)境中收集的總獎勵 (Reward),這可以基于速度、好奇心、美學(xué)等各種參數(shù)。然而,由于 RL 獎勵函數(shù)難以指定或過于稀疏,想要設(shè)計具體的 RL 獎勵函數(shù)并非易事。

游戲
https://ai.googleblog.com/2019/06/introducing-google-research-football.html

這種情況下,模仿學(xué)習(xí)(Imitation Learning,IL) 方法便派上了用場,因為這種方法通過專家演示而不是精心設(shè)計的獎勵函數(shù)來學(xué)習(xí)如何完成任務(wù)。然而,最前沿 (SOTA) 的 IL 方法均依賴于對抗訓(xùn)練,這種訓(xùn)練使用最小化/最大化優(yōu)化過程,但在算法上不穩(wěn)定并且難以部署。

在“原始 Wasserstein 模仿學(xué)習(xí)”(Primal Wasserstein Imitation Learning,PWIL) 中,我們基于 Wasserstein 距離(也稱為推土機(jī)距離)的原始形式引入了一種新的 IL 方法,這種方法不依賴對抗訓(xùn)練。借助 MuJoCo 任務(wù)套件,我們通過有限數(shù)量的演示(甚至是單個示例)以及與環(huán)境的有限交互來模仿模擬專家,以此證明 PWIL 方法的有效性。

原始 Wasserstein 模仿學(xué)習(xí)
https://arxiv.org/pdf/2006.04678.pdf

MuJoCo 任務(wù)套件
https://gym.openai.com/envs/#mujoco

左圖:使用任務(wù)的真實獎勵(與速度有關(guān))訓(xùn)練的算法類人機(jī)器人“專家”;右圖:使用 PWIL 基于專家演示訓(xùn)練的智能體

對抗模仿學(xué)習(xí)

最前沿的對抗 IL 方法的運作方式與生成對抗網(wǎng)絡(luò) (GAN) 類似:訓(xùn)練生成器(策略)以最大化判別器(獎勵)的混淆度,以便判別器本身被訓(xùn)練來區(qū)分智能體的狀態(tài)-動作對和專家的狀態(tài)-動作對。對抗 IL 方法可以歸結(jié)為分布匹配問題,即最小化度量空間中概率分布之間距離的問題。不過,就像 GAN 一樣,對抗 IL 方法也依賴于最小化/最大化優(yōu)化問題,因此在訓(xùn)練穩(wěn)定性方面面臨諸多挑戰(zhàn)。

訓(xùn)練穩(wěn)定性方面面臨諸多挑戰(zhàn)
https://developers.google.com/machine-learning/gan/problems

模仿學(xué)習(xí)歸結(jié)為分步匹配

PWIL 方法的原理是將 IL 表示為分布匹配問題(在本例中為 Wasserstein 距離)。第一步為從演示中推斷出專家的狀態(tài)-動作分布:即專家采取的動作與相應(yīng)環(huán)境狀態(tài)之間的關(guān)系的集合。接下來的目標(biāo)是通過與環(huán)境的交互來最大程度地減少智能體的狀態(tài)-動作分布與專家的狀態(tài)-動作分布之間的距離。相比之下,PWIL 是一種非對抗方法,因此可繞過最小化/最大化優(yōu)化問題,直接最小化智能體的狀態(tài)-動作對分布與專家的狀態(tài)-動作對分布之間的 Wasserstein 距離。

PWIL 方法

計算精確的 Wasserstein 距離會受到限制(智能體軌跡結(jié)束時才能計算出),這意味著只有在智能體與環(huán)境交互完成后才能計算獎勵。為了規(guī)避這種限制,我們?yōu)榫嚯x設(shè)置了上限,可以據(jù)此定義使用 RL 優(yōu)化的獎勵。

結(jié)果表明,通過這種方式,我們確實可以還原專家的行為,并在 MuJoCo 模擬器的許多運動任務(wù)中最小化智能體與專家之間的 Wasserstein 距離。對抗 IL 方法使用來自神經(jīng)網(wǎng)絡(luò)的獎勵函數(shù),因此,當(dāng)智能體與環(huán)境交互時,必須不斷對函數(shù)進(jìn)行優(yōu)化和重新估計,而 PWIL 根據(jù)專家演示離線定義一個不變的獎勵函數(shù),并且它所需的超參數(shù)量遠(yuǎn)遠(yuǎn)低于基于對抗的 IL 方法。

PWIL 在類人機(jī)器人上的訓(xùn)練曲線:綠色表示與專家狀態(tài)-動作分布的 Wasserstein 距離;藍(lán)色表示智能體的回報(所收集獎勵的總和)

類人機(jī)器人
https://gym.openai.com/envs/Humanoid-v2/

衡量真實模仿學(xué)習(xí)環(huán)境的相似度

與 ML 領(lǐng)域的眾多挑戰(zhàn)類似,許多 IL 方法都在合成任務(wù)上進(jìn)行評估,其中通常有一種方法可以使用任務(wù)的底層獎勵函數(shù),并且可以根據(jù)性能(即預(yù)期的獎勵總和)來衡量專家行為與智能體行為之間的相似度。

PWIL 過程中會創(chuàng)建一個指標(biāo),該指標(biāo)可以針對任何 IL 方法。這種方法能將專家行為與智能體行為進(jìn)行比較,而無需獲得真正的任務(wù)獎勵。從這個意義上講,我們可以在真正的 IL 環(huán)境中使用 Wasserstein 距離,而不僅限于合成任務(wù)。

結(jié)論

在交互成本較高的環(huán)境(例如,真實的機(jī)器人或復(fù)雜的模擬器)中,PWIL 可以作為首選方案,不僅因為它可以還原專家的行為,還因為它所定義的獎勵函數(shù)易于調(diào)整,且無需與環(huán)境交互即可定義。

這為未來的探索提供了許多機(jī)會,包括部署到實際系統(tǒng)、將 PWIL 擴(kuò)展到只能使用演示狀態(tài)(而不是狀態(tài)和動作)的設(shè)置,以及最終將 PWIL 應(yīng)用于基于視覺的觀察。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模擬器
    +關(guān)注

    關(guān)注

    2

    文章

    877

    瀏覽量

    43257
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    152

    瀏覽量

    10590
  • 強化學(xué)習(xí)
    +關(guān)注

    關(guān)注

    4

    文章

    267

    瀏覽量

    11263

原文標(biāo)題:PWIL:不依賴對抗性的新型模擬學(xué)習(xí)

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    魯棒性在機(jī)器學(xué)習(xí)中的重要性

    在機(jī)器學(xué)習(xí)領(lǐng)域,模型的魯棒性是指模型在面對輸入數(shù)據(jù)的擾動、異常值、噪聲或對抗性攻擊時,仍能保持性能的能力。隨著人工智能技術(shù)的快速發(fā)展,機(jī)器學(xué)習(xí)模型被廣泛應(yīng)用于各個領(lǐng)域,從自動駕駛汽車到醫(yī)療診斷,再到
    的頭像 發(fā)表于 11-11 10:19 ?410次閱讀

    鑒源實驗室·如何通過雷達(dá)攻擊自動駕駛汽車-針對點云識別模型的對抗性攻擊的科普

    非常精確,它們也面臨一種新興的威脅——對抗性攻擊。 對抗性攻擊是一種通過微小但精心設(shè)計的擾動,旨在欺騙機(jī)器學(xué)習(xí)模型的攻擊方式。對于自動駕駛系統(tǒng)而言,這意味著通過對傳感器輸入的數(shù)據(jù)進(jìn)行極小的修改,攻擊者可以導(dǎo)致自動駕
    的頭像 發(fā)表于 11-05 15:44 ?277次閱讀
    鑒源實驗室·如何通過雷達(dá)攻擊自動駕駛汽車-針對點云識別模型的<b class='flag-5'>對抗性</b>攻擊的科普

    分享一個跨平臺通用型GUI框架

    AAGUI是一個不依賴特定硬件、操作系統(tǒng)的跨平臺通用型GUI。
    的頭像 發(fā)表于 10-28 09:21 ?423次閱讀
    分享一個跨平臺通用型GUI框架

    原生鴻蒙系統(tǒng)正式發(fā)布,余承東宣布不依賴國外核心技術(shù)

    ’,標(biāo)志著華為在移動操作系統(tǒng)領(lǐng)域邁出了堅實的一步。” 這款原生鴻蒙系統(tǒng)作為中國自主研發(fā)的移動操作系統(tǒng),其最大的亮點在于不依賴于國外的編程語言和操作系統(tǒng)內(nèi)核等核心技術(shù),實現(xiàn)了真正的自主可控。這一突破對于提升我國在全球科技領(lǐng)域的競爭力具有重要意義。 然而,對于
    的頭像 發(fā)表于 10-23 10:08 ?379次閱讀

    N型插頭具備溫度抗性

    德索工程師說道溫度抗性是N型插頭設(shè)計中不可忽視的一個方面。N型插頭在使用過程中,可能會遇到各種溫度變化,包括高溫和低溫環(huán)境。如果連接器不具備足夠的溫度抗性,就可能在極端溫度下出現(xiàn)性能下降、材料老化、甚至損壞的情況,從而影響整個電氣系統(tǒng)的穩(wěn)定性和安全性。
    的頭像 發(fā)表于 09-24 14:50 ?190次閱讀
    N型插頭具備溫度<b class='flag-5'>抗性</b>嗎

    FORT單元-不依賴GPS的步跟蹤定位穿戴設(shè)備@PNI

    歷史上,大多數(shù)基于傳感器的定位跟蹤系統(tǒng)一直受到從傳感器漂移到磁干擾和可靠性的問題的困擾,為了提供精確的位置數(shù)據(jù),現(xiàn)代基于傳感器的跟蹤系統(tǒng)必須克服這些問題,同時提供一個高精度、低功耗的傳感器模塊,隨時隨地提供精確的精度。新的FORT現(xiàn)場行動遠(yuǎn)程跟蹤正是做到這一點。FORT應(yīng)用最先進(jìn)的技術(shù)來確定某點精確位置——即使GPS被破壞或拒絕。FORT由PNISensor
    的頭像 發(fā)表于 09-12 08:11 ?245次閱讀
    FORT單元-<b class='flag-5'>不依賴</b>GPS的步跟蹤定位穿戴設(shè)備@PNI

    HDS-6智能型模擬斷路器使用說明

    HDS-6智能型模擬斷路器的原理HDS-6智能型模擬斷路器采用全數(shù)字電路,時間為數(shù)字撥碼設(shè)置,可實現(xiàn)模擬斷路器跳合閘時間設(shè)置、三相/分相操作選擇、輸入信號邏輯控制等功能,從而模擬斷路器
    的頭像 發(fā)表于 08-02 16:15 ?635次閱讀
    HDS-6智能<b class='flag-5'>型模擬</b>斷路器使用說明

    深度學(xué)習(xí)的典型模型和訓(xùn)練過程

    深度學(xué)習(xí)作為人工智能領(lǐng)域的一個重要分支,近年來在圖像識別、語音識別、自然語言處理等多個領(lǐng)域取得了顯著進(jìn)展。其核心在于通過構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,從大規(guī)模數(shù)據(jù)中自動學(xué)習(xí)并提取特征,進(jìn)而實現(xiàn)高效準(zhǔn)確的預(yù)測和分類。本文將深入解讀深度學(xué)習(xí)
    的頭像 發(fā)表于 07-03 16:06 ?1530次閱讀

    智能型模擬斷路器如何使用?——每日了解電力知識

    今天武漢摩恩智能電氣有限公司帶大家了解一下 ME-MT 智能型模擬斷路器 。 ME-MT 智能型模擬斷路器使用說明: 1、裝置通電 —— ? ? ?接入220V交流工作電源,合電源開關(guān),幾秒鐘后
    的頭像 發(fā)表于 05-27 10:01 ?1172次閱讀
    智能<b class='flag-5'>型模擬</b>斷路器如何使用?——每日了解電力知識

    模擬電子電路學(xué)習(xí)教程

    電子發(fā)燒友網(wǎng)站提供《模擬電子電路學(xué)習(xí)教程.pdf》資料免費下載
    發(fā)表于 04-14 09:40 ?46次下載

    深度學(xué)習(xí)生成對抗網(wǎng)絡(luò)(GAN)全解析

    GANs真正的能力來源于它們遵循的對抗訓(xùn)練模式。生成器的權(quán)重是基于判別器的損失所學(xué)習(xí)到的。因此,生成器被它生成的圖像所推動著進(jìn)行訓(xùn)練,很難知道生成的圖像是真的還是假的。
    發(fā)表于 03-29 14:42 ?4616次閱讀
    深度<b class='flag-5'>學(xué)習(xí)</b>生成<b class='flag-5'>對抗</b>網(wǎng)絡(luò)(GAN)全解析

    5V 4:1 通用型模擬多路復(fù)用器TMUX1204數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《5V 4:1 通用型模擬多路復(fù)用器TMUX1204數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 03-20 14:19 ?0次下載
    5V 4:1 通用<b class='flag-5'>型模擬</b>多路復(fù)用器TMUX1204數(shù)據(jù)表

    百度CEO李彥宏:不會受制于美國限制,中國AI發(fā)展仍有強大動力

    李彥宏指出,對于文心大模型這類情境,他并不依賴英偉達(dá)的尖端芯片,百度現(xiàn)有芯片儲備以及可采購的替代產(chǎn)品已能滿足大眾AI需求。
    的頭像 發(fā)表于 03-08 15:17 ?612次閱讀

    隨機(jī)通信下多智能體系統(tǒng)的干擾攻擊影響研究

    網(wǎng)絡(luò)控制系統(tǒng)可能會受到不同類型的網(wǎng)絡(luò)攻擊威脅[10-12],主要包括拒絕服務(wù)(denial of service, DoS)攻擊[7]、欺騙攻擊[8]、干擾攻擊[9]等。文獻(xiàn)[10]研究了一類對抗性攻擊下網(wǎng)絡(luò)物理系統(tǒng)的安全評估與控制問題,且控制信號在被發(fā)送到執(zhí)行器的過程中可被攻擊者惡意篡改。
    發(fā)表于 03-01 11:00 ?605次閱讀
    隨機(jī)通信下多智能體系統(tǒng)的干擾攻擊影響研究

    小米汽車測試被質(zhì)疑?違法!

    道路大模型:不僅能識別實時路況,智能調(diào)節(jié)行駛軌跡,還能在復(fù)雜的十字路口工況下,不依賴高清地圖也能順利導(dǎo)航。通過學(xué)習(xí)復(fù)雜路口工況和老司機(jī)駕駛習(xí)慣,制定更合理的行駛軌跡,針對突發(fā)狀態(tài)進(jìn)行動態(tài)繞行。
    的頭像 發(fā)表于 01-08 16:16 ?870次閱讀
    小米汽車測試被質(zhì)疑?違法!
    主站蜘蛛池模板: 亚洲国产系列一区二区三区| 国精产品999一区二区三区有限| 色偷偷7777www| 麻豆第一区MV免费观看网站| 簧片在线免费观看| 91综合久久久久婷婷| 一区二区三区高清视频| 欧美色妞AV重囗味视频| 蜜桃传媒在线播放| 老人洗澡自拍xxx互摸| 久久88综合| 久久精品国产亚洲AV忘忧草蜜臀| 国精产品一区二区三区| 国内精品视频在线播放一区| 国产在线精品一区二区网站免费| 好男人WWW免费高清视频在线 | 久久re这里视频精品15| 精品夜夜澡人妻无码AV| 儿子你得太大了慢点插| 永久免费观看视频| 最近日本免费观看MV免费| 91免费永久在线地址| qvod小电影| 国产成人综合在线| 国产中文视频| 久久精品免视看国产| 伦理片飘花手机在线| 欧美高清vivoesosexo18| 青青草AV国产精品| 特黄特黄aaaa级毛片免费看| 午夜福利电影网站鲁片大全| 日韩 无码 手机 在线| 手机在线观看无码日韩视频| 青娱乐极品视觉盛宴av| 日韩亚洲不卡在线视频| 小小水蜜桃视频高清在线观看免费| 亚洲精品乱码一区二区三区| 天天槽任我槽免费| 亚洲黄色高清| 最新色导航| 动漫美女禁区|