色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind設(shè)計(jì)了一個(gè)新的智能體獎(jiǎng)勵(lì)機(jī)制

DPVg_AI_era ? 來(lái)源:lp ? 2019-03-19 09:19 ? 次閱讀

近日,DeepMind設(shè)計(jì)了一個(gè)新的智能體獎(jiǎng)勵(lì)機(jī)制,避免了不必要的副作用(side effect),對(duì)優(yōu)化智能體所在環(huán)境有著重要的意義。

我們先來(lái)考慮一個(gè)場(chǎng)景:

在強(qiáng)化學(xué)習(xí)過(guò)程中,有一個(gè)智能體的任務(wù)是把一個(gè)盒子從A點(diǎn)搬運(yùn)到B點(diǎn),若是它能在較短時(shí)間內(nèi)完成這個(gè)任務(wù),那么它就會(huì)得到一定獎(jiǎng)勵(lì)。

但在到達(dá)B點(diǎn)的最路徑上有一個(gè)花瓶,智能體是沒(méi)有任何動(dòng)機(jī)繞著花瓶走的,因?yàn)楠?jiǎng)勵(lì)機(jī)制沒(méi)有說(shuō)明任何有關(guān)這個(gè)花瓶的事情。

由于智能體并不需要打破花瓶才能到達(dá)B點(diǎn),所以在這個(gè)場(chǎng)景中,“打破花瓶”就是一個(gè)副作用,即破壞智能體所在的環(huán)境,這對(duì)于實(shí)現(xiàn)其目標(biāo)是沒(méi)有必要的。

副作用問(wèn)題是設(shè)計(jì)規(guī)范問(wèn)題中的一個(gè)例子:設(shè)計(jì)規(guī)范(只獎(jiǎng)勵(lì)到達(dá)B點(diǎn)的智能體)與理想規(guī)范(指定設(shè)計(jì)者對(duì)環(huán)境中所有事物的偏好,包括花瓶)不同。

理想的規(guī)范可能難以表達(dá),特別是在有許多可能的副作用的復(fù)雜環(huán)境中。

解決這個(gè)問(wèn)題的一個(gè)方法是讓智能體學(xué)會(huì)避開(kāi)這種副作用(通過(guò)人類反饋),例如可以通過(guò)獎(jiǎng)勵(lì)建模。這樣做的一個(gè)好處是智能體不需要知道輔佐用的含義是什么,但同時(shí)也很難判斷智能體是何時(shí)成功學(xué)會(huì)的避開(kāi)這種副作用的。

另一個(gè)方法是定義一個(gè)適用于不同環(huán)境的副作用的一般概念。這可以與human-in-the-loop 方法相結(jié)合(如獎(jiǎng)勵(lì)建模),并將提高我們對(duì)副作用問(wèn)題的理解,這有助于我們更廣泛地理解智能體激勵(lì)。

如果我們能夠度量智能體對(duì)它所在環(huán)境的影響程度,我們就可以定義一個(gè)影響懲罰(impact penalty),它可以與任何特定于任務(wù)的獎(jiǎng)勵(lì)函數(shù)相結(jié)合(例如,一個(gè)“盡可能快地到達(dá)B點(diǎn)”的獎(jiǎng)勵(lì))。

為了區(qū)分預(yù)期效果和副作用,我們可以在獎(jiǎng)勵(lì)和懲罰之間進(jìn)行權(quán)衡。這就可以讓智能體采取高影響力的行動(dòng),從而對(duì)它獎(jiǎng)勵(lì)產(chǎn)生巨大影響,例如:打破雞蛋,以便做煎蛋卷。

影響懲罰包括兩個(gè)部分:

一個(gè)用作參考點(diǎn)或比較點(diǎn)的環(huán)境狀態(tài)(稱為基線);

用于測(cè)量由于智能體的操作而導(dǎo)致當(dāng)前狀態(tài)與基線狀態(tài)之間的距離的一種方法(稱為偏差度量)。

例如,對(duì)于常用的可逆性準(zhǔn)則(reversibility criterion),基線是環(huán)境的起始狀態(tài),偏差度量是起始狀態(tài)基線的不可達(dá)性(unreachability)。這些組件可以單獨(dú)選擇。

選擇一個(gè)基線

在選擇基線的時(shí)候,很容易給智能體引入不良的激勵(lì)。

起始狀態(tài)基線似乎是一個(gè)自然的選擇。但是,與起始狀態(tài)的差異可能不是由智能體引起的,因此對(duì)智能體進(jìn)行懲罰會(huì)使其有動(dòng)機(jī)干擾其環(huán)境或其他智能體。 為了測(cè)試這種干擾行為,我們?cè)?a href="http://www.1cnz.cn/tags/ai/" target="_blank">AI Safety Gridworlds框架中引入了Conveyor Belt Sushi環(huán)境。

Conveyor Belt Sushi環(huán)境是一個(gè)壽司店。它包含一個(gè)傳送帶,在每個(gè)智能體操作之后,傳送帶向右移動(dòng)一個(gè)方格。傳送帶上有一個(gè)壽司盤(pán),當(dāng)它到達(dá)傳送帶的末端時(shí),饑餓的人會(huì)吃掉它。其中,干擾行為是智能體在行進(jìn)過(guò)程當(dāng)中,會(huì)把壽司從傳送帶上撞掉。

智能體的任務(wù)就是在有或者沒(méi)有干擾的情況下,從上方區(qū)域抵達(dá)下方五角星的目標(biāo)區(qū)域。

為了避免這種失敗模式,基線需要隔離智能體負(fù)責(zé)的內(nèi)容。

一種方法是比較一個(gè)反事實(shí)狀態(tài),如果智能體從初始狀態(tài)(不作為基線)開(kāi)始就沒(méi)有做任何事情,那么環(huán)境就會(huì)處于上面GIF中右側(cè)的狀態(tài),并且在Conveyor Belt Sushi環(huán)境中,壽司不會(huì)成為基線的一部分,因?yàn)槲覀兡J(rèn)“人會(huì)吃掉它”。但這就會(huì)引入一個(gè)不良的行為,即“抵消(offsetting)”。

我們?cè)趥魉蛶Лh(huán)境的另一種變體——傳送帶花瓶上演示了這種行為。在這個(gè)變體中,傳送帶上的物體是一個(gè)花瓶,當(dāng)它到達(dá)傳送帶的末端時(shí)就會(huì)打碎。

智能體的任務(wù)是拯救花瓶:從傳送帶上取下花瓶就會(huì)得到獎(jiǎng)勵(lì)。

"抵消行為"是在收到獎(jiǎng)勵(lì)后把花瓶放回傳送帶上。發(fā)生這種情況是因?yàn)榛ㄆ吭诓蛔鳛榛€的區(qū)域停止傳送,所以一旦智能體將花瓶從傳送帶上取下,它將繼續(xù)因?yàn)榕c基線的差異而受到懲罰。因此,它有一個(gè)動(dòng)機(jī),通過(guò)打破花瓶后收集獎(jiǎng)勵(lì)并回到基線。

為了避免這種失敗模式,可以將不活動(dòng)(inaction)的基線修改為先前狀態(tài)的分支,而不是起始狀態(tài)。這是stepwise inaction基線:如果智能體沒(méi)有采取任何行動(dòng),只是采取了最后的行動(dòng),那么這就是環(huán)境的反事實(shí)狀態(tài)。

選擇偏差度量

一個(gè)常用的偏差度量是不可達(dá)性(unreachability,UR)度量:從當(dāng)前狀態(tài)到達(dá)基線的難度。不可達(dá)性的discounted變量考慮到達(dá)狀態(tài)所需的時(shí)間,而不可達(dá)性的undiscounted變量只考慮是否可以到達(dá)狀態(tài)。

不可達(dá)性度量的一個(gè)問(wèn)題是,如果智能體采取不可逆的操作(因?yàn)榛€變得不可達(dá)),它就會(huì)“最大化”。

除了不可逆轉(zhuǎn)行為的嚴(yán)重程度之外,該智能體還會(huì)受到最大的懲罰,例如,該智能體是否打碎了1個(gè)花瓶或100個(gè)花瓶。這可能導(dǎo)致不安全的行為,正如AI Safety Gridworlds套件中的Box環(huán)境所示。

此處,智能體需要盡快抵達(dá)目標(biāo)位置,但是路徑中有一個(gè)盒子,它可以被推動(dòng),但是不能被拉。通往目標(biāo)位置的最短路徑需將盒子推到一個(gè)角落,這是一個(gè)不可恢復(fù)的位置。我們所需的行為是讓智能體選擇一條更長(zhǎng)的路徑,將框推到右邊。

需要注意的是,GIF中兩條通往目標(biāo)位置的路徑,都包含一個(gè)不可逆的動(dòng)作。副作用懲罰必須區(qū)分這兩條路徑,對(duì)較短路徑的懲罰更高——否則智能體沒(méi)有動(dòng)機(jī)避免將盒子放在角落。

為了避免這種失敗模式,我們引入了一個(gè)相對(duì)可達(dá)性(RR)度量。對(duì)于每個(gè)狀態(tài),我們可以與基線狀態(tài)做個(gè)比較,然后進(jìn)行相應(yīng)的懲罰。智能體向右推動(dòng)盒子會(huì)讓某些狀態(tài)不可達(dá),但是智能體向下推動(dòng)盒子所接受的懲罰會(huì)更高。

引入另一種偏差度量也可以避免這種失敗模式。可獲得效用(AU)衡量方法考慮一組獎(jiǎng)勵(lì)函數(shù)(通常隨機(jī)選擇)。對(duì)于每個(gè)獎(jiǎng)勵(lì)函數(shù),它比較智能體從當(dāng)前狀態(tài)開(kāi)始和從基線開(kāi)始可以獲得多少獎(jiǎng)勵(lì),并根據(jù)兩者之間的差異懲罰智能體。相對(duì)可達(dá)性可以被視為該度量的特殊情況,如果達(dá)到某個(gè)狀態(tài)則獎(jiǎng)勵(lì)1,否則給出0。

默認(rèn)情況下,RR度量因可達(dá)性降低而懲罰智能體,而AU度量因可達(dá)效用的差異而懲罰智能體。

設(shè)計(jì)選擇的影響

我們比較了三種基線(起始狀態(tài)、inaction和stepwise inaction)與三種偏差度量(UR、RR和AU)的所有組合。

我們正在尋找一種在所有環(huán)境下都表現(xiàn)良好的設(shè)計(jì)選擇組合:有效地懲罰盒子環(huán)境中的副作用,而不引入壽司和花瓶環(huán)境中的不良激勵(lì)。

在壽司環(huán)境中,帶有起始狀態(tài)基線的RR和AU懲罰會(huì)產(chǎn)生干擾行為。由于起始狀態(tài)永遠(yuǎn)不可達(dá),所以UR值總是在其最大值處。因此,它等同于智能體的移動(dòng)懲罰,并且不會(huì)激勵(lì)干擾。 與其他基線的處罰可避免對(duì)此環(huán)境的干擾。

在花瓶環(huán)境中,inaction基線的discounted懲罰產(chǎn)生抵消行為。因?yàn)榘鸦ㄆ繌膫魉蛶先∠聛?lái)是可逆的,所以u(píng)ndiscounted措施不會(huì)對(duì)它造成懲罰,所以沒(méi)有什么可以抵消的。初始狀態(tài)或stepwise inaction基準(zhǔn)的懲罰不會(huì)激勵(lì)補(bǔ)償。

在盒子環(huán)境中,因?yàn)閁R度量對(duì)大小不敏感,所以它對(duì)所有基線都產(chǎn)生副作用。RR和AU的措施激勵(lì)正確的行為。

我們注意到干擾和抵消行為是由基線的特定選擇引起的,盡管這些激勵(lì)可以通過(guò)偏差度量的選擇得到緩解。副作用行為(將方框放在角落)是由偏差度量的選擇引起的,不能通過(guò)基線的選擇來(lái)減輕。這樣,偏差度量就像基線屬性的過(guò)濾器。

總體而言,基線的最佳選擇是stepwise inaction,偏差度量的最佳選擇是RR或AU。

然而,這可能不是這些設(shè)計(jì)選擇的最終結(jié)論,將來(lái)可以開(kāi)發(fā)更好的選項(xiàng)或更好的實(shí)現(xiàn)。例如,我們當(dāng)前對(duì)inaction的實(shí)現(xiàn)相當(dāng)于關(guān)閉智能體。如果我們想象智能體駕駛一輛汽車在一條蜿蜒的道路上行駛,那么在任何時(shí)候,關(guān)閉智能體的結(jié)果都是撞車。

因此,stepwise inaction的基準(zhǔn)不會(huì)懲罰在車?yán)餅⒖Х鹊男袨檎撸驗(yàn)樗鼘⒔Y(jié)果與撞車進(jìn)行了比較。可以通過(guò)更明智地實(shí)施無(wú)為來(lái)解決這個(gè)問(wèn)題,比如遵循這條道路的故障保險(xiǎn)政策。然而,這種故障安全很難以一種與環(huán)境無(wú)關(guān)的通用方式定義。

我們還研究了懲罰差異與降低可達(dá)性或可實(shí)現(xiàn)效用的效果。這不會(huì)影響這些環(huán)境的結(jié)果(除了花瓶環(huán)境的inactionn基線的懲罰)。

在這里,把花瓶從傳送帶上拿開(kāi)增加了可達(dá)性和可實(shí)現(xiàn)的效用,這是通過(guò)差異而不是減少來(lái)捕獲的。因此,undiscounted RR與inaction基線的差異懲罰變體會(huì)在此環(huán)境中產(chǎn)生抵消,而減少懲罰變量則不會(huì)。由于stepwise inaction無(wú)論如何都是更好的基線,因此這種影響并不顯著。

在設(shè)計(jì)過(guò)程中,選擇“差異”還是“減少”也會(huì)影響智能體的可中斷性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4344

    瀏覽量

    62847
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    163

    瀏覽量

    10600
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    10901

原文標(biāo)題:DeepMind發(fā)布新獎(jiǎng)勵(lì)機(jī)制:讓智能體不再“碰瓷”

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AI智能逼真模擬人類行為

    近日,據(jù)外媒最新報(bào)道,斯坦福大學(xué)、華盛頓大學(xué)與Google DeepMind的科研團(tuán)隊(duì)攜手合作,成功開(kāi)發(fā)出種能夠高度逼真模擬人類行為的AI智能。 該
    的頭像 發(fā)表于 11-26 10:24 ?417次閱讀

    聯(lián)想發(fā)布智能一體機(jī)解決方案

    機(jī)。 通過(guò)深度整合硬件與軟件資源,聯(lián)想智能一體機(jī)解決方案為用戶提供大模型智能應(yīng)用落地的最小單元。借助最優(yōu)算力適配,該方案能夠助力用戶快速
    的頭像 發(fā)表于 10-31 11:19 ?463次閱讀

    智能一體機(jī),大模型時(shí)代葉見(jiàn)菩提

    輕量級(jí),懂客戶,讓智能一體機(jī)成為可靠選擇
    的頭像 發(fā)表于 10-25 18:00 ?1736次閱讀
    <b class='flag-5'>智能</b><b class='flag-5'>體</b><b class='flag-5'>一體</b>機(jī),大模型時(shí)代<b class='flag-5'>一</b>葉見(jiàn)菩提

    OBOO鷗柏丨智能信息廣告一體機(jī)同屏同步顯示技術(shù)網(wǎng)絡(luò)創(chuàng)新

    一體機(jī)
    鷗柏科技
    發(fā)布于 :2024年10月14日 11:20:56

    思道SEEKVIEU一體機(jī)電腦

    一體機(jī)
    jf_69621499
    發(fā)布于 :2024年09月03日 08:50:17

    言犀智能平臺(tái)上線!趕緊來(lái)試試!連接大模型與企業(yè)應(yīng)用的“最后公里”

    即可輕松構(gòu)建個(gè)基于LLM的AI 智能,并將其鍵發(fā)布到主流IM和協(xié)同辦公渠道。 超低成本,構(gòu)建智能
    的頭像 發(fā)表于 08-07 14:47 ?273次閱讀

    一體成型電感選大有什么影響

    電子發(fā)燒友網(wǎng)站提供《一體成型電感選大有什么影響.docx》資料免費(fèi)下載
    發(fā)表于 07-04 16:54 ?1次下載

    個(gè)哪夠?是時(shí)候讓群AI替你打工

    大模型的下一個(gè)突破方向是什么?斯坦福大學(xué)教授吳恩達(dá)的答案是AI智能工作流。在今年4月的次演講中,吳恩提到多個(gè)智能
    的頭像 發(fā)表于 06-08 08:04 ?121次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>哪夠?是時(shí)候讓<b class='flag-5'>一</b>群AI替你打工<b class='flag-5'>了</b>

    大模型不夠用,還有“AI智能”?

    前不久,在場(chǎng)活動(dòng)中有人工智能專家圍繞“AI智能”的話題展開(kāi)了討論,他們表示,AI智能代表
    的頭像 發(fā)表于 05-12 08:04 ?344次閱讀
    大模型不夠用,還有“AI<b class='flag-5'>智能</b><b class='flag-5'>體</b>”?

    谷歌DeepMind發(fā)布人工智能模型AlphaFold最新版本

    谷歌DeepMind近日發(fā)布人工智能模型AlphaFold的最新版本——AlphaFold 3,這革命性的工具將在藥物發(fā)現(xiàn)和疾病治療領(lǐng)域發(fā)揮巨大作用。
    的頭像 發(fā)表于 05-10 11:26 ?614次閱讀

    谷歌DeepMind推出新代藥物研發(fā)AI模型AlphaFold 3

    谷歌DeepMind公司近日重磅推出了款名為AlphaFold 3的全新藥物研發(fā)AI模型,這創(chuàng)新技術(shù)將為科學(xué)家們提供前所未有的幫助,使他們能更精確地理解疾病機(jī)制,進(jìn)而開(kāi)發(fā)出更高效的
    的頭像 發(fā)表于 05-10 09:35 ?414次閱讀

    定義個(gè)結(jié)構(gòu),但是分配的地址不連續(xù),為什么?

    定義個(gè)結(jié)構(gòu),但是分配的地址不連續(xù),是KEIL的問(wèn)題還是我的問(wèn)題?
    發(fā)表于 04-26 08:12

    谷歌DeepMind推出SIMI通用AI智能

    近日,谷歌的DeepMind團(tuán)隊(duì)發(fā)布其最新研究成果——SIMI(Scalable Instructable Multiworld Agent),這是個(gè)通用人工
    的頭像 發(fā)表于 03-18 11:39 ?1013次閱讀

    OPPO發(fā)布1+N智能生態(tài)戰(zhàn)略

    OPPO近日在全球科技界掀起了波瀾,正式發(fā)布其獨(dú)特的1+N智能生態(tài)戰(zhàn)略,標(biāo)志著這家科技巨頭在人工智能領(lǐng)域的全新布局。該戰(zhàn)略的核心在于兩大組件:AI超級(jí)
    的頭像 發(fā)表于 02-21 10:36 ?759次閱讀
    主站蜘蛛池模板: 亚洲精品资源网在线观看| qvod影院| 又亲又揉摸下面视频免费看| 亚洲色图在线播放| 伊人网青青草| 99精品国产电影| www.日本 高清.com| 成人免费无毒在线观看网站| 国产福利一区二区精品| 国产亚洲精品在线视频| 久久精品一本到东京热| 免费被靠视频动漫| 日韩吃奶摸下AA片免费观看| 午夜福利免费体检区| 亚洲综合香蕉在线视频| 97影院午夜午夜伦不卡| 处女座历史名人| 黑色丝袜在线观看| 蜜桃麻豆WWW久久囤产精品免费| 日本三区四区免费高清不卡| 午夜福利免费视频921000电影| 一色狗影院| zooskoo1videos人与狗| 国产午夜精品一区理论片飘花| 久久青草热热在线精品| 日本妈妈JMZZZZZ| 亚洲日产2020乱码草莓毕| 99视频精品免视3| 国产露脸无码A区久久蘑菇| 久久理伦片琪琪电影院| 日本无码免费久久久精品 | 国产精品嫩草影院| 久久精品人人做人人爽97| 欧美亚洲天堂网| 亚洲AV人无码综合在线观看蜜桃| 综合久久伊人| 国产成人免费在线观看| 久久这里只精品热在线18| 乳女教师欲乱动漫无修版动画| 亚洲区欧美日韩综合| xxx粗大长欧美|