色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何讓AI符合人類的意圖?如何創(chuàng)建符合用戶意圖的智能體?

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-11-24 10:24 ? 次閱讀

如何讓AI依照人類的意圖行事?這是將AI應(yīng)用于現(xiàn)實(shí)世界復(fù)雜問題的最大障礙之一。DeepMind將這個(gè)問題定義為“智能體對(duì)齊問題”,并提出了新的解決方案。

如何讓AI符合人類的意圖?

這個(gè)問題是將AI系統(tǒng)部署到真實(shí)世界、幫助人類解決復(fù)雜問題的最大障礙之一。

DeepMind將這個(gè)問題定義為“智能體對(duì)齊問題”(agent alignment problem),并提出依賴于獎(jiǎng)勵(lì)建模,正面解決agent alignment問題的研究方向。

這篇文章基于DeepMind的新論文Scalable agent alignment via reward modeling: a research direction,概述了解決agent alignment問題的研究方向。所提出的方法依賴于獎(jiǎng)勵(lì)建模的遞歸應(yīng)用,以符合用戶意圖的方式解決復(fù)雜的現(xiàn)實(shí)世界問題。

近年來,強(qiáng)化學(xué)習(xí)在許多復(fù)雜游戲環(huán)境中取得了令人矚目的成績(jī),從Atari游戲、圍棋、象棋到Dota 2和星際爭(zhēng)霸II,AI智能體在越來越復(fù)雜的領(lǐng)域迅速超越了人類水平。游戲是開發(fā)和測(cè)試機(jī)器學(xué)習(xí)算法的理想平臺(tái)。它們提出了需要多種認(rèn)知能力才能完成的具有挑戰(zhàn)性的任務(wù),反映出解決現(xiàn)實(shí)世界問題所需的技能。機(jī)器學(xué)習(xí)研究人員可以在云上并行運(yùn)行數(shù)千個(gè)模擬實(shí)驗(yàn),生成系統(tǒng)學(xué)習(xí)所需的訓(xùn)練數(shù)據(jù)。

至關(guān)重要的是,游戲通常都有一個(gè)明確的目標(biāo),以及一個(gè)近似于實(shí)現(xiàn)該目標(biāo)的進(jìn)展的分?jǐn)?shù)。這個(gè)分?jǐn)?shù)為強(qiáng)化學(xué)習(xí)智能體提供了有用的獎(jiǎng)勵(lì)信號(hào),使我們能夠得到關(guān)于哪些算法和架構(gòu)選擇最有效的快速反饋。

智能體對(duì)齊問題

AI發(fā)展的終極目標(biāo)是讓人類受益,讓我們能夠應(yīng)對(duì)現(xiàn)實(shí)世界中日益復(fù)雜的挑戰(zhàn)。但現(xiàn)實(shí)世界并沒有內(nèi)置的獎(jiǎng)勵(lì)機(jī)制。這就帶來了挑戰(zhàn),因?yàn)楝F(xiàn)實(shí)世界任務(wù)的表現(xiàn)不容易定義。我們需要一種好的方式來提供反饋,并使AI能夠可靠地理解我們想要什么,以幫助我們實(shí)現(xiàn)目的。

換句話說,我們想用人類反饋的方式訓(xùn)練AI系統(tǒng),使AI的行為與我們的意圖一致。為了達(dá)到這個(gè)目的,我們將智能體對(duì)齊問題(agent alignment problem)定義如下:

如何創(chuàng)建符合用戶意圖的智能體?

對(duì)齊問題可以在強(qiáng)化學(xué)習(xí)框架中構(gòu)建,不同之處是,智能體可以通過交互協(xié)議與用戶交互,而不是接收數(shù)字獎(jiǎng)勵(lì)信號(hào)。這個(gè)交互協(xié)議允許用戶向智能體傳達(dá)他們的意圖。協(xié)議可以采用多種形式:例如,用戶可以提供演示、偏好、最佳操作或傳達(dá)獎(jiǎng)勵(lì)函數(shù)。Agent alignment問題的解決方案之一是根據(jù)用戶的意圖行事的策略。

DeepMind的新論文概述了正面解決agent alignment問題的研究方向。基于我們之前對(duì)AI安全問題分類的研究,以及對(duì)眾多AI安全問題的論述,我們描繪了這些領(lǐng)域的進(jìn)展如何能夠產(chǎn)生一個(gè)解決agent alignment問題的方案。這將為構(gòu)建能夠更好地理解如何與用戶交互、如何從用戶的反饋中學(xué)習(xí)、以及如何預(yù)測(cè)用戶偏好的系統(tǒng)打開大門。

通過獎(jiǎng)勵(lì)模型進(jìn)行對(duì)齊

我們研究方向的要點(diǎn)是基于獎(jiǎng)勵(lì)建模(reward modeling):訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型,其中包含來自用戶的反饋,從而捕捉他們的意圖。與此同時(shí),我們通過強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)策略,使獎(jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)最大化。換句話說,我們把學(xué)習(xí)做什么(獎(jiǎng)勵(lì)模型)和學(xué)習(xí)怎么做(策略)區(qū)分開來。

獎(jiǎng)勵(lì)建模的示意圖:根據(jù)用戶的反饋訓(xùn)練獎(jiǎng)勵(lì)模型,以獲取用戶的意圖;這個(gè)獎(jiǎng)勵(lì)模型為經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體提供獎(jiǎng)勵(lì)。

例如,在以前的工作中,我們教智能體根據(jù)用戶偏好做一個(gè)后空翻,根據(jù)目標(biāo)狀態(tài)示例將對(duì)象排列成特定形狀,以及根據(jù)用戶偏好和專家演示玩Atari游戲。未來,我們希望設(shè)計(jì)能夠?qū)W習(xí)適應(yīng)用戶提供反饋的方式(例如使用自然語(yǔ)言)的算法。

擴(kuò)大獎(jiǎng)勵(lì)模型的規(guī)模

從長(zhǎng)遠(yuǎn)來看,我們希望將獎(jiǎng)勵(lì)模型的規(guī)模擴(kuò)大到人類無(wú)法直接評(píng)估的過于復(fù)雜的領(lǐng)域。要做到這一點(diǎn),我們需要提高用戶評(píng)估結(jié)果的能力。我們將討論如何遞歸地應(yīng)用獎(jiǎng)勵(lì)建模:可以使用獎(jiǎng)勵(lì)建建模來訓(xùn)練agent,讓agent幫助用戶進(jìn)行評(píng)估過程。如果評(píng)估比行為更容易,就可以從簡(jiǎn)單的任務(wù)過渡到更加普遍、更加復(fù)雜的任務(wù)。這可以看作是一個(gè)迭代擴(kuò)增(iterated amplification)的實(shí)例。

遞歸獎(jiǎng)勵(lì)建模的示意圖:使用遞歸獎(jiǎng)勵(lì)建模訓(xùn)練的agent(右邊的小圓圈)幫助用戶評(píng)估當(dāng)前正在訓(xùn)練的agent(大圓圈)產(chǎn)生的結(jié)果。

例如,假設(shè)我們想訓(xùn)練一個(gè)agent來設(shè)計(jì)計(jì)算機(jī)芯片。為了評(píng)估某個(gè)提議的芯片設(shè)計(jì),我們使用獎(jiǎng)勵(lì)建模訓(xùn)練其他的“helper”智能體,以對(duì)芯片的模擬性能進(jìn)行基準(zhǔn)測(cè)試、計(jì)算散熱、估計(jì)芯片的壽命、查找安全漏洞,等等。總的來說,這些helper agents的輸出使用戶能夠通過協(xié)助評(píng)估所提議的芯片設(shè)計(jì)來訓(xùn)練芯片設(shè)計(jì)agent。雖然helper agent必須解決一系列非常困難的任務(wù),但這些任務(wù)總比直接設(shè)計(jì)一個(gè)芯片更容易執(zhí)行:要設(shè)計(jì)一個(gè)計(jì)算機(jī)芯片,你必須理解每一項(xiàng)評(píng)估任務(wù),但反過來則不然。從這個(gè)意義上說,遞歸獎(jiǎng)勵(lì)建模可以讓我們“支持”agent來解決越來越難的任務(wù),同時(shí)保持與用戶意圖一致。

研究挑戰(zhàn)

為了對(duì)這些復(fù)雜的問題進(jìn)行獎(jiǎng)勵(lì)建模,需要解決幾個(gè)挑戰(zhàn)性問題。下面列出了其中的五項(xiàng)挑戰(zhàn),論文中對(duì)這些挑戰(zhàn)及其解決辦法進(jìn)行了更深入的描述。

我們希望擴(kuò)大獎(jiǎng)勵(lì)建模時(shí)遇到的挑戰(zhàn)(左)和有前景的解決方法(右)。

那么就來到了agent alignment的最后一個(gè)重要組成部分:在現(xiàn)實(shí)世界中部署AI智能體時(shí),我們需要向用戶提供證據(jù),證明我們的智能體確實(shí)已經(jīng)充分對(duì)齊了。

本文討論了五種不同的研究途徑,可以幫助增加對(duì)agent的信任:設(shè)計(jì)選擇、測(cè)試、可解釋性、形式驗(yàn)證和理論保證。

我們的一個(gè)雄心勃勃的目標(biāo)是制作安全證書(safety certificates):可以用來證明負(fù)責(zé)任的技術(shù)開發(fā)工作,并讓用戶對(duì)依賴訓(xùn)練好的智能體有信心。

未來研究方向

雖然我們相信遞歸獎(jiǎng)勵(lì)建模是訓(xùn)練對(duì)齊智能體的一個(gè)非常有前景的方向,但目前還不知道它可以如何擴(kuò)展(需要更多的研究)。幸運(yùn)的是,追求agent alignment還有其他一些研究方向:

模仿學(xué)習(xí)

短視強(qiáng)化學(xué)習(xí)(Myopic reinforcement learning)

逆強(qiáng)化學(xué)習(xí)(Inverse reinforcement learning)

合作逆強(qiáng)化學(xué)習(xí)

迭代擴(kuò)增

Debate

Agent foundations

本文進(jìn)一步探討它們的異同。

正如對(duì)計(jì)算機(jī)視覺系統(tǒng)相對(duì)對(duì)抗性輸入的魯棒性的積極研究對(duì)于當(dāng)今的ML應(yīng)用程序是至關(guān)重要的一樣,對(duì)齊研究對(duì)于在復(fù)雜的現(xiàn)實(shí)世界中部署ML系統(tǒng)也是至關(guān)重要的。我們有理由保持樂觀:雖然我們希望在擴(kuò)大獎(jiǎng)勵(lì)模型時(shí)面對(duì)挑戰(zhàn),但這些挑戰(zhàn)是我們可以取得進(jìn)展的具體技術(shù)研究問題。從這個(gè)意義上說,我們的研究方向已經(jīng)準(zhǔn)備就緒,可以對(duì)深度強(qiáng)化學(xué)習(xí)智能體進(jìn)行實(shí)證研究。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31000

    瀏覽量

    269333
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8422

    瀏覽量

    132741
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    152

    瀏覽量

    10590

原文標(biāo)題:DeepMind重磅論文:通過獎(jiǎng)勵(lì)模型,讓AI按照人類意圖行事

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    鴻蒙原生應(yīng)用/元服務(wù)開發(fā)-通知添加行為意圖

    方觸發(fā)WantAgent中指定的意圖。例如,在通知消息的發(fā)布者發(fā)布通知時(shí),通常期望用戶可以通過通知欄點(diǎn)擊拉起目標(biāo)應(yīng)用組件。為了達(dá)成這一目標(biāo),開發(fā)者可以將WantAgent封裝至通知消息中,當(dāng)系統(tǒng)接收
    發(fā)表于 01-05 15:07

    HarmonyOS NEXT應(yīng)用元服務(wù)開發(fā)Intents Kit(意圖框架服務(wù))技能調(diào)用方案概述

    一、概述 技能調(diào)用是意圖框架依托系統(tǒng)AI多模態(tài)大模型能力做深度用戶輸入理解,并通過解析的用戶意圖對(duì)接應(yīng)用或元服務(wù)內(nèi)的功能和內(nèi)容。 二、場(chǎng)景體
    發(fā)表于 11-08 15:38

    HarmonyOS NEXT應(yīng)用元服務(wù)開發(fā)Intents Kit(意圖框架服務(wù))綜述

    一、綜述 Intents Kit(意圖框架服務(wù))是HarmonyOS級(jí)的意圖標(biāo)準(zhǔn)體系 ,意圖連接了應(yīng)用/元服務(wù)內(nèi)的業(yè)務(wù)功能。 意圖框架能幫開發(fā)者將應(yīng)用/元服務(wù)內(nèi)的業(yè)務(wù)功能,
    發(fā)表于 11-28 10:43

    氯離子結(jié)構(gòu)示意圖和鈉離子結(jié)構(gòu)示意圖

    氯離子結(jié)構(gòu)示意圖和鈉離子結(jié)構(gòu)示意圖
    發(fā)表于 05-28 22:34 ?5.5w次閱讀
    氯離子結(jié)構(gòu)示<b class='flag-5'>意圖</b>和鈉離子結(jié)構(gòu)示<b class='flag-5'>意圖</b>

    電腦鍵盤示意圖,計(jì)算機(jī)鍵盤示意圖

    電腦鍵盤示意圖,計(jì)算機(jī)鍵盤示意圖
    發(fā)表于 03-10 10:51 ?12.7w次閱讀

    飛機(jī)示意圖

    飛機(jī)示意圖
    發(fā)表于 05-26 15:47 ?2336次閱讀

    基于用戶的隱私消費(fèi)意圖識(shí)別

    不同于已有的顯式消費(fèi)意圖識(shí)別的研究,提出了社會(huì)媒體中用戶的隱式消費(fèi)意圖自動(dòng)識(shí)別方法.該方法將隱式消費(fèi)意圖識(shí)別視作多標(biāo)記分類問題,并綜合使用了基于用戶
    發(fā)表于 01-08 10:58 ?0次下載
    基于<b class='flag-5'>用戶</b>的隱私消費(fèi)<b class='flag-5'>意圖</b>識(shí)別

    智能的連接問題,如何創(chuàng)建符合人類目標(biāo)的智能

    長(zhǎng)期來看,我們會(huì)擴(kuò)大獎(jiǎng)勵(lì)建模的規(guī)模,將其應(yīng)用于人類難以評(píng)估的領(lǐng)域。為了做到這一點(diǎn),我們需要增強(qiáng)用戶衡量輸出的能力。我們討論了如何循環(huán)應(yīng)用獎(jiǎng)勵(lì)建模:我們可以用獎(jiǎng)勵(lì)建模訓(xùn)練智能,幫助
    的頭像 發(fā)表于 11-24 09:31 ?3329次閱讀

    邏輯示意圖創(chuàng)建技巧

    本文是關(guān)于創(chuàng)建邏輯示意圖的特殊主題的集合。這些主題是我多年來一直在腦子里傳播的主題。我希望你發(fā)現(xiàn)它們很有用。
    的頭像 發(fā)表于 09-14 17:46 ?4714次閱讀
    邏輯示<b class='flag-5'>意圖</b>的<b class='flag-5'>創(chuàng)建</b>技巧

    三星電視的智能應(yīng)答系統(tǒng)

    該項(xiàng)專利技術(shù)將語(yǔ)音識(shí)別技術(shù)和用戶身份特征識(shí)別模塊融入到電視機(jī)中,將用戶特征和語(yǔ)音命令進(jìn)行融合,電視機(jī)更加智能的理解用戶
    的頭像 發(fā)表于 01-13 16:33 ?2470次閱讀
    三星電視的<b class='flag-5'>智能</b>應(yīng)答系統(tǒng)

    亞馬遜升級(jí)Alexa語(yǔ)音,更好的通過問題預(yù)測(cè)用戶意圖

    為了 Alexa 語(yǔ)音助理能夠更好地了解用戶的真實(shí)意圖,科技巨頭亞馬遜已于近日升級(jí)了它的 AI 智能。比如當(dāng)
    的頭像 發(fā)表于 11-12 14:52 ?1418次閱讀

    華為在HDC 2022發(fā)布全屏意圖搜索 構(gòu)建無(wú)界搜索服務(wù)體驗(yàn)

    探索與實(shí)踐成果。 意圖搜索:基于意圖理解的服務(wù)直達(dá) 鴻蒙生態(tài)下,萬(wàn)物皆服務(wù)。華為在HDC上展示的意圖搜索,通過AI將機(jī)器視覺能力與用戶
    的頭像 發(fā)表于 11-06 20:09 ?737次閱讀
    華為在HDC 2022發(fā)布全屏<b class='flag-5'>意圖</b>搜索 構(gòu)建無(wú)界搜索服務(wù)體驗(yàn)

    人體分割識(shí)別圖像:AI智能的認(rèn)識(shí)人類

    人體分割識(shí)別圖像是一項(xiàng)關(guān)鍵的技術(shù),可以計(jì)算機(jī)更智能地認(rèn)識(shí)人類。這項(xiàng)技術(shù)正在日益成熟,越來越多的應(yīng)用正在涌現(xiàn)。例如,在醫(yī)療領(lǐng)域中,人體分割技術(shù)可以輔助醫(yī)生進(jìn)行體檢和治療。在人機(jī)交互中,人體分割技術(shù)
    的頭像 發(fā)表于 04-19 18:02 ?1708次閱讀

    淺析自主、意圖與感性

    意圖和動(dòng)機(jī)是人類行為的兩個(gè)重要方面,它們之間有著密切的聯(lián)系。意圖是指一個(gè)人有意識(shí)地去做一件事情的計(jì)劃或行動(dòng),而動(dòng)機(jī)則是指一個(gè)人內(nèi)心的驅(qū)動(dòng)力,促使他去做某件事情。
    的頭像 發(fā)表于 07-12 11:32 ?519次閱讀

    愛立信發(fā)布基于AI意圖驅(qū)動(dòng)運(yùn)營(yíng)方案

    日前,愛立信宣布:在其托管服務(wù)交付平臺(tái)——愛立信運(yùn)營(yíng)引擎(Ericsson Operations Engine)中,嵌入了基于AI賦能的意圖驅(qū)動(dòng)運(yùn)營(yíng)方案,為消費(fèi)者和企業(yè)用戶提供差異化優(yōu)質(zhì)5G服務(wù)。
    的頭像 發(fā)表于 02-21 09:15 ?4895次閱讀
    主站蜘蛛池模板: 99热这里只有的精品| 国产精品婷婷久青青原| 最美白嫩的极品美女ASSPICS| 曰本熟妇乱妇色A片在线| 中文字幕精品在线视频| 91精品福利一区二区| 白丝女仆被强扒内裤| 给个男人都懂的网址2019| 国产老肥熟xxxx| 久9视频这里只有精品123| 狼人大香伊蕉国产WWW亚洲| 暖暖 视频 免费 高清 在线观看 | 狠狠色狠狠色综合日日32| 久久囯产精品777蜜桃传媒| 男人的天堂黄色片| 深喉吞精日本| 一本二卡三卡四卡乱码麻豆| 94vvv男人的天堂| 嘟嘟嘟在线视频免费观看高清中文| 国产午夜精品理论片久久影视| 久久久久九九| 日本漂亮妈妈7观整有限中| 亚洲AV综合99一二三四区| 最近的2019中文字幕HD| 高清 国产 在线 亚洲| 精品久久久无码21P发布| 欧美派对xxxhdparty| 性xxx在线观看| 91系列在线观看免费| 国产精品1卡二卡三卡四卡乱码| 久久久高清国产999尤物| 日本红怡院亚洲红怡院最新| 亚洲精品国偷拍电影自产在线| 97碰成视频免费| 国产亚洲精品福利视频| 男人网站在线| 亚洲qvod图片区电影| 99热这里只有精品8| 国产在线自天天人人| 暖暖直播免费观看韩国| 亚洲国产亚综合在线区尤物|