色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對(duì)話機(jī)器人之Sparrow簡(jiǎn)介

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:NLP日志 ? 2023-01-11 17:00 ? 次閱讀

1 簡(jiǎn)介

DeepMind提出的Sparrow,相對(duì)于以往的方法,是一種更加有用,準(zhǔn)確并且無(wú)害的信息檢索對(duì)話機(jī)器人

在之前的對(duì)話研究中,往往會(huì)針對(duì)對(duì)話的不同方面去設(shè)計(jì)對(duì)應(yīng)的任務(wù)跟模塊,例如知識(shí)性,一致性,長(zhǎng)期記憶等等,但是Sparrow則不然,它直接根據(jù)用戶(hù)的用戶(hù)的反饋進(jìn)行學(xué)習(xí),這樣能盡可能讓模型對(duì)齊真實(shí)的用戶(hù)行為,而不再需要關(guān)注過(guò)于瑣碎的諸多對(duì)話細(xì)節(jié)。

95cda8ea-8508-11ed-bfe3-dac502259ad0.png

圖1: Sparrow測(cè)試樣例

2 Sparrow

整個(gè)流程是通過(guò)Sparrow模型根據(jù)當(dāng)前對(duì)話生成多個(gè)候選回復(fù),讓用戶(hù)去判斷那個(gè)回復(fù)最好,哪些回復(fù)違反了預(yù)先設(shè)置好的規(guī)則,基于用戶(hù)的反饋去訓(xùn)練對(duì)應(yīng)的Reward模型,利用訓(xùn)練好的Reward模型,用強(qiáng)化學(xué)習(xí)算法再去優(yōu)化Sparrow的生成結(jié)果。

95fcf4ec-8508-11ed-bfe3-dac502259ad0.png

圖2:Sparrow框架

Reward

Sparrow學(xué)習(xí)的用戶(hù)反饋分為兩種,一種用戶(hù)判斷對(duì)話是否違背某些預(yù)設(shè)置好的規(guī)則,另一種的是從用戶(hù)根據(jù)當(dāng)前對(duì)話從個(gè)候選答案里選擇最合適的一個(gè)。這兩種反饋分為對(duì)應(yīng)兩個(gè)不同的模型,Rule reward model跟Preference reward model。

對(duì)于Rule reward model,首先需要根據(jù)任務(wù)自定義對(duì)應(yīng)的一些規(guī)則,例如判斷機(jī)器人是否在回答用戶(hù)問(wèn)題,話題是否變化等等,規(guī)則樣例如下圖所示。在具體訓(xùn)練數(shù)據(jù)構(gòu)造時(shí),用戶(hù)在給定對(duì)話條件下,還會(huì)給某個(gè)特定規(guī)則,讓用戶(hù)有意識(shí)的引導(dǎo)機(jī)器人去違反對(duì)應(yīng)的規(guī)則,然后再由用戶(hù)評(píng)估機(jī)器人回復(fù)是否違反對(duì)應(yīng)的規(guī)則。

之所以采用這種方式是為了更高效的積累到高質(zhì)量樣本。用構(gòu)造好的訓(xùn)練數(shù)據(jù)訓(xùn)練對(duì)應(yīng)的分類(lèi)模型,判斷機(jī)器人回復(fù)是否違反對(duì)應(yīng)的規(guī)則,每個(gè)規(guī)則對(duì)應(yīng)一個(gè)分類(lèi)模型,彼此獨(dú)立。

9828ca52-8508-11ed-bfe3-dac502259ad0.png

圖3:規(guī)則示例

對(duì)于Preference reward model,在給定當(dāng)前對(duì)話條件下,利用多種方式生成多個(gè)候選答案(通過(guò)是否引入知識(shí)檢索,不同生成模型,不同prompt,不同采樣策略),讓用戶(hù)從中選擇最合適的答案。利用這些構(gòu)造好的數(shù)據(jù)訓(xùn)練可以得到對(duì)應(yīng)的分類(lèi)模型,判斷用戶(hù)對(duì)于當(dāng)前回復(fù)的傾向。

以下圖為例,共有8個(gè)候選答案,其中前四個(gè)是不不經(jīng)過(guò)知識(shí)檢索直接生成的,后面四個(gè)是通過(guò)兩個(gè)不同的檢索query進(jìn)行知識(shí)檢索,將得到的檢索結(jié)果跟當(dāng)前對(duì)話合并再一起后再生成回復(fù)的。

985333e6-8508-11ed-bfe3-dac502259ad0.png

圖4: 回復(fù)生成流程

Reranking

當(dāng)上述兩個(gè)Reward模型給候選答案生成對(duì)應(yīng)的得分后,通過(guò)一個(gè)重排機(jī)制綜合考慮兩者的得分可以進(jìn)一步優(yōu)化對(duì)話機(jī)器人的性能。

Evidence

前面提及的答案生成是可以通過(guò)知識(shí)檢索,根據(jù)當(dāng)前上下文生成對(duì)應(yīng)的query,利用Google進(jìn)行搜索,將得到的結(jié)果跟當(dāng)前對(duì)話信息組合,然后再生成對(duì)應(yīng)的回復(fù)。之前也寫(xiě)過(guò)一些相關(guān)的文章,有興趣可以自行查看文本生成系列之retrieval augmentation(思考篇)。

Reinforcement learning

這里強(qiáng)化學(xué)習(xí)每一步的狀態(tài)是當(dāng)前的對(duì)話上下文,action是具體的token,利用前面提及的rule reward model跟preference reward model來(lái)給action打出對(duì)應(yīng)的reward得分,從而優(yōu)化Sparrow的輸出結(jié)果。在強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中,如果機(jī)器人生成的回復(fù)reward超過(guò)預(yù)期的話,就會(huì)把當(dāng)前對(duì)話上下文+機(jī)器人回復(fù)作為新的訓(xùn)練數(shù)據(jù)加入到語(yǔ)料中,擴(kuò)充訓(xùn)練語(yǔ)料庫(kù)。

98a86410-8508-11ed-bfe3-dac502259ad0.png

圖5: 強(qiáng)化學(xué)習(xí)流程

3 總結(jié)

個(gè)人認(rèn)為,Sparrow對(duì)話機(jī)器人,最大的特色在于直接對(duì)用戶(hù)的反饋進(jìn)行學(xué)習(xí),那樣就不需要為對(duì)話各種瑣碎細(xì)節(jié)去設(shè)計(jì)不同的模塊跟任務(wù),把決策權(quán)進(jìn)一步交給模型,讓模型自己去學(xué),而對(duì)于那些機(jī)器人可能學(xué)不好的地方,通過(guò)預(yù)先定義的規(guī)則去構(gòu)造對(duì)應(yīng)的訓(xùn)練數(shù)據(jù),讓模型自己去補(bǔ)全。By the way, 可以好好期待一波ChatGPT了。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    211

    文章

    28465

    瀏覽量

    207290

原文標(biāo)題:對(duì)話機(jī)器人之Sparrow

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AI火爆 對(duì)話機(jī)器人將成為App之后的新入口?

    Bot即智能對(duì)話機(jī)器人,被業(yè)界定義為后App時(shí)代的全新人機(jī)交互方式,譬如蘋(píng)果Siri,微軟小冰,小i機(jī)器人虛擬客服等等。例如,目前用戶(hù)可以用Siri打開(kāi)滴滴叫車(chē),這意味著用戶(hù)可以直接通過(guò)Bots獲取服務(wù),而不需要進(jìn)入App。
    發(fā)表于 10-26 08:54 ?1473次閱讀

    話機(jī)器人顯著提高回款效率,對(duì)催收幫助不言而喻。

    據(jù)的方向,電話機(jī)器人最核心的語(yǔ)音識(shí)別,機(jī)器人必須在最短時(shí)間內(nèi)識(shí)別客戶(hù)的關(guān)鍵詞,并導(dǎo)入下一級(jí)菜單(即作出相應(yīng)的應(yīng)答)。在整個(gè)對(duì)話當(dāng)中,機(jī)器人女聲禮貌溫和、應(yīng)答自如,完全分辨不出是否人工,
    發(fā)表于 03-16 15:48

    智能打電話,機(jī)器人哪家比較好 如何選擇合適的電銷(xiāo)機(jī)器人

    的智能電銷(xiāo)機(jī)器人不是有身體有四肢那種實(shí)體存在的機(jī)器人,而是一套人工智能程序系統(tǒng),所謂的人工智能機(jī)器人都是靠人工智能程序支撐,機(jī)器人只是一個(gè)載體而已。 智能打電
    發(fā)表于 05-03 13:18

    電銷(xiāo)機(jī)器人的優(yōu)點(diǎn)

    。金融、保險(xiǎn)、房地產(chǎn)、汽車(chē)等各個(gè)行業(yè)不同,大數(shù)訊機(jī)器人所制定的話術(shù)也不盡相同。且大數(shù)訊智能電話機(jī)器人會(huì)根據(jù)公司的側(cè)重點(diǎn)及方向來(lái)制定話術(shù),使其更有針對(duì)性的來(lái)跟客戶(hù)對(duì)話。使用大數(shù)訊智能電話機(jī)器人
    發(fā)表于 06-12 10:27

    話機(jī)器人:電銷(xiāo)行業(yè)精準(zhǔn)篩選客戶(hù)的利器

    工作量巨大的工作,不得不說(shuō)每天有很大一部分時(shí)間需要安排在篩選大量意向客戶(hù)身上,而挖掘已有客戶(hù)的時(shí)間少之又少。 一、精準(zhǔn)篩選意向客戶(hù)——提高效率智能挑選意向客戶(hù):電話機(jī)器人能夠正常的和客戶(hù)交流、挑選意向
    發(fā)表于 08-21 11:27

    華云天下智能電話機(jī)器人有哪些優(yōu)勢(shì)?

    的公司。機(jī)器人一樣,只有不斷學(xué)習(xí),才能提高它的識(shí)別能力。在有限的話術(shù)配置下,轉(zhuǎn)接人工座席就顯得尤為重要。華云天下電話機(jī)器人就是不一樣!多數(shù)廠商的智能電話機(jī)器人僅有一到兩輪
    發(fā)表于 08-22 14:44

    機(jī)器人簡(jiǎn)介

    一.機(jī)器人簡(jiǎn)介機(jī)器人(Robot)是自動(dòng)執(zhí)行工作的機(jī)器裝置。它既可以接受人類(lèi)指揮,又可以運(yùn)行預(yù)先編排的程序,也可以根據(jù)以人工智能技術(shù)制定的原則綱領(lǐng)行動(dòng)。它的任務(wù)是協(xié)助或取代人類(lèi)工作的
    發(fā)表于 09-07 06:05

    機(jī)器人系統(tǒng)與控制需求簡(jiǎn)介

    第二章 機(jī)器人系統(tǒng)與控制需求簡(jiǎn)介2.1 工業(yè)機(jī)器人的系統(tǒng)組成機(jī)械本體:精密減速機(jī)、伺服電機(jī)、伺服驅(qū)動(dòng)器、控制系統(tǒng)(核心零部件)控制柜示教盒2.2 機(jī)器人本體結(jié)構(gòu)與傳動(dòng)方式
    發(fā)表于 09-08 07:44

    設(shè)計(jì)一個(gè)能自由行走并且可以與人語(yǔ)音對(duì)話機(jī)器人的設(shè)計(jì)資料分享

    在我的想象中機(jī)器人首先應(yīng)該能自由的走來(lái)走去,然后應(yīng)該能流利的與主人對(duì)話。朝著這個(gè)理想,我準(zhǔn)備設(shè)計(jì)一個(gè)能自由行走,并且可以與人語(yǔ)音對(duì)話機(jī)器人。實(shí)現(xiàn)的關(guān)鍵是讓
    發(fā)表于 12-17 06:58

    話機(jī)器人是什么?電銷(xiāo)機(jī)器人有什么用?有多少電話機(jī)器人品牌?

    代替人類(lèi)工作的電話機(jī)器人。?  電話機(jī)器人采用了最前沿的深入學(xué)習(xí)技術(shù),先進(jìn)的語(yǔ)音識(shí)別(ASR)、口語(yǔ)理解(SLU)、對(duì)話管理(DM)、自然語(yǔ)言生成(NLG)、文本生成語(yǔ)音(TTS)五種對(duì)話
    發(fā)表于 07-26 19:35 ?820次閱讀

    檢索式智能對(duì)話機(jī)器人開(kāi)發(fā)實(shí)戰(zhàn)案例詳細(xì)資料分析概述

    本文檔的主要內(nèi)容詳細(xì)介紹的是檢索式智能對(duì)話機(jī)器人開(kāi)發(fā)實(shí)戰(zhàn)案例詳細(xì)資料分析概述主要內(nèi)容包括了:第一個(gè)智能聊天機(jī)器人,人工智能標(biāo)記語(yǔ)言AIML,AIML基礎(chǔ)功能拓展進(jìn)階,AIML框架源碼剖析
    發(fā)表于 08-02 17:47 ?16次下載

    外呼對(duì)話機(jī)器人,自動(dòng)批量外呼、智能人機(jī)對(duì)話-漢云

    外呼對(duì)話機(jī)器人融合傳統(tǒng)呼叫中心通信技術(shù)、智能AI等計(jì)算機(jī)技術(shù),實(shí)現(xiàn)自動(dòng)真人語(yǔ)音外呼,智能人機(jī)對(duì)話等場(chǎng)景,其目的是幫助座席高效完成外呼任務(wù),為企業(yè)降低外呼成本,代替輔助人工快速獲客。  隨著國(guó)內(nèi)呼叫
    的頭像 發(fā)表于 01-14 09:25 ?3188次閱讀
    外呼<b class='flag-5'>對(duì)話機(jī)器人</b>,自動(dòng)批量外呼、智能人機(jī)<b class='flag-5'>對(duì)話</b>-漢云

    對(duì)話機(jī)器人的智能程度判斷方法介紹

    有些對(duì)話機(jī)器人總讓崩潰,也許是智能級(jí)別不夠高。本文,就來(lái)一起看看如何判斷一個(gè)機(jī)器人的智能程度。 ? 隨著智能對(duì)話技術(shù)的發(fā)展,對(duì)話機(jī)器人越來(lái)
    的頭像 發(fā)表于 01-06 17:50 ?2445次閱讀

    AI應(yīng)用全面爆發(fā) 對(duì)話機(jī)器人成熱趨

    近日,艾瑞發(fā)布了題為《2021中國(guó)對(duì)話機(jī)器人chatbot行業(yè)發(fā)展研究》報(bào)告(下文簡(jiǎn)稱(chēng)《報(bào)告》)。報(bào)告針對(duì)對(duì)話機(jī)器人的產(chǎn)品流程、發(fā)展歷程、市場(chǎng)規(guī)模及應(yīng)用場(chǎng)景分布進(jìn)行了行業(yè)嵌入式研究分析及梳理,對(duì)上
    的頭像 發(fā)表于 10-14 09:55 ?934次閱讀

    對(duì)話機(jī)器人LaMDA

    來(lái)自:NLP日志 提綱1 簡(jiǎn)介 2 LaMDA 3 總結(jié) 1 簡(jiǎn)介 LaMDA是在DeepMind的Sparrow跟openai的instructGPT之前由谷歌提出的對(duì)話機(jī)器人,全稱(chēng)
    的頭像 發(fā)表于 01-04 14:49 ?1111次閱讀
    主站蜘蛛池模板: 国产亚洲精品久久久999密臂| 色久久一个亚洲综合网| 久久黄视频| 明星三级电影| 日韩精品一卡二卡三卡四卡2021| 午夜噜噜噜私人影院在线播放 | 新金梅瓶玉蒲团性奴3| 在线一本码道高清| 公主纯肉高H文| 久久99蜜桃精品麻豆| 全彩acg无翼乌火影忍者| 亚洲精品久久久无码| 99在线精品国自产拍不卡| 国产亚洲视频在线| 欧美精品成人a多人在线观看| 午夜性色一区二区三区不卡视频| 2020国产成人精品视频人| 国产高清精品国语特黄A片| 老女老肥熟国产在线视频| 偷偷鲁青春草原视频分类| 18禁止看的免费污网站| 国产成人在线小视频| 美女张开腿露出尿口扒开来摸动漫| 同桌上课把奶露出来给我玩| 18禁裸乳无遮挡免费网站| 国产欧美亚洲综合第一页| 欧美日韩一区不卡在线观看| 亚洲欧洲日韩视频在钱| 东北足疗店妓女在线观看| 恋老视频 国产国佬| 性饥渴姓交HDSEX| 草莓湿漉漉是好事还是恶性| 久久精品电影网| 乡村教师电影完整版在线观看| ankha成人| 久久精品免费电影| 小草高清视频免费直播| 边做边爱免费视频播放| 老师你狠狂| 亚洲日本va中文字幕久久| 国产不卡无码高清视频|