色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對話系統(tǒng)中的多路召回和排序

深度學(xué)習(xí)自然語言處理 ? 來源:CS的陋室 ? 作者:CS的陋室 ? 2022-12-07 11:05 ? 次閱讀

最近和一些和對話系統(tǒng)不太了解的朋友聊了一下,發(fā)現(xiàn)其實(shí)很多人會(huì)把對話系統(tǒng)誤解為一個(gè)簡單、單一的系統(tǒng),然而實(shí)際上對話系統(tǒng)內(nèi)部的結(jié)構(gòu)可以很復(fù)雜,這個(gè)原因很多吧,可能被一些文章給誤導(dǎo)吧,其實(shí)一個(gè)比較成熟的對話系統(tǒng),內(nèi)部的結(jié)構(gòu)和組件是可以很多的,比較突出的就是多路召回以及其對應(yīng)的排序系統(tǒng)。這一期給大家介紹一下這兩個(gè)模塊。

工業(yè)界,可能會(huì)因?yàn)楦鞣N原因,我們需要采用多路召回的方式來處理對話系統(tǒng),即分頭考慮多種答案的可能性,然后再篩選出最優(yōu)的回答。這一期就給大家介紹多路召回和排序的來龍去脈,以及常見的解決方案。

多路召回的原因

上一期(心法利器[78] | 端到端任務(wù)的拆解設(shè)計(jì))我們有提到,對于一個(gè)任務(wù),如果比較復(fù)雜,我們是希望把任務(wù)進(jìn)行拆解的,拆解之后各個(gè)擊破然后組裝回來,那么對于一個(gè)完整的對話系統(tǒng)也是如此,當(dāng)然這也是它能被稱之為“系統(tǒng)”的理由,一般情況,我們會(huì)因?yàn)檫@些原因,把整個(gè)內(nèi)容回復(fù)部分做拆解,形成多路召回:

回復(fù)內(nèi)容的來源比較多樣。如一些問答類的,可能是問天氣、百科,這些資源的來源可能都不一樣,此時(shí)我們肯定是需要拆分多路召回逐個(gè)獲取的,甚至有些內(nèi)容就是生成的,例如閑聊之類的。

不同內(nèi)容的數(shù)據(jù)結(jié)構(gòu)不同,要構(gòu)造不同的存儲(chǔ)和檢索方案,例如結(jié)構(gòu)化的內(nèi)容,用mysql,文本檢索用ES,向量檢索可以用faiss,還有圖譜等。

有些可能是因?yàn)闄z索內(nèi)容和對象不同,例如QQ和QA匹配,例如改寫前后的匹配等。

一些回復(fù)需要特別的構(gòu)造,如追問(你要問的是XXX嗎)、疑似問(你要問的問題是否在下面)、風(fēng)控兜底(你說的這話不合適,對不起我還在學(xué)習(xí))等。

因?yàn)楹芏嘣颍覀冃枰龆嗦氛倩兀讯喾N不同內(nèi)容、不同數(shù)據(jù)結(jié)構(gòu)的資源,分路進(jìn)行各自的召回,各自處理好后再排序。

多路的召回形式

由于上述原因,我們需要對對話系統(tǒng)進(jìn)行多路召回,那么召回上,主要有哪些召回的鏈路呢。

檢索式

首先,是比較經(jīng)典的檢索技術(shù),這個(gè)其實(shí)對應(yīng)的比較經(jīng)典的檢索式對話,其實(shí)現(xiàn)在仍舊被廣泛使用,一些依賴數(shù)據(jù)、依賴知識(shí)背景的場景,這種檢索來找到合適的答案的方式是非常重要的,例如一些人物問答“魯迅的生卒年份”,客服場景“冰箱維修”,非常依賴檢索式,一般比較常用的檢索工具,有這些,大家可以根據(jù)實(shí)際情況進(jìn)行選擇。當(dāng)然,篇幅和時(shí)間原因,這里我只會(huì)提一些名詞,一些只是細(xì)節(jié)歡迎根據(jù)我提到的關(guān)鍵詞進(jìn)行更加深入的學(xué)習(xí)。

對于結(jié)構(gòu)化的知識(shí),就是能形成關(guān)系表的那種,mysql是一個(gè)比較好的選擇,畢竟結(jié)構(gòu)化查詢語言比較成熟,各種處理會(huì)比較簡單。

對于長文本、非結(jié)構(gòu)化的檢索,技術(shù)上用的就是傳統(tǒng)搜索中的倒排索引,工具上,單機(jī)其實(shí)可以自己寫,也可以用,python寫個(gè)dict就可以了,具體的可以參考之前我寫的詞典匹配的這篇(把后面dict中的value改成長文本id即可),但是由于一般資源會(huì)比較多,所以更傾向于用分布式的方式,Elasticsearch是很好的選擇。

向量檢索,應(yīng)該是現(xiàn)在比較潮流的玩法,在我們有一套比較好的向量的時(shí)候,就要做向量檢索,這個(gè)向量檢索的工具,單機(jī)推薦annoy,分布式推薦faiss,另外前面說的elasticseatch加上一些插件,如hnswlib也是可以用的。

另外還有一些更加前言的技術(shù),例如知識(shí)圖譜,這個(gè)我具體沒有接觸,聽到比較多的是neo4j,其他的有熟悉這個(gè)的伙伴歡迎在評(píng)論區(qū)補(bǔ)充。

生成式

當(dāng)然,除了經(jīng)典的檢索式對話,還有大家比較喜歡聊起來的生成式,其實(shí)我的視角,工業(yè)界對生成式一直是比較謹(jǐn)慎的,主要原因有這么幾個(gè):

生成式雖然非常直接,但是內(nèi)容不可控,很多時(shí)候會(huì)有一些不太合適的回答,作為面向用戶的產(chǎn)品,可控性要求很高,例如一些不小心的涉黃涉暴,其實(shí)風(fēng)險(xiǎn)很高的,甚至有一些問句和答句分別看著很合適但是放一起就不合適的情況,雖然不多,但是一旦出現(xiàn)被封號(hào)下架沒了就很血虧了。

生成式其實(shí)也會(huì)有很多領(lǐng)域以來知識(shí)支撐,一旦沒有知識(shí),是會(huì)出現(xiàn)“一本書正經(jīng)的胡說八道”的情況。

寫到這,發(fā)現(xiàn)自己之前的對話系統(tǒng)系列文章寫過類似的文章,有關(guān)內(nèi)容生成的,在這里:前沿重器[24] | 聊聊對話系統(tǒng):內(nèi)容輸出。

多輪

但說到這里,仍舊還有一種比較特殊的召回情況,需要說,就是多輪。多輪是一種對話系統(tǒng)一種特有的形式,另外這里會(huì)分強(qiáng)多輪和弱多輪,簡單解釋下:

強(qiáng)多輪是進(jìn)入到一個(gè)比較狹窄的多輪通道,基本都會(huì)限制在這個(gè)對話鏈路里,一般是一些任務(wù)型的對話可能會(huì)這么做,例如定機(jī)票,多半需要將對話封閉起來做多輪的追問。一般無明確的打斷,都更傾向于封閉處理,不大會(huì)和其他鏈路一起排序。

弱多輪是做對話內(nèi)容的信息繼承,在聊天過程可能會(huì)根據(jù)上輪信息給出進(jìn)一步的回復(fù),這種情況多半會(huì)比較寬松,通常都會(huì)參與和其他召回鏈路一起排序。

因此,如果是弱多輪,其實(shí)就是增加一個(gè)多輪的鏈路處理就好了,而對于強(qiáng)多輪,一般會(huì)增加一個(gè)打斷判斷,如果不打斷,就這一路多輪召回就好了,如果需要打斷,再讓位給其他鏈路即可。

值得注意的是,多輪只是一個(gè)對話系統(tǒng)里的特殊情況,多輪里面的內(nèi)容,多半也逃不開檢索式和生成式這樣的形式。

多路召回下的排序

既然要分,后續(xù)肯定要合,多路召回對半就需要進(jìn)行了排序。因?yàn)椴煌到y(tǒng)的不太一樣,所以簡單取一些情況簡單聊聊。

有用戶反饋

類似搜索和推薦系統(tǒng),有些場景的推薦系統(tǒng),是可以有用戶反饋的,例如一些客服系統(tǒng)之類的,用戶會(huì)給回復(fù)打分,例如“滿足”or“未滿足”,那就可以根據(jù)情況進(jìn)行調(diào)整。既然有用戶的反饋,就可以開始利用起來,甚至是有些類似搜索的精排模型可以做。

因?yàn)椴煌到y(tǒng)中,用戶的反饋的占比、形式、可靠程度不同,采取的策略不太一樣,有些質(zhì)量比較差或者比例比較低的,甚至直接拋棄,這個(gè)其實(shí)很考驗(yàn)算法對現(xiàn)狀和自己手里方案的理解,因?yàn)?a href="http://www.1cnz.cn/soft/special/" target="_blank">資料看的還不太夠,我先不展開吧,后面有機(jī)會(huì)展開聊。我可以明確的是,直接套用搜索或者推薦那一套,很多時(shí)候是真不可行。

無用戶反饋

無用戶反饋往往是對話系統(tǒng)中最常見的情況,一般有這幾個(gè)原因:

產(chǎn)品原因,很多產(chǎn)品沒有明確的用戶回復(fù),一般給了答案用戶就走了。

多答案的問題,一個(gè)提問可能有很多的回答方式,可能都是合理的,但用來做模型訓(xùn)練也不好評(píng)估。

答案形式的豐富性,多種答案類型做統(tǒng)一表征存在困難,本身表征建模也不好做。

因此,大部分對話系統(tǒng)很難有用戶反饋和有監(jiān)督的方式,這點(diǎn)真的得靠評(píng)測產(chǎn)品運(yùn)營來做綜合評(píng)估然后來優(yōu)化的,在多鏈路的合并時(shí),往往是使用比較簡單的規(guī)則和簡單的認(rèn)為評(píng)分進(jìn)行分級(jí)排序,根據(jù)每個(gè)鏈路的質(zhì)量、可靠性來進(jìn)行綜合評(píng)估打分排序似乎是一個(gè)比較常規(guī)而且成本不高的方法。

這點(diǎn)不要以為非常罕見或者非常low,對于比較早起的搜索和排序系統(tǒng),也是用的類似的方式來做綜合排序的,畢竟這個(gè)方式可靠簡單。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:對話系統(tǒng)中的多路召回和排序

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    時(shí)間復(fù)雜度為 O(n^2) 的排序算法

    作者:京東保險(xiǎn) 王奕龍 對于小規(guī)模數(shù)據(jù),我們可以選用時(shí)間復(fù)雜度為 O(n2) 的排序算法。因?yàn)闀r(shí)間復(fù)雜度并不代表實(shí)際代碼的執(zhí)行時(shí)間,它省去了低階、系數(shù)和常數(shù),僅代表的增長趨勢,所以在小規(guī)模數(shù)據(jù)情況下
    的頭像 發(fā)表于 10-19 16:31 ?1170次閱讀
    時(shí)間復(fù)雜度為 O(n^2) 的<b class='flag-5'>排序</b>算法

    TPS54120排序和跟蹤

    電子發(fā)燒友網(wǎng)站提供《TPS54120排序和跟蹤.pdf》資料免費(fèi)下載
    發(fā)表于 10-10 10:54 ?0次下載
    TPS54120<b class='flag-5'>排序</b>和跟蹤

    多路復(fù)用器應(yīng)用的防護(hù)

    電子發(fā)燒友網(wǎng)站提供《多路復(fù)用器應(yīng)用的防護(hù).pdf》資料免費(fèi)下載
    發(fā)表于 09-21 10:47 ?0次下載
    <b class='flag-5'>多路</b>復(fù)用器應(yīng)用<b class='flag-5'>中</b>的防護(hù)

    手把手教你排序算法怎么寫

    新記錄插入。以{3,0,9,8,2}無序表按升序排列為例,有序表是一個(gè)虛擬的順序表:1.插入排序剛開始,有序表沒有數(shù)據(jù),因此直接插入3即可。{3}2.插入0的時(shí)候要
    的頭像 發(fā)表于 06-04 08:03 ?706次閱讀
    手把手教你<b class='flag-5'>排序</b>算法怎么寫

    頻分多路復(fù)用和時(shí)分多路復(fù)用的區(qū)別有哪些

    頻分多路復(fù)用(FDM)和時(shí)分多路復(fù)用(TDM)是兩種主要的多路復(fù)用技術(shù),它們在通信系統(tǒng)扮演著至關(guān)重要的角色。
    的頭像 發(fā)表于 05-07 15:24 ?2849次閱讀

    具有先進(jìn)排序和輸出裕度的輸入同步降壓控制器TPS40101數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《具有先進(jìn)排序和輸出裕度的輸入同步降壓控制器TPS40101數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 04-22 10:26 ?0次下載
    具有先進(jìn)<b class='flag-5'>排序</b>和輸出裕度的<b class='flag-5'>中</b>輸入同步降壓控制器TPS40101數(shù)據(jù)表

    具有先進(jìn)排序和輸出裕度的輸入同步降壓控制器TPS40100數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《具有先進(jìn)排序和輸出裕度的輸入同步降壓控制器TPS40100數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 04-17 10:59 ?0次下載
    具有先進(jìn)<b class='flag-5'>排序</b>和輸出裕度的<b class='flag-5'>中</b>輸入同步降壓控制器TPS40100數(shù)據(jù)表

    用FPGA實(shí)現(xiàn)雙調(diào)排序的方法(2)

    典型的排序算法包括冒泡排序、選擇排序、插入排序、歸并排序、快速排序、希爾
    的頭像 發(fā)表于 03-21 10:28 ?647次閱讀
    用FPGA實(shí)現(xiàn)雙調(diào)<b class='flag-5'>排序</b>的方法(2)

    FPGA實(shí)現(xiàn)雙調(diào)排序算法的探索與實(shí)踐

    雙調(diào)排序(BitonicSort)是數(shù)據(jù)獨(dú)立(Data-independent)的排序算法,即比較順序與數(shù)據(jù)無關(guān),特別適合并行執(zhí)行。在了解雙調(diào)排序算法之前,我們先來看看什么是雙調(diào)序列。
    發(fā)表于 03-14 09:50 ?660次閱讀
    FPGA實(shí)現(xiàn)雙調(diào)<b class='flag-5'>排序</b>算法的探索與實(shí)踐

    2023年國汽車與消費(fèi)品召回情況

    在汽車召回部分,2023年新能源汽車受到關(guān)注,有72次因缺陷被召回,涉及車輛數(shù)達(dá)到160.3萬輛,占全年召回總體量的23.8%。這一數(shù)字較去年同期增長了32.3%,達(dá)到了新的歷史高峰。
    的頭像 發(fā)表于 03-13 10:16 ?581次閱讀

    想聽聽48和大對數(shù)光纜的排序

    48芯光纜和大對數(shù)光纜都是光纜的一種,它們的區(qū)別在于芯數(shù)不同。48芯光纜指的是光纜包含48根光纖,而大對數(shù)光纜則是指光纜芯數(shù)超過了48芯。 在實(shí)際的光纜應(yīng)用,不同芯數(shù)的光纜需要
    的頭像 發(fā)表于 03-12 10:44 ?629次閱讀

    Waymo自愿召回444輛自動(dòng)駕駛汽車 L4的自動(dòng)駕駛還有很多路要走

    近日,谷歌旗下的自動(dòng)駕駛部門Waymo自愿召回了444輛自動(dòng)駕駛汽車,原因是其軟件可能無法準(zhǔn)確預(yù)測拖曳車輛的運(yùn)動(dòng)軌跡
    的頭像 發(fā)表于 02-26 10:22 ?1207次閱讀
    Waymo自愿<b class='flag-5'>召回</b>444輛自動(dòng)駕駛汽車 L4的自動(dòng)駕駛還有很<b class='flag-5'>多路</b>要走

    C語言實(shí)現(xiàn)經(jīng)典排序算法概覽

    冒泡排序(英語:Bubble Sort)是一種簡單的排序算法。它重復(fù)地走訪過要排序的數(shù)列,一次比較兩個(gè)元素,如果他們的順序(如從大到小、首字母從A到Z)錯(cuò)誤就把他們交換過來。
    的頭像 發(fā)表于 02-25 12:27 ?454次閱讀
    C語言實(shí)現(xiàn)經(jīng)典<b class='flag-5'>排序</b>算法概覽

    基于 PCIe 的多路視頻采集與顯示子系統(tǒng)介紹

    電子發(fā)燒友網(wǎng)站提供《基于 PCIe 的多路視頻采集與顯示子系統(tǒng)介紹.pdf》資料免費(fèi)下載
    發(fā)表于 02-23 09:47 ?0次下載

    韓國召回7.2萬輛特斯拉汽車,Autopilot系統(tǒng)存安全隱患

    問題車輛占據(jù)總召回車輛數(shù)的88%,且大部分問題主要來源于特斯拉的Autopilot系統(tǒng)。這一先進(jìn)的駕駛員輔助系統(tǒng)可以自行識(shí)別周圍環(huán)境,并調(diào)整車速、維持安全間距及轉(zhuǎn)換車道,但經(jīng)檢測發(fā)現(xiàn)其存在潛在安全隱患,即可能不能有效地發(fā)出警示聲
    的頭像 發(fā)表于 01-08 10:12 ?494次閱讀
    主站蜘蛛池模板: 花蝴蝶在线直播观看| 国产精选视频在线观看| 雪恋电影完整版免费观看| 人妻少妇偷人精品无码洋洋AV| 久久秋霞理论电影| 亚洲h视频在线观看| 视频成人永久免费视频| 日韩免费一级毛片| 日日夜夜天天操| 肉动漫3D卡通无修在线播放| 全免费午夜一级毛片| 秋霞电影在线观看午夜伦| 漂亮的保姆3中文版完整版| 欧美人成在线观看ccc36| 女性露出奶头流出精子| 欧美 亚洲 有码中文字幕| 欧美videqsdesex0| 亲胸揉胸膜下刺激视频在线观看| 欧美大香线蕉线伊人久久| 年轻的的小婊孑2中文字幕| 国产一级特黄a大片99| 国产美女又黄又爽又色视频网站| 18岁末年禁止观看免费1000个| 中文在线日韩亚洲制服| 在线看免费毛片| 亚洲AV久久无码精品热九九| 小黄鸭YELLOWDUCK7596| 欧美jizz19性欧美| 欧美性类s0x| 日日噜噜噜噜夜夜爽亚洲精品| 色婷婷欧美在线播放内射| 无套内谢大学生A片| 前后灌满白浆护士| 色播成人影院| 亚洲AV无码A片在线观看蜜桃| 亚洲三级黄色片| 亚洲.日韩.欧美另类| 亚洲色欲色欲www474ee| 张开腿我尝尝你的草莓| 99热视频这里只有久久精品| 成人在线免费视频|