色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ERNIE-Search模型結(jié)構(gòu)

深度學(xué)習(xí)自然語言處理 ? 來源:CS的陋室 ? 作者:CS的陋室 ? 2022-08-03 11:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

說來慚愧,之前寫了一篇對向量召回的總結(jié)(前沿重器[28] | 前沿的向量召回都是怎么做的),萬萬沒想到現(xiàn)在就來寫新文章了,而且上面的總結(jié)還沒提到,大家當(dāng)做擴(kuò)展和補(bǔ)充吧。

眾所周知,在語義相似度上,交互式方案總會比非交互方案更容易獲得較好的效果,然而在召回上,非交互式方案(也就是表征式)具有得天獨厚的優(yōu)勢,我們最終使用的,又不得不是非交互的方案,因此我們會嘗試進(jìn)一步優(yōu)化非交互方案。

最近開始發(fā)現(xiàn)一些從交互式蒸餾到交互的方案,例如21年年末美團(tuán)提出的VIRT(VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction),今天我們來聊的是百度在22年5月份提出的方案,我認(rèn)為這篇論文是這個領(lǐng)域內(nèi)目前比較有代表性的,主要有這幾個原因:

整理了一些比較好的蒸餾思路和方向。

對這些蒸餾方案做了一些消融實驗。

試驗了一些前處理的方案,甚至包括一些furture pretrain。

論文和有關(guān)資料放這里:

原論文:ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval

文章講解:

https://zhuanlan.zhihu.com/p/522301876

https://blog.csdn.net/moxibingdao/article/details/125713542

https://zhuanlan.zhihu.com/p/518577648

表征式能逼近交互式嗎

之所以想先聊這個,是因為想說一下這兩者之間存在的可能性,即表征式是否可以達(dá)到交互式的效果,從蘇神有關(guān)這塊的推理來看(https://spaces.ac.cn/archives/8860),其實是可行的,雖然這塊的推理并不算嚴(yán)格,但是這個推理已經(jīng)相對可靠了,換言之,我們可能可以找到更好的學(xué)習(xí)方法,找到這樣一組參數(shù),使表征式能達(dá)到交互式效果的這個理論高度。

ERNIE-Search模型結(jié)構(gòu)

模型結(jié)構(gòu),我比較想從損失函數(shù)開始講,其實從損失函數(shù)看就能看出本文很大部分的貢獻(xiàn):

這個損失的內(nèi)容非常多,我把他分為兩個部分,一個是獨立訓(xùn)練的部分(不帶箭頭的),另一個是蒸餾部分(帶箭頭的)。首先是獨立訓(xùn)練的部分,這部分主要是直接針對標(biāo)簽進(jìn)行訓(xùn)練的,無論是teacher模型還是student模型,其實都是需要這個部分的。

:cross-encoder,交互式的方案,在這篇論文里,使用的是ERNIE2.0(4.1.3中提到)。

:late-interaction,延遲交互方案,這里是指介于交互式和表征式之間的方案,開頭是雙塔,后續(xù)的交互式并非cos而是更復(fù)雜的交互方式,如ColBERT(ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT)。

:Dual-encoder,表征式方案,就是常說的雙塔,本文用的是同樣是ERNIE2.0(4.1.3中提到)。

另一部分則是蒸餾部分,這里的蒸餾部分作者是做了很多的心血進(jìn)行分析的,構(gòu)造了好幾個損失函數(shù),分別是這些,這里的幾個蒸餾損失函數(shù)用的都是KL散度:

:交互方案蒸餾到延遲交互方案。

:延遲交互方案蒸餾到表征式方案(和共同形成級聯(lián)蒸餾)。

:交互方案蒸餾到表征式方案。

:最特別的一個。實質(zhì)上是一個token級別的交互損失,旨在希望延遲交互得到的attn矩陣和交互式的attn矩陣盡可能接近。

回到損失函數(shù)本身,其實會發(fā)現(xiàn)這個損失函數(shù)是由多個損失函數(shù)組合起來的,敏銳的我們可以發(fā)現(xiàn),這里的幾個損失之間的權(quán)重是完全一樣的,估計調(diào)整下可能還有些空間吧,不過也考慮到損失函數(shù)實在夠多了,調(diào)起來真的不容易。

說起效果,這點作者是做了消融實驗的:

2da671d4-1258-11ed-ba43-dac502259ad0.jpg

損失函數(shù)消融實驗

從實驗結(jié)果來看,其中貢獻(xiàn)最大的是,也就是交互方案蒸餾到延遲交互方案,其二是(我感覺就是),這個也挺符合直覺的吧,但是比較神奇的是去掉了比較多以后,就是#6的實驗,好像最終對結(jié)果的損失反而會變少,這個有些神奇,有待進(jìn)一步實驗和探索吧,當(dāng)然,我感覺這里可能和權(quán)重也有關(guān)。

訓(xùn)練策略

還需要提一個關(guān)鍵點就是文章在4.1.3中提到的訓(xùn)練策略,這個特別的訓(xùn)練策略為最終的結(jié)果貢獻(xiàn)度不少(可以參考消融實驗),因此展開說一下:

使用對應(yīng)語料對預(yù)訓(xùn)練模型(應(yīng)該就是ERNIR2.0)進(jìn)行繼續(xù)預(yù)訓(xùn)練,這個階段在文中也被稱為post-train。

對QA任務(wù),使用交互式蒸餾到表征式的方案,訓(xùn)練表征式模型。

對QA任務(wù),再使用上面的級聯(lián)蒸餾方案,訓(xùn)練表征式模型,和上一條被聯(lián)合稱為finetune階段。

另外,在3.4中,有提到一個訓(xùn)練策略叫Dual Regularization(DualReg),其實我感覺這個和r-dropout很相似(前沿重器[15] | R-Dropout——一次不行就兩次),用兩個不同隨機(jī)種子的dropout對表征式進(jìn)行前向訓(xùn)推理,得到兩個表征結(jié)果,用KL散度進(jìn)行學(xué)習(xí),而因為雙塔,實際上要對q1和q2都這么做一次,所以實際上會多兩個損失函數(shù)。

2dbf2ca6-1258-11ed-ba43-dac502259ad0.jpg

訓(xùn)練策略消融實驗

這些訓(xùn)練策略的效果,在4.3.1中有進(jìn)行消融實驗,如上圖所示,直觀地,從這個表其實可以發(fā)現(xiàn)幾個信息:

ID'(也就是交互式蒸餾)具有一定的優(yōu)勢,尤其是在Finetuning階段,但是在Post-train中的收益似乎不那么明顯。

DualReg似乎是有些效果的,但是不清楚為什么要把CB(RocketQA中的提到的跨batch負(fù)采樣策略)也放一起,就感覺這個東西和本文的創(chuàng)新點沒啥關(guān)系,讓我們并不知道是CB的貢獻(xiàn),還是DualReg的貢獻(xiàn)了。

但是感覺做的有一些馬虎,主要是為了證明這個ID'(也就是交互式整流)的方案比較厲害,但是從這個表來看收效沒有想象的大額,不過有一說一,前面的繼續(xù)預(yù)訓(xùn)練還是非常值得我們學(xué)習(xí)和嘗試的,這點我在(前沿重器[26] | 預(yù)訓(xùn)練模型的領(lǐng)域適配問題)中有提到過。

小結(jié)

總結(jié)下來,這篇文章最大的特點是把“通過學(xué)習(xí)交互式,來讓表征式效果進(jìn)一步提升”這個思路發(fā)揮很極致,讓我們知道了這個方案的潛力,這個是有些實驗和落地價值的。

除此之外,這篇文章在初讀的時候,其實發(fā)現(xiàn)了不少新的概念(可能也是我有些匱乏吧),所以挖了不少坑,論文里的下面這張表其實都值得我好好讀一下,當(dāng)然也包括introduction里面的。

2dd06cfa-1258-11ed-ba43-dac502259ad0.jpg

對比實驗

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4379

    瀏覽量

    64806
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3517

    瀏覽量

    50383

原文標(biāo)題:ERNIE-Search:向交互式學(xué)習(xí)的表征式語義匹配代表作

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    模型推理顯存和計算量估計方法研究

    、顯存估計方法 基于模型結(jié)構(gòu)的顯存估計 根據(jù)深度學(xué)習(xí)模型的層次結(jié)構(gòu)和參數(shù)數(shù)量,可以估算模型在推理過程中所需的顯存大小。具體方法如下: (1)
    發(fā)表于 07-03 19:43

    Say Hi to ERNIE!Imagination GPU率先完成文心大模型的端側(cè)部署

    ImaginationTechnologies宣布率先完成百度文心大模型ERNIE4.5開源版)在其GPU硬件上的端側(cè)部署。適配完成后,開發(fā)者可在搭載ImaginationGPU的設(shè)備上實現(xiàn)高效
    的頭像 發(fā)表于 07-01 08:17 ?294次閱讀
    Say Hi to <b class='flag-5'>ERNIE</b>!Imagination GPU率先完成文心大<b class='flag-5'>模型</b>的端側(cè)部署

    NVIDIA助力圖靈新訊美推出企業(yè)級多模態(tài)視覺大模型融合解決方案

    憑借深厚的行業(yè)經(jīng)驗和系統(tǒng)集成能力,圖靈新訊美率先基于 NVIDIA 用于視頻搜索與總結(jié) (VSS, Video Search and Summarization) 的 AI Blueprint,在
    的頭像 發(fā)表于 06-26 09:17 ?367次閱讀

    推進(jìn)電機(jī)端蓋結(jié)構(gòu)的抗沖擊分析及優(yōu)化

    。同時以此為基礎(chǔ),在保證推進(jìn)電機(jī)的抗沖擊性能的約束前提條件下,以提高電機(jī)的轉(zhuǎn)矩密度為目標(biāo),建立了相應(yīng)的數(shù)學(xué)模型和參數(shù)化的有限元模型,對該結(jié)構(gòu)進(jìn)行了設(shè)計優(yōu)化,為實際工程設(shè)計了奠定基礎(chǔ)。 純分享帖,需要者可點
    發(fā)表于 06-23 07:12

    FA模型卡片和Stage模型卡片切換

    卡片切換 卡片切換主要包含如下三部分: 卡片頁面布局:FA模型卡片和Stage模型卡片的布局都采用類web范式開發(fā)可以直接復(fù)用。 卡片配置文件:FA模型的卡片配置在config.json中
    發(fā)表于 06-06 08:10

    從FA模型切換到Stage模型時:module的切換說明

    mainAbility。mainElement標(biāo)簽名稱變更,Stage模型不在使用“.”符號。 package標(biāo)識HAP的包結(jié)構(gòu)名稱,在應(yīng)用內(nèi)保證唯一性。/Stage模型使用name來保證應(yīng)用唯一性。FA
    發(fā)表于 06-05 08:16

    KaihongOS操作系統(tǒng)FA模型與Stage模型介紹

    FA模型與Stage模型介紹 KaihongOS操作系統(tǒng)中,F(xiàn)A模型(Feature Ability)和Stage模型是兩種不同的應(yīng)用模型
    發(fā)表于 04-24 07:27

    基于液壓系統(tǒng)模型的電機(jī)控制

    (Brushless Direct Current,BLDC)電機(jī)驅(qū)動的液壓系統(tǒng)運行情況,構(gòu)建了BLDC 電機(jī)轉(zhuǎn)速控制模型。通過采用變結(jié)構(gòu)比例積分的方式,提升了壓力控制的精度,并證實了該控制策略的可行性。
    發(fā)表于 03-07 14:52

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測模型

    提升一倍 導(dǎo)出模型將后處理包含在網(wǎng)絡(luò)中,預(yù)測直接輸出 box 結(jié)果,無需二次開發(fā),遷移成本更低,端到端預(yù)測速度提升10%-20%。 2.2 模型結(jié)構(gòu) PP-PicoDet 網(wǎng)絡(luò)結(jié)構(gòu)圖如
    發(fā)表于 12-19 14:33

    【「大模型啟示錄」閱讀體驗】如何在客服領(lǐng)域應(yīng)用大模型

    在客服領(lǐng)域是大模型落地場景中最多的,也是最容易實現(xiàn)的。本身客服領(lǐng)域的特點就是問答形式,大模型接入難度低。今天跟隨《大模型啟示錄 》這本書,學(xué)習(xí)大模型在客服領(lǐng)域的改變。選擇大
    發(fā)表于 12-17 16:53

    原子結(jié)構(gòu)模型及特點 原子的組成及結(jié)構(gòu)解析

    原子是物質(zhì)的基本單位,由原子核和電子組成。原子結(jié)構(gòu)模型的發(fā)展經(jīng)歷了幾個階段,每個階段都有其特點和局限性。 一、原子結(jié)構(gòu)模型的演變 道爾頓模型(1803年) 英國化學(xué)家約翰·道爾頓提出了原子論,認(rèn)為
    的頭像 發(fā)表于 12-17 15:22 ?3715次閱讀

    AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)在多個方面存在顯著的區(qū)別。以下是對這些區(qū)別的介紹: 一、模型規(guī)模與復(fù)雜度 AI大模型 :通常包含數(shù)十億甚至數(shù)萬億的參數(shù),模型大小可以達(dá)到數(shù)百GB甚至更大。這些
    的頭像 發(fā)表于 10-23 15:01 ?2560次閱讀

    榮耀手機(jī)新增谷歌Circle to Search功能

    近日,全球知名科技品牌榮耀宣布,在其旗艦智能手機(jī)HONOR Magic V3及HONOR 200系列上,正式推出谷歌(Google)Circle to Search功能。這一創(chuàng)新功能將為用戶帶來更加便捷、直觀的搜索體驗。
    的頭像 發(fā)表于 10-17 18:16 ?1176次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語法結(jié)構(gòu)的學(xué)習(xí),還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監(jiān)督學(xué)習(xí):模型采用自監(jiān)督學(xué)習(xí)策略,在大量無標(biāo)簽文本數(shù)據(jù)上學(xué)
    發(fā)表于 08-02 11:03

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 俯瞰全書

    的大語言模型設(shè)計技術(shù)人員閱讀,主要包括大語言模型的優(yōu)化方法、Agent系統(tǒng)調(diào)優(yōu)以及模型的安全技術(shù)。 展望篇分析了大語言模型的發(fā)展前景,介紹了多模態(tài)應(yīng)用知識、尺度定律、編碼壓縮以及與圖靈
    發(fā)表于 07-21 13:35
    主站蜘蛛池模板: 52av我爱 | 叮当成人社区 | 精品手机在线视频 | 中文字幕在线不卡日本v二区 | 蜜桃成熟时33D在线嘟嘟网 | 男人国产AV天堂WWW麻豆 | qvod影院| 好吊射视频988gaocom | ass女人下部欣赏 | 91综合久久久久婷婷 | 色琪琪无码成人AV视频 | 小便japanesewctv| 97超碰97资源在线观看视频 | 久久99国产综合精品AV蜜桃 | 午夜理论在线观看不卡大地影院 | 动漫H片在线播放免费高清 动漫AV纯肉无码AV电影网 | 最近免费中文字幕MV免费高清 | 国产精品成人无码免费视频 | 嫩草影院永久在线一二三四 | 玉娇龙续集春雪瓶txt免费阅读 | 被强J高H纯肉公交车啊 | 穿着丝袜被男生强行啪啪 | 一二三四在线观看高清电视剧 | 国产福利一区二区精品 | 优优色影院 | 韩国甜性涩爱 | 中文无码在线观 | 色琪琪无码成人AV视频 | 欧美视频 亚洲视频 | 女人高潮被爽到呻吟在线观看 | 亚洲高清国产品国语在线观看 | 男人和女人一起愁愁愁很痛 | 脔到她哭H粗话HWWW男男动漫 | 经典WC女厕所里TV | 九九热在线视频观看这里只有精品 | 亚瑟天堂久久一区二区影院 | 国内精品伊人久久久影院 | 动漫人物差差差30分钟免费看 | 三级黄色在线视频 | 欧美在线视频一区 | 精品国产福利一区二区在线 |

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品