色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

ERNIE-Search模型結(jié)構(gòu)

深度學習自然語言處理 ? 來源:CS的陋室 ? 作者:CS的陋室 ? 2022-08-03 11:41 ? 次閱讀

說來慚愧,之前寫了一篇對向量召回的總結(jié)(前沿重器[28] | 前沿的向量召回都是怎么做的),萬萬沒想到現(xiàn)在就來寫新文章了,而且上面的總結(jié)還沒提到,大家當做擴展和補充吧。

眾所周知,在語義相似度上,交互式方案總會比非交互方案更容易獲得較好的效果,然而在召回上,非交互式方案(也就是表征式)具有得天獨厚的優(yōu)勢,我們最終使用的,又不得不是非交互的方案,因此我們會嘗試進一步優(yōu)化非交互方案。

最近開始發(fā)現(xiàn)一些從交互式蒸餾到交互的方案,例如21年年末美團提出的VIRT(VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction),今天我們來聊的是百度在22年5月份提出的方案,我認為這篇論文是這個領域內(nèi)目前比較有代表性的,主要有這幾個原因:

整理了一些比較好的蒸餾思路和方向。

對這些蒸餾方案做了一些消融實驗。

試驗了一些前處理的方案,甚至包括一些furture pretrain。

論文和有關(guān)資料放這里:

原論文:ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval

文章講解:

https://zhuanlan.zhihu.com/p/522301876

https://blog.csdn.net/moxibingdao/article/details/125713542

https://zhuanlan.zhihu.com/p/518577648

表征式能逼近交互式嗎

之所以想先聊這個,是因為想說一下這兩者之間存在的可能性,即表征式是否可以達到交互式的效果,從蘇神有關(guān)這塊的推理來看(https://spaces.ac.cn/archives/8860),其實是可行的,雖然這塊的推理并不算嚴格,但是這個推理已經(jīng)相對可靠了,換言之,我們可能可以找到更好的學習方法,找到這樣一組參數(shù),使表征式能達到交互式效果的這個理論高度。

ERNIE-Search模型結(jié)構(gòu)

模型結(jié)構(gòu),我比較想從損失函數(shù)開始講,其實從損失函數(shù)看就能看出本文很大部分的貢獻:

這個損失的內(nèi)容非常多,我把他分為兩個部分,一個是獨立訓練的部分(不帶箭頭的),另一個是蒸餾部分(帶箭頭的)。首先是獨立訓練的部分,這部分主要是直接針對標簽進行訓練的,無論是teacher模型還是student模型,其實都是需要這個部分的。

:cross-encoder,交互式的方案,在這篇論文里,使用的是ERNIE2.0(4.1.3中提到)。

:late-interaction,延遲交互方案,這里是指介于交互式和表征式之間的方案,開頭是雙塔,后續(xù)的交互式并非cos而是更復雜的交互方式,如ColBERT(ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT)。

:Dual-encoder,表征式方案,就是常說的雙塔,本文用的是同樣是ERNIE2.0(4.1.3中提到)。

另一部分則是蒸餾部分,這里的蒸餾部分作者是做了很多的心血進行分析的,構(gòu)造了好幾個損失函數(shù),分別是這些,這里的幾個蒸餾損失函數(shù)用的都是KL散度:

:交互方案蒸餾到延遲交互方案。

:延遲交互方案蒸餾到表征式方案(和共同形成級聯(lián)蒸餾)。

:交互方案蒸餾到表征式方案。

:最特別的一個。實質(zhì)上是一個token級別的交互損失,旨在希望延遲交互得到的attn矩陣和交互式的attn矩陣盡可能接近。

回到損失函數(shù)本身,其實會發(fā)現(xiàn)這個損失函數(shù)是由多個損失函數(shù)組合起來的,敏銳的我們可以發(fā)現(xiàn),這里的幾個損失之間的權(quán)重是完全一樣的,估計調(diào)整下可能還有些空間吧,不過也考慮到損失函數(shù)實在夠多了,調(diào)起來真的不容易。

說起效果,這點作者是做了消融實驗的:

2da671d4-1258-11ed-ba43-dac502259ad0.jpg

損失函數(shù)消融實驗

從實驗結(jié)果來看,其中貢獻最大的是,也就是交互方案蒸餾到延遲交互方案,其二是(我感覺就是),這個也挺符合直覺的吧,但是比較神奇的是去掉了比較多以后,就是#6的實驗,好像最終對結(jié)果的損失反而會變少,這個有些神奇,有待進一步實驗和探索吧,當然,我感覺這里可能和權(quán)重也有關(guān)。

訓練策略

還需要提一個關(guān)鍵點就是文章在4.1.3中提到的訓練策略,這個特別的訓練策略為最終的結(jié)果貢獻度不少(可以參考消融實驗),因此展開說一下:

使用對應語料對預訓練模型(應該就是ERNIR2.0)進行繼續(xù)預訓練,這個階段在文中也被稱為post-train。

對QA任務,使用交互式蒸餾到表征式的方案,訓練表征式模型。

對QA任務,再使用上面的級聯(lián)蒸餾方案,訓練表征式模型,和上一條被聯(lián)合稱為finetune階段。

另外,在3.4中,有提到一個訓練策略叫Dual Regularization(DualReg),其實我感覺這個和r-dropout很相似(前沿重器[15] | R-Dropout——一次不行就兩次),用兩個不同隨機種子的dropout對表征式進行前向訓推理,得到兩個表征結(jié)果,用KL散度進行學習,而因為雙塔,實際上要對q1和q2都這么做一次,所以實際上會多兩個損失函數(shù)。

2dbf2ca6-1258-11ed-ba43-dac502259ad0.jpg

訓練策略消融實驗

這些訓練策略的效果,在4.3.1中有進行消融實驗,如上圖所示,直觀地,從這個表其實可以發(fā)現(xiàn)幾個信息

ID'(也就是交互式蒸餾)具有一定的優(yōu)勢,尤其是在Finetuning階段,但是在Post-train中的收益似乎不那么明顯。

DualReg似乎是有些效果的,但是不清楚為什么要把CB(RocketQA中的提到的跨batch負采樣策略)也放一起,就感覺這個東西和本文的創(chuàng)新點沒啥關(guān)系,讓我們并不知道是CB的貢獻,還是DualReg的貢獻了。

但是感覺做的有一些馬虎,主要是為了證明這個ID'(也就是交互式整流)的方案比較厲害,但是從這個表來看收效沒有想象的大額,不過有一說一,前面的繼續(xù)預訓練還是非常值得我們學習和嘗試的,這點我在(前沿重器[26] | 預訓練模型的領域適配問題)中有提到過。

小結(jié)

總結(jié)下來,這篇文章最大的特點是把“通過學習交互式,來讓表征式效果進一步提升”這個思路發(fā)揮很極致,讓我們知道了這個方案的潛力,這個是有些實驗和落地價值的。

除此之外,這篇文章在初讀的時候,其實發(fā)現(xiàn)了不少新的概念(可能也是我有些匱乏吧),所以挖了不少坑,論文里的下面這張表其實都值得我好好讀一下,當然也包括introduction里面的。

2dd06cfa-1258-11ed-ba43-dac502259ad0.jpg

對比實驗

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4327

    瀏覽量

    62573
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3229

    瀏覽量

    48810

原文標題:ERNIE-Search:向交互式學習的表征式語義匹配代表作

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    AI模型部署邊緣設備的奇妙之旅:目標檢測模型

    提升一倍 導出模型將后處理包含在網(wǎng)絡中,預測直接輸出 box 結(jié)果,無需二次開發(fā),遷移成本更低,端到端預測速度提升10%-20%。 2.2 模型結(jié)構(gòu) PP-PicoDet 網(wǎng)絡結(jié)構(gòu)圖如
    發(fā)表于 12-19 14:33

    原子結(jié)構(gòu)模型及特點 原子的組成及結(jié)構(gòu)解析

    原子是物質(zhì)的基本單位,由原子核和電子組成。原子結(jié)構(gòu)模型的發(fā)展經(jīng)歷了幾個階段,每個階段都有其特點和局限性。 一、原子結(jié)構(gòu)模型的演變 道爾頓模型(1803年) 英國化學家約翰·道爾頓提出了原子論,認為
    的頭像 發(fā)表于 12-17 15:22 ?245次閱讀

    榮耀手機新增谷歌Circle to Search功能

    近日,全球知名科技品牌榮耀宣布,在其旗艦智能手機HONOR Magic V3及HONOR 200系列上,正式推出谷歌(Google)Circle to Search功能。這一創(chuàng)新功能將為用戶帶來更加便捷、直觀的搜索體驗。
    的頭像 發(fā)表于 10-17 18:16 ?680次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數(shù)據(jù)作為訓練材料。這些數(shù)據(jù)集不僅包括語法結(jié)構(gòu)的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監(jiān)督學習:模型采用自監(jiān)督學習策略,在大量無標簽文本數(shù)據(jù)上學
    發(fā)表于 08-02 11:03

    多層感知機模型結(jié)構(gòu)

    多層感知機(MLP,Multilayer Perceptron)是一種基本且廣泛應用的人工神經(jīng)網(wǎng)絡模型,其結(jié)構(gòu)由多個層次組成,包括輸入層、一個或多個隱藏層以及輸出層。MLP以其強大的非線性映射能力
    的頭像 發(fā)表于 07-11 17:57 ?1509次閱讀

    CNN模型的基本原理、結(jié)構(gòu)、訓練過程及應用領域

    CNN模型的基本原理、結(jié)構(gòu)、訓練過程以及應用領域。 卷積神經(jīng)網(wǎng)絡的基本原理 1.1 卷積運算 卷積運算是CNN模型的核心,它是一種數(shù)學運算
    的頭像 發(fā)表于 07-02 15:26 ?3469次閱讀

    深度神經(jīng)網(wǎng)絡模型cnn的基本概念、結(jié)構(gòu)及原理

    ,其核心是構(gòu)建具有多層結(jié)構(gòu)的神經(jīng)網(wǎng)絡模型,以實現(xiàn)對復雜數(shù)據(jù)的高效表示和處理。在眾多深度學習模型中,卷積神經(jīng)網(wǎng)絡(CNN)因其在圖像識別等領域的卓越性能而備受關(guān)注。CNN通過引入卷積層和池化層,有效地捕捉了圖像的局部特征和空間
    的頭像 發(fā)表于 07-02 10:11 ?9709次閱讀

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    具有以下三個非常顯著的特點,一個就是模型參數(shù)規(guī)模更大,訓練數(shù)據(jù)更多。當然,對計算資源的要求也會更高。 構(gòu)建強大的語言模型時,模型的選型至關(guān)重要,涉及模型的基本架構(gòu),包括
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術(shù)

    全面剖析大語言模型的核心技術(shù)與基礎知識。首先,概述自然語言的基本表示,這是理解大語言模型技術(shù)的前提。接著,詳細介紹自然語言處理預訓練的經(jīng)典結(jié)構(gòu)Transformer,以及其工作原理,為構(gòu)建大語言
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    維基百科、網(wǎng)頁內(nèi)容和書籍等,不僅掌握了語言的語法、語義和上下文信息,還能生成結(jié)構(gòu)連貫、語義合理的句子和段落。大語言模型的一個顯著特點是其龐大的參數(shù)量,已達數(shù)億甚至數(shù)十億級別。這種規(guī)模賦予模型強大的表示和學習
    發(fā)表于 05-04 23:55

    百度智能云推出全新輕量級大模型

    在近日舉辦的百度智能云千帆產(chǎn)品發(fā)布會上,三款全新的輕量級大模型——ERNIE Speed、ERNIE Lite以及ERNIE Tiny,引起了業(yè)界的廣泛關(guān)注。相較于傳統(tǒng)的千億級別參數(shù)大
    的頭像 發(fā)表于 03-22 10:28 ?661次閱讀

    百度智能云發(fā)布三款輕量級大模型和兩款特定場景大模型

    百度智能云在千帆產(chǎn)品發(fā)布會上震撼推出了一系列創(chuàng)新產(chǎn)品,其中包括三款輕量級大模型ERNIE Speed、ERNIE Lite和ERNIE Tiny,以及兩款專為特定場景打造的
    的頭像 發(fā)表于 03-22 10:28 ?678次閱讀

    Stage 模型深入解讀

    設備的遷移和協(xié)同機制。本文為大家詳細介紹 Stage 模型。 一、Stage 模型概念 應用開發(fā)模型是運行在不同 OS 上的抽象結(jié)構(gòu)。OS 通過這種抽象
    的頭像 發(fā)表于 02-18 09:28 ?1146次閱讀
    Stage <b class='flag-5'>模型</b>深入解讀

    protues添加通過component search engine 下載的電子元件模型后閃退

    protues添加通過component search engine 下載的電子元件模型后就閃退,流程是通過“庫-Import Parts\",然后就按照提示一直選擇下去,添加從搜索引擎
    發(fā)表于 02-15 13:00

    Browser Company推出AI搜索工具Arc Search,助您快速便捷找到所需

    Arc Search 的獨特之處在于其提供的“瀏覽為我尋找”功能,此乃由 OpenAI 等多家技術(shù)巨頭聯(lián)合打造,通過對多達六個網(wǎng)頁的深度解析,收集有效信息并生成新的頁面,以滿足用戶需求。
    的頭像 發(fā)表于 01-31 10:15 ?772次閱讀
    主站蜘蛛池模板: 永久免费精品影视网站| 天天爽夜夜爽夜夜爽| 嫩草AV久久伊人妇女| 欧美成人精品高清在线观看| 欧美一区二区激情视频| 日本欧美高清一区二区视频| 视频一区视频二区在线观看| 亚洲AV电影天堂男人的天堂| 亚洲中文 字幕 国产 综合| 中文字幕AV在线一二三区| 99精品视频在线观看免费播放| old胖老太fat bbw青年| 高中生高潮抽搐喷出白浆视频| 国产精品无码视频一区二区| 国内极度色诱视频网站| 伦理在线影院伦理电影| 日本亚洲欧洲免费旡码| 学生无码AV一区二区三区| 月夜直播免费看| 被两根巨大同时进去高H| 国产亚洲日韩另类在线观看| 里番※琉璃全彩acg奈亚子| 人妖和美女玩| 亚洲人人为我我为人人| 99久久精品国产免费| 国产老肥熟xxxx| 免费观看美女的网站| 神马电影院午夜神福利在线观看 | 精品综合久久久久久8888| 美女被黑人巨大进入| 视频网站入口在线看| 伊人久综合| 高清bblxx手机在线观看| 久草色香蕉视频在线| 日本三级黄色大片| 一级做a爰片久久免费| 成人无码国产AV免费看直播| 久草热8精品视频在线观看| 色多多深夜福利免费观看| 伊人影院香蕉久在线26| 国产 高清 无码 中文|