色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

打破"沙漏“現象→提高生成式搜索/推薦的上限

京東云 ? 來源:王彗木 ? 作者:王彗木 ? 2025-04-27 11:23 ? 次閱讀

作者:京東零售 王彗木

wKgZPGgNoxGAPfM7AARAb_hzKvY454.png

東方若曉,莫道君行早

EMNLP 2024: Breaking the Hourglass Phenomenon of Residual Quantization: Enhancing the Upper Bound of Generative Retrieval

paper鏈接: https://arxiv.org/abs/2407.21488v1

0 摘要

生成式搜索/推薦在搜索和推薦系統中已經成為一種創新的范式,它通過使用基于數值的標識符來提升效率和泛化能力。特別是在電子商務領域,像TIGER這樣的方法使用基于殘差量化的語義標識符(RQ-SID),表現出了很大的潛力。然而,RQ-SID面臨一個被稱為“沙漏”現象的問題,即中間碼本令牌過于集中,限制了生成式搜索/推薦方法的全面發揮。本文通過研究發現,路徑稀疏和長尾分布是造成這一問題的主要原因。我們通過一系列詳細的實驗和消融研究,分析了這些因素對碼本利用率和數據分布的影響。結果表明,“沙漏”現象對RQ-SID的性能有顯著影響。我們提出了一些有效的解決方案,成功改善了生成式任務在實際電子商務應用中的效果。

1 背景

在生成式搜索/推薦中,基于數值的標識符表示方法因其簡單、高效和強大的泛化能力而在行業中被廣泛采用,特別是在長行為序列推薦中。這些方法顯著縮短了序列長度并加快了推理過程。值得注意的方法包括DSI、NCI、TIGER、GDR和GenRet。其中,TIGER方法通過殘差量化(RQ)(Lee等,2022;Zeghidour等,2021)生成語義標識符(SID),有效捕捉了語義信息和層次結構。這種方法在以商品為主的電子商務場景中特別有優勢,能夠準確反映電子商務數據中固有的復雜層次關系和語義特征,從而顯著提升推薦性能。

需要強調的是,基于RQ的方法的性能上限在很大程度上依賴于SID的生成,這也是本文分析和討論的核心重點。

2 任務定義

wKgZO2gNoxKAcOOHAAA8UnM1Y78100.png

?

基于現有常見的任務場景,定義如下任務【注意:任務形式不限于下列任務,只要是含有SID的任務均可】:該用戶信息:年齡:age_2;性別:男性;會員狀態:非會員。該用戶的歷史交互行為有:,……。該用戶本次搜索的關鍵詞為“XX鼠標”。請根據該用戶信息、歷史交互行為和本次搜索關鍵詞,預測該用戶接下來最可能購買的商品

3 RQ-VAE SID生成

wKgZPGgNoxKAOqZLAADLYbH755Q847.png

?

SID生成,谷歌的TIGER方法用的比較廣泛。它通過殘差量化RQ生成語義標識符(SID),能夠有效捕捉語義信息和層次結構。這種方法在以商品為主的電商場景中尤其有優勢,因為它能夠準確反映電商數據中的復雜層次關系和語義特征,從而顯著提升推薦性能。

4 沙漏現象

wKgZO2gNoxOARZFhAAJB_gVKVCE874.png

?

在通過殘差量化(RQ)生成的SID中,我們觀察到了一種顯著的“沙漏”現象。具體而言,中間層的碼本過于集中,導致了一對多和多對一的映射結構。這種集中現象引發了路徑的稀疏性和長尾分布問題。路徑稀疏性是指匹配路徑僅占總路徑空間的一小部分,而長尾分布則意味著大多數SID集中在少數的頭部標記上,中間層標記的分布呈現長尾特征。在具有長尾特征的數據集中,這種“沙漏”效應尤為明顯,顯著限制了生成式搜索推薦方法的表示能力。問題的根源在于逐步量化高維向量殘差的內在特性。基于此,我們對該現象進行了深入的理論與實驗分析,并提出了相應的解決方案。

4.1 沙漏現象可視化

為了生成語義ID,我們首先利用公司內部數十億條搜索日志中的查詢-商品數據,訓練了雙塔模型(如DSSM和BERT等)。接著,通過商品塔獲取了數億商品的嵌入向量,最終采用殘差量化(RQ)方法為所有商品生成了語義ID。

wKgZPGgNoxWAGqkDAAxNG4Cnsgg269.png

?

生成語義ID后,對所有商品進行了聚合,并計算了三層分布圖。如上圖所示,可以看到第二層集中有大量路由節點,整體分布呈現“沙漏”現象。為了驗證這一現象的普遍性,我們在不同參數組合下進行了多次可視化實驗,沙漏效應非常顯著,三層代碼表中token的路徑分布相對稀疏。

wKgZO2gNoxWAEu1BAACxKzIYEtA336.png

?

此外,基于上述實驗,我們使用三個指標對第二層的標記分布進行了統計分析:熵、基尼系數和標準差,如圖所示。結果表明,第二層的標記分布表現出低熵、高基尼系數和大標準差,表明該分布具有顯著的不均勻性。

總體而言,這種沙漏現象在代碼表中通過路徑稀疏性和token的長尾分布得到了統計數據支持。其中,

路徑稀疏性:語義ID結構導致代碼表利用率低。

長尾分布:在中間層,大多數路徑集中到單個token上

4.2 現象分析

為了探討“沙漏”現象的成因,將基于殘差量化(RQ)的運行機制進行深入分析和討論。為了便于理解,考慮兩種原始嵌入的分布:非均勻分布和均勻分布。接下來,使用RQ為數據X生成語義ID。

wKgZPGgNoxaAKyhOAASZUApUGy4079.png

?

可以看到,第一層,候選點被分成M個聚類桶,token的入度相等。輸入分布均勻。第二層輸入為第一層的殘差,分布非均勻。小殘差點靠近聚類中心,異常值較大。聚類更關注異常值,形成長尾現象。第三層殘差值變得一致且均勻。類似第一層的均勻分布。第二層大路由節點分散成多個小節點。整體趨勢隨層數增加,殘差減小,聚類效應減弱。形成沙漏狀結構:數據壓縮再擴展,最終均勻分布。語義ID構建后,RQ量化方法的影響,加上中間層頭部token的主導地位,自然導致了路徑的稀疏性。類似地,對于非均勻分布(如長尾分布),殘差分布變得更加不均勻,導致現象更加嚴重。

4.3 實際影響

wKgZO2gNoxeATaQ5AAMGb0qRsfw485.png

為了評估這種現象的影響,我們進行了多項實驗。首先,在評估過程中,我們根據第二層標記的分布將測試集分為兩組:頭部標記測試集和尾部標記測試集。如表所示,頭部標記測試集的性能顯著提升,而尾部標記測試集的性能則明顯較差。這種性能差異可以歸因于先前分析的路徑稀疏性和標記的長尾分布,導致了結果的偏差。這一現象在不同規模的模型(如LLaMA2、Baichuan2和Qwen1.5)以及不同參數的殘差量化(RQ)中均有觀察到,突顯出長尾標記分布和路徑稀疏性對模型性能的廣泛影響。

此外,為了進一步探討“沙漏”現象對模型性能的影響,我們進行了兩個關鍵實驗:1)交換第一層和第二層的標記,2)將交換序列的第一個標記作為輸入。

在僅交換第一層和第二層標記的情況下,第一層出現顯著的長尾分布,導致模型難以擬合,從而效果較差。由于逐標記錯誤的累計,交換后的效果甚至比不交換更差。然而,當交換后給定第一個標記時,輸出任務變為預測第二或第三層的SID,這使得任務變得更簡單,并且長尾分布不再影響結果(因為給定了真實的SID1),因此效果顯著提升。此外,在不交換第一層和第二層的條件下,給定第一個標記(第二層SID依舊是長尾分布),其結果高于基線,但低于交換后給出第一個標記的情況(如表所示)。

這一發現表明,“沙漏”現象對模型性能有著實質性的負面影響。通過上述實驗,不僅確認了“沙漏”效應的存在,還闡明了其對模型性能的具體影響,從而為未來的優化提供了堅實的基礎。

5 解決方法

wKgZPGgNoxiAYUutAALWuLNwVrM708.png

?

解決沙漏現象的方法有多種,在此簡單的從分布角度提出兩種簡單易行的方法:一種啟發式的方法是直接移除第二層,從而消除長尾效應的影響。然而,這可能導致空間容量不足。需要注意的是,這里首先要生成一個L層的語義ID(SID),然后再移除第二層,這與直接生成一個兩層的SID不同,因為后者可能仍然存在大的路由節點。另一種簡單的方法是自適應地移除第二層的頂部tokens,使語義ID成為一個可變長度的結構。這里使用了top@K策略,并設定一個閾值p。這種方法確保了分布保持不變,同時有選擇地減少了“沙漏”效應的影響。

為了進一步驗證該方法的有效性,在LLaMA模型上進行了實驗。結果表明,通過應用自適應token移除策略,模型性能得到了提升,同時計算成本與基礎模型相近,并且在一些客觀優化(如Focal Loss和Mile Loss)方面也表現出色。

具體來說,實驗結果顯示,使用top@400 token移除策略的模型在大多數評估指標上都優于基線模型。這表明該方法有效地減少了長尾效應的影響。隨著移除的tokens數量增加,模型性能的提升會遇到瓶頸。特別是當所有tokens都被移除時,這種限制尤為明顯,這可能是由于缺少長尾tokens,導致召回率下降。同時,直接移除第二層會導致一個SID對應多個項目。這種細粒度的分析為所提出方法的有效性提供了有力證據。該方法在選擇性移除不太重要的tokens的同時,保留了最有信息量的tokens,即使在移除大量數據的情況下,也能提升模型性能。

6 結論

本研究系統地探討了RQ-SID在生成式搜索/推薦的局限性,特別是發現了中間層tokens過度集中導致數據稀疏和長尾分布的“沙漏”現象。通過廣泛的實驗和消融研究,證明了這一現象,并分析了其根本原因在于殘差特性。為了解決這個問題,提出了兩種方法:移除第二層的啟發式方法和自適應調整token分布的可變長度token策略。實驗結果顯示,兩種方法都有效緩解了瓶頸效應,其中自適應token分布調整策略效果最佳。這是首次系統性地探討RQ-SID在生成式搜索/推薦中缺陷的研究,為未來的模型優化提供了堅實的基礎,并顯著提升了模型性能。

7 未來規劃

1、 優化SID的生產與表征方式,通過引入時效、統計類特征來輔助額外表征,讓其能滿足對特征極為看重的排序需求;

2、 統一稀疏表征(SID)與密集表征,讓LLM可以顯示的建模密集特征變化趨勢,而不是稀疏表征的映射

3、 保證鏈路無損失實現一段式搜索。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SID
    SID
    +關注

    關注

    0

    文章

    16

    瀏覽量

    3129
收藏 0人收藏

    評論

    相關推薦
    熱點推薦

    LED電子沙漏

    沒有什么區別; 二也能代表愛情,藍色沙漏有代表"我愛你"的意思,聯想到黃色絲巾之意,可能黃色沙漏能代表友愛之情吧。送沙漏
    發表于 11-08 12:49

    時間沙漏分享

    。 電子沙漏用LED發光代替沙子。用起來其實也很簡單,位于中部的金屬刻度就是時間,您只要扭動到您所需要的時間,電子沙漏就開始計時漏沙。這是一個慢慢的過度過程,"沙子&quot
    發表于 07-19 13:11

    提高數字萬用表電阻測量上限的技巧

    提高數字萬用表電阻測量上限的技巧 以DT-830數字萬用表為例,它的最大可測量
    發表于 09-11 15:30 ?1120次閱讀

    如何制作發光二極電子沙漏

    如何制作發光二極電子沙漏 一、電路整體分析1 電路結構。    電子沙漏是一個級聯運用移位寄存器的典型實例,電路圖如圖1
    發表于 05-28 16:06 ?3353次閱讀
    如何制作發光二極電子<b class='flag-5'>沙漏</b>

    &quot;STM32F0 Error: Flash Download failed - &quot;&quot;Cortex-M0&quot;&quot;解決&quot;

    開發工具CUbemx + Keil uVision5(MDK V5)錯誤現象在STM32F0燒錄程序是出現了Error: Flash Download failed - &amp;quot
    發表于 12-01 12:06 ?33次下載
    &<b class='flag-5'>quot</b>;STM32F0 Error: Flash Download failed  -  &<b class='flag-5'>quot</b>;&<b class='flag-5'>quot</b>;Cortex-M0&<b class='flag-5'>quot</b>;&<b class='flag-5'>quot</b>;解決&<b class='flag-5'>quot</b>;

    鑒源論壇 · 觀模丨基于搜索的測試生成

    基于搜索的測試生成將測試生成問題建模為最優化問題,其核心思想是針對期望達到的測試目標,以相關目標(成本)函數為指引,使用搜索算法在輸入域中尋找最優解作為測試用例。
    的頭像 發表于 12-02 16:25 ?1162次閱讀
    鑒源論壇 · 觀模丨基于<b class='flag-5'>搜索</b>的測試<b class='flag-5'>生成</b>

    DIY Arduino電子沙漏

    電子發燒友網站提供《DIY Arduino電子沙漏.zip》資料免費下載
    發表于 02-06 11:09 ?10次下載
    DIY Arduino電子<b class='flag-5'>沙漏</b>

    Arduino沙漏計時器

    電子發燒友網站提供《Arduino沙漏計時器.zip》資料免費下載
    發表于 07-06 10:05 ?3次下載
    Arduino<b class='flag-5'>沙漏</b>計時器

    芯片工藝的&amp;quot;7nm&amp;quot; 、&amp;quot;5nm&amp;quot;到底指什么?

    近幾年,芯片產業越來越火熱,一些行業內的術語大家也聽得比較多了。那么工藝節點、制程是什么,&quot;7nm&quot; 、&quot;5nm&quot;又是指什么?
    的頭像 發表于 07-28 17:34 ?1w次閱讀
    芯片工藝的&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;7nm&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>; 、&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;5nm&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;到底指什么?

    生成AI恐使搜索引擎衰退,預計2026年搜索量將下滑25%

    據市場分析機構Gartner報道,生成AI對傳統搜索引擎構成重大威脅,預計至2026年搜索量將降低25%。為此,企業需調整營銷策略。
    的頭像 發表于 02-20 10:04 ?921次閱讀

    谷歌搜索引擎添加&amp;quot;Web&amp;quot;過濾器,僅展示文本鏈接

    啟用“Web”過濾器后,搜索結果將避免包括論壇、視頻、新聞、圖片等各類鏈接,僅呈現傳統的藍色鏈接,仿佛回到了2007年之前的通用搜索模式。
    的頭像 發表于 05-16 11:21 ?613次閱讀

    IBM 發布光學技術關鍵突破,生成AI迎來&amp;quot;光速時代&amp;quot;

    方面的突破性研究成果,有望顯著提高數據中心訓練和運行生成 AI 模型的效率。IBM研究人員開發的新一代光電共封裝?(co-packaged optics,CPO) 工藝,通過光學技術實現數據中心內部的光速連接,為現有的短距離光
    的頭像 發表于 12-12 15:53 ?425次閱讀

    EAM 與 MES 深度融合:智能工廠的 &amp;amp;quot;雙引擎&amp;amp;quot; 如何打破生產瓶頸?

    中國制造業正經歷數字化轉型陣痛,設備聯網率雖高但產能利用率低,導致設備維修記錄與生產排程數據割裂,隱性損失嚴重。企業需要進行雙系統融合,打破虛實界限,構建數字孿生體,實現設備綜合效率的提升。
    的頭像 發表于 04-01 10:13 ?187次閱讀
    EAM 與 MES 深度融合:智能工廠的 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;雙引擎&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>; 如何<b class='flag-5'>打破</b>生產瓶頸?

    煉油廠開閉所局放監測:為能源樞紐裝上&amp;amp;quot;智能安全閥&amp;amp;quot;

    文章由山東華科信息技術有限公司提供在煉油廠的能源樞紐——開閉所中,高壓設備如同&quot;電力心臟&quot;晝夜不息地運轉。這個布滿油氣管道的復雜環境里,局部放電現象如同潛伏的&quot
    的頭像 發表于 04-09 16:41 ?201次閱讀
    煉油廠開閉所局放監測:為能源樞紐裝上&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;智能安全閥&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    電纜局部放電在線監測:守護電網安全的&amp;amp;quot;黑科技&amp;amp;quot;

    文章由山東華科信息技術有限公司提供在萬家燈火的背后,有一張覆蓋全國的&quot;能源神經網絡&quot;晝夜不息地運轉。電纜作為電力輸送的&quot;主動脈&quot;,其健康狀況直接
    的頭像 發表于 04-14 18:12 ?150次閱讀
    電纜局部放電在線監測:守護電網安全的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;黑科技&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;
    主站蜘蛛池模板: 国产精品乱码色情一区二区视频 | 无码国产欧美日韩精品 | 在线a亚洲视频 | 啦啦啦WWW在线观看免费高清版 | 日韩精品亚洲专区在线电影不卡 | 男人到天堂a线牛叉在线 | 亚洲精品无码葡京AV天堂 | 3d在线看小舞被躁视频 | 国产精品人妻无码久久久2022 | 最新国产三级在线不卡视频 | 一品道门免费视频韩国 | 大香伊蕉在人线国产97 | 亚洲伊人网站 | 护士被老头边摸边吃奶的视频 | 久久精品麻豆国产天美传媒果冻 | 蜜桃麻豆WWW久久囤产精品免费 | 国产高清视频青青青在线 | 国产精品嫩草影院 | 亚洲一区自拍高清亚洲精品 | 亚洲AV香蕉一区区二区三区蜜桃 | 男人天堂2018亚洲男人天堂 | 99视频这里只有精品国产 | 亚洲精品无码国产爽快A片百度 | 秋霞三级理伦免费观看 | 精品一产品大全 | 欧美又粗又长又大AAAA片 | TIMI1TV天美传媒在线观看 | 小SAO货叫大声点妓女 | 在线 中文字幕 | 亚洲一区综合图区 | 久久se视频精品视频在线 | 久青草国产在视频在线观看 | 国产亚洲精品久久精品69 | 色综合色综合久久综合频道 | 99re久久这里只有精品 | MD传媒在线观看佳片 | 欧美日韩亚洲成人 | 久久精品国产清白在天天线 | 免费精品美女久久久久久久久 | 秋霞在线看片无码免费 | 久久免费精品视频 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品