一本首大综合a8,亚洲综合久久久久久888,一级生性活片免费视频影片

本文對(duì)基于適配器的可遷移推薦系統(tǒng)進(jìn)行了實(shí)驗(yàn)探索和深入研究。發(fā)現(xiàn)在文本推薦方面，基于適配器的可遷移推薦取得了有競(jìng)爭(zhēng)力的結(jié)果；在圖像推薦方面，基于適配器的可遷移推薦略落后于全量微調(diào)。后續(xù)本文對(duì)四種著名的適配器微調(diào)方法進(jìn)行了基準(zhǔn)測(cè)試，并深入研究了可能影響適配器微調(diào)在推薦任務(wù)中的幾個(gè)關(guān)鍵因素。

論文題目：

Exploring Adapter-based Transfer Learning for Recommender Systems: Empirical Studies and Prac tical Insights

論文鏈接：

https://arxiv.org/abs/2305.15036

代碼鏈接：

https://github.com/westlake-repl/Adapter4Rec/

研究動(dòng)機(jī)

可遷移的推薦系統(tǒng) (TransRec) 通常包含一個(gè)用戶編碼器和一個(gè)或多個(gè)基于模態(tài)的物品編碼器，其中基于模態(tài)的物品編碼器通常是經(jīng)過(guò)預(yù)訓(xùn)練的 ViT, BERT, RoBERTA, 與 GPT 等模型，他們往往包含很大的參數(shù)量。常見(jiàn)使用 TransRec 的范式是先經(jīng)過(guò)一個(gè)源域數(shù)據(jù)集的預(yù)訓(xùn)練之后再遷移到目標(biāo)域，遷移的過(guò)程往往都需要再進(jìn)行微調(diào)。

傳統(tǒng)的全參數(shù)微調(diào) (Fine-tune All, FTA) 是很有效的方式，但它存在如下幾個(gè)問(wèn)題：

1. 如上圖所示，推薦系統(tǒng)往往都包含一個(gè)主頻道和多個(gè)垂直頻道，如果想利用主頻道預(yù)訓(xùn)練過(guò)的模型遷移至每個(gè)垂直頻道，則每個(gè)垂直通道的模型更新、維護(hù)和存儲(chǔ)都需要很多額外成本；

2. 全參數(shù)微調(diào)往往存在過(guò)擬合問(wèn)題；

3. 昂貴的訓(xùn)練成本，往往微調(diào)越大的模型所需要的 GPU 顯存越高。

這促使研究者們?cè)?TransRec 中探索基于適配器 (Adapter) 的高效微調(diào)范式 (Adapter tuning, AdaT) 。AdaT 與傳統(tǒng) FTA 的比較如下圖所示，AdaT 僅僅微調(diào)新插入的適配器和對(duì)應(yīng)的 layer-normalization 層：

適配器是一種在 NLP 和 CV 中廣泛采用的參數(shù)高效方法用于解決高效遷移大規(guī)模基礎(chǔ)模型，然而在當(dāng)前 TransRec 范式的推薦系統(tǒng)領(lǐng)域并沒(méi)有被系統(tǒng)的探究過(guò)該方法的有效性。針對(duì)于該有效性的探究，論文提出如下幾個(gè)關(guān)鍵研究問(wèn)題：

RQ1: 基于適配器的 TransRec 性能上能否與典型的基于微調(diào)的 TransRec 相當(dāng)？該結(jié)論適用于不同模態(tài)的場(chǎng)景嗎？

RQ2: 如果 RQ1 為正確或部分正確，那么這些 NLP 和 CV 社區(qū)當(dāng)中流行的適配器性能又如何呢？

RQ3: 是否有因素影響這些基于適配器的 TransRec 模型的性能？

針對(duì)于 RQ1, 論文在兩種物品模態(tài)（即文本和圖像）上對(duì)基于適配器和基于全參數(shù)微調(diào)的 TransRec 進(jìn)行了嚴(yán)格的比較研究。其中包括采用兩種流行的推薦架構(gòu)（即 SASRec 和 CPC）以及四種強(qiáng)大的模態(tài)編碼（即 BERT、RoBERTa、ViT 和 MAE）。

針對(duì)于 RQ2, 論文對(duì) NLP 和 CV 中廣泛采用的四種適配器進(jìn)行了基準(zhǔn)測(cè)試。還加入了 LoRA、Prompt-tuning 和 layer-normalization tuning 的結(jié)果，以進(jìn)行綜合比較。

針對(duì)于 RQ3, 該文章進(jìn)行了不同策略的性能比較，這些策略包括插入適配器的方式和位置，以及是否調(diào)整相應(yīng)的 layer-normalization 等。除此之外，論文還研究了 TransRec 在源域和目標(biāo)域中的數(shù)據(jù)縮放效應(yīng)，以考察在使用較大數(shù)據(jù)集預(yù)訓(xùn)練 TransRec 時(shí) AdaT 的有效性。

網(wǎng)絡(luò)架構(gòu)

TransRec 架構(gòu)包含兩個(gè)子模塊，即物品編碼器和用戶編碼器，這兩個(gè)模塊都基于 Transformer 模塊。論文采用插入適配器到物品和用戶編碼器當(dāng)中。基于適配器的 TransRec 架構(gòu)如下圖所示。論文采用 SASRec 和 CPC 框架對(duì) TransRec 進(jìn)行二元交叉熵 (BCE) 損失訓(xùn)練。

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集：論文用兩種模式對(duì)基于適配器的 TransRec 進(jìn)行了評(píng)估。對(duì)于具有文本模態(tài)的物品，使用 MIND 英語(yǔ)新聞推薦數(shù)據(jù)集作為源域，并使用 Adressa 挪威語(yǔ)新聞推薦數(shù)據(jù)集作為目標(biāo)域。對(duì)于視覺(jué)模態(tài)，使用亞馬遜用于服裝和鞋類的評(píng)論數(shù)據(jù)集作為目標(biāo)域，并使用 H&M 個(gè)性化時(shí)尚推薦數(shù)據(jù)集作為源域。

預(yù)訓(xùn)練模型的使用：文本模態(tài)采用 bert-base-uncased 和 roberta-base 模型；圖片模態(tài)采用 vit-base-patch16-224 和 vit-mae-base 模型。

評(píng)價(jià)標(biāo)準(zhǔn)：論文采用 "leave-one-out"的策略來(lái)分割數(shù)據(jù)集：交互序列中的最后一項(xiàng)用于評(píng)估，最后一項(xiàng)之前的一項(xiàng)用于驗(yàn)證，其余的用于訓(xùn)練。評(píng)估指標(biāo)采用 HR@10（命中率）和 NDCG@10（歸一化累計(jì)收益）。所有實(shí)驗(yàn)結(jié)果均為測(cè)試集的結(jié)果。

主要發(fā)現(xiàn)

RQ1: 在文本內(nèi)容中，使用 AdaT 的 TransRec 可獲得與 FTA 相當(dāng)?shù)男阅埽谝曈X(jué)場(chǎng)景中性能有所下降。

對(duì)比 FTA 和 AdaT 在文本和圖片場(chǎng)景下的實(shí)驗(yàn)結(jié)果如下表所示：

RQ2: 與其他流行的參數(shù)高效微調(diào)的方法相比，經(jīng)典的Houlsby 適配器在 TransRec 中取得了最佳效果。

對(duì)比常用不同的參數(shù)高效微調(diào)方法的基準(zhǔn)測(cè)試：

RQ3: 該文章認(rèn)為，TransRec 應(yīng)為用戶和物品編碼器放置適配器，以獲得最佳效果。插入位置同樣也很重要，Transformer當(dāng)中的FFN (Feed-Forward Network) 和 MHA (Multi-Head Attentions) 的后面一層都需要單獨(dú)的適配器模塊。其次插入方式 (串行或并行) 和 LayerNorm 優(yōu)化等其他因素對(duì)于推薦任務(wù)的性能上并不重要。

插入適配器的位置到物品 (Ei) 或用戶編碼器 (Eu) 的性能對(duì)比：

插入適配器到 MHA 和 FFN 之后的位置的性能對(duì)比：

采用序列和并行插入的性能對(duì)比：

除此之外，該文章還進(jìn)行了充分的數(shù)據(jù)縮放實(shí)驗(yàn)，發(fā)現(xiàn) TransRec 的遷移學(xué)習(xí)中如果有更多預(yù)訓(xùn)練的源領(lǐng)域數(shù)據(jù)，目標(biāo)域性能會(huì)有更大的提升：

總結(jié)

文章發(fā)現(xiàn)了兩個(gè)事實(shí)：1）在文本推薦方面，與微調(diào)所有參數(shù) (FTA) 相比，AdaT 取得了有競(jìng)爭(zhēng)力的結(jié)果；2）在圖像推薦方面，AdaT 性能良好，但略落后于 FTA。

論文對(duì)四種著名的 AdaT 方法進(jìn)行了基準(zhǔn)測(cè)試，發(fā)現(xiàn)經(jīng)典的 Houlsby 適配器性能最佳。隨后，該文章深入研究了可能影響 AdaT 在推薦任務(wù)中的結(jié)果的幾個(gè)關(guān)鍵因素。最后，論文發(fā)現(xiàn) TransRec 的 AdaT 和 FTA 符合理想的數(shù)據(jù)縮放效應(yīng)——TransRec 在增大源領(lǐng)域數(shù)據(jù)時(shí)能提升性能。

該工作為模態(tài)推薦模型的參數(shù)高效遷移學(xué)習(xí)提供了重要指導(dǎo)。它對(duì)推薦系統(tǒng)社區(qū)的基礎(chǔ)模型也有重要的實(shí)際意義，是實(shí)現(xiàn)推薦系統(tǒng)社區(qū)“one model for all”的目標(biāo)上重要的一環(huán)。該方向未來(lái)的工作包括探究圖片推薦當(dāng)中如何提升 AdaT 的性能以及引入更多不同的模態(tài)等。

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴