近十年里,top-N商品推薦是隱式反饋中一個(gè)被廣泛研究的課題[1],其目的是從大量數(shù)據(jù)中識(shí)別出用戶可能偏愛的一小部分物品。各種top-N物品推薦算法已經(jīng)被開發(fā)出來,特別是基于深度學(xué)習(xí)的研究取得了很大的進(jìn)展[2]。
為了證明推薦算法的有效性,需要在基準(zhǔn)數(shù)據(jù)集上建立可靠的評(píng)價(jià)實(shí)驗(yàn)。通常,這樣的評(píng)估過程包括一系列對(duì)于數(shù)據(jù)集、指標(biāo)、基線方法和其他方案的設(shè)置。由于每個(gè)設(shè)置步驟可以選擇不同的選項(xiàng),需要制定和設(shè)計(jì)適當(dāng)?shù)臉?biāo)準(zhǔn),以使實(shí)驗(yàn)設(shè)置標(biāo)準(zhǔn)化[3,4]。為此,有必要對(duì)近期研究中有分歧的實(shí)驗(yàn)設(shè)置進(jìn)行系統(tǒng)的回顧。
在這篇論文中,對(duì)于不同的實(shí)驗(yàn)設(shè)置對(duì)評(píng)價(jià)top-N商品推薦算法的影響,我們?cè)O(shè)計(jì)了一個(gè)經(jīng)驗(yàn)性的大規(guī)模實(shí)驗(yàn)。我們?cè)噲D找出導(dǎo)致近期評(píng)測(cè)工作中出現(xiàn)分歧的重要評(píng)估設(shè)置[2,7]。具體來說,考慮三個(gè)重要的影響因素,即數(shù)據(jù)集分割、采樣指標(biāo)和數(shù)據(jù)領(lǐng)域選擇。數(shù)據(jù)集分割是指利用原始數(shù)據(jù)構(gòu)造訓(xùn)練集、驗(yàn)證集和測(cè)試集;采樣指標(biāo)是指用采樣方法獲得不相關(guān)物品來計(jì)算評(píng)測(cè)指標(biāo)的結(jié)果;數(shù)據(jù)領(lǐng)域選擇是指從不同領(lǐng)域中選擇合適的數(shù)據(jù)集進(jìn)行評(píng)估。
為了檢驗(yàn)這三個(gè)因素的影響,我們?cè)贏mazonreview數(shù)據(jù)集[8]上進(jìn)行了大量的實(shí)驗(yàn),其中包含來自24個(gè)領(lǐng)域的1.428億條用戶交互記錄。top-N物品推薦本質(zhì)上是一項(xiàng)排序任務(wù)。與先前的工作[3,6]不同,本文并不關(guān)心特定方法的性能,而是研究一個(gè)特定的實(shí)驗(yàn)設(shè)置因素如何影響不同方法的總體排序。本文選取了8種具有代表性的推薦算法作為比較方法,包括傳統(tǒng)方法和基于神經(jīng)網(wǎng)絡(luò)的方法。我們利用三種序列相關(guān)性指標(biāo)來刻畫排序結(jié)果的差異。
我們的實(shí)驗(yàn)得到了以下結(jié)論。首先,對(duì)于數(shù)據(jù)集分割,隨機(jī)切分與時(shí)序切分產(chǎn)生了一定程度上不同的方法排序。數(shù)據(jù)集的切分方式應(yīng)該取決于特定的任務(wù)。建議在一般情況下采用隨機(jī)切分的方式劃分?jǐn)?shù)據(jù)集合,而對(duì)時(shí)間敏感的任務(wù)采用按照時(shí)序劃分方式(如序列推薦)。第二,基于采樣指標(biāo)的表現(xiàn)排名與精確排名的相關(guān)性略弱,增加采樣物品的數(shù)量會(huì)提高排序相關(guān)性程度。在使用采樣指標(biāo)時(shí),研究人員應(yīng)盡可能采樣較多的不相關(guān)物品。最后,具有不同領(lǐng)域特征或稀疏程度的數(shù)據(jù)集合可能會(huì)產(chǎn)生不太相同的表現(xiàn)排名。一個(gè)較優(yōu)的策略是選擇能夠涵蓋多個(gè)領(lǐng)域、不同方面的代表性數(shù)據(jù)集。
實(shí)驗(yàn)設(shè)置與方案
2.1 實(shí)驗(yàn)設(shè)置
在這一部分中,我們描述數(shù)據(jù)集、比較方法和評(píng)估指標(biāo),來準(zhǔn)備進(jìn)行實(shí)驗(yàn)。
數(shù)據(jù)集。我們采用亞馬遜產(chǎn)品評(píng)論數(shù)據(jù)集[8]進(jìn)行評(píng)估,其中包含來自24個(gè)領(lǐng)域的1.428億條評(píng)論。對(duì)于top-N物品推薦,每條評(píng)論被視為用戶和某個(gè)物品之間的交互記錄,而其余信息則被丟棄,比如文本和元數(shù)據(jù)。由于幾種比較方法無法在有限的時(shí)間內(nèi)對(duì)Book領(lǐng)域的數(shù)據(jù)集得出結(jié)果,因此為了提高效率,我們刪除了這個(gè)領(lǐng)域。最后,我們使用來自其余23個(gè)領(lǐng)域的用戶項(xiàng)交互數(shù)據(jù)作為最終數(shù)據(jù)集。我們進(jìn)一步采用5-core的預(yù)處理方式,刪除了不活躍的用戶和不經(jīng)常被點(diǎn)擊的商品。
比較方法。我們選取了八種推薦算法,包括popularity,ItemKNN,SVD++ [9]和BPR [1],DSSM [10],NCF [11],DIN [12] 和 GCMC [13]。在這八種方法中,popularity和ItemKNN主要基于簡(jiǎn)單的全局或物品特定的統(tǒng)計(jì),SVD++和BPR利用矩陣分解技術(shù),DSSM和NCF利用神經(jīng)網(wǎng)絡(luò)建模用戶-物品交互,DIN通過關(guān)注現(xiàn)有行為來學(xué)習(xí)用戶偏好,GCMC采用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行推薦。這八種方法很好地涵蓋了傳統(tǒng)方法和基于神經(jīng)網(wǎng)絡(luò)的方法。在本文中,我們只考慮general item recommendation,而不考慮context-awarerecommendation或sequential recommendation。注意,我們的重點(diǎn)不是確定最佳算法,而是研究不同實(shí)驗(yàn)設(shè)置對(duì)最終表現(xiàn)排名的影響。
評(píng)價(jià)指標(biāo)。Top-N項(xiàng)目推薦可以視為一項(xiàng)排序任務(wù),排在前端的結(jié)果需要重點(diǎn)考慮。根據(jù)[4-14],在下面的實(shí)驗(yàn)中,我們使用了四個(gè)指標(biāo):(1)頂部K個(gè)位置的截?cái)嗑群驼倩芈?P@K and R@K),(2)平均準(zhǔn)確率(MAP),(3)ROC曲線下面積(AUC)。我們還計(jì)算了另外兩個(gè)指標(biāo)的結(jié)果nDCG@K和MRR。它們與上述四個(gè)指標(biāo)產(chǎn)生了相似的結(jié)果,我們省略了對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果。
2.2實(shí)驗(yàn)方案
在本節(jié)中,我們將介紹用于比較top-N商品推薦的實(shí)驗(yàn)方案。
配置。我們引入“配置”一詞來表示上述三個(gè)因素的不同選擇的組合,即數(shù)據(jù)集分割,采樣指標(biāo)和領(lǐng)域選擇。我們選擇這三個(gè)因素是因?yàn)檫@些在最近的基于神經(jīng)網(wǎng)絡(luò)的方法文獻(xiàn)中仍然存在一定的分歧(缺乏標(biāo)準(zhǔn)化的討論)。注意,我們不會(huì)列舉這三個(gè)因素的所有可能選項(xiàng),我們只考慮近期研究中流行或有爭(zhēng)議的選項(xiàng)。為了減少其他因素的影響,我們可能通過不同的選項(xiàng)單獨(dú)報(bào)告結(jié)果,也可能根據(jù)先前的研究[3-6]將其設(shè)置為建議的選項(xiàng)。
相關(guān)測(cè)量。在給定配置的情況下,我們可以獲得基于某種指標(biāo)的八種比較方法的一個(gè)排序列表。我們采用三種排序相關(guān)性度量來刻畫兩個(gè)排序之間的相關(guān)性或相似度:(1)Overlap Ratio at top-k positions (OR@k);
(2)Spearman’s Rank Correlation (SRC);
(3)Inversion Pair Count (IPC)。
選擇這三種方法的理由如下。SRC刻畫了整體排序的相關(guān)性,IPC提供了對(duì)SRC值的更直觀的理解,對(duì)于商品推薦,排名靠前的位置需要更多關(guān)注,可由OR@k刻畫。
實(shí)驗(yàn)步驟。給定一個(gè)指標(biāo),我們首先根據(jù)配置(用驗(yàn)證集優(yōu)化)導(dǎo)出八種方法的表現(xiàn)排序。為了檢驗(yàn)一個(gè)因素的影響,我們將通過考慮備選方案來生成多個(gè)配置。然后,利用上述指標(biāo)計(jì)算兩種不同配置下的表現(xiàn)排名之間的關(guān)聯(lián)度。最后,相關(guān)結(jié)果將在23個(gè)數(shù)據(jù)領(lǐng)域上取平均值(除第4.3節(jié)之外)
實(shí)驗(yàn)
在這一部分中,我們給出了與數(shù)據(jù)集分割、采樣指標(biāo)和數(shù)據(jù)領(lǐng)域選擇三個(gè)因素相關(guān)的實(shí)驗(yàn)結(jié)果。當(dāng)考慮一個(gè)因素時(shí),我們會(huì)固定其余兩個(gè)因素。也就是說,在兩個(gè)配置進(jìn)行比較的情況下,我們只改變所研究的因素,而將其余的設(shè)置設(shè)為相同的。
3.1 數(shù)據(jù)集切分分析
我們首先研究不同的數(shù)據(jù)集切分策略(即構(gòu)建訓(xùn)練/驗(yàn)證/測(cè)試集)對(duì)表現(xiàn)排名的影響。
設(shè)置。對(duì)于每個(gè)用戶,我們首先使用兩種方法組織用戶的交互記錄:(1) 隨機(jī)排列(RO),隨機(jī)選擇商品;(2) 時(shí)序排列(TO),根據(jù)交互時(shí)間戳對(duì)商品進(jìn)行排序。然后,可以使用以下兩種常用方法拆分重新排序的用戶項(xiàng)交互序列:(1)基于比率的分割(Ratio-basedSplitting, RS),根據(jù)預(yù)定比率將數(shù)據(jù)集分為三個(gè)部分,以進(jìn)行訓(xùn)練,驗(yàn)證和測(cè)試,此處將比例設(shè)置為8:1:1。我們重復(fù)此過程五次,以生成不同的評(píng)估集,計(jì)算平均結(jié)果。(2)Leave-one-out分割(LS),選擇一個(gè)物品作為測(cè)試集,另一個(gè)物品作為驗(yàn)證集,其余物品全部作為訓(xùn)練集。LS策略可以看作是RS的一個(gè)特例,當(dāng)其中驗(yàn)證集和測(cè)試集都只包含一個(gè)項(xiàng)目??紤]到物品排序和切分方式,可以生成了四個(gè)組合,如圖1所示。
圖1:四種切分策略的說明性示例。用戶與20個(gè)物品交互。項(xiàng)目i的下標(biāo)表示與用戶的交互順序:較小的索引表示較早的交互時(shí)間。我們使用標(biāo)準(zhǔn)、劃線和灰色框分別表示訓(xùn)練集、驗(yàn)證集和測(cè)試集。
結(jié)果。表1中給出了兩種不同配置之間的比較結(jié)果。首先,與切分法(比率法或留一法)相比,物品排列方式(隨機(jī)排列或時(shí)序排列)對(duì)表現(xiàn)排名的影響更為顯著。對(duì)于每一個(gè)指標(biāo),表中前兩行的相關(guān)性數(shù)值顯著弱于最后兩行的相關(guān)性數(shù)值。時(shí)序排列本質(zhì)上應(yīng)用于序列化推薦(Sequential recommendation)的設(shè)置。建議在一般情況下(尤其是評(píng)估時(shí)序不敏感的推薦算法)應(yīng)采用隨機(jī)排序,而在時(shí)序敏感的情況下(如序列化推薦)采用時(shí)序排列。第二,使用相同的物品排列方式,兩種切分方法生成的算法排序非常相似(請(qǐng)參見每個(gè)度量的最后兩行)。實(shí)際上,在最近的文獻(xiàn)[8,11]中,留一法(leave-one-out)評(píng)測(cè)已經(jīng)被廣泛采用。我們建議在一般情況下使用基于比率的切分方式,以獲得更準(zhǔn)確的評(píng)估。然而,對(duì)于小數(shù)據(jù)集,留一法切分可以緩解數(shù)據(jù)稀疏,并且簡(jiǎn)化評(píng)測(cè)環(huán)節(jié)。
表1:數(shù)據(jù)集合切分不同配置的相關(guān)性比較。所有結(jié)果都是基于23個(gè)領(lǐng)域進(jìn)行平均獲得的。這里,“RS”和“LS”表示基于比率的分割和leave-one-out分割;“RO”和“TO”表示隨機(jī)排列和時(shí)序排列?!啊保ā啊保┍硎驹酱螅ㄐ。┬Ч胶?。
3.2采樣指標(biāo)分析
接下來,我們研究抽樣指標(biāo)(Sampled metrics,只使用一組采樣不相關(guān)物品用于評(píng)測(cè)指標(biāo)的計(jì)算)對(duì)表現(xiàn)排名的影響
采樣設(shè)置。對(duì)于測(cè)試環(huán)節(jié),當(dāng)物品集合很大時(shí),將項(xiàng)目集中的所有未交互物品都作為候選對(duì)象是很費(fèi)時(shí)的。所以,目前一種流行的方法是將采樣一小部分不相關(guān)物品進(jìn)行計(jì)算。這種方法稱為采樣指標(biāo)[7]。我們考慮了兩種采樣策略:隨機(jī)采樣和流行度采樣,即根據(jù)均勻分布或基于頻率的分布對(duì)不相物品進(jìn)行采樣。我們進(jìn)一步考慮使用三個(gè)不同數(shù)量的不相關(guān)樣本,即{10,50,100},這意味著一個(gè)真實(shí)物品將與10個(gè)、50個(gè)或100個(gè)采樣獲得的不相關(guān)物品配對(duì)。當(dāng)我們采用leave-one-out法分割時(shí),情況變?yōu)閞eal-plus-N[3,6]。為了進(jìn)行比較,我們將整個(gè)商品集(不包括真實(shí)物品)的排序作為參考排名。根據(jù)第4.1節(jié),對(duì)于數(shù)據(jù)集切分,在所有比較配置中采用基于比率的數(shù)據(jù)集分割(用RS表示)和隨機(jī)排序(用RO表示)。
實(shí)驗(yàn)結(jié)果。表2展示了不同采樣指標(biāo)的相關(guān)結(jié)果,這些結(jié)果遠(yuǎn)小于表1中的數(shù)值。這表明使用采樣指標(biāo)對(duì)表現(xiàn)排名有較大影響。事實(shí)上,最近的研究已經(jīng)討論過這樣一個(gè)問題[7]:采樣指標(biāo)可能得不到一致的排序。另一個(gè)觀察的結(jié)果是,采樣更多不相關(guān)的項(xiàng)目增加了采樣指標(biāo)和準(zhǔn)確指標(biāo)之間的相關(guān)度。最后,不同的采樣策略可能會(huì)導(dǎo)致某些特定算法的表現(xiàn)動(dòng)蕩,從而嚴(yán)重影響表現(xiàn)排名。比較兩種采樣策略,均勻采樣與整體排名的相關(guān)性似乎更高。一般來說,采樣指標(biāo)不應(yīng)使用于小數(shù)據(jù)集。如果需要,我們建議采樣更多不相關(guān)的物品(如[9]建議的1000個(gè)項(xiàng)目)。
表2:采樣指標(biāo)不同配置的相關(guān)性比較。表中結(jié)果對(duì)于23個(gè)領(lǐng)域進(jìn)行了平均?!?={RO,RS}”表示用于使用隨機(jī)排序?qū)τ谖锲愤M(jìn)行排列,使用基于比率的方法進(jìn)行切分,“pop”/“uni”表示流行度/均勻采樣,下標(biāo)表示采樣數(shù)量,“all”表示使用所有物品進(jìn)行評(píng)測(cè)。
3.3數(shù)據(jù)鄰域選擇分析
這里,我們考慮不同領(lǐng)域是否會(huì)導(dǎo)致不同的表現(xiàn)排名。這個(gè)問題對(duì)于回答如何選擇合適的數(shù)據(jù)集進(jìn)行評(píng)測(cè)很有用。
實(shí)驗(yàn)設(shè)置。給定兩個(gè)領(lǐng)域,我們首先根據(jù)第4.1節(jié)和第4.2節(jié)中建議的設(shè)置(RO,RS,all)生成一個(gè)配置,然后基于某個(gè)指標(biāo)獲得每個(gè)領(lǐng)域下的表現(xiàn)排名。然后,我們計(jì)算了兩個(gè)領(lǐng)域排名之間的Spearman’sRank Correlation得分。我們對(duì)所有指標(biāo)的SRC得分取平均值。最后的分?jǐn)?shù)用來衡量?jī)蓚€(gè)領(lǐng)域之間的相關(guān)性。
實(shí)驗(yàn)結(jié)果。圖2顯示了兩個(gè)領(lǐng)域之間的平均相關(guān)結(jié)果。我們對(duì)行和列進(jìn)行重新排序,以便可以在對(duì)角線上聚合較大的值。有趣的是,整個(gè)熱度圖似乎包含四大塊(組),其中組內(nèi)相關(guān)值高于組間相關(guān)值。結(jié)果表明,在相同的配置下,不同的領(lǐng)域可能會(huì)產(chǎn)生不同的表現(xiàn)排名。因此,評(píng)估時(shí)應(yīng)考慮領(lǐng)域差異。通過對(duì)數(shù)據(jù)集的考察,我們發(fā)現(xiàn)領(lǐng)域特征(例如,第一組主要對(duì)應(yīng)于數(shù)字產(chǎn)品)和稀疏程度(如用戶-項(xiàng)目交互比率)似乎對(duì)相關(guān)結(jié)果有顯著影響。使用多個(gè)來來自于不同領(lǐng)域、稀疏度不同的數(shù)據(jù)集是個(gè)好方法。這里,“領(lǐng)域”是指Amazon數(shù)據(jù)集的類別。我們將在未來的工作中使用更多的數(shù)據(jù)集來研究這個(gè)問題。
圖2:成對(duì)領(lǐng)域相關(guān)性的可視化。每個(gè)單元格表示兩個(gè)領(lǐng)域之間計(jì)算的相關(guān)性分?jǐn)?shù)(顏色越深表示值越大)。
結(jié)語
我們通過實(shí)驗(yàn)檢驗(yàn)了三個(gè)重要因素對(duì)于top-N推薦算法評(píng)測(cè)的影響。我們的實(shí)驗(yàn)結(jié)果為物品推薦算法提出了一些經(jīng)驗(yàn)建議。首先,對(duì)于數(shù)據(jù)集切分,建議使用基于比例切分方式并且使用隨機(jī)物品排列方式(非時(shí)序推薦任務(wù)),而leave-one-out切分方式可以用于較小數(shù)據(jù)集或者加快評(píng)測(cè)流程(如調(diào)參過程)。第二,應(yīng)該謹(jǐn)慎使用采樣指標(biāo)。如果使用,我們建議加大采樣樣本數(shù)。第三,建議使用來自不同領(lǐng)域的多個(gè)數(shù)據(jù)集合作為評(píng)測(cè)數(shù)據(jù)集合。在未來的工作中,我們還將研究更多因素和數(shù)據(jù)集合來進(jìn)一步完善當(dāng)前的工作。
責(zé)任編輯人:CC
-
top-N
+關(guān)注
關(guān)注
0文章
2瀏覽量
6551
原文標(biāo)題:【CIKM2020】如何更為合適地評(píng)測(cè)推薦算法? Top-N物品推薦算法評(píng)測(cè)設(shè)置回顧
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論