在上一篇文章中,我們介紹了不確定性的種類,并且學習了幾種方法對其建模。現在我們要討論如何在應用中使用它們。
在這篇文章中,我們會提出“探索-利用”問題,向大家展示不確定性能如何幫助解決這個問題。我們將重點關注對推薦系統的探索,但是同樣的想法可以在很多強化學習應用中使用,例如自動駕駛汽車、機器人等。
問題概述
推薦系統的目標是推薦用戶可能感興趣的內容。在我們的網站,會通過點擊量看用戶的喜好,我們會展示出一個小部件,其中包含內容推薦,如果用戶想看其中的內容,他們會點擊。
用戶點擊某一內容的概率稱為點擊率(CTR)。如果我們知道所有內容的點擊率,那么如何選擇內容進行推薦就很容易了:推薦CTR高的內容。
但問題是我們不知道什么是CTR時怎么辦。我們有一個模型可以估計它,但很顯然結果并不完美,其中的愿意就是推薦系統中蘊含的各種不確定性,我們在上一篇文章中已經總結過了。
探索 vs 利用
假設你走進了一家冰淇淋商店,要從30多種口味中選出一種喜歡的。你也許會選擇曾經嘗過的最好吃的味道,或者探索一種從未嘗過的新口味,也許會發現驚喜。
這兩種策略就是“探索”(exploration)和“利用”(exploitation)。我們可以利用已知的有較高CTR值的項目,或者也可以探索其他新的項目。將探索加入到推薦策略中是非常重要的,不然的話,新內容無法得到曝光。
探索方法
你能使用的最簡單的“探索-利用”方法就是?-貪婪算法,其中將?作為隨機選擇某個新內容的概率,剩下的概率用來對其進行利用。
盡管并不是最優法,這種方法非常易于理解。它可以作為其他復雜方法的基本標準,那么如何用更好的方法尋找優質內容呢?
另一種高級的方法稱為Upper Confidence Bound(UCB),它利用了不確定性。每條內容都與它所期望的CTR以及CTR周圍的置信上限(confidence bound)。置信上限可以表示我們對該項目的CTR不確定的程度有多大。普通的UCB算法通過實證信息記錄CTR和置信上限:我們會跟蹤記錄每個項目的實證CTR,同時通過假設二項式分布計算置信上限。
仍然是上面的冰淇淋店的例子,假如你每次必點的是巧克力口味的冰淇淋,你給它打8分(滿分10分)。今天店里推出了新口味,你不知道它是什么味道(缺乏實證信息),這也就意味著它可能是1到10分之間。利用這一置信上限,如果你想嘗試探索,那么就可以嘗嘗,因為這種口味有可能是10分。
這就是UCB的原理——你先選擇有最高UCB值的項目,在我們的案例中就是CTR的置信上限較大的項目。隨著時間的發展,假設的CTR會逐漸變成真值CTR,置信上限會縮小到0。經過足夠的時間,我們就能探尋所有項目了。
另一個流行的方法是湯普森采樣法(Thompson Sampling)。在這種方法下,我們用該項目的CTR完全的估計分布而不是置信上線。對每個項目,我們都會從他的分布中采樣一個CTR。
這種方法也許在數量固定的項目上表現得很好,但不幸的是,我們的Taboola網站每天都有上千個項目更新,當我們得到了某一個可能的置信上限后,項目可能就離開系統了。
所以我們需要一種方法能計算從未見過的新項目的CTR估值。
假設現在來了一種新的巧克力味冰淇淋,因為你之前非常喜歡冰淇淋,所以你覺得這個應該也不錯。在普通的UCB方法中,你僅僅用實驗信息是無法推斷出這一結論的。
在接下來的文章中,我們會詳細解釋如何用神經網絡估計某一新項目的CTR值,同時如何顧及不確定性的水平。利用不確定性,我們可以應用UCB方法探索新項目。
在線尺度和結果
那么,我們怎樣才能知道自己探索的新項目如何呢?這時候就需要用測量方法對探索結果進行評估了。在Taboola,我們用的是A/B測試。
回到冰淇淋的問題,我們假設你帶了一個朋友,他可以幫你探索新口味,很顯然如果你的一位朋友隨機挑選了一種口味,他可以確切地知道這種口味好不好,但這卻不是最聰明的方法。之后,另一位朋友也點了別人覺得好吃的口味,那么他的嘗試是沒有意義的。
在Taboola網站,我們用以下方法測量探索結果:對每個經過多次展示的項目,以及出現在多個不同語境下的項目,我們認為已經經過了探索階段。之后,我們會分析那種模型能夠生成成功的結果。為了計算,模型必須多次展示該項目。
利用這一方法,模型的輸出就是該項目被判斷的次數。
利用這一方法,我們可以認為,隨機展示項目可以生成最佳結果,沒有用UCB方法的模型卻也展示出良好的項目,但不會生成好的結果。于是,我們認為我們的UCB模型在探索新項目和選擇好項目之間做了平衡,從長遠來看這種取舍是值得的。
結語
“探索-利用”問題對很多公司的推薦系統來說都是重要的挑戰,我們希望這篇文章能為從業者提供幫助。在接下來的文章中,我們將具體詳解估計CTR和不確定性的模型,敬請關注!
-
神經網絡
+關注
關注
42文章
4771瀏覽量
100719 -
CTR
+關注
關注
0文章
37瀏覽量
14101
原文標題:建立推薦系統的新思路:用不確定性探索未知
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論