編者按:Cheng-Tao Chu簡要概述了統計假設測試、多臂老虎機(湯普森采樣)方法后,揭示了多臂老虎機在實踐中的優勢。
隨著精益創業和大數據的興起,越來越多的公司開始擁抱A/B測試。盡管業界開始基于數據統計測試特性這一點很是振奮人心,但很少有公司意識到多臂老虎機這一優于傳統統計假設測試的替代方案。本文將概述為何在大多數應用中,多臂老虎機優于假設測試。不熟悉為何基于數據測試特性很重要的讀者,可以看看我之前寫的博客文章 Bridging the gap between lean startup in theory and in practice。需要社會認同的讀者,Google Analytics用的就是多臂老虎機方案。
統計假設測試概述
A/B測試的假設測試的目標是查明觀測到的轉化率差異是否有運氣以外的解釋。標準方法如下:
計算零假設(null hypothesis)下的采樣分布
計算采樣分布下觀測到的似然,并
將概率與預先確定的閾值比較
盡管初看起來很直觀,實際上它需要不少統計學知識來恰當地設計試驗及解釋結果。例如:
如何約束第二類錯誤?
如何同時測試兩個以上的實驗組?
需要多少項觀測?
正確的閾值是多少?
能不能提前查看結果并及早終止試驗?
多臂老虎機概述
“多臂老虎機”這一名稱描述了這樣一個場景:一名賭徒面對著幾臺“單臂老虎機”,每臺老虎機的期望返水不同。目標是最大化一系列拉桿操作的總回報。為了達成這一目標,多臂老虎機動態平衡通過拉動不確定的搖桿收集信息的代價(探索)和拉動已知回報豐厚的拉桿的累計回報(利用)。
在A/B測試的語境下,每臺老虎機代表試驗中的一個實驗組,每次拉動搖桿代表一個實驗組的一次曝光,累計回報代表累計轉化。多臂老虎機問題有很多不同的算法,比如UCB、Epsilon-Greedy等,本文將聚焦于一種名為“湯普森采樣”的算法。
湯普森采樣概述
湯普森采樣的思路非常簡單。該算法維護每臂的返水率的后驗分布,按照在該后驗分布下給定臂最優的概率,成比例地拉動拉桿,接著根據新觀測更新后驗。例如,對兩個觀測到轉化率為10/150和5/100(轉化數/曝光)的實驗組而言,其后驗轉化率分布為Beta(10, 140)和(5, 95)。根據轉化率,后續的測試應該在第一個實驗組上進行,因為該組的轉化率較高。但湯普森采樣并不采用這種確定的方法,而是基于當前的后驗轉化率分布隨機取樣,決定在哪個實驗組上進行,兩者的概率分別為P(第一組是最佳實驗組)和P(第二組是最佳實驗組)。最后,根據新觀測數據更新后驗分布。致不熟悉貝葉斯統計的讀者,貝塔分布經常用作伯努利分布(用來建模轉化率)的共軛先驗分布。
比較
現在我們已經基本了解統計假設測試和多臂老虎機(湯普森采樣),讓我們比較一下兩者。
湯普森采樣更簡單。要恰當地解釋統計假設測試,從業者需要對基本的統計學測試具有良好的理解,例如,提前查看結果需要了解功效分析、偏差修正,處理多實驗組同樣需要了解偏差修正,等等。另一方面,從業者只需理解基本的貝葉斯統計就可以理解湯普森采樣。解釋結果時,較簡單的概念不容易出錯。
湯普森采樣直接估計哪個臂最優的概率。統計假設測試試圖回答“假定所有實驗組轉化率相同的極端情形下,觀測到當前狀況的概率”。而湯普森采樣則試圖回答“給定這些觀測,給定的每個臂最優的概率”。盡管這兩個問題都是合理的,湯普森采樣要容易理解得多,并自然而然地折衷第一類錯誤和第二類錯誤。
多臂老虎機通常更快收斂。由于多臂老虎機方案是自適應的,識別最佳臂(如果它存在)所需的試驗數通常遠低于統計假設測試所需的試驗數。然而,它也意味著,當所有實驗組一樣的時候,需要一個單獨的停止標準。
多臂老虎機可以自然地推廣至多實驗組。這是多臂老虎機真正出彩之處。由于多臂老虎機是自適應的,它可以很快決定哪個臂不太可能是最優的,并以較低的概率拉動這些較差的拉桿。另一方面,在統計假設測試中,每個實驗組分配到的試驗數目是一樣的(由試驗之前的功效分析決定)。
總結一下,在實踐中,相比傳統統計假設測試,多臂老虎機有許多優勢。它通常更快收斂,誤解的空間更小,能更好地推廣至多實驗組,需要調節的參數也較少。向認真對待A/B測試的創業公司強烈推薦多臂老虎機方法。
如果你喜歡這篇博客文章,可以在Twitter上關注我(chengtao_chu)或者訂閱我的博客ML in the Valley。另外,特別感謝 Ian Wong(ihat)和Bob Ren (bobrenjc93) 審閱本文草稿。
-
算法
+關注
關注
23文章
4607瀏覽量
92840 -
大數據
+關注
關注
64文章
8882瀏覽量
137403
原文標題:A/B測試:對比統計假設測試與多臂老虎機
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論