色噜噜视频影院,怎样看毛片,亚洲精品中文字幕午夜

原文作者：Martin Zinkevich

整理：張相於

作者介紹

Martin Zinkevich現(xiàn)在是谷歌大腦的高級科學(xué)家，負(fù)責(zé)和參與了YouTube、Google Play 以及Google Plus等產(chǎn)品中的機(jī)器學(xué)習(xí)項(xiàng)目，本文也是基于作者在這三個(gè)產(chǎn)品上面做機(jī)器學(xué)習(xí)項(xiàng)目的各種經(jīng)驗(yàn)和教訓(xùn)提煉而成。在加入谷歌之前是雅虎的高級科學(xué)家，曾在2010年和2011年兩度獲得雅虎的最高榮譽(yù)Yahoo Team Superstar Awards，對雅虎的廣告系統(tǒng)做出過很多杰出貢獻(xiàn)。

梗概介紹

本文把在產(chǎn)品中應(yīng)用機(jī)器學(xué)習(xí)的過程從淺到深分成了三個(gè)大的階段，又在這三個(gè)大的階段中細(xì)分出了一些方面，以此對43條規(guī)則進(jìn)行邏輯分類。簡單來說，如果你是從頭開始做機(jī)器學(xué)習(xí)系統(tǒng)，那么就可以在不同階段參考這里面對應(yīng)的條目，來保證自己走在正確的道路上。

正文開始

To make great products:do machine learning like the great engineer you are, not like the great machine learning expert you aren’t.

這句話一定程度上是對整篇文章（叫手冊可能更合適）的一個(gè)高度概括，ML在實(shí)際工作確實(shí)更多是工程問題，而不是算法問題。優(yōu)先從工程效率中要效果，當(dāng)把這部分榨干后，再考慮算法的升級。

Before Machine Learning

Rule #1: Don’t be afraid to launch a product without machine learning.

規(guī)則1：不要害怕上線沒有機(jī)器學(xué)習(xí)的產(chǎn)品。

中心思想一句話概括：If you think that machine learning will give you a 100% boost, then a heuristic will get you 50% of the way there.

Rule #2: First, design and implement metrics.

規(guī)則2：在動手之前先設(shè)計(jì)和實(shí)現(xiàn)評價(jià)指標(biāo)。

在構(gòu)建具體的機(jī)器學(xué)習(xí)系統(tǒng)之前，首先在當(dāng)前系統(tǒng)中記錄盡量詳細(xì)的歷史信息，留好特征數(shù)據(jù)。這樣不僅能夠留好特征數(shù)據(jù)，還能夠幫助我們隨時(shí)了解系統(tǒng)的狀態(tài)，以及做各種改動時(shí)系統(tǒng)的變化。

Rule #3: Choose machine learning over a complex heuristic.

規(guī)則3：不要使用過于復(fù)雜的規(guī)則系統(tǒng)，使用機(jī)器學(xué)習(xí)系統(tǒng)。

簡單來講，復(fù)雜的規(guī)則系統(tǒng)難以維護(hù)，不可擴(kuò)展，而我們很簡單就可以轉(zhuǎn)為ML系統(tǒng)，變得可維護(hù)可擴(kuò)展。

ML Phase I: Your First Pipeline

構(gòu)建第一個(gè)ML系統(tǒng)時(shí)，一定要更多關(guān)注系統(tǒng)架構(gòu)的建設(shè)。雖然機(jī)器學(xué)習(xí)的算法令人激動，但是基礎(chǔ)架構(gòu)不給力找不到問題時(shí)會令人抓狂。

Rule #4: Keep the first model simple and get the infrastructure right.

規(guī)則4：第一個(gè)模型要簡單，但是架構(gòu)要正確。

第一版模型的核心思想是抓住主要特征、與應(yīng)用盡量貼合以及快速上線。

Rule #5: Test the infrastructure independently from the machine learning.

規(guī)則5：獨(dú)立于機(jī)器學(xué)習(xí)來測試架構(gòu)流程。

確保架構(gòu)是可單獨(dú)測試的，將系統(tǒng)的訓(xùn)練部分進(jìn)行封裝，以確保其他部分都是可測試的。特別來講：

測試數(shù)據(jù)是否正確進(jìn)入訓(xùn)練算法。檢查具體的特征值是否符合預(yù)期。
測試實(shí)驗(yàn)環(huán)境給出的預(yù)測結(jié)果與線上預(yù)測結(jié)果是否一致。

Rule #6: Be careful about dropped data when copying pipelines.

規(guī)則6：復(fù)制pipeline時(shí)要注意丟棄的數(shù)據(jù)。

從一個(gè)場景復(fù)制數(shù)據(jù)到另一個(gè)場景時(shí)，要注意兩邊對數(shù)據(jù)的要求是否一致，是否有數(shù)據(jù)丟失的情況。

Rule #7: Turn heuristics into features, or handle them externally.

規(guī)則7：將啟發(fā)規(guī)則轉(zhuǎn)化為特征，或者在外部處理它們。

機(jī)器學(xué)習(xí)系統(tǒng)解決的問題通常都不是新問題，而是對已有問題的進(jìn)一步優(yōu)化。這意味著有很多已有的規(guī)則或者啟發(fā)式規(guī)則可供使用。這部分信息應(yīng)該被充分利用（例如基于規(guī)則的推薦排序時(shí)用到的排序規(guī)則）。下面是幾種啟發(fā)式規(guī)則可以被使用的方式：

用啟發(fā)規(guī)則進(jìn)行預(yù)處理。如果啟發(fā)式規(guī)則非常有用，可以這么用。例如在垃圾郵件識別中，如果有發(fā)件人已經(jīng)被拉黑了，那么就不要再去學(xué)“拉黑”意味著什么，直接拉黑就好了。
制造特征。可以考慮從啟發(fā)式規(guī)則直接制造一個(gè)特征。例如，你使用啟發(fā)式規(guī)則來計(jì)算query的相關(guān)性，那么就可以把這個(gè)相關(guān)性得分作為特征使用。后面也可以考慮將計(jì)算相關(guān)性得分的原始數(shù)據(jù)作為特征，以期獲得更多的信息。
挖掘啟發(fā)式規(guī)則的原始輸入。如果有一個(gè)app的規(guī)則啟發(fā)式規(guī)則綜合了下載數(shù)、標(biāo)題文字長度等信息，可以考慮將這些原始信息單獨(dú)作為特征使用。
修改label。當(dāng)你覺得啟發(fā)式規(guī)則中包含了樣本中沒有包含的信息時(shí)可以這么用。例如，如果你想最大化下載數(shù)，同時(shí)還想要追求下載內(nèi)容的質(zhì)量。一種可行的方法是將label乘以app的平均star數(shù)。在電商領(lǐng)域，也常常用類似的方法，例如在點(diǎn)擊率預(yù)估的項(xiàng)目中，可考慮對最終下單的商品或者高質(zhì)量的商品對應(yīng)的樣本增加權(quán)重。

已有的啟發(fā)式規(guī)則可以幫助機(jī)器學(xué)習(xí)系統(tǒng)更平滑的過渡，但是也要考慮是否有同等效果更簡單的實(shí)現(xiàn)方式。

Monitoring

概括來講，要保持好的監(jiān)控習(xí)慣，例如使報(bào)警是可應(yīng)對的，以及建設(shè)一個(gè)Dashboard頁面。

Rule #8: Know the freshness requirements of your system.

規(guī)則8：了解你系統(tǒng)對新鮮度的要求。

如果模型延遲一天更新，你的系統(tǒng)會受到多大的效果影響？如果是一周的延遲呢？或者更久？這個(gè)信息可以讓我們排布監(jiān)控的優(yōu)先級。如果模型一天不更新收入就會下降10%，那么可以考慮讓一個(gè)工程師全天候監(jiān)控它。了解系統(tǒng)對新鮮度的要求是決定具體監(jiān)控方案的第一步。

Rule #9: Detect problems before exporting models.

規(guī)則9：在模型上線之前檢測問題。

模型上線前一定要做完整性、正確性檢查，例如AUC、Calibration、NE等指標(biāo)的計(jì)算確認(rèn)等。如果是模型上線前出了問題，可以郵件通知，如果是用戶正在使用的模型出了問題，就需要電話通知了。

Rule #10: Watch for silent failures.

規(guī)則10：關(guān)注靜默失敗。

這是一個(gè)非常重要，而又經(jīng)常容易被忽略的問題。所謂的靜默失敗指的是全部流程都正常完成，但是背后依賴數(shù)據(jù)出了問題，導(dǎo)致模型效果逐步下降的問題。這種問題在其他系統(tǒng)中并不常出現(xiàn)，但是在機(jī)器學(xué)習(xí)系統(tǒng)中出現(xiàn)幾率會比較高。例如訓(xùn)練依賴的某張數(shù)據(jù)表很久沒有更新了，或者表中的數(shù)據(jù)含義發(fā)生了變化等，再或者數(shù)據(jù)的覆蓋度忽然變少，都會對效果產(chǎn)生很大的影響。解決方法是是對關(guān)鍵數(shù)據(jù)的統(tǒng)計(jì)信息進(jìn)行監(jiān)控，并且周期性對關(guān)鍵數(shù)據(jù)進(jìn)行人工檢查。

Rule #11: Give feature column owners and documentation.

規(guī)則11：給特征組分配負(fù)責(zé)人，并記錄文檔。

這里的feature column指的是一個(gè)特征組，例如用戶可能屬于的國家這組特征就是一個(gè)feature column。

如果系統(tǒng)龐大，數(shù)據(jù)繁多，那么知道每組數(shù)據(jù)由誰生成就變得非常重要。雖然數(shù)據(jù)都有簡單描述，但是關(guān)于特征的具體計(jì)算邏輯，數(shù)據(jù)來源等都需要更詳細(xì)的記錄。

Your Fist Objective

objective是模型試圖優(yōu)化的值，而metric指的是任何用來衡量系統(tǒng)的值。

Rule #12: Don’t overthink which objective you choose to directly optimize.

規(guī)則12：不要過于糾結(jié)該優(yōu)化哪個(gè)目標(biāo)。

機(jī)器學(xué)習(xí)上線的初期，即使你只優(yōu)化一個(gè)目標(biāo)，很多指標(biāo)一般都會一起上漲的。所以不用太糾結(jié)究竟該優(yōu)化哪個(gè)。

雖然大佬這么說，但是在我自己的實(shí)踐經(jīng)驗(yàn)中，只優(yōu)化一個(gè)目標(biāo)，系統(tǒng)的整體效果卻未必會上漲。典型的如推薦系統(tǒng)的CTR模型，上線之后CTR確實(shí)會提升，但是對應(yīng)的CVR很有可能會下降，這時(shí)還需要一個(gè)CVR模型，兩個(gè)模型同時(shí)使用才能真正提升系統(tǒng)效果。究其原因，是因?yàn)槊總€(gè)目標(biāo)只關(guān)注系統(tǒng)整個(gè)過程的一個(gè)子過程，貪心地去優(yōu)化這個(gè)子過程，不一定能夠得到全局的最優(yōu)解，通常需要把主要的幾個(gè)子過程都優(yōu)化之后，才能取得整體效果的提升。

Rule #13: Choose a simple, observable and attributable metric for your first objective.

規(guī)則13：為你的第一個(gè)objective選擇一個(gè)簡單可觀測可歸因的metric。

objective應(yīng)該是簡單可衡量的，并且是metric的有效代理。最適合被建模的是可直接觀測并被歸因的行為，例如：

鏈接是否被點(diǎn)擊？
軟件是否被下載？
郵件是否被轉(zhuǎn)發(fā)？

……

盡量不要在第一次就建模非直接效果的行為，例如：

用戶第二天是否會訪問？
用戶在網(wǎng)站上停留了多久？
日活用戶有多少？

非直接指標(biāo)是很好的metric，可以用ABTest來進(jìn)行觀測，但不適合用作優(yōu)化指標(biāo)。此外，千萬不要試圖學(xué)習(xí)以下目標(biāo)：

用戶對產(chǎn)品是否滿意？
用戶對體驗(yàn)是否滿意？

……

這些指標(biāo)非常重要，但是非常難以學(xué)習(xí)。應(yīng)該使用一些代理指標(biāo)來學(xué)習(xí)，通過優(yōu)化代理指標(biāo)來優(yōu)化這些非直接指標(biāo)。為了公司的發(fā)展著想，最好有人工來連接機(jī)器學(xué)習(xí)的學(xué)習(xí)目標(biāo)和產(chǎn)品業(yè)務(wù)。

Rule #14: Starting with an interpretable model makes debugging easier.

規(guī)則14：使用可解釋性強(qiáng)的模型可降低debug難度。

優(yōu)先選擇預(yù)測結(jié)果有概率含義、預(yù)測過程可解釋的模型，可以更容易的確認(rèn)效果，debug問題。例如，如果使用LR做分類，那么預(yù)測過程不外乎一些相乘和相加，如果特征都做了離散化，就只有加法了，這樣很容易debug一條樣本的預(yù)測得分是如何被計(jì)算出來的。所以出了問題很容易debug。

Rule #15: Separate Spam Filtering and Quality Ranking in a Policy Layer.

規(guī)則15：將垃圾過濾和質(zhì)量排序的工作分離，放到策略層（policy layer）。

排序系統(tǒng)工作的環(huán)境中數(shù)據(jù)分布是相對靜態(tài)的，大家為了得到更好的排序，會遵守系統(tǒng)制定的規(guī)則。但是垃圾過濾更多是個(gè)對抗性質(zhì)的工作，數(shù)據(jù)分布會經(jīng)常變動。所以不應(yīng)該讓排序系統(tǒng)去處理垃圾信息的過濾，而是應(yīng)該有單獨(dú)的一層去處理垃圾信息。這也是一種可以推廣的思想，那就是：排序?qū)又蛔雠判驅(qū)拥氖虑椋氊?zé)盡量單一，其他工作讓架構(gòu)上更合適的模塊去處理。此外，為了提升模型效果，應(yīng)該把垃圾信息從訓(xùn)練數(shù)據(jù)中去除。

ML Phase II: Feature Engineering

前面第一階段的重點(diǎn)是把數(shù)據(jù)喂到學(xué)習(xí)系統(tǒng)中，有了基礎(chǔ)的監(jiān)控指標(biāo)，有了基礎(chǔ)的架構(gòu)。等這一套系統(tǒng)建立起來后，第二階段就開始了。

整體來講，第二階段的核心工作是將盡量多的有效特征加入到第一版的系統(tǒng)中，一般都可以取得提升。

Rule #16: Plan to launch and iterate.

規(guī)則16：做好持續(xù)迭代上線的準(zhǔn)備。

簡單來說，就是要深刻認(rèn)識到，系統(tǒng)優(yōu)化永遠(yuǎn)沒有終點(diǎn)，所以系統(tǒng)設(shè)計(jì)方面要對迭代非常友好。例如增加刪除特征是否足夠簡單，正確性驗(yàn)證是否足夠簡單，模型迭代是否可以并行運(yùn)行，等等。

這雖然不是一條具體可行動的（actionable）規(guī)則，但是這種思想上的準(zhǔn)備對整個(gè)系統(tǒng)的開發(fā)很有幫助。只有真正深刻意識到了系統(tǒng)持續(xù)迭代上線的本質(zhì)，才會在設(shè)計(jì)在線和離線架構(gòu)時(shí)為持續(xù)迭代最好相應(yīng)的設(shè)計(jì)，并做好相應(yīng)的工具，而不是做一錘子系統(tǒng)。

Rule #17: Start with directly observed and reported features as opposed to learned features.

規(guī)則17：優(yōu)先使用直接觀測或收集到的特征，而不是學(xué)習(xí)出來的特征。

所謂學(xué)習(xí)出來的特征，指的是用另外的算法學(xué)習(xí)出來的特征，而非可以直接觀測或收集到的簡單特征。學(xué)習(xí)出來的特征由于存在外部依賴，或者計(jì)算邏輯復(fù)雜，不一定適用于你當(dāng)前的模型，所以穩(wěn)定性和有效性會有風(fēng)險(xiǎn)。而直接可觀測的特征由于是相對比較客觀的，依賴較少的，所以比較穩(wěn)定。

Rule #18: Explore with features of content that generalize across contexts.

規(guī)則18：探索使用可以跨場景的內(nèi)容特征。

中心思想是在說，要多利用可以在多個(gè)場景下使用的特征，例如全局的點(diǎn)擊率、瀏覽量這些特征，可以在多個(gè)場景下作為特征使用。這樣可以在一些冷啟動或者缺乏有效特征的場景下作為特征使用。

Rule #19: Use very specific features when you can.

規(guī)則19：盡量使用非常具體的特征。

如果數(shù)據(jù)量足夠大，那么相比少數(shù)復(fù)雜特征，使用海量簡單特征是更簡單有效的選擇。

所謂非常具體，指的是覆蓋樣本量比較少的特征，例如文檔的ID或者query的ID等。這樣的特征雖然每個(gè)只覆蓋很少一部分特征，但是只要這一組特征整體能夠覆蓋率比較高，例如90%，那就是OK的。而且還可以通過正則化來消除覆蓋率過低或者相關(guān)性差的特征。這也是大家都偏愛大規(guī)模ID特征的一個(gè)原因，現(xiàn)在很多大廠的排序模型特征都大量使用了大規(guī)模ID特征。

Rule #20: Combine and modify existing features to create new features in human--understandable ways.

規(guī)則20：用人類可理解的方式對已有特征進(jìn)行組合、修改來得到新特征。

離散化和交叉是最常用的兩種特征使用方式。其本質(zhì)都是用特征工程的方式，在不改變使用模型本身的情況下增加模型的非線性。這兩種方法本身沒什么好說的，值得一致的是，在大規(guī)模ID類特征的交叉時(shí)，例如一段是query里的關(guān)鍵詞，另一端是文檔里的關(guān)鍵詞，那就會產(chǎn)生很大量級的交叉特征，這時(shí)有兩種處理方法：

點(diǎn)積。其實(shí)計(jì)算query和文檔共同包含的關(guān)鍵詞數(shù)量。
交集。每一維特征的含義是某個(gè)詞同時(shí)出現(xiàn)在了query和文檔中，同時(shí)出現(xiàn)則該維特征為1，否則為0。

所謂“人類可理解的方式”，我的理解就是離散化和交叉要基于對業(yè)務(wù)邏輯的理解，不能亂交叉。

Rule #21: The number of feature weights you can learn in a linear model is roughly proportional to the amount of data you have.

規(guī)則21：線性模型中可學(xué)到的特征權(quán)重?cái)?shù)量，與訓(xùn)練數(shù)據(jù)的數(shù)量大體成正比。

這背后有復(fù)雜的統(tǒng)計(jì)原理做支撐，但你只需要知道結(jié)論就可以了。這個(gè)原則給我們的啟示，是要根據(jù)數(shù)據(jù)量來選擇特征的生成方式，例如：

如果你的系統(tǒng)是一個(gè)搜索系統(tǒng)，query和文檔中有百萬級的詞，但是你只有千級別的標(biāo)注樣本。那你就別用ID級關(guān)鍵詞特征了，而是要考慮點(diǎn)積類特征，把特征數(shù)量控制在幾十個(gè)這個(gè)級別。
如果你擁有百萬級樣本，那么可以將文檔和query的關(guān)鍵詞進(jìn)行交叉特征，然后用正則化進(jìn)行特征選擇。這樣你會得到百萬級特征，但是正則化之后會更少。所以說，千萬級樣本，十萬級特征。
如果你有十億級或者更高級別的樣本，那么你可以使用query和文檔的ID級特征，然后加上特征選擇和正則化。十億級樣本，千萬級特征。

總結(jié)起來就是，根據(jù)樣本決定特征使用方式，樣本不夠就對特征進(jìn)行高層次抽象處理，指導(dǎo)和樣本量級相匹配。

Rule #22: Clean up features you are no longer using.

規(guī)則22：清理不再使用的特征。

如果某個(gè)特征已經(jīng)沒有用，并且它與其他特征的交叉也已經(jīng)沒有用，就應(yīng)該將其清理掉，保持架構(gòu)的整潔性。

在考慮添加或保留哪些特征時(shí)，需要統(tǒng)計(jì)一下特征的樣本覆蓋率，例如一些整體覆蓋率很低的個(gè)性化feature column，只有很少用戶能覆蓋到，那么大概率這組特征作用不大。但另一方面，如果某個(gè)特征覆蓋率很低，例如只有1%，但是其區(qū)分度非常大，例如90%取值為1的樣本都是正樣本，那么這個(gè)特征就值得加入或保留。

Human Analysis of the System

在更進(jìn)一步之前，我們需要了解一些機(jī)器學(xué)習(xí)課程上不會教你的內(nèi)容：如何觀察分析模型，并改進(jìn)它。用作者的話說，這更像是一門藝術(shù) ，但仍然有一些規(guī)律可循。

Rule #23: You are not a typical end user.

規(guī)則23：你不是一個(gè)典型的終端用戶。

這條規(guī)則的中心思想是說，雖然吃自己的狗食是必要的，但也不要總是從工程師的角度來衡量模型的好壞。這不僅可能不值當(dāng)，而且可能看不出問題。所謂不值當(dāng)，是因?yàn)楣こ處煹臅r(shí)間太貴了，這個(gè)大家都懂；而所謂看不出問題，是因?yàn)楣こ處熥约嚎醋约洪_發(fā)的模型，容易看不出問題，所謂“不識廬山真面目”。

所以作者認(rèn)為合理的方法是讓真正的終端用戶來衡量模型或產(chǎn)品的好壞。要么通過線上ABTest，要么通過眾包的方式來做。

Rule #24: Measure the delta between models.

規(guī)則24：離線衡量模型之間的差異。

原文沒有說是離線，但我通過上下文理解他說的應(yīng)該是離線。這一條規(guī)則說的是新模型在上線之前，需要先和老模型做差異對比。所謂差異對比，指的是對于同樣的輸入，新舊兩個(gè)模型給出的結(jié)果是否差異足夠大。例如對于同一個(gè)query，兩個(gè)排序模型給出的差異是否足夠大。如果離線計(jì)算發(fā)現(xiàn)差異很小，那也沒必要上線測試了，因?yàn)樯暇€后差異肯定也大不了。如果差異比較大，那么還需要看差異是不是好的差異。通過觀察差異可以得知新模型究竟對數(shù)據(jù)產(chǎn)生了什么影響，這種影響是好是壞。

當(dāng)然，這一切的前提是你需要有一個(gè)穩(wěn)定的對比系統(tǒng)，起碼一個(gè)模型和他自己對比的話差異應(yīng)該非常小，最好是零差異。

Rule #25: When choosing models, utilitarian performance trumps predictive power.

規(guī)則25：當(dāng)選擇模型時(shí)，實(shí)用性指標(biāo)比預(yù)測能力更重要。

這是一條很有用的經(jīng)驗(yàn)。雖然我們訓(xùn)練模型時(shí)objective一般都是logloss，也就是說實(shí)在追求模型的預(yù)測能力。但是我們在上層應(yīng)用中卻可能有多種用途，例如可能會用來排序，那么這時(shí)具體的預(yù)測能力就不如排序能力重要；如果用來劃定閾值然后跟根據(jù)閾值判斷垃圾郵件，那么準(zhǔn)確率就更重要。當(dāng)然大多數(shù)情況下這幾個(gè)指標(biāo)是一致的。

除了作者說的這一點(diǎn)，還有一種情況是需要特別注意的，那就是我們在訓(xùn)練時(shí)可能會對樣本做采樣，導(dǎo)致得到的預(yù)測值整體偏高或偏低。如果這個(gè)預(yù)測值是用來直接排序的，那么這個(gè)變化關(guān)系不大，但如果有其他用處，例如和另外的值相乘，典型的如廣告場景下的CTR*bid，或者電商推薦排序下的CTR*CVR，在這類場景下，預(yù)測值本身的準(zhǔn)確性也很重要，就需要對其進(jìn)行校準(zhǔn)(calibrate)，使其與采樣前的樣本點(diǎn)擊率對齊。

Rule #26: Look for patterns in the measured errors, and create new features.

規(guī)則26：在錯(cuò)誤中發(fā)現(xiàn)模式，并創(chuàng)建新特征。

這算是一種用來提升模型效果的通用思路。具體來說，指的是觀察訓(xùn)練數(shù)據(jù)中模型預(yù)測錯(cuò)誤的樣本，看看是否能夠通過添加額外特征來使得這條樣本被模型預(yù)測正確。之所以使用訓(xùn)練集中的數(shù)據(jù)，是因?yàn)檫@部分?jǐn)?shù)據(jù)是模型已經(jīng)試圖優(yōu)化過的，這里面的錯(cuò)誤，是模型知道自己搞錯(cuò)了，目前學(xué)不出來的，所以如果你給它足夠好的其他特征，它或許就能把這條樣本學(xué)對了。

一旦發(fā)現(xiàn)錯(cuò)誤的模式，就可以在當(dāng)前系統(tǒng)之外尋找新的特征。例如，如果你發(fā)現(xiàn)當(dāng)前系統(tǒng)傾向于錯(cuò)誤地把長文章排到后面，那么就可以加入文章長度這一特征，讓系統(tǒng)去學(xué)習(xí)文章長度的相關(guān)性和重要性。

Rule #27: Try to quantify observed undesirable behavior.

規(guī)則27：盡量將觀測到的負(fù)面行為量化。

如果在系統(tǒng)中觀察到了模型沒有優(yōu)化到的問題，典型的例如推薦系統(tǒng)逼格不夠這種問題，這時(shí)應(yīng)該努力將這種不滿意轉(zhuǎn)化為具體的數(shù)字，具體來講可以通過人工標(biāo)注等方法標(biāo)注出不滿意的物品，然后進(jìn)行統(tǒng)計(jì)。如果問題可以被量化，后面就可以將其用作特征、objective或者metric。整體原則就是“先量化，再優(yōu)化”。

多說一句，這里的優(yōu)化，不一定是用模型來優(yōu)化，而是指的整體優(yōu)化。比如推薦系統(tǒng)逼格這種問題，模型可能很難優(yōu)化，但是只要能量化出來，就可以通過其他方法來盡量減少，例如單獨(dú)去學(xué)習(xí)有逼格物品的特征，或者在召回階段進(jìn)行一定傾斜。

Rule #28: Be aware that identical short-term behavior does not imply identical long--term behavior.

規(guī)則28：要注意短期內(nèi)觀察到的類似行為不一定會長期存在。

假設(shè)你搞了個(gè)系統(tǒng)，通過學(xué)習(xí)每個(gè)具體的文檔ID和query ID，計(jì)算出了每個(gè)query下每個(gè)文檔的點(diǎn)擊率。通過離線對比和ABTest，你發(fā)現(xiàn)這個(gè)系統(tǒng)的行為和當(dāng)前系統(tǒng)的行為一毛一樣，而這個(gè)系統(tǒng)又更簡單，所以你就把這個(gè)系統(tǒng)上線了。后面你會發(fā)現(xiàn)這個(gè)系統(tǒng)在任何query下都不會給出任何新的文檔。奇怪嗎？一點(diǎn)都不奇怪，因?yàn)槟阒蛔屗涀×酥暗臍v史數(shù)據(jù)，它對新數(shù)據(jù)沒有任何信息。

所以唯一能夠衡量一個(gè)系統(tǒng)是否長期有效的方法，就是讓它使用該模型在線上時(shí)收集到的真實(shí)數(shù)據(jù)上進(jìn)行訓(xùn)練。當(dāng)然這有難度。

往大了說，作者這條規(guī)則其實(shí)說的是個(gè)系統(tǒng)或者模型的泛化能力，如果一個(gè)系統(tǒng)或者模型不能對新數(shù)據(jù)做出很好的預(yù)測，那么無論他的離線表現(xiàn)如何，都不能代表它的真正能力。再換個(gè)角度來看，一個(gè)系統(tǒng)必須具有持續(xù)學(xué)習(xí)適應(yīng)新數(shù)據(jù)的能力，才能是一個(gè)合格的機(jī)器學(xué)習(xí)系統(tǒng)，否則就只是個(gè)學(xué)舌的鸚鵡。

Training-Serving Skew

訓(xùn)練和服務(wù)之間的差異問題時(shí)一個(gè)大話題，主要原因包括訓(xùn)練時(shí)與服務(wù)時(shí)數(shù)據(jù)獲取方式不同、訓(xùn)練時(shí)與服務(wù)時(shí)數(shù)據(jù)分布不同以及模型和算法之間的反饋循環(huán)等。作者說這種差異在G家的多條產(chǎn)品線上出現(xiàn)過，都產(chǎn)生了負(fù)面影響。但要我說這絕對不僅僅是谷歌的問題，谷歌絕對是做的比較好的了，各種中小廠里面這種問題只多不少，所以這部分的經(jīng)驗(yàn)是非常寶貴的。解決這類問題的核心是對系統(tǒng)和數(shù)據(jù)的變化進(jìn)行監(jiān)控，確保一切差異都在監(jiān)控之內(nèi)，不會悄悄進(jìn)入系統(tǒng)。

Rule #29: The best way to make sure that you train like you serve is to save the set of features used at serving time, and then pipe those features to a log to use them at training time.

規(guī)則29：保證服務(wù)與訓(xùn)練一致性的最好方法是將服務(wù)時(shí)的特征保存下來，然后通過日志將特征喂到訓(xùn)練過程中去。

這句話基本道出了保證差異最小化的核心套路。這種基于特征日志的方法可以極大提升效果，同時(shí)能夠減少代碼復(fù)雜度。谷歌的很多團(tuán)隊(duì)也正在往這種做法上遷移。

Rule #30: Importance weight sampled data, don’t arbitrarily drop it!

規(guī)則30：對采樣樣本做重要性賦權(quán)，不要隨意丟棄！

這是作者唯一用了感嘆號的一條，可想而知背后的辛酸。當(dāng)我們有太多訓(xùn)練數(shù)據(jù)時(shí)，我們會只取其中的一部分。但這是錯(cuò)誤的。正確的做法是，如果你給某條樣本30%的采樣權(quán)重，那么在訓(xùn)練時(shí)就給它10/3的訓(xùn)練權(quán)重。通過這樣的重要性賦權(quán)(importance weight)，整個(gè)訓(xùn)練結(jié)果的校準(zhǔn)性（calibration）就還能夠保證。

多說一句，這個(gè)校準(zhǔn)性非常的重要，尤其對于廣告系統(tǒng)，或者多個(gè)預(yù)測值相加或相乘來得到最終結(jié)果的系統(tǒng)。如果單個(gè)值沒有校準(zhǔn)，偏低或偏高，那么在相乘或相加之后其含義就會不正確。如果直接使用模型預(yù)測值進(jìn)行排序，校準(zhǔn)性就沒那么重要，因?yàn)樾?zhǔn)性不會影響排序，只會影響具體的值。

Rule #31: Beware that if you join data from a table at training and serving time, the data in the table may change.

規(guī)則31：如果你在訓(xùn)練時(shí)和服務(wù)時(shí)都在join一張表，那么要注意這張表的數(shù)據(jù)可能會發(fā)生變化。

比如說某張表里存著一些文檔的特征，你在離線訓(xùn)練之前要去這個(gè)表里取這些特征用來訓(xùn)練，但這里就有個(gè)風(fēng)險(xiǎn)，那就是這個(gè)表里的數(shù)據(jù)在你離線取的時(shí)候和在線服務(wù)的時(shí)候數(shù)據(jù)不一樣，發(fā)生了變化。最好的解決方式就是在服務(wù)端將特征記錄在日志中，這樣能保證數(shù)據(jù)的一致性。或者如果這張表的變化頻率比較低，也可以考慮對其做小時(shí)級或天級備份，以此來減少這種差異。但要記住這種方法并不能徹底解決這個(gè)問題。

Rule #32: Re-use code between your training pipeline and your serving pipeline whenever possible.

規(guī)則32：盡量在訓(xùn)練pipeline和服務(wù)pipeline之間復(fù)用代碼。

訓(xùn)練一般是離線批量進(jìn)行的，而服務(wù)則是在線流式進(jìn)行的，這兩者之間雖然在處理數(shù)據(jù)的方式上存在著較大差異，但仍然有很多代碼可以共享。這些代碼的共享可以從代碼層面介紹訓(xùn)練和服務(wù)之間的差異。換句話說，日志記錄特征是從數(shù)據(jù)角度消除差異，那么代碼復(fù)用就是從代碼角度消除差異，雙管齊下，效果更好。

Rule #33: If you produce a model based on the data until January 5th, test the model on the data from January 6th and after.

規(guī)則33：如果訓(xùn)練數(shù)據(jù)是1月5日之前的，那么測試數(shù)據(jù)要從1月6日開始。

這條規(guī)則的主要目的是讓測試結(jié)果與線上結(jié)果更加接近，因?yàn)槲覀冊谑褂媚Ｐ蜁r(shí)就是在用服務(wù)當(dāng)天之前的數(shù)據(jù)訓(xùn)練，然后來預(yù)測當(dāng)天的數(shù)據(jù)。這樣得到的測試結(jié)果雖然可能會偏低，但卻更加真實(shí)。

Rule #34: In binary classification for filtering (such as spam detection or determining interesting e-mails), make small short--term sacrifices in performance for very clean data.

規(guī)則34：在為過濾服務(wù)的二分類問題中（例如垃圾郵件過濾），可以為了干凈的數(shù)據(jù)犧牲一些短期效果。

在過濾類的任務(wù)中，被標(biāo)記為負(fù)的樣本是不會展示給用戶的，例如可能會把75%標(biāo)記為負(fù)的樣本阻攔住不展現(xiàn)給用戶。但如果你只從展示給用戶的結(jié)果中獲取下次訓(xùn)練的樣本，顯然你的訓(xùn)練樣本是有偏的。

更好的做法是使用一定比例的流量（例如1%）專門收集訓(xùn)練數(shù)據(jù)，在這部分流量中的用戶會看到所有的樣本。這樣顯然會影響線上的真實(shí)過濾效果，但是會收集到更好的數(shù)據(jù)，更有利于系統(tǒng)的長遠(yuǎn)發(fā)展。否則系統(tǒng)會越訓(xùn)練越偏，慢慢就不可用了。同時(shí)還能保證至少過濾掉74%的負(fù)樣本，對系統(tǒng)的影響也不是很大。

但是如果你的系統(tǒng)會過濾掉95%或者更多的負(fù)樣本，這種做法就不那么可行了。即使如此，為了準(zhǔn)確衡量模型的效果，你仍然可以通過構(gòu)造一個(gè)更小的數(shù)據(jù)集（0.1%或者更小）來測試。十萬級別的樣本足夠給出準(zhǔn)確的評價(jià)指標(biāo)了。

Rule #35: Beware of the inherent skew in ranking problems.

規(guī)則35：注意排序問題中固有的數(shù)據(jù)偏置。

當(dāng)新的排序算法對線上排序結(jié)果產(chǎn)生了重大改變時(shí)，你其實(shí)是改變了算法將來會看到的數(shù)據(jù)。這時(shí)這種偏置就會出現(xiàn)。這種問題有以下幾種方法來解決，核心思想都是更偏重模型已經(jīng)看到過的數(shù)據(jù)。

對覆蓋更多query（或類似角色，根據(jù)業(yè)務(wù)不同）的特征給予更強(qiáng)的正則化。這樣模型會更偏重只覆蓋一部分樣本的特征，而不是泛化性特征。這樣會阻止爆品出現(xiàn)在不相關(guān)query的結(jié)果中。
只允許特征取正的權(quán)重值。這樣任何好特征都會比“未知”特征要好。
不要使用只和文檔相關(guān)的特征。這是第一條的極端情況，否則會導(dǎo)致類似哈利波特效應(yīng)的情況出現(xiàn)，也就是一條在任何query下都受歡迎的文檔不會到處都出現(xiàn)。去除掉只和文檔相關(guān)的特征會阻止這種情況發(fā)生。

Rule #36: Avoid feedback loops with positional features.

規(guī)則36：使用位置特征來避免反饋回路。

大家都知道排序位置本身就會影響用戶是否會對物品產(chǎn)生互動，例如點(diǎn)擊。所以如果模型中沒有位置特征，本來由于位置導(dǎo)致的影響會被算到其他特征頭上去，導(dǎo)致模型不夠準(zhǔn)。可以用加入位置特征的方法來避免這種問題，具體來講，在訓(xùn)練時(shí)加入位置特征，預(yù)測時(shí)去掉位置特征，或者給所有樣本一樣的位置特征。這樣會讓模型更正確地分配特征的權(quán)重。

需要注意的是，位置特征要保持相對獨(dú)立，不要與其他特征發(fā)生關(guān)聯(lián)。可以將位置相關(guān)的特征用一個(gè)函數(shù)表達(dá)，然后將其他特征用另外的函數(shù)表達(dá)，然后組合起來。具體應(yīng)用中，可以通過位置特征不與任何其他特征交叉來實(shí)現(xiàn)這個(gè)目的。

Rule #37: Measure Training/Serving Skew.

規(guī)則37：衡量訓(xùn)練和服務(wù)之間的差異。

整體來講有多種原因會導(dǎo)致這種差異，我們可以將其進(jìn)行細(xì)分為以下幾部分：

訓(xùn)練集和測試集之間的差異。這種差異會經(jīng)常存在，而且不一定是壞事。
測試集和“第二天”數(shù)據(jù)間的差異。這種差異也會一直存在，而這個(gè)“第二天”數(shù)據(jù)上的表現(xiàn)是我們應(yīng)該努力優(yōu)化的，例如通過正則化。這兩者之間差異如果過大，可能是因?yàn)橛玫搅艘恍r(shí)間敏感的特征，導(dǎo)致模型效果變化明顯。
“第二天”數(shù)據(jù)和線上數(shù)據(jù)間的差異。如果同樣一條樣本，在訓(xùn)練時(shí)給出的結(jié)果和線上服務(wù)時(shí)給出的結(jié)果不一致，那么這意味著工程實(shí)現(xiàn)中出現(xiàn)了bug。

ML Phase III: Slowed Growth, Optimization Refinement, and Complex Models

一般會有一些明確的信號來標(biāo)識第二階段的尾聲。首先，每月的提升會逐步降低。你開始在不同指標(biāo)之間做權(quán)衡，有的上升有的下降。嗯，游戲變得有趣了。既然收益不容易獲得了，機(jī)器學(xué)習(xí)就得變得更復(fù)雜了。

在前兩個(gè)階段，大部分團(tuán)隊(duì)都可以過得很開心，但到了這個(gè)階段，每個(gè)團(tuán)隊(duì)都需要找到適合自己的路。

Rule #38: Don’t waste time on new features if unaligned objectives have become the issue.

規(guī)則38：如果objective沒有達(dá)成一致，不要在新特征上浪費(fèi)時(shí)間。

當(dāng)系統(tǒng)整體達(dá)到一個(gè)穩(wěn)定期，大家會開始關(guān)注機(jī)器學(xué)習(xí)系統(tǒng)優(yōu)化目標(biāo)以外的一些問題。這個(gè)時(shí)候，目標(biāo)就不如之前那么清晰，那么如果目標(biāo)沒有確定下來的話，先不要在特征上浪費(fèi)時(shí)間。

Rule #39: Launch decisions are a proxy for long-term product goals.

規(guī)則39：上線決策是長期產(chǎn)品目標(biāo)的代理。

這句話讀起來有點(diǎn)別扭，作者舉了幾個(gè)例子來說明，我覺得核心就是在講一件事情：系統(tǒng)、產(chǎn)品甚至公司的長遠(yuǎn)發(fā)展需要通過多個(gè)指標(biāo)來綜合衡量，而新模型是否上線要綜合考慮這些指標(biāo)。所謂代理，指的就是優(yōu)化這些綜合指標(biāo)就是在優(yōu)化產(chǎn)品、公司的長遠(yuǎn)目標(biāo)。

決策只有在所有指標(biāo)都在變好的情況下才會變得簡單。但常常事情沒那么簡單，尤其是當(dāng)不同指標(biāo)之間無法換算的時(shí)候，例如A系統(tǒng)有一百萬日活和四百萬日收入，B系統(tǒng)有兩百萬日活和兩百萬日收入，你會從A切換到B嗎？或者反過來？答案是或許都不會，因?yàn)槟悴恢滥硞€(gè)指標(biāo)的提升是否會cover另外一個(gè)指標(biāo)的下降。

關(guān)鍵是，沒有任何一個(gè)指標(biāo)能回答：“五年后我的產(chǎn)品在哪里”？

而每個(gè)個(gè)體，尤其是工程師們，顯然更喜歡能夠直接優(yōu)化的目標(biāo)，而這也是機(jī)器學(xué)習(xí)系統(tǒng)常見的場景。現(xiàn)在也有一些多目標(biāo)學(xué)習(xí)系統(tǒng)在試圖解決這種問題。但仍然有很多目標(biāo)無法建模為機(jī)器學(xué)習(xí)問題，比如用戶為什么會來訪問你的網(wǎng)站等等。作者說這是個(gè)AI-complete問題，也常被稱為強(qiáng)AI問題，簡單來說就是不能用某個(gè)單一算法解決的問題。

Rule #40: Keep ensembles simple.

規(guī)則40：ensemble策略保持簡單。

什么叫簡單的ensemble？作者認(rèn)為，只接受其他模型的輸出作為輸入，不附帶其他特征的ensemble，叫做簡單的ensemble。換句話說，你的模型要么是單純的ensemble模型，要么是普通的接收大量特征的基模型。

除了保持簡單，ensemble模型最好還能具有一些良好的性質(zhì)。例如，某個(gè)基模型的性能提升不能降低組合模型的性能。以及，基模型最好都是可解釋的（例如是校準(zhǔn)的)，這樣基模型的變化對上層的組合模型來說也是可解釋的。同時(shí)，一個(gè)基模型預(yù)測概率值的提升不會降低組合模型的預(yù)測概率值。

Rule #41: When performance plateaus, look for qualitatively new sources of information to add rather than refining existing signals.

規(guī)則41：當(dāng)效果進(jìn)入穩(wěn)定期，尋找本質(zhì)上新的信息源，而不是優(yōu)化已有的信號。

你加了一些用戶的人口統(tǒng)計(jì)學(xué)特征，你加了一些文檔的文字特征，等等，但是關(guān)鍵指標(biāo)上的提升還不到1%。現(xiàn)在咋整？

這時(shí)就應(yīng)該考慮加一些根本上不同的特征，例如用戶再過去一天、一周看過的文檔歷史，或者另外一個(gè)數(shù)據(jù)源的數(shù)據(jù)。總之，要加入完全不同的維度的特征。此外也可以嘗試使用深度學(xué)習(xí)，但同時(shí)也要調(diào)整你對ROI的預(yù)期，并且要評估增加的復(fù)雜度換來的收益是否值得。

Rule #42: Don’t expect diversity, personalization, or relevance to be as correlated with popularity as you think they are.

規(guī)則42：多樣性，個(gè)性化或者相關(guān)性與流行度的相關(guān)性關(guān)系可能要比你想的弱很多。

多樣性意味著內(nèi)容或者來源的多樣性；個(gè)性化意味著每個(gè)用戶得到不一樣的東西；相關(guān)性意味著一個(gè)query的返回結(jié)果相比其他query與這個(gè)query更相關(guān)。所以這三個(gè)指標(biāo)的含義都是與普通不一樣。

但問題在于普通的東西很難被打敗。

如果你的衡量指標(biāo)是點(diǎn)擊、停留時(shí)長、觀看數(shù)、分享數(shù)等等，你本質(zhì)上是在衡量東西的流行度。有的團(tuán)隊(duì)有時(shí)會希望學(xué)到一個(gè)多樣化的個(gè)性化模型。為此，會加入個(gè)性化特征和多樣化特征，但是最后會發(fā)現(xiàn)這些特征并沒有得到預(yù)期的權(quán)重。

這并不能說明多樣性、個(gè)性化和相關(guān)性不重要。像前文指出，可以通過后續(xù)的處理來增加多樣性或相關(guān)性。如果這時(shí)看到長期目標(biāo)提升了，你就可以確定多樣性/相關(guān)性是有用的。這時(shí)你就可以選擇繼續(xù)使用后續(xù)處理的方式，或者根據(jù)多樣性和相關(guān)性直接修改要優(yōu)化的objective。

Rule #43: Your friends tend to be the same across different products. Your interests tend not to be.

規(guī)則43：你在不同產(chǎn)品上的好友一般是一樣的，但你的興趣通常會不一樣。

谷歌經(jīng)常在不同產(chǎn)品上使用同樣的好友關(guān)系預(yù)測模型，并且取得了很好的效果，這證明不同的產(chǎn)品上好友關(guān)系是可以遷移的，畢竟他們是固定的同一批人。但他們嘗試將一個(gè)產(chǎn)品上的個(gè)性化特征使用到另外一個(gè)產(chǎn)品上時(shí)卻常常得不到好結(jié)果。可行的做法是使用一個(gè)數(shù)據(jù)源上的原始數(shù)據(jù)來預(yù)測另外數(shù)據(jù)源上的行為，而不是使用加工后的特征。此外，用戶在另一個(gè)數(shù)據(jù)源上的行為歷史也會有用。

總結(jié)

從上面洋洋灑灑43條經(jīng)驗(yàn)之談中不難看出，大神作者認(rèn)為，對于大多數(shù)機(jī)器學(xué)習(xí)應(yīng)用場景來說，我們需要解決的問題大多數(shù)都是工程問題，解決這些工程問題需要的并不是復(fù)雜的理論，更多是對細(xì)節(jié)、架構(gòu)、過程的仔細(xì)推敲和精致追求。而這些是我們非大神的普通人可以做到的，如果說大神做的是95分以上的系統(tǒng)，那么我們只要對工程架構(gòu)、過程和細(xì)節(jié)做好足夠的優(yōu)化，我們也可以做出至少80分的系統(tǒng)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴