古希臘哲學家赫拉克利特說:“唯一不變的就是變化”。時間擁有著我們無法撼動的強大力量,無論是觀念、社會還是人類本身,都會隨著時間的推移而發生巨大的變化。
往日比較先進的事物會被當今所淘汰,如今新穎的想法也可能在接下來幾年被遺忘。了解變化對企業來說至關重要。
15年前,如果一家手機制造公司沒有搭上研發智能手機的列車,還有可能生存下來嗎?它們幾乎都已經從市場上消失了。擁有功能簡單的移動手機是曾經的常態,然而人們的需求迅速轉向了智能手機,未能適應變化的公司付出了代價。
數據分析,逐漸開始獲得了世界的支配權,機器學習模型成為了促成公司決策的主要力量。這些模型和所有商業策略一樣,需要隨時間推移而不斷調校,技術上來說是由于“模型漂移”。
什么是“模型漂移”
雖然大多數課程、文章和帖子都定義了機器學習的生命周期——從收集數據開始,到在不同環境中部署機器學習模型結束,但人們往往會忘記機器學習生命周期中一個十分重要的特性,那就是模型漂移。
本質上來說,目標變量與自變量之間的關系隨時間而變化。模型漂移使模型無法保持穩定,預期也會逐漸出現越來越多的錯誤。
我們試著從簡單的線性回歸這一技術角度來理解這一情況。線性回歸中,我們簡單地映射自變量x_i來預測目標變量y:
y = α + β_1*x_1 + β_2*x_2+ β_3*x_3 + …
其中,α是截距,β_i對應于變量x_i的系數。
通常會假設這一映射是靜態的,即我們假設系數β_i(和截距α)不隨時間而變化,且控制目標變量y預測的關系對未來的數據也合理有效。
然而,這一假設在所有情況下都不成立。企業的盈利很大程度上依賴于這樣的模型,一旦假設不成立,就會對企業構成嚴重的威脅。
這些模型可能代表了未來發展中的情況,所以之后一定是站不住腳的。由于基本條件的變化,預測會隨著時間失去準確性。
漂移的種類
模型漂移可以分為兩大類:
第一類是“概念漂移”,一旦目標變量本身的統計特性發生變化,就會發生這種情況。顯然,如果試圖預測變量的重要意義改變了,模型就不能有效適用于這個定義了。
第二類也是最常見的一類是“數據漂移”,預測的統計特性改變時發生。同樣,如果基礎變量在改變,模型就會失效。
一個經典的例子就是季節性導致的數據模式變化。夏季有用的商業模型到冬季就可能失效了。假期里航班需求大大增加,而淡季里只能勉強維持客座率。再如人們偏好的改變,就像開頭提到的智能手機。
如何解決?
優秀的解決方案就是不斷修改模型。模型里開始出現漂移后,可基于以往經驗來進行預估。這樣一來,模型能夠得到積極的重建以降低漂移帶來的風險。
如果數據隨著時間不斷變化,權衡數據是一個不錯的選擇。基于近期交易來決定特定參數的金融模型能夠增加一些特性,如賦予近期交易更多權重而減少對過往交易的關注。這不僅保證了模型的穩健性,而且也有助于避免出現與漂移相關的潛在問題。
應對模型漂移更復雜的一個方法就是對變化本身進行建模。開發的第一個模型必須保持靜態并作為基線。現在,由于近期數據行為的改變,可以建立新的模型來糾正對這個基線模型的預測。
應多久重新調校一次模型?
我們已經知道了比較常見的解決方法是持續重新調校模型,接下來的問題就是,需要多久重新調校一次呢?這需要具體問題具體分析。
有時,問題會自己出現。雖然等待問題出現不是最簡便的方法,但是對新建的模型來說這是唯一的選擇,因為無法從過往的經驗知曉問題會如何出現。當問題浮出水面,就可以研究問題并進行修改,以應對日后會出現的相關問題。
有時,數據與模型中處理的實體相關,遵循季節性模式。這種情況下,應隨季節變化來重新調校模型。隨著節假日支出增加,信貸貸款機構需要特殊的模型來應對模式中突然出現的此類變化。
然而,檢測漂移的優秀方法是持續的監測。與模型穩定性有關的度量需要在連續的時間間隔內進行監測。間隔時間可以是一周、一個月或一個季度,取決于不同的領域和業務。
監測可以是由人工操控或交給自動腳本。若突發異常情況,自動腳本要能夠觸發警報并發送通知。
變化是永恒存在的,只有做好準備接受變化并監測變化的公司才會取得成功,這一點需謹記。
-
機器學習
+關注
關注
66文章
8425瀏覽量
132774 -
數據分析
+關注
關注
2文章
1452瀏覽量
34077
發布評論請先 登錄
相關推薦
評論