古希臘哲學家赫拉克利特說:“唯一不變的就是變化”。時間擁有著我們無法撼動的強大力量,無論是觀念、社會還是人類本身,都會隨著時間的推移而發(fā)生巨大的變化。
往日比較先進的事物會被當今所淘汰,如今新穎的想法也可能在接下來幾年被遺忘。了解變化對企業(yè)來說至關(guān)重要。
15年前,如果一家手機制造公司沒有搭上研發(fā)智能手機的列車,還有可能生存下來嗎?它們幾乎都已經(jīng)從市場上消失了。擁有功能簡單的移動手機是曾經(jīng)的常態(tài),然而人們的需求迅速轉(zhuǎn)向了智能手機,未能適應(yīng)變化的公司付出了代價。
數(shù)據(jù)分析,逐漸開始獲得了世界的支配權(quán),機器學習模型成為了促成公司決策的主要力量。這些模型和所有商業(yè)策略一樣,需要隨時間推移而不斷調(diào)校,技術(shù)上來說是由于“模型漂移”。
什么是“模型漂移”
雖然大多數(shù)課程、文章和帖子都定義了機器學習的生命周期——從收集數(shù)據(jù)開始,到在不同環(huán)境中部署機器學習模型結(jié)束,但人們往往會忘記機器學習生命周期中一個十分重要的特性,那就是模型漂移。
本質(zhì)上來說,目標變量與自變量之間的關(guān)系隨時間而變化。模型漂移使模型無法保持穩(wěn)定,預(yù)期也會逐漸出現(xiàn)越來越多的錯誤。
我們試著從簡單的線性回歸這一技術(shù)角度來理解這一情況。線性回歸中,我們簡單地映射自變量x_i來預(yù)測目標變量y:
y = α + β_1*x_1 + β_2*x_2+ β_3*x_3 + …
其中,α是截距,β_i對應(yīng)于變量x_i的系數(shù)。
通常會假設(shè)這一映射是靜態(tài)的,即我們假設(shè)系數(shù)β_i(和截距α)不隨時間而變化,且控制目標變量y預(yù)測的關(guān)系對未來的數(shù)據(jù)也合理有效。
然而,這一假設(shè)在所有情況下都不成立。企業(yè)的盈利很大程度上依賴于這樣的模型,一旦假設(shè)不成立,就會對企業(yè)構(gòu)成嚴重的威脅。
這些模型可能代表了未來發(fā)展中的情況,所以之后一定是站不住腳的。由于基本條件的變化,預(yù)測會隨著時間失去準確性。
漂移的種類
模型漂移可以分為兩大類:
第一類是“概念漂移”,一旦目標變量本身的統(tǒng)計特性發(fā)生變化,就會發(fā)生這種情況。顯然,如果試圖預(yù)測變量的重要意義改變了,模型就不能有效適用于這個定義了。
第二類也是最常見的一類是“數(shù)據(jù)漂移”,預(yù)測的統(tǒng)計特性改變時發(fā)生。同樣,如果基礎(chǔ)變量在改變,模型就會失效。
一個經(jīng)典的例子就是季節(jié)性導(dǎo)致的數(shù)據(jù)模式變化。夏季有用的商業(yè)模型到冬季就可能失效了。假期里航班需求大大增加,而淡季里只能勉強維持客座率。再如人們偏好的改變,就像開頭提到的智能手機。
如何解決?
優(yōu)秀的解決方案就是不斷修改模型。模型里開始出現(xiàn)漂移后,可基于以往經(jīng)驗來進行預(yù)估。這樣一來,模型能夠得到積極的重建以降低漂移帶來的風險。
如果數(shù)據(jù)隨著時間不斷變化,權(quán)衡數(shù)據(jù)是一個不錯的選擇。基于近期交易來決定特定參數(shù)的金融模型能夠增加一些特性,如賦予近期交易更多權(quán)重而減少對過往交易的關(guān)注。這不僅保證了模型的穩(wěn)健性,而且也有助于避免出現(xiàn)與漂移相關(guān)的潛在問題。
應(yīng)對模型漂移更復(fù)雜的一個方法就是對變化本身進行建模。開發(fā)的第一個模型必須保持靜態(tài)并作為基線。現(xiàn)在,由于近期數(shù)據(jù)行為的改變,可以建立新的模型來糾正對這個基線模型的預(yù)測。
應(yīng)多久重新調(diào)校一次模型?
我們已經(jīng)知道了比較常見的解決方法是持續(xù)重新調(diào)校模型,接下來的問題就是,需要多久重新調(diào)校一次呢?這需要具體問題具體分析。
有時,問題會自己出現(xiàn)。雖然等待問題出現(xiàn)不是最簡便的方法,但是對新建的模型來說這是唯一的選擇,因為無法從過往的經(jīng)驗知曉問題會如何出現(xiàn)。當問題浮出水面,就可以研究問題并進行修改,以應(yīng)對日后會出現(xiàn)的相關(guān)問題。
有時,數(shù)據(jù)與模型中處理的實體相關(guān),遵循季節(jié)性模式。這種情況下,應(yīng)隨季節(jié)變化來重新調(diào)校模型。隨著節(jié)假日支出增加,信貸貸款機構(gòu)需要特殊的模型來應(yīng)對模式中突然出現(xiàn)的此類變化。
然而,檢測漂移的優(yōu)秀方法是持續(xù)的監(jiān)測。與模型穩(wěn)定性有關(guān)的度量需要在連續(xù)的時間間隔內(nèi)進行監(jiān)測。間隔時間可以是一周、一個月或一個季度,取決于不同的領(lǐng)域和業(yè)務(wù)。
監(jiān)測可以是由人工操控或交給自動腳本。若突發(fā)異常情況,自動腳本要能夠觸發(fā)警報并發(fā)送通知。
變化是永恒存在的,只有做好準備接受變化并監(jiān)測變化的公司才會取得成功,這一點需謹記。
-
機器學習
+關(guān)注
關(guān)注
66文章
8492瀏覽量
134131 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1470瀏覽量
34814
發(fā)布評論請先 登錄
關(guān)于ML4842輸出PWM波形失真問題?
Raspberry Pi Pico 2 上實現(xiàn):實時機器學習(ML)音頻噪音抑制功能

SPEC ML基準測試新增模算效率指標
Silicon Labs攜手Eta Compute簡化邊緣ML開發(fā)
ECU調(diào)校對汽車性能的影響
何時使用DRV10987或DRV10983

評論