人工智能改變世界,這一觀點已經被越來越多的人所認可。
過去的兩三年里,在各種 AI 行業會議中,總能看到一些管理者抱著極大的疑惑和焦慮心態來學習 AI 新技術,他們對公司的痛點往往認知清晰,隱約覺得 AI 能幫助他們提升企業運營效率。很多時候,AI 仿佛成了一根救命稻草。
而在提供 AI 解決方案的企業口中,AI 就是一劑萬能解藥。精心包裝好的成功企業案例和優雅簡潔的代碼演示,都極力證明算法模型的優越性。最終,一些企業為 AI 解決方案付費,可效果并沒有當初承諾的那么好,甚至出現業務倒退現象,這到底是怎么回事?
“悄悄死亡的模型”
本文提供一個案例供大家參考。
這是一家線上購物公司,有著一個簡單卻高效的技術團隊:一位前端工程師和一位后端工程師。他們所搭建的網站在過去幾年里,為公司積累了大量的用戶數據。
如何開發這個數據“金礦”呢?公司領導近幾年被“大數據”和“機器學習”等熱點概念不斷轟炸,決定在網站中搭建一個由數據和機器學習驅動的推薦系統來優化用戶的購物體驗,進而提高業務量。經過一番研究,公司領導聘請了一位數據科學家。
訓練模型需要干凈的被標注數據,所以數據科學家首先花了兩個月時間清理日志中的數據,接下來,又花了三個月時間開發和測試不同類型的算法,終于找到了一個效果驚人的推薦系統,并且是最新的深度學習算法:使用圖形卷積網絡的半監督分類模型。在歷史數據集中,這一模型實現了高達 97%的準確率。
接下來,就是將訓練好的模型整合到網站中。數據科學家表示,他在部署方面的經驗有限。但后端工程師十分靠譜,主動幫助數據科學家將模型部署到生產網絡。
實際上,DL 模型部署是一個相當復雜的過程。最好的辦法是模型構建者親自部署,可絕大多數來自數學或物理背景的數據科學家并沒有接受過這方面的培訓。
不過,推薦系統模型在兩人的努力下終于部署好了。這個平平無奇的購物網站已經進化為“由大數據驅動的購物網站了”!
這時,公司的前端工程師表示受不了“996”了,他要逃離北上廣。沒事,公司分分鐘又招到一名新的前端工程師。
這是一位非常有想法的人,他主動提出了網站更改建議,比如針對不同市場呈現不同外觀,并且把用戶購買時需要填的表單進行優化,提高用戶體驗。
幾個月后,新網站上線,頁面非常漂亮,訪客很喜歡,領導也很高興。
但是在統計業務量時,卻發現沒有任何提升。用戶的點擊量很高,做的幾次營銷活動也非常成功,但最終的交易量為什么沒有變化呢?
最終,數據科學家用一個測量腳本發現,推薦系統的準確率只有 40%,與預期的 97% 相差甚遠。
數據不規范,模型兩行淚
推薦系統是數據科學家用歷史日志數據訓練的。而這些日志文件又是按照上一位前端工程師和后端工程師的設計生成的。他們通常不必擔心數據結構,只保證記錄數據和可檢索即可。
畢竟,在全棧開發環境下,日志一般是為了記錄錯誤而非提供用戶趨勢。這也是為什么數據科學家一開始需要花大量時間去清理數據。
而新的前端開發者在更改用戶表單時,將字段名稱從“email”更改為“user_email”。此更改會影響數據預處理流程。還將 2 個輸入字段“first name”和“last name”合并為“user_name”,刪除了模型所依賴的輸入字段。最后,他還引入了一個新的測量單元,在美國市場提供“lbs”(英制的磅),在其他國家提供“kg”(公制的公斤)。導致模型收到的重量從 1.0 變為 2.20462。
這就是整個過程中沒有人犯錯,但最后的結果卻令人失望的原因。
由于推薦系統的數據預處理系統沒能正確處理上述更改,這些“壞數據”被保存在數據庫里并被輸入推薦系統,導致它輸出錯誤的推薦。而這些錯誤的推薦則會通過后端系統被展示給網站的用戶,嚴重影響用戶體驗。
可以想象一下,一名剛和男朋友分手的女性在瀏覽網站時,網站竟然給她推薦孕婦裝,會是怎樣一種尷尬。
那,該怎么辦?
這個案例展現了目前 AI 的能力與限制。
應該說,雖然 AI 取得了前所未有的進展,但在行業運用還處于早期階段。
尤其是,在開發和部署機器學習應用時并沒有最佳實踐指南。這導致了 AI 技術團隊在面對具體行業中問題時,很容易暴露出部署經驗不足,缺乏領域知識,將現實問題簡單化,盲目崇信機器學習模型,最終導致業務轉型失敗。
需要注意的是,失敗的模型并不會立馬表現出來,往往需要幾個月的時間驗證才會凸顯出問題。這時候,傳統企業已經投入巨大的資源和精力,如果沒有足夠的業務能力支撐運轉,很容易癱瘓。
在大多數情況下,很難預測模型是否按預期運行。如果考慮成為一家數據驅動型公司,前期最好聘請一位數據工程師,而不僅僅是科學家,必須保證數據預處理、傳輸和存儲始終正確。
其次,機器學習模型在投入使用后沒有即時的反饋循環,所以整個技術團隊需要時刻了解數據性質、流程、屬性、用途等。處于數據流路徑中的每個人,包括前端開發人員、后端開發人員、數據工程師、數據科學家、云架構師和軟件工程師等都必須有明確的溝通和記錄。
最后,要時刻監控數據,尤其是機器學習模型集成前后的關鍵點,注意異常值和異常數據,保持數據的平均值并注意偏差較大的數據。前端開發人員必須對輸入數據進行單元測試。
再次,我們由衷地希望每一家傳統企業在智能時代都能轉型成功。
-
AI
+關注
關注
87文章
30729瀏覽量
268892 -
企業
+關注
關注
0文章
216瀏覽量
22833
原文標題:錢花了,事沒辦:傳統企業在AI轉型中可能遇到的坑
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論