亚洲精品久久中文字幕,亚洲天堂热,午夜精品一区

時代變幻莫測，僅僅增加客戶體驗流暢度和沉浸感并不能減輕企業的壓力。在這種情況下，投入數十億美元開發可以改進產品的機器學習模型就可以理解了。但有一個問題。公司不能只是把錢砸在數據科學家和機器學習工程師身上，就希望可以有奇跡發生。據 VentureBeat 報道，大約 90% 的機器學習模型從未投入生產。換句話說，數據科學家的工作只有十分之一能夠真正產出對公司有用的東西。

本文最初發布于 Towards Data Science，由 InfoQ 中文站翻譯并分享。

大多數機器學習模型從未部署。圖片由作者提供。

企業正在經歷艱難時期。我說的不是病毒流行和股市波動。

時代變幻莫測，僅僅增加客戶體驗流暢度和沉浸感并不能減輕企業的壓力。在這種情況下，投入數十億美元開發可以改進產品的機器學習模型就可以理解了。

但有一個問題。公司不能只是把錢砸在數據科學家和機器學習工程師身上，就希望可以有奇跡發生。

有數據為證。據 VentureBeat 報道，大約 90% 的機器學習模型從未投入生產。換句話說，數據科學家的工作只有十分之一能夠真正產出對公司有用的東西。

盡管十分之九的科技高管相信，人工智能將成為下一次科技革命的中心，但人工智能的采用和部署尚未獲得長足的發展，而這不能怪數據科學家。

企業尚未準備好采用機器學習

領導支持并不意味著投錢多

數據科學家的就業市場非常好。企業在招聘，而且也已經準備好支付高薪。

當然，管理人員和企業負責人期望這些數據科學家能帶來巨大的價值。然而，就目前而言，他們并沒有為此提供便利。

GAP 數據分析高級副總裁 Chris Chapo表示：“有時人們會想，我所需要做的只是針對一個問題投入資金或技術，成功就會到來。”

為了幫助數據科學家在工作中發揮出色的作用，領導者不僅需要將資源引向正確的方向，還需要了解機器學習模型是干什么的。一個可能的解決方案是，讓領導者們自己接受一些數據科學的入門培訓，這樣他們就可以在公司里把這些知識付諸實踐。

數據訪問難度大

公司不擅長收集數據。許多公司都是高度筒倉化的，這意味著每個部門都有自己收集數據的方式、首選格式、存儲位置以及安全和隱私偏好。

另一方面，數據科學家經常需要來自多個部門的數據。筒倉化增加了清理和處理這些數據的難度。此外，許多數據科學家抱怨，他們甚至無法獲得他們需要的數據。如果你沒有必要的數據，怎么開始訓練一個模型呢？

也許在過去，筒倉化的公司結構——以及無法訪問的數據——便于管理。但在一個技術飛速變革的時代，企業將需要加快步伐，在整個過程中建立起統一的數據結構。

對于數據科學家來說，能夠獲取所需的數據至關重要。圖片由作者提供。

IT、數據科學和工程脫節

如果公司的目標是減少“筒倉”，這就意味著各部門需要更多地相互溝通，調整各自的目標。

在許多公司中，IT 部門和數據科學部門之間存在著根本性的分歧。IT 傾向于優先考慮讓事情正常運轉并保持穩定。另一方面，數據科學家喜歡實驗和破壞東西。這會導致溝通困難。

此外，對于數據科學家來說，工程并非總是必不可少的。這是一個問題，因為工程師有時候可能無法了解數據科學家所設想的所有細節，或者可能會由于溝通錯誤而改變實現方式。因此，正如 StackOverflow 指出的那樣，能夠部署模型的數據科學家比那些不能部署模型的數據科學家更有競爭優勢。

機器學習模型自身面臨的挑戰

擴展比你想象的要難

模型在小環境中工作得很好，并不意味著它在任何地方都可以工作得很好。

首先，可能沒有處理更大數據集的硬件或云存儲空間可供使用。此外，在規模很大時，機器學習模型的模塊并不總是像規模較小時那么有效。

最后，數據獲取可能比較困難，甚至不可能。正如前面所討論的，這可能是由于公司的筒倉結構，也可能是由于在獲取更多數據時遇到的其他挑戰。

這也是在組織之間統一數據結構、鼓勵不同部門之間進行交流的另一個原因。

重復工作

在部署機器學習模型的漫長道路上，超過四分之一的企業都存在重復工作。

例如，軟件工程師可能會按數據科學家的說法進行實現。后者可能也會繼續，自己做一些工作。

這不僅浪費時間和資源，而且，當涉眾不知道使用了哪個版本的代碼，在遇到任何錯誤時就不知道應該向誰求助，這會導致額外的混亂。

如果數據科學家能夠實現他們的模型，這是他們的優勢，但對于誰做什么，他們應該與工程師溝通清楚。這樣，就可以節省公司的時間和資源。

有效溝通對于機器學習模型正常運行至關重要。圖片由作者提供。

高管們可能會不認可

總體來說，技術高管非常相信人工智能的力量，但這并不意味著他們會同意所有的想法。據 Algorithmia 報道，三分之一的企業高管將糟糕的部署統計數據歸咎于缺乏高層支持。

似乎人們仍然認為數據科學家有點書呆子氣，缺乏商業意識。為此，數據科學家應加強他們的業務技能，并盡可能尋求與高管的對話。

當然，這并不意味著每個數據科學家需要 MBA 學位才能勝任他們的工作。然而，從課程或業務經驗中學習一些關鍵知識可能會對他們有長遠的幫助。

不能跨語言且缺少框架支持

由于機器學習模型仍處于起步階段，不同的語言和框架仍有相當大的差距。

有些管道開始時是 Python 開始，中間是 R，最后是 Julia。有的則相反，或者完全使用其他語言。由于每種語言都有自己獨特的庫和依賴項，項目很快就變得很難跟蹤。

此外，有些管道可能會使用 Docker 和 Kubernetes 進行容器化，其他管道可能不會。有些管道將部署特定的 API，其他管道則不會。這樣的例子不勝枚舉。

為了彌補這種不足，像 TFX、Mlflow 和 Kubeflow 這樣的工具出現了。但這些工具仍處于起步階段，到目前為止，這方面的專家還很少。

數據科學家們知道，他們需要不斷了解自己領域的最新進展。這應該也適用于模型部署。

版本控制和再現仍面臨挑戰

與上述問題相關的是，到目前為止，機器學習模型版本控制還沒有一種可行的方法。顯然，數據科學家需要跟蹤他們所做的任何更改，但現在這相當麻煩。

此外，數據集可能會隨時間漂移。隨著公司和項目的發展，這是很自然的，但這使得再現過去的結果變得更加困難。

更重要的是，一旦項目啟動，就會建立一個基準，用于現在和將來對模型進行測試。結合版本控制，數據科學家可以再現他們的模型。

如果模型不可再現，就會導致漫長的調查研究。圖片由作者提供。

停止嘗試，開始部署

如果數據科學家 90% 的努力都沒有結果，這可不是一個好現象。這不是數據科學家的錯，如上所述，這是由于組織結構上固有的障礙。

變革不是一天能完成的。對于剛剛開始接觸機器學習模型的公司，建議他們從一個非常小而簡單的項目開始。

一旦管理者勾勒出一個清晰而簡單的項目，第二步就是選擇合適的團隊。這個團隊應該是跨職能的，應該包括數據科學家、工程師、DevOps 和任何其他看起來對于獲得成功至關重要的角色。

第三，在開始的時候，管理者應該考慮利用第三方來幫助他們加速這個過程。IBM 是提供這種服務的公司之一，但市場上也有其他公司。

最后一點是，切莫不惜一切代價追求先進。如果一個簡單的低成本模型能滿足 80% 的客戶需求，并能在幾個月內交付，這已經是一個了不起的成就了。此外，從構建簡單模型積累的經驗將有助于實現更復雜的模型，并有望使客戶百分之百滿意。

結論：革命需要時間

下一個十年注定是革命性的，就像上一個十年一樣。人工智能的廣泛應用只是眾多發展趨勢中的一個，物聯網、高級機器人技術和區塊鏈技術也在興起。

我說的是幾十年，而不是幾年。例如，考慮到 90% 的公司都已上云——如此之多，以至于我們很難想象沒有云我們怎么生活。而另一方面，云是花了幾十年時間才被廣泛地采用。

我們沒有理由認為人工智能革命會有任何不同。它需要一段時間才能推廣開，因為目前還有許多需要解決的障礙。

但是，由于機器學習提供了如此多的方法來改善客戶體驗和企業效率，顯然，贏家將是那些快速并盡早部署模型的公司。

本文轉自公眾號：AI前線，作者Rhea Moutafis，點擊閱讀原文

審核編輯：符乾江

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1791

文章
47208

瀏覽量
238297
機器學習

機器學習

+關注

關注
66

文章
8408

瀏覽量
132576
深度學習

深度學習

+關注

關注
73

文章
5500

瀏覽量
121118

魯棒性在機器學習中的重要性

在機器學習領域，模型的魯棒性是指模型在面對輸入數據的擾動、異常值、噪聲或對抗性攻擊時，仍能保持性能的能力。隨著人工智能技術的快速發展，機器

發表于 11-11 10:19 ?329次閱讀

AI大模型與深度學習的關系

AI大模型與深度學習之間存在著密不可分的關系，它們互為促進，相輔相成。以下是對兩者關系的介紹：一、深度學習是AI大模型的基礎技術支撐：深度學習

發表于 10-23 15:25 ?676次閱讀

AI大模型與傳統機器學習的區別

AI大模型與傳統機器學習在多個方面存在顯著的區別。以下是對這些區別的介紹：一、模型規模與復雜度 AI大模型：通常包含數十億甚至數萬億的參

發表于 10-23 15:01 ?560次閱讀

構建語音控制機器人 - 線性模型和機器學習

2024-07-31 |Annabel Ng 在該項目的[上一篇博客文章]中，我介紹了運行機器人電機、處理音頻信號和調節電壓所需的電路的基礎知識。然而，機器人還沒有完全完成！盡管機器人可以正確移動

發表于 10-02 16:31 ?208次閱讀

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

今天來學習大語言模型在自然語言理解方面的原理以及問答回復實現。主要是基于深度學習和自然語言處理技術。大語言模型涉及以下幾個過程：數據收集：大語言

發表于 08-02 11:03

pycharm如何訓練機器學習模型

PyCharm是一個流行的Python集成開發環境（IDE），它提供了豐富的功能，包括代碼編輯、調試、測試等。在本文中，我們將介紹如何在PyCharm中訓練機器學習模型。一、安裝PyCharm

發表于 07-11 10:14 ?785次閱讀

Al大模型機器人

豐富的知識儲備。它們可以涵蓋各種領域的知識，并能夠回答相關問題。靈活性與通用性: AI大模型機器人具有很強的靈活性和通用性，能夠處理各種類型的任務和問題。持續學習和改進: 這些模型可以

發表于 07-05 08:52

人工神經網絡與傳統機器學習模型的區別

人工神經網絡（ANN）與傳統機器學習模型之間的不同，包括其原理、數據處理能力、學習方法、適用場景及未來發展趨勢等方面，以期為讀者提供一個全面的視角。

發表于 07-04 14:08 ?1253次閱讀

深度學習中的模型權重

在深度學習這一充滿無限可能性的領域中，模型權重（Weights）作為其核心組成部分，扮演著至關重要的角色。它們不僅是模型學習的基石，更是模型

發表于 07-04 11:49 ?1226次閱讀

名單公布！【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來？

捕捉復雜非線性模式的場景中顯得力不從心。將時間序列的分析與預測用于大規模的數據生產一直存在諸多困難。在這種背景下，結合機器學習，特別是深度學習

發表于 06-25 15:00

【大語言模型：原理與工程實踐】大語言模型的基礎技術

就無法修改，因此難以靈活應用于下游文本的挖掘中。詞嵌入表示：將每個詞映射為一個低維稠密的實值向量。不同的是，基于預訓練的詞嵌入表示先在語料庫中利用某種語言模型進行預訓練，然后將其應用到下游任務中，詞

發表于 05-05 12:17

傅里葉變換基本原理及在機器學習應用

連續傅里葉變換（CFT）和離散傅里葉變換（DFT）是兩個常見的變體。CFT用于連續信號，而DFT應用于離散信號，使其與數字數據和機器學習任務更加相關。

發表于 03-20 11:15 ?926次閱讀

谷歌模型框架是什么軟件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌開發的用于機器學習和人工智能的軟件框架，其中最著名的是TensorFlow。TensorFlow是一個開源的機器

發表于 03-01 16:25 ?870次閱讀

一文詳解Transformer神經網絡模型

Transformer模型在強化學習領域的應用主要是應用于策略學習和值函數近似。強化學習是指讓機器

發表于 02-20 09:55 ?1.4w次閱讀

如何使用TensorFlow構建機器學習模型

在這篇文章中，我將逐步講解如何使用 TensorFlow 創建一個簡單的機器學習模型。

發表于 01-08 09:25 ?968次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

為什么90%的機器學習模型從未應用于生產

企業尚未準備好采用機器學習

領導支持并不意味著投錢多

數據訪問難度大

IT、數據科學和工程脫節

機器學習模型自身面臨的挑戰

擴展比你想象的要難

重復工作

高管們可能會不認可

不能跨語言且缺少框架支持

版本控制和再現仍面臨挑戰

停止嘗試，開始部署

結論：革命需要時間

評論

魯棒性在機器學習中的重要性

AI大模型與深度學習的關系

AI大模型與傳統機器學習的區別

構建語音控制機器人 - 線性模型和機器學習

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

pycharm如何訓練機器學習模型

Al大模型機器人

人工神經網絡與傳統機器學習模型的區別

深度學習中的模型權重

名單公布！【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來？

【大語言模型：原理與工程實踐】大語言模型的基礎技術

傅里葉變換基本原理及在機器學習應用

谷歌模型框架是什么軟件？谷歌模型框架怎么用？

一文詳解Transformer神經網絡模型

如何使用TensorFlow構建機器學習模型