一级片在线观看免费,又粗又大的机巴好爽视频视频,无人知晓小说姜璟免费阅读

在機器學習領域，數據重要還是模型重要?這是一個很難回答的問題。

模型和數據是 AI 系統的基礎，這兩個組件在模型的開發中扮演著重要的角色。

人工智能領域最權威的學者之一吳恩達曾提出「80% 的數據 + 20% 的模型 = 更好的機器學習」，他認為一個團隊研究 80% 的工作應該放在數據準備上，數據質量是重要的，但很少有人在乎。如果更多地強調以數據為中心而不是以模型為中心，機器學習會發展的更快。

我們不禁會問，機器學習的進步是模型帶來的還是數據帶來的，目前還沒有一個明確的答案。

在本文中，Android 開發者和機器學習愛好者 Harshil Patel 介紹了「機器學習：以數據為中心 VS 以模型為中心」，通過對比以確定兩者中哪個更重要，此外，Patel 還介紹了如何使用以數據為中心的基礎設施。

以數據為中心的方法 VS 以模型為中心的方法

以模型為中心的方法意味著需要通過實驗來提高機器學習模型性能，這涉及模型架構的選擇、訓練過程。而在以模型為中心的方法中，你需要保持數據相同，通過改進代碼和模型架構來提高性能。此外，對代碼的改進是以模型為中心的根本目標。

目前，大多數 AI 應用都是以模型為中心的，其中一個可能的原因是學術研究非常重視 AI 領域。根據吳恩達的說法，AI 領域 90% 以上的研究論文都是以模型為中心的，因為我們很難創建大型數據集，使其成為公認的標準。因此，AI 社區認為以模型為中心的機器學習更有前景。研究者在專注于模型的同時，往往會忽略數據的重要性。

對于研究者而言，數據是每個決策過程的核心，以數據為中心的公司通過使用其運營產生的信息，可以獲得更準確、更有條理、更透明的結果，從而可以幫助公司組織更順利地運行。以數據為中心的方法涉及系統地改進、改進數據集，以提高 ML 應用程序的準確性，對數據進行處理是以數據為中心的中心目標。

數據驅動 VS 以數據為中心

許多人經常混淆「以數據為中心」和「數據驅動」這兩個概念。數據驅動是一種從數據中收集、分析和提取見解的方法，它有時被稱為「分析」。另一方面，以數據為中心的方法側重于使用數據來定義應該首先創建的內容;而以數據為中心的架構指的是一個系統，其中數據是主要和永久的資產。數據驅動架構意味著通過利用大量數據來創建技術、技能和環境。

對于數據科學家和機器學習工程師來說，以模型為中心的方法似乎更受歡迎。這是因為從業者可以利用自身知識儲備來解決特定問題。另一方面，沒有人愿意花大量時間去標注數據。

然而，在當今的機器學習中，數據至關重要，但在 AI 發展中卻經常被忽視和處理不當。由于數據錯誤，研究者可能花費大量時間進行查錯。模型精度較低的根本原因可能不是來自模型本身，而是來自錯誤的數據集。

除了關注數據外，模型和代碼也很重要。但研究者往往傾向于在關注模型的同時忽略數據的重要性。最好的方法是同時關注數據和模型的混合方法。根據應用程序的不同，研究者應該兼顧數據和模型。

以數據為中心的基礎架構

以模型為中心的機器學習系統主要關注模型架構優化及其參數優化。

以模型為中心的 ML 應用程序

上圖中描述的是以模型為中心的工作流適用于少數行業，如媒體、廣告、醫療保健或制造業。但也可能面臨如下挑戰：

需要高級定制系統：不同于媒體和廣告行業，許多企業無法使用單一的機器學習系統來檢測其產品的生產故障。雖然媒體公司可以負擔得起有一個完整的 ML 部門來處理優化問題，但需要多個 ML 解決方案的制造企業不能按照這樣的模板進行實施;

大型數據集的重要性：在大多數情況下，公司沒有大量數據可供使用。相反，他們經常被迫處理微小的數據集，如果他們的方法是以模型為中心的，那么這些數據集很容易產生令人失望的結果。

吳恩達曾在他的 AI 演講中解釋了他如何相信以數據為中心的 ML 更有價值，并倡導社區朝著以數據為中心的方向發展。他曾經舉了一個「鋼鐵缺陷檢測」的例子，其中以模型為中心的方法未能提高模型的準確率，而以數據為中心的方法將準確率提高了 16%。

以數據為中心的 ML 應用程序

在實施以數據為中心的架構時，可以將數據視為比應用程序和基礎架構更耐用的基本資產。以數據為中心的 ML 使數據共享和移動變得簡單。那么，在以數據為中心的機器學習到底涉及什么?在實現以數據為中心的方法時，我們應該考慮以下因素：

數據標簽質量：當大量的圖像被錯誤標記時，會出現意想不到的錯誤，因此需要提高數據標注質量;

數據增強：讓有限的數據產生更多的數據，增加訓練樣本的數量以及多樣性(噪聲數據)，提升模型穩健性;

特征工程：通過改變輸入數據、先驗知識或算法向模型添加特征，常被用于機器學習，以幫助提高預測模型的準確性;

數據版本控制：開發人員通過比較兩個版本來跟蹤錯誤并查看沒有意義的內容，數據版本控制是維護數據中最不可或缺的步驟之一，它可以幫助研究者跟蹤數據集的更改(添加和刪除)，版本控制使代碼協作和數據集管理變得更加容易;

領域知識：在以數據為中心的方法中，領域知識非常有價值。領域專家通常可以檢測到 ML 工程師、數據科學家和標注人員無法檢測到的細微差異，ML 系統中仍然缺少涉及領域專家的內容。如果有額外的領域知識可用，ML 系統可能會表現得更好。

應該優先考慮哪一個：數據數量還是數據質量?

需要強調的是，數據量多并不等同于數據質量好。當然，訓練神經網絡不能只用幾張圖就能完成，數據數量是一個方面，但現在的重點是質量而不是數量。

如上圖所示，大多數 Kaggle 數據集并沒有那么大。在以數據為中心的方法中，數據集的大小并不那么重要，并且可以使用質量較小的數據集完成更多的工作。不過需要注意的是，數據質量高且標注正確。

上圖中是另一種標注數據的方式，單獨或組合標注。例如，如果數據科學家 1 單獨標注菠蘿，而數據科學家 2 將其組合標注，則兩者標注的數據不兼容，導致學習算法變得混亂。因此，需要將數據標簽保持一致;如果需要單獨標注，請確保所有標注都以相同的方式進行。

上圖為吳恩達解釋了小數據集一致性的重要性

到底需要多少數據?

數據質量不可忽視，但數據量也是至關重要的，研究者必須有足夠的數據支撐才能解決問題。深度網絡具有低偏差、高方差特性，我們可以預見更多的數據可以解決方差問題。但是多少數據才夠呢?目前這個問題還很難回答，不過我們可以認為擁有大量的數據是一種優勢，但也不是必須的。

如果你采用以數據為中心的方法，請記住以下幾點：

確保在整個 ML 項目周期中數據保持一致;

數據標注保持一致;

要及時反饋結果;

進行錯誤分析;

消除噪聲樣本。

那么，我們哪里可以找到高質量的數據集?這里推薦幾個網站，首先是 Kaggle：在 Kaggle 中，你會找到進行數據科學工作所需的所有代碼和數據，Kaggle 擁有超過 50,000 個公共數據集和 400,000 個公共 notebook，可以快速完成任務。

其次是 Datahub.io：Datahub 是一個主要專注于商業和金融的數據集平臺。許多數據集，例如國家、人口和地理邊界列表，目前在 DataHub 上可用。

最后是 Graviti Open Datasets：Graviti 是一個新的數據平臺，主要為計算機視覺提供高質量的數據集。個人開發人員或組織可以輕松訪問、共享和更好地管理開放數據。

原文標題：90%論文都是以模型為中心，AI領域，數據和模型到底哪個重要?

文章出處：【微信公眾號：智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據

數據

+關注

關注
8

文章
7081

瀏覽量
89178
AI

AI

+關注

關注
87

文章
31130

瀏覽量
269447
模型

模型

+關注

關注
1

文章
3266

瀏覽量
48921

原文標題：90%論文都是以模型為中心，AI領域，數據和模型到底哪個重要？

文章出處：【微信號：tyutcsplab，微信公眾號：智能感知與物聯網技術研究所】歡迎添加關注！文章轉載請注明出處。

【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

近年來，人工智能領域的大模型技術在多個方向上取得了突破性的進展，特別是在機器人控制領域展現出了巨

發表于 12-29 23:04

《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

醫療領域，手術輔助機器人需要毫米級的精確控制，書中有介紹基于視覺伺服的實時控制算法，以及如何利用大模型優化手術路徑規劃。工業場景中，協作機器人面臨的主要挑戰是快速適應新工藝流程。具身智

發表于 12-24 15:03

【「具身智能機器人系統」閱讀體驗】+數據在具身人工智能中的價值

和機器人領域貨幣化的重要工具，在互聯網領域，公司主要將用戶數據用于定向廣告和個性化內容。這種有針

發表于 12-24 00:33

【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

在客服領域是大模型落地場景中最多的，也是最容易實現的。本身客服領域的特點就是問答形式，大模型接入難度低。今天跟隨《大

發表于 12-17 16:53

cmp在機器學習中的作用如何使用cmp進行數據對比

在機器學習領域，"cmp"這個術語可能并不是一個常見的術語，它可能是指"比較"（comparison）的縮寫。比較在

發表于 12-17 09:35 ?231次閱讀

魯棒性在機器學習中的重要性

在機器學習領域，模型的魯棒性是指模型在面對輸入

發表于 11-11 10:19 ?435次閱讀

AI大模型與傳統機器學習的區別

AI大模型與傳統機器學習在多個方面存在顯著的區別。以下是對這些區別的介紹：一、模型規模與復雜度 AI大

發表于 10-23 15:01 ?726次閱讀

電源穩壓器和電源濾波器哪個重要

電源穩壓器和電源濾波器在電子設備中都具有重要的作用，它們各自承擔著不同的功能，因此難以直接比較哪個更重要。以下是它們各自的重要性和功能分析：

發表于 10-03 15:25 ?456次閱讀

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

今天來學習大語言模型在自然語言理解方面的原理以及問答回復實現。主要是基于深度學習和自然語言處理技術。大語言模型涉及以下幾個過程：

發表于 08-02 11:03

機器學習中的數據分割方法

在機器學習中，數據分割是一項至關重要的任務，它直接影響到模型的訓練效果、泛化能力以及最終的性能評

發表于 07-10 16:10 ?1931次閱讀

機器學習中的數據預處理與特征工程

在機器學習的整個流程中，數據預處理與特征工程是兩個至關重要的步驟。它們直接決定了模型的輸入質量，

發表于 07-09 15:57 ?486次閱讀

Al大模型機器人

豐富的知識儲備。它們可以涵蓋各種領域的知識，并能夠回答相關問題。靈活性與通用性: AI大模型機器人具有很強的靈活性和通用性，能夠處理各種類型的任務和問題。持續學習和改進: 這些

發表于 07-05 08:52

人工神經網絡與傳統機器學習模型的區別

在人工智能領域，機器學習和神經網絡是兩個核心概念，它們各自擁有獨特的特性和應用場景。雖然它們都旨在使計算機系統能夠自動從數據中

發表于 07-04 14:08 ?1396次閱讀

名單公布！【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來？

的提升和數據可獲取性的增加，大模型已經成為人工智能研究和應用的一個重要趨勢。這些模型在處理復雜任務時，尤其是

發表于 06-25 15:00

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

復用和優化效果。這些趨勢共同推動了大語言模型在深度學習研究和應用中的重要地位。數據效應指出大型模型

發表于 05-04 23:55

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

在機器學習領域,數據和模型哪個更重要

評論

【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

【「具身智能機器人系統」閱讀體驗】+數據在具身人工智能中的價值

【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

cmp在機器學習中的作用如何使用cmp進行數據對比

魯棒性在機器學習中的重要性

AI大模型與傳統機器學習的區別

電源穩壓器和電源濾波器哪個重要

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

機器學習中的數據分割方法

機器學習中的數據預處理與特征工程

Al大模型機器人

人工神經網絡與傳統機器學習模型的區別

名單公布！【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來？

【大語言模型：原理與工程實踐】揭開大語言模型的面紗