色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習中的幾種數據偏差

Dbwd_Imgtec ? 來源:Imagination Tech ? 作者:Hengtee Lim ? 2021-01-05 17:54 ? 次閱讀

機器學習中的數據偏差是一種錯誤,其中數據集的某些元素比其他元素具有更大的權重和或表示。有偏見的數據集不能準確地表示模型的用例,從而導致結果偏斜,準確性水平低和分析錯誤。

通常,用于機器學習項目的訓練數據必須代表現實世界。這很重要,因為這些數據是機器學習如何完成其工作的方式。數據偏差可能會發生在從人類報告和選擇偏差到算法和解釋偏差的一系列區域中。

解決機器學習項目中的數據偏差意味著首先確定它在哪里。只有在知道存在偏見的地方之后,你才可以采取必要的措施來糾正它,無論是解決數據不足還是改善注釋過程的問題。考慮到這一點,請務必對數據的范圍,質量和處理保持警惕,以免產生偏差。這不僅影響模型的準確性,而且還會涉及道德,公平和包容性問題。

下面,我列出了機器學習中最常見的7種數據偏見類型,以幫助你分析和了解其發生的位置以及你可以采取的措施。

數據偏差的類型

盡管并不詳盡,但此列表包含了該領域中數據偏見的常見示例,以及其發生位置的示例。

樣本偏差:當數據集不能反映模型將在其中運行的環境的實際情況時,就會發生樣本偏差。這樣的一個例子是某些主要在白人圖像上訓練的面部識別系統。這些模型對婦女和不同種族的人的準確度要低得多。此偏差的另一個名稱是選擇偏差。

排除偏差:排除偏差在數據預處理階段最常見。通常,這是刪除不重要的有價值數據的情況。但是,由于某些信息的系統排除,它也可能發生。例如,假設你有一個在美國和加拿大的客戶銷售數據集。98%的客戶來自美國,因此你選擇刪除不相關的位置數據。但是,這意味著你的模型將不會因為加拿大客戶的消費增加兩倍多這一事實而受到影響。

測量偏差:當為訓練而收集的數據與現實世界中收集的數據不同時,或者當錯誤的測量結果導致數據失真時,就會發生這種偏差。這種偏差的一個很好的例子出現在圖像識別數據集中,其中訓練數據是用一種類型的照相機收集的,而生產數據是用另一種照相機收集的。在項目的數據標記階段,由于注釋不一致也會導致測量偏差。

召回偏差:這是一種測量偏差,在項目的數據標記階段很常見。當你不一致地標記相似類型的數據時,就會產生召回偏差。這導致較低的精度。例如,假設你有一個團隊將電話的圖像標記為損壞,部分損壞或未損壞。如果有人將一張圖像標記為已損壞,但將相似的圖像標記為部分已損壞,則你的數據將不一致。

觀察者偏差:也稱為確認偏差,觀察者偏差是看到你期望在數據中看到或想要看到的結果的效果。當研究人員在有意識或無意識的情況下對自己的研究有主觀想法進入項目時,可能會發生這種情況。當標簽制作者讓主觀思想控制他們的標簽制作習慣,從而導致數據不準確時,你也可以看到這一點。

種族偏見:盡管不是傳統意義上的數據偏見,但由于其在AI技術中的盛行,因此仍然值得一提。當數據偏向特定人群時,就會發生種族偏見。在面部識別和自動語音識別技術中可以看到這一點,該技術無法像白種人那樣準確地識別有色人種。Google的Inclusive Images競賽提供了很好的例子說明了這種情況的發生。

關聯偏差:當機器學習模型的數據加強和/或乘以文化偏差時,就會發生這種偏差。你的數據集可能包含一組工作,其中所有男性都是醫生,所有女性都是護士。這并不意味著女人不能當醫生,男人不能當護士。但是,就你的機器學習模型而言,不存在女醫生和男護士。社交偏見最出名的是造成性別偏見,這在“挖掘人工智能”研究中可見。

如何避免機器學習項目中的數據偏差?

防止機器學習項目中的數據偏差是一個持續的過程。盡管有時很難知道數據或模型何時出現偏差,但是你可以采取許多步驟來幫助防止偏差或及早發現偏差。盡管遠非詳盡的清單,但以下要點為思考機器學習項目的數據偏差提供了入門級指南。

盡你所能,事先研究用戶。請注意你的一般用例和潛在異常值。

確保你的數據科學家和數據標簽團隊是多元化的。

盡可能合并來自多個來源的輸入以確保數據多樣性。

為數據標簽創建黃金標準。黃金標準是一組數據,可以反映任務的理想標記數據。它使你能夠測量團隊的注釋的準確性。

為數據標簽期望制定明確的準則,以便數據標簽保持一致。

對于可能會出現數據準確性偏差的任何項目,請使用多次通過注釋。例如,情感分析,內容審核和意圖識別。

尋求具有領域專業知識的人員的幫助,以查看你收集和/或注釋的數據。團隊外部的人可能會看到團隊忽略的偏見。

定期分析你的數據。跟蹤錯誤和問題區域,以便您快速響應并解決它們。在決定刪除或保留它們之前,請仔細分析數據點。

使偏差測試成為開發周期的一部分。Google,IBM和Microsoft都發布了工具和指南,以幫助分析許多不同數據類型的偏差。

如果你想更深入地了解偏見的產生方式,偏見對機器學習模型的影響以及過去在自動化技術中的偏見,我建議你參考瑪格麗特·米切爾(Margaret Mitchell)的“人工智能的視野和語言偏見”演示。

鏈接:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/slides/cs224n-2019-lecture19-bias.pdf?ref=hackernoon.com

總結

請務必注意任何數據項目在機器學習中的潛在偏見。通過盡早安裝正確的系統并保持數據收集,標記和實施的最頂層,你可以在出現問題之前就注意到它,或者在出現問題時對其進行響應。

責任編輯:xj

原文標題:機器學習中的7種數據偏見

文章出處:【微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7014

    瀏覽量

    88980
  • 機器學習
    +關注

    關注

    66

    文章

    8411

    瀏覽量

    132600

原文標題:機器學習中的7種數據偏見

文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    zeta在機器學習的應用 zeta的優缺點分析

    在探討ZETA在機器學習的應用以及ZETA的優缺點時,需要明確的是,ZETA一詞在不同領域可能有不同的含義和應用。以下是根據不同領域的ZETA進行的分析: 一、ZETA在機器
    的頭像 發表于 12-20 09:11 ?209次閱讀

    cmp在機器學習的作用 如何使用cmp進行數據對比

    機器學習領域,"cmp"這個術語可能并不是一個常見的術語,它可能是指"比較"(comparison)的縮寫。 比較在機器學習的作用 模型
    的頭像 發表于 12-17 09:35 ?167次閱讀

    什么是機器學習?通過機器學習方法能解決哪些問題?

    計算機系統自身的性能”。事實上,由于“經驗”在計算機系統主要以數據的形式存在,因此機器學習需要設法對數據進行分析
    的頭像 發表于 11-16 01:07 ?392次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    eda在機器學習的應用

    機器學習項目中,數據預處理和理解是成功構建模型的關鍵。探索性數據分析(EDA)是這一過程不可或缺的一部分。 1.
    的頭像 發表于 11-13 10:42 ?293次閱讀

    機器學習數據分割方法

    機器學習數據分割是一項至關重要的任務,它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器
    的頭像 發表于 07-10 16:10 ?1754次閱讀

    機器學習的交叉驗證方法

    機器學習,交叉驗證(Cross-Validation)是一種重要的評估方法,它通過將數據集分割成多個部分來評估模型的性能,從而避免過擬合或欠擬合問題,并幫助選擇最優的超參數。本文將
    的頭像 發表于 07-10 16:08 ?1112次閱讀

    如何理解機器學習的訓練集、驗證集和測試集

    理解機器學習的訓練集、驗證集和測試集,是掌握機器學習核心概念和流程的重要一步。這三者不僅構成了模型學習
    的頭像 發表于 07-10 15:45 ?3871次閱讀

    機器學習數據預處理與特征工程

    機器學習的整個流程數據預處理與特征工程是兩個至關重要的步驟。它們直接決定了模型的輸入質量,進而影響模型的訓練效果和泛化能力。本文將從數據
    的頭像 發表于 07-09 15:57 ?400次閱讀

    機器學習算法原理詳解

    機器學習作為人工智能的一個重要分支,其目標是通過讓計算機自動從數據學習并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的
    的頭像 發表于 07-02 11:25 ?1012次閱讀

    機器學習數據分析的應用

    隨著大數據時代的到來,數據量的爆炸性增長對數據分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型從
    的頭像 發表于 07-02 11:22 ?615次閱讀

    深度學習與傳統機器學習的對比

    在人工智能的浪潮機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于
    的頭像 發表于 07-01 11:40 ?1348次閱讀

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法從數據尋找一種相應的關系。Iris鳶尾花數據集是一個
    的頭像 發表于 06-27 08:27 ?1652次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>的經典算法與應用

    機器學習模型偏差與方差詳解

    數據集的任何變化都將提供一個不同的估計值,若使用統計方法過度匹配訓練數據集時,這些估計值非常準確。一個一般規則是,當統計方法試圖更緊密地匹配數據點,或者使用更靈活的方法時,偏差會減少,
    發表于 03-26 11:18 ?994次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>模型<b class='flag-5'>偏差</b>與方差詳解

    使用SDLflash的例程時,發現訪問地址讀取到的flash的數據與預想的有偏差是為什么?

    您好,在使用SDL關于flash的例程時,發現訪問地址讀取到的flash的數據與預想的有偏差,并且在IAR調試器仿真,也會有程序跑飛的現象。請問這可能是什么原因?謝謝。
    發表于 02-02 07:42

    工業物聯網數據臺實現多種數據監控與智能管理

    智能工廠的工業物聯網數據臺發揮著重要作用,它能實現多種數據監控與智能管理,讓工廠里的設備、產品、人都能實時交互、共享信息,工廠里的各種數據
    的頭像 發表于 01-12 11:44 ?395次閱讀
    主站蜘蛛池模板: 久久国产精品免费网站| 娇妻在床上迎合男人| 国产高清视频在线播放www色| 国产AV一区二区三区传媒| 国产精品亚洲二线在线播放| 果冻传媒2021一二三区| 久久无码人妻中文国产| 翘臀后进美女白嫩屁股视频| 色琪琪丁香婷婷综合久久| 亚洲qvod图片区电影| 尤物国产在线精品三区| RUNAWAY韩国动漫免费官网版| 国产激情视频在线观看| 红杏俱乐部| 男同志vdieos免费| 跳蛋按摩棒玉势PLAY高H| 亚洲一级电影| vidosgratis tv少女| 国产乱人伦AV麻豆网| 久久青青热| 日韩亚洲欧美中文高清| 亚洲熟伦熟女专区| 99在线免费| 国产一区免费在线观看| 免费人成视频19674不收费| 射90黑b丝女| 在线观看日本免费| 成人中文字幕在线观看| 久久99re热在线播放7| 任你懆视频 这里只有精品| 亚洲伊人久久大香线蕉综合图片| PORN白嫩内射合集| 精品国产自在天天线2019| 秋霞鲁丝片Av无码| 午夜福利92看看电影80| 91久久偷偷做嫩草影院免| 国产毛片AV久久久久精品| 麻豆高潮AV久久久久久久 | 俄罗斯雏妓的BBB孩交| 交换年轻夫妇HD中文字幕| 日韩AV爽爽爽久久久久久 |