機器學習中的數據偏差是一種錯誤,其中數據集的某些元素比其他元素具有更大的權重和或表示。有偏見的數據集不能準確地表示模型的用例,從而導致結果偏斜,準確性水平低和分析錯誤。
通常,用于機器學習項目的訓練數據必須代表現實世界。這很重要,因為這些數據是機器學習如何完成其工作的方式。數據偏差可能會發生在從人類報告和選擇偏差到算法和解釋偏差的一系列區域中。
解決機器學習項目中的數據偏差意味著首先確定它在哪里。只有在知道存在偏見的地方之后,你才可以采取必要的措施來糾正它,無論是解決數據不足還是改善注釋過程的問題。考慮到這一點,請務必對數據的范圍,質量和處理保持警惕,以免產生偏差。這不僅影響模型的準確性,而且還會涉及道德,公平和包容性問題。
下面,我列出了機器學習中最常見的7種數據偏見類型,以幫助你分析和了解其發生的位置以及你可以采取的措施。
數據偏差的類型
盡管并不詳盡,但此列表包含了該領域中數據偏見的常見示例,以及其發生位置的示例。
樣本偏差:當數據集不能反映模型將在其中運行的環境的實際情況時,就會發生樣本偏差。這樣的一個例子是某些主要在白人圖像上訓練的面部識別系統。這些模型對婦女和不同種族的人的準確度要低得多。此偏差的另一個名稱是選擇偏差。
排除偏差:排除偏差在數據預處理階段最常見。通常,這是刪除不重要的有價值數據的情況。但是,由于某些信息的系統排除,它也可能發生。例如,假設你有一個在美國和加拿大的客戶銷售數據集。98%的客戶來自美國,因此你選擇刪除不相關的位置數據。但是,這意味著你的模型將不會因為加拿大客戶的消費增加兩倍多這一事實而受到影響。
測量偏差:當為訓練而收集的數據與現實世界中收集的數據不同時,或者當錯誤的測量結果導致數據失真時,就會發生這種偏差。這種偏差的一個很好的例子出現在圖像識別數據集中,其中訓練數據是用一種類型的照相機收集的,而生產數據是用另一種照相機收集的。在項目的數據標記階段,由于注釋不一致也會導致測量偏差。
召回偏差:這是一種測量偏差,在項目的數據標記階段很常見。當你不一致地標記相似類型的數據時,就會產生召回偏差。這導致較低的精度。例如,假設你有一個團隊將電話的圖像標記為損壞,部分損壞或未損壞。如果有人將一張圖像標記為已損壞,但將相似的圖像標記為部分已損壞,則你的數據將不一致。
觀察者偏差:也稱為確認偏差,觀察者偏差是看到你期望在數據中看到或想要看到的結果的效果。當研究人員在有意識或無意識的情況下對自己的研究有主觀想法進入項目時,可能會發生這種情況。當標簽制作者讓主觀思想控制他們的標簽制作習慣,從而導致數據不準確時,你也可以看到這一點。
種族偏見:盡管不是傳統意義上的數據偏見,但由于其在AI技術中的盛行,因此仍然值得一提。當數據偏向特定人群時,就會發生種族偏見。在面部識別和自動語音識別技術中可以看到這一點,該技術無法像白種人那樣準確地識別有色人種。Google的Inclusive Images競賽提供了很好的例子說明了這種情況的發生。
關聯偏差:當機器學習模型的數據加強和/或乘以文化偏差時,就會發生這種偏差。你的數據集可能包含一組工作,其中所有男性都是醫生,所有女性都是護士。這并不意味著女人不能當醫生,男人不能當護士。但是,就你的機器學習模型而言,不存在女醫生和男護士。社交偏見最出名的是造成性別偏見,這在“挖掘人工智能”研究中可見。
如何避免機器學習項目中的數據偏差?
防止機器學習項目中的數據偏差是一個持續的過程。盡管有時很難知道數據或模型何時出現偏差,但是你可以采取許多步驟來幫助防止偏差或及早發現偏差。盡管遠非詳盡的清單,但以下要點為思考機器學習項目的數據偏差提供了入門級指南。
盡你所能,事先研究用戶。請注意你的一般用例和潛在異常值。
確保你的數據科學家和數據標簽團隊是多元化的。
盡可能合并來自多個來源的輸入以確保數據多樣性。
為數據標簽創建黃金標準。黃金標準是一組數據,可以反映任務的理想標記數據。它使你能夠測量團隊的注釋的準確性。
為數據標簽期望制定明確的準則,以便數據標簽保持一致。
對于可能會出現數據準確性偏差的任何項目,請使用多次通過注釋。例如,情感分析,內容審核和意圖識別。
尋求具有領域專業知識的人員的幫助,以查看你收集和/或注釋的數據。團隊外部的人可能會看到團隊忽略的偏見。
定期分析你的數據。跟蹤錯誤和問題區域,以便您快速響應并解決它們。在決定刪除或保留它們之前,請仔細分析數據點。
使偏差測試成為開發周期的一部分。Google,IBM和Microsoft都發布了工具和指南,以幫助分析許多不同數據類型的偏差。
如果你想更深入地了解偏見的產生方式,偏見對機器學習模型的影響以及過去在自動化技術中的偏見,我建議你參考瑪格麗特·米切爾(Margaret Mitchell)的“人工智能的視野和語言偏見”演示。
鏈接:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/slides/cs224n-2019-lecture19-bias.pdf?ref=hackernoon.com
總結
請務必注意任何數據項目在機器學習中的潛在偏見。通過盡早安裝正確的系統并保持數據收集,標記和實施的最頂層,你可以在出現問題之前就注意到它,或者在出現問題時對其進行響應。
責任編輯:xj
原文標題:機器學習中的7種數據偏見
文章出處:【微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。
-
數據
+關注
關注
8文章
7014瀏覽量
88980 -
機器學習
+關注
關注
66文章
8411瀏覽量
132600
原文標題:機器學習中的7種數據偏見
文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論