色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何解決AI應用歧視特定人群的問題?

mK5P_AItists ? 來源:未知 ? 作者:胡薇 ? 2018-08-15 15:53 ? 次閱讀

當使用谷歌翻譯將西班牙語的新聞翻譯為英語時,涉及到女性的短語通常都會翻譯為“他說”或“他寫道”。常用于處理和分析大量自然語言數據的詞嵌入(Word Embedding)算法通常會將歐美名字預測為令人愉快的人物形象,而將非裔美國人名預測為令人不愉快的人物形象。

這些只是AI應用歧視特定人群中的一小部分案例,還有更多未被發現。

正如很多學者所指出的,偏頗決策并非AI獨有,但隨著AI的影響范圍逐漸擴大,使得這個問題的解決變得尤為重要。實際上,偏見問題的普遍性意味著我們需要系統的解決方案,下文我們列出了幾種可能的策略。

有偏數據

無論是在學術界還是工業界,從發行的出版物和媒體等公開刊物和報道來看,計算機科學家們均傾向于通過訓練更加復雜的算法而獲得榮譽,而對于數據收集、數據處理和數據組織相對關注較少。

AI產生偏差的主要原因在于訓練數據。大部分機器學習任務都基于大規模的、帶標注的數據集進行訓練。例如,針對圖片分類的深度神經網絡通常基于ImageNet進行訓練,而ImageNet上有著超過1400萬張的標注圖像集。

在自然語言處理中,標準算法一般基于具有數十億個單詞的語料庫進行訓練。研究人員通常使用特定查詢關鍵詞通過爬取類似谷歌圖像、谷歌新聞等網頁來搜集數據,或者通過整合例如維基百科等比較容易獲取的數據源上的信息來構建數據集。

這些數據集后續通常由研究生或眾包平臺,如亞馬遜眾包平臺(Amazon Mechanical Turk)進行標注處理。這些處理方法可能會無意識地讓數據產生性別、種族和文化偏見。通常來說,數據中包含的某些群體占比較高,而另一些群體則占比較少。ImageNet作為推動計算機視覺研究的訓練數據源,其中超過45% 的數據來源于美國用戶,而這些數據提供者僅占全世界人口的 4%。

相比之下,中國和印度用戶總共貢獻了 3% 的數據,而這些國家的人口占據了全世界人口的36% 。這種地理多樣性的缺乏從某種情況下解釋了為何計算機視覺算法會將一張美國傳統新娘的照片標記為“新娘”、“禮服”、“女人”、“婚禮”,而將另一張北印度新娘的照片則標記為“表演藝術”和“服裝”。

在醫學領域,機器學習預測器可能特別容易受到有偏數據集的影響,因為醫學數據的生產和標注成本非常高。去年,研究人員使用深度學習從照片中識別皮膚癌。

他們在129,450張圖片集上進行模型訓練,其中60% 的圖片來源于從谷歌圖片。但是其中有不到5%的圖片是屬于深色皮膚人群的,并且該算法并未在深色皮膚人群上進行過測試。因此這個分類器對不同人群的性能可能會有顯著變化。

造成偏差的另一個原因是算法本身。

典型的機器學習程序會嘗試最大化訓練數據的整體預測準確性。如果訓練數據中一組特定群體的出現頻率明顯超過其他群體,則程序將會針對此類群體的數據進行優化來提供整體準確率。一般計算機科學家基于“測試數據集”進行算法評估,但測試集通常是原始訓練集的隨機子樣本,所以也有可能存在同樣的偏差。

有缺陷的算法可以通過循環反饋放大偏差。想象一下根據統計學訓練的系統,例如谷歌翻譯,其默認使用的是男性代名詞。這種模式是由英語語料庫中男性與女性代名詞比例2:1的情況造成的。更糟的是,每一次翻譯程序默認翻譯為“他說”,都會增加相應男性代名詞出現在網頁上的幾率——這可能會潛在地影響來之不易數據糾偏進展。

得益于大規模的社會變革,才使得男女代名詞的比例從20世紀60年代的4:1下降到現在的2:1。

平衡傾斜

數據中的偏差常常會反映出制度建設和社會權利關系的深層次和隱性失衡。以維基百科為例,它似乎是一個豐富多樣的數據源。但是該網站的傳記條目中只有不到18%是關于女性的。從女性文章鏈接到男性文章的次數遠大于反過來鏈接的次數,這使得男性更容易被搜索引擎獲取到。男性還更多的被浪漫伴侶和家庭的相關文章所提及。

因此,建立訓練數據集時必須注意算法調優情況和社會意識行為。具體而言,應該采取措施來確保數據集具有多樣性,并且不代表特定群體。

這意味著不能再采用簡單的分類——“男/女”、“黑/白”等等——這些分類很難表達性別和種族身份的復雜性。一些學者已經開始對此展開工作。計算機科學家最近發現,商業面部識別系統在識別膚色較深的女性相比膚色較淺的男性會更容易產生性別分類錯誤,錯誤率分別為35%和0.8%。

為解決這個問題,研究人員重新構建了一個由1,270個人組成的新的圖像數據集,來均衡性別和種族比例。使用這些數據重新訓練和微調后的面部分類算法應該可以提高其準確性。為了幫助確定偏差來源,我們建議注釋者使用標準化元數據對訓練數據集的內容進行系統化的標注。一些研究小組已經在設計包含機器學習數據集的元數據和“有效標簽”的“數據表”。

含機器學習數據集的元數據和“營養標

每個訓練數據集都應有相關信息來說明該數據集是如何收集以及是如何對數據進行注釋的。如果數據包含有關人員的信息,則應提供有關地理、性別、種族和其他人口統計信息的摘要。如果數據標簽是通過眾包完成的,那么應該包括有關人群參與者的基本信息,以及他們給出的確切請求或指示。

數據管理者應盡可能提供與數據相關的準確描述。例如,在刑事司法數據的例子中,了解模型訓練過哪些“犯罪”類型數據有助于應用和解釋該模型。

內置修復程序

許多期刊已經要求作者提供類似的實驗數據信息作為出版的先決條件。例如,Nature要求作者將所有微陣列數據上傳到開放存取庫Gene Expression Omnibus——這就有需要作者提交實驗協議的元數據。我們鼓勵像國際機器學習會議這樣的會議組織者去提出類似的要求,將標準化的元數據作為最終提交和同行評審過程的重要組成部分。數據存儲庫的主機(例如OpenML)和AI競爭平臺(例如Kaggle)也應該這樣做。

最重要的是,計算機科學家應該努力開發更加完善的算法來消除數據中存在的人的偏見。目前研究者正在探尋各種方法來解決數據偏差的問題,其中之一是納入約束,本質上就是推動機器學習模型,以確保它在不同的子群體和類似的個體之間實現公平的算法。一種相關的方法是改變學習算法,以減少其對敏感屬性如種族、性別和收入等以及與這些特征相關的信息的依賴。

這種新產生的去除偏差的方法很有潛力,但需要通過實踐的檢驗與完善。

然而,不可回避的問題是,種族、性別和其他相關信息是需要被準確記錄的。除非有很好的實例,否則很難知道應該對模型施加哪些約束或更正。相關方法也要求算法設計者可以先驗地確定他們想要避免哪些類型的偏差。一種互補的方法是使用機器學習本身來識別和量化算法和數據中的偏差。 我們稱之為進行AI審計,其中審計員是一種系統地探測原始機器學習模型,以識別模型和訓練數據中的偏差的算法。

以我們最近工作中使用的一種流行的機器學習方法——詞嵌入為例,來量化美國的歷史成見。詞嵌入將每個英語單詞映射到空間中的點(幾何向量),這樣向量之間的距離就能捕獲對應單詞之間的語義相似性。它捕捉了類比關系,例如'man'是'king','woman'是'queen'。我們開發了一種算法——AI審計員,來查詢其他性別類比的嵌入。這表明“man”是“doctor”,而“woman”是“nurse”;“man”是“computer programmer”,而“woman”是“homemaker”“。

一旦審核員在單詞嵌入和原始文本數據中揭示了歷史成見,就可以通過修改單詞向量的位置來減少偏差。此外,通過評估成見的演變過程,對歷史文本進行訓練的算法可能會有消除偏差的作用。例如,從1910年到1990年,谷歌圖書每十年的美國文本數據嵌入一次,就會發現這期間美國人對亞裔的態度令人非常震驚且變化無常。1910年,美國人對亞裔的描述為“怪異”和“野蠻”。

到1990年,在第二次世界大戰后和20世紀80年代的移民浪潮時期,美國人的態度發生了巨大轉變,又用“抑制”和“敏感”來描述亞裔。

根源性方法

計算機科學家、倫理學家、社會科學家和其他許多人都在努力提高數據和AI的公平性,我們也是時候考慮一下何為公平了。

數據展現了這個世界的本來面貌,還是被塑造成人們想要它成為的樣子?同樣,一個人工智能工具是否應該用來評估一份工作的候選人,以及這個人是否能很好地融入工作環境? 誰又應該決定優先考慮哪種公平觀念?

為了解決這些問題并評估訓練數據和算法的更廣泛影響,機器學習研究人員必須與社會科學家以及人文、性別、醫學、環境和法律等方面的專家進行交流。當前,正在努力促進這種合作,包括我們在加州斯坦福大學參加的“以人為本的AI”計劃。這種參與必須從本科階段開始,這個階段的學生不僅要了解算法的工作原理,同時還要研究AI的社會背景。

設備、程序和流程塑造了我們的態度、行為和文化。AI正在改變經濟和社會,改變我們溝通和工作的方式,重塑治理模式和政治環境。我們的社會長期忍受著不平等,AI絕不能與此沆瀣一氣。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    30763

    瀏覽量

    268911
  • 機器學習
    +關注

    關注

    66

    文章

    8408

    瀏覽量

    132576

原文標題:Nature:AI為什么總是歧視重重?

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Samtec AI漫談 | 人工智能領域特定架構

    特定領域架構是一種設計理念 特定領域架構是一種設計理念,可讓計算機在特定任務中發揮高性能。復雜的設備很少能同時勝任多項任務。設計一款新產品通常需要考慮優先級,仔細平衡各種功能,以獲得最佳的整體效果
    發表于 11-27 14:04 ?396次閱讀
    Samtec <b class='flag-5'>AI</b>漫談 | 人工智能領域<b class='flag-5'>特定</b>架構

    何解決熱插拔時的電壓過沖

    電子發燒友網站提供《如何解決熱插拔時的電壓過沖.pdf》資料免費下載
    發表于 09-06 11:34 ?0次下載
    如<b class='flag-5'>何解</b>決熱插拔時的電壓過沖

    何解決工字電感噪音大的問題

    電子發燒友網站提供《如何解決工字電感噪音大的問題.docx》資料免費下載
    發表于 09-04 11:46 ?0次下載

    何解決電感的漏感問題

    電子發燒友網站提供《如何解決電感的漏感問題.docx》資料免費下載
    發表于 09-02 14:48 ?0次下載

    云開發AI助手

    AI
    草帽王路飛
    發布于 :2024年07月22日 14:41:54

    平衡創新與倫理:AI時代的隱私保護和算法公平

    在人工智能技術飛速發展的今天,它不僅帶來了前所未有的便利和效率,也暴露出了一系列倫理和隱私問題。從數據隱私侵犯到“信息繭房”的形成,再到“大數據殺熟”、AI歧視和深度偽造技術的威脅,AI的應用似乎
    發表于 07-16 15:07

    Apple研究揭示耳鳴對生活質量的影響

    對此,密歇根大學公共衛生學院環境健康科學教授Rick Neitzel指出:“耳鳴會給個體生活帶來巨大負擔。”他進一步解釋說,Apple聽力研究揭示了耳鳴的普遍性及其對特定人群的影響
    的頭像 發表于 05-29 15:26 ?343次閱讀

    生成式AI的「七宗罪」!

    面對生成式AI日漸增長的「罪惡」,我們該如何解決問題?
    的頭像 發表于 05-07 16:34 ?1760次閱讀
    生成式<b class='flag-5'>AI</b>的「七宗罪」!

    cubeMX在加入cube-ai分析模型時提示下載GNU tools for STM32卡死如何解決?

    在使用cube-ai時,會彈出對話框,并一致卡死在0%,嘗試手動安裝GNU工具也無效。請問該如何解決?
    發表于 03-21 07:42

    何解決連接國外大帶寬服務器時可能遇到的問題

     相信很多小白用戶會對如何解決連接國外大帶寬服務器時可能遇到的問題感興趣,RAK部落小編就為您整理發布如何解決連接國外大帶寬服務器時可能遇到的問題。
    的頭像 發表于 03-19 12:00 ?500次閱讀

    何解決修復立磨搖臂軸承位磨損問題

    何解決修復立磨搖臂軸承位磨損問題
    發表于 03-15 15:41 ?0次下載

    ai_reloc_network.h引入后,ai_datatypes_format.h和formats_list.h報錯的原因?

    \"}\" 更換了x-cube-ai三個版本的庫(7.3.0/8.0.0/8.0.1),報錯都一樣。 求教ST官方是如何解決這個問題的?
    發表于 03-14 06:23

    煤氣柜泄漏問題如何解

    電子發燒友網站提供《煤氣柜泄漏問題如何解決.docx》資料免費下載
    發表于 03-05 17:49 ?0次下載

    何解決鍵槽滾鍵磨損問題

    電子發燒友網站提供《如何解決鍵槽滾鍵磨損問題.docx》資料免費下載
    發表于 02-04 14:24 ?0次下載

    何解決針對破碎機軸磨損問題

    電子發燒友網站提供《如何解決針對破碎機軸磨損問題.docx》資料免費下載
    發表于 01-17 16:30 ?0次下載
    主站蜘蛛池模板: 99久久精品费精品蜜臀AV| 成年免费大片黄在线观看岛国| 99热这里只有的精品| 亚洲AV国产福利精品在现观看| 三级全黄的视频| 亚洲欧美自拍明星换脸| 99久视频只有精品2019| 国产人成高清在线视频99| 老牛天天晚上夜噜噜噜| 精品亚洲一区二区在线播放| 欧美精品久久久久久久久大尺度| 美国ZOOM动物在线观看| 摸老师丝袜小内内摸出水| 偷拍 自怕 亚洲 在线| 37大但人文艺术A级都市天气| 中文无码第3页不卡av| 俄罗斯aaaaa一级毛片| 国产AV无码成人黄网站免费| 久久精品国产男包| 日韩一区二区三区视频在线观看| 我和妽妽在厨房里的激情区二区| 中文字幕视频在线免费观看| 国产精品资源网站在线观看| 暖暖视频免费观看高清完整版| 欧洲人交xxx69| 亚洲中文字幕无码爆乳APP| 51xx午夜影视福利| 国产在线视精品在亚洲| 老司机亚洲精品影院在线观看| 偷柏自拍亚洲综合在线| 99视频在线免费| 久久精品国产亚洲AV天美18 | 十九禁啊啪射视频在线观看 | 国产精品久久久久久52AVAV| 美国一级黄色| 亚洲视频在线观看不卡| 18亚洲男同gay1069| 白丝制服被啪到喷水很黄很暴力 | 攻把受做哭边走边肉楼梯PLAY| 狂操空姐电影| 天天狠狠色噜噜|