我們又能通過開源社區做些什么?
在我們的世界里,算法無處不在,偏見也是一樣。從社會媒體新聞的提供到流式媒體服務的推薦到線上購物,計算機算法,尤其是機器學習算法,已經滲透到我們日常生活的每一個角落。至于偏見,我們只需要參考 2016 年美國大選就可以知道,偏見是怎樣在明處與暗處影響著我們的社會。
很難想像,我們經常忽略的一點是這二者的交集:計算機算法中存在的偏見。
與我們大多數人的認知相反,科技并不是客觀的。 AI算法和它們的決策程序是由它們的研發者塑造的,他們寫入的代碼,使用的“訓練”數據還有他們對算法進行應力測試 的過程,都會影響這些算法今后的選擇。這意味著研發者的價值觀、偏見和人類缺陷都會反映在軟件上。如果我只給實驗室中的人臉識別算法提供白人的照片,當遇到不是白人照片時,它不會認為照片中的是人類 。這結論并不意味著 AI 是“愚蠢的”或是“天真的”,它顯示的是訓練數據的分布偏差:缺乏多種的臉部照片。這會引來非常嚴重的后果。
這樣的例子并不少。全美范圍內的州法院系統 都使用“黑盒”對罪犯進行宣判。由于訓練數據的問題,這些算法對黑人有偏見 ,他們對黑人罪犯會選擇更長的服刑期,因此監獄中的種族差異會一直存在。而這些都發生在科技的客觀性偽裝下,這是“科學的”選擇。
美國聯邦政府使用機器學習算法來計算福利性支出和各類政府補貼。但這些算法中的信息,例如它們的創造者和訓練信息,都很難找到。這增加了政府工作人員進行不平等補助金分發操作的幾率。
算法偏見情況還不止這些。從 Facebook 的新聞算法到醫療系統再到警用攜帶相機,我們作為社會的一部分極有可能對這些算法輸入各式各樣的偏見、性別歧視、仇外思想、社會經濟地位歧視、確認偏誤等等。這些被輸入了偏見的機器會大量生產分配,將種種社會偏見潛藏于科技客觀性的面紗之下。
這種狀況絕對不能再繼續下去了。
在我們對人工智能進行不斷開發研究的同時,需要降低它的開發速度,小心仔細地開發。算法偏見的危害已經足夠大了。
我們能怎樣減少算法偏見?
最好的方式是從算法訓練的數據開始審查,根據微軟的研究人員 所說,這方法很有效。
數據分布本身就帶有一定的偏見性。編程者手中的美國公民數據分布并不均衡,本地居民的數據多于移民者,富人的數據多于窮人,這是極有可能出現的情況。這種數據的不平均會使 AI 對我們是社會組成得出錯誤的結論。例如機器學習算法僅僅通過統計分析,就得出“大多數美國人都是富有的白人”這個結論。
即使男性和女性的樣本在訓練數據中等量分布,也可能出現偏見的結果。如果訓練數據中所有男性的職業都是 CEO,而所有女性的職業都是秘書(即使現實中男性 CEO 的數量要多于女性),AI 也可能得出女性天生不適合做 CEO 的結論。
同樣的,大量研究表明,用于執法部門的 AI 在檢測新聞中出現的罪犯照片時,結果會驚人地偏向 黑人及拉丁美洲裔居民。
在訓練數據中存在的偏見還有很多其他形式,不幸的是比這里提到的要多得多。但是訓練數據只是審查方式的一種,通過“應力測驗”找出人類存在的偏見也同樣重要。
如果提供一張印度人的照片,我們自己的相機能夠識別嗎?在兩名同樣水平的應聘者中,我們的AI是否會傾向于推薦住在市區的應聘者呢?對于情報中本地白人恐怖分子和伊拉克籍恐怖分子,反恐算法會怎樣選擇呢?急診室的相機可以調出兒童的病歷嗎?
這些對于AI來說是十分復雜的數據,但我們可以通過多項測試對它們進行定義和傳達。
為什么開源很適合這項任務?
開源方法和開源技術都有著極大的潛力改變算法偏見。
現代人工智能已經被開源軟件占領,TensorFlow、IBM Watson 還有 scikit-learn 這類的程序包都是開源軟件。開源社區已經證明它能夠開發出強健的,經得住嚴酷測試的機器學習工具。同樣的,我相信,開源社區也能開發出消除偏見的測試程序,并將其應用于這些軟件中。
調試工具如哥倫比亞大學和理海大學推出的 DeepXplore,增強了 AI 應力測試的強度,同時提高了其操控性。還有 麻省理工學院的計算機科學和人工智能實驗室完成的項目,它開發出敏捷快速的樣機研究軟件,這些應該會被開源社區采納。
開源技術也已經證明了其在審查和分類大組數據方面的能力。最明顯的體現在開源工具在數據分析市場的占有率上(Weka、Rapid Miner 等等)。應當由開源社區來設計識別數據偏見的工具,已經在網上發布的大量訓練數據組比如 Kaggle 也應當使用這種技術進行識別篩選。
開源方法本身十分適合消除偏見程序的設計。內部談話、私人軟件開發及非民主的決策制定引起了很多問題。開源社區能夠進行軟件公開的談話,進行大眾化,維持好與大眾的關系,這對于處理以上問題是十分重要的。如果線上社團,組織和院校能夠接受這些開源特質,那么由開源社區進行消除算法偏見的機器設計也會順利很多。
我們怎樣才能夠參與其中?
教育是一個很重要的環節。我們身邊有很多還沒意識到算法偏見的人,但算法偏見在立法、社會公正、政策及更多領域產生的影響與他們息息相關。讓這些人知道算法偏見是怎樣形成的和它們帶來的重要影響是很重要的,因為想要改變目前的局面,從我們自身做起是唯一的方法。
對于我們中間那些與人工智能一起工作的人來說,這種溝通尤其重要。不論是人工智能的研發者、警方或是科研人員,當他們為今后設計人工智能時,應當格外意識到現今這種偏見存在的危險性,很明顯,想要消除人工智能中存在的偏見,就要從意識到偏見的存在開始。
最后,我們需要圍繞 AI 倫理化建立并加強開源社區。不論是需要建立應力實驗訓練模型、軟件工具,或是從千兆字節的訓練數據中篩選,現在已經到了我們利用開源方法來應對數字化時代最大的威脅的時間了。
-
AI
+關注
關注
87文章
30728瀏覽量
268892 -
機器學習
+關注
關注
66文章
8406瀏覽量
132567 -
智能計算
+關注
關注
0文章
177瀏覽量
16460
發布評論請先 登錄
相關推薦
評論