近日,麻省理工的博士生在兩項獨立研究中發現,雖然機器擅長識別人工智能生成的文本,但是很難分辨其中的真假。原因在于訓練機器識別假新聞的數據庫中充滿了人類的偏見,因此,訓練而成的人工智能也不可避免地帶上了刻板印象。
人類偏見是人工智能界普遍存在的沉疴。ImageNetRoulette數字藝術項目通過使用AI分析描述用戶上傳的圖片,揭示出了這一嚴峻問題。本期全媒派獨家編譯《紐約時報》對ImageNetRoulette項目的評論,為你呈現人工智能背后的“隱形偏見”。
一天清晨,當網友Tabong Kima正在刷推特時,他看到了一個名為#ImageNetRoulette的實時熱搜。
在這個熱搜里,用戶們把自拍上傳到某個網站上,然后由人工智能來分析和描述它所看到的每一張臉。ImageNetRoulette就是一家這樣的網站,它把某位男性定義為“孤兒”,或是“不吸煙者”,如果是戴著眼鏡的,則可能被貼上“書呆子、白癡、怪胎”的標簽。
一位Twitter網友上傳了自己的照片,被AI識別為“強奸犯嫌疑人”(Rape Suspect),標簽位于照片左上角
在Kima看到的推特信息中,這些標簽有的準確,有的奇怪,有的離譜,但都是為了搞笑,于是他也加入了。但結果卻讓這個24歲的非裔美國人很不開心——他上傳了一張自己的微笑照片,然后網站給他貼上了“不法分子”和“罪犯”的標簽。
“可能是我不懂幽默吧,”他發了一條推特,“但我沒覺得這有什么有趣的。”
注:截至發稿,該網站imagenet-roulette.paglen.com已經下線,現跳轉到www.excavating.ai。后者網頁上發布了一篇由原項目創始人撰寫的文章《挖掘人工智能:機器學習訓練集中的圖像政治》
人工智能背后:偏見、種族、厭女癥
事實上,Kima的反應正是這家網站想看到的。ImageNetRoulette是一個數字藝術項目,在人工智能迅速改變個人生活的當下,這個項目旨在揭露某些古怪的、無根據的、冒犯的行為,它們正在蔓延到人工智能技術中,包括被互聯網公司、公安部門和其他政府機構廣泛使用的面部識別服務。
面部識別和其他AI技術都是通過分析海量數據來學習技能,而這些數據來自過去的網站和學術項目,不可避免地包含多年來未被注意到的細微偏差和其他缺陷。這也是美國藝術家Trevor Paglen和微軟研究員Kate Crawford發起ImageNetRoulette項目的原因——他們希望更深層次地揭露這個問題。
“我們希望揭露偏見、種族主義和厭女癥如何從一個系統轉移到另一個系統,”Paglen在電話采訪中說:“重點在于讓人們理解幕后的操作,看到我們(的信息)一直以來是如何被處理和分類的。”
作為本周米蘭Fondazione Prada博物館展覽的一部分,這個網站主要關注的是知名的大型可視化數據庫ImageNet。2007年,以李飛飛為首的研究人員開始討論ImageNet項目,它在“深度學習”的興起中發揮了重要的作用,這種技術使機器能夠識別包括人臉在內的圖像。
“Training Humans”攝影展在米蘭Fondazione Prada博物館揭幕,展示人工智能系統如何通過訓練來觀看并給這個世界分類。
ImageNet匯集了從互聯網上提取的1400多萬張照片,它探索了一種訓練AI系統并評估其準確性的辦法。通過分析各種各樣不同的圖像,例如:花、狗、汽車,這些系統可以學習如何識別它們。
在關于人工智能的討論中,鮮少被提及的一點是,ImageNet也包含了數千人的照片,每一張都被歸入某一類。有些標簽直截了當,如“啦啦隊”、“電焊工”和“童子軍”;有些則帶有明顯的感情色彩,例如“失敗者、無望成功的人、不成功的人”和“奴隸、蕩婦、邋遢女人、流氓”。
Paglen和Crawford發起了應用這些標簽的ImageNetRoulette項目,以展示觀點、偏見甚至冒犯性的看法如何影響人工智能,不論這些標簽看起來是否無害。
偏見的蔓延
ImageNet的標簽被成千上萬的匿名者使用,他們大多數來自美國,被斯坦福的團隊雇傭。通過Amazon Mechanical Turk的眾包服務,他們每給一張照片貼標簽就能賺幾分錢,每小時要瀏覽數百個標簽。在這個過程中,偏見就被納入了數據庫,盡管我們不可能知道這些貼標簽的人本身是否帶有這樣的偏見。
但他們定義了“失敗者”、“蕩婦”和“罪犯”應該長什么樣。
這些標簽最早來自另一個龐大的數據集,WordNet,是普林斯頓大學研究人員開發的一種機器可讀的語義詞典。然而,該詞典包含了這些煽動性的標簽,斯坦福大學ImageNet的研究者們可能還沒有意識到這項研究出現了問題。
人工智能通常以龐大的數據集為基礎進行訓練,而即使是它的創造者們也并不能完全理解這些數據集?!叭斯ぶ悄芸偸且猿笠幠_\作,這會帶來一些后果,”Liz O’Sullivan說道。他曾在人工智能初創公司Clarifai負責數據標簽的監督工作,現在是民權和私人組織“技術監督計劃”(STOP,全稱為Surveillance Techonology Oversight Project)的成員,這個組織的目標是提高人們對人工智能系統問題的意識。
ImageNet數據中的許多標簽都是十分極端的。但是,同樣的問題也可能發生在看似“無害”的標簽上。畢竟,即使是“男人”和“女人”的定義,也有待商榷。
“給女性(無論是否成年)的照片貼標簽時,可能不包括性別酷兒(nonbinary,即自我認為非二元性別的人士)或短發女性,”O’ Sullivan表示,“于是,AI模型里就只有長發女性?!?/p>
近幾個月來,研究者們發現諸如亞馬遜、微軟和IBM等公司提供的面部識別服務,都有對女性和有色人種持有偏見。通過IamgeNetRoulette項目,Paglen和Crawford希望能引起人們對這個問題的重視,而他們也的確做到了。隨著這個項目在推特等網站上走紅,ImageNetRoulette項目近期每小時產生的標簽數超過10萬個。
“我們完全沒想到,它會以這樣的方式走紅,”Crawford與Paglen說道,“它讓我們看到人們對這件事的真正看法,并且真正參與其中。”
熱潮之后,隱憂重重
對有些人來說,這只是個玩笑。但另外一些人,例如Kima,則能懂得Crawford和Paglen的用意?!八麄冏龅煤芎茫⒉皇钦f我以前沒有意識到這個問題,但他們把問題揭露出來了”,Kima說道。
然而,Paglen和Crawford認為,問題也許比人們想象得更加嚴重。
ImageNet只是眾多數據集中的一個。這些數據集被科技巨頭、初創公司和學術實驗室重復使用,訓練出各種形式的人工智能。這些數據庫中的任何紕漏,都有可能已經開始蔓延。
如今,許多公司和研究者都在試圖消除這些弊端。為了應對偏見,微軟和IBM升級了面部識別服務。今年一月,Paglen和Crawofrod初次探討ImageNet中的奇怪標簽時,斯坦福大學的研究者們禁止了該數據集中所有人臉圖像的下載?,F在,他們表示將刪除更多的人臉圖像。
斯坦福大學的研究團隊向《紐約時報》發表了一份聲明,他們的長期目標是“解決數據集和算法中的公平性、問責制度和透明度問題?!?/p>
但對Paglen來說,一個更大的隱憂正在逼近——人工智能是從人類身上學習的,而人類是有偏見的生物。
“我們對圖像的貼標簽方式是我們世界觀的產物,”他說,“任何一種分類系統都會反映出分類者的價值觀?!?/p>
來源:人人都是產品經理
評論
查看更多