毫無疑問,這張家庭照片是非常可愛的:照片中的爸爸留著短須,戴著無框眼鏡,棕色頭發的媽媽咧著嘴笑著。他們正和兩個蹣跚學步的女兒一起嬉戲,同時品嘗著冰淇淋。但是,這張照片于2013年被上傳到照片分享網站Flickr上時,“可愛”以外的屬性引發了爭議。對于面部識別系統來說,這張照片有著獨特的意義。照片里,人臉出現在了畫面的不同位置。這樣的照片能夠幫助訓練人工智能來識別照片和視頻中的人臉。
韋斯特于2013年拍攝的這張照片被收錄在IBM的人像數據集(Diversity in Faces)中
IBM開發了一個名為“人臉多樣性”的新項目,并為其準備了上百萬張圖片,這張其樂融融的照片就是其中之一,該項目旨在提升人臉識別的公平性和準確性。
照片的拍攝者是佛蒙特州農村的一名圖書管理員,名叫杰薩姆·韋斯特Jessamyn West。當她發現這張照片被IBM使用了的時候,她感到既驚訝又憤怒,她曾將這張照片上傳到Flickr,并添加了知識共享(Creative Commons)協議,以便讓其他人可以使用這張照片。
但是她不知道的是,包括她拍攝的自畫像在內的十幾張照片,和這張照片一樣都包含在了人臉識別數據集中,這讓她感到十分不安。她說:“如果當初有人(就使用我的照片)征求過我的同意,我不會如此不安和憤怒。”
多年來,研究人員們通過互聯網收集并注釋了各類物體的照片,以此來訓練電腦,讓其可以更好地了解它們周圍的世界。通常,他們通過谷歌圖片搜索、公共Instagram帳戶和一些其他的途徑(有些合法,有些可能不合法)獲取數量巨大的圖片。得到的數據集通常被用于學術研究,比如訓練或測試人臉識別算法。但隨著微軟、亞馬遜、臉書和谷歌等公司押寶人工智能,人臉識別正走出實驗室,進入大型企業的視野中。
隨著消費者意識到他們在互聯網上留下的數據能夠產生的巨大威力,人臉識別數據集正在加劇人們對隱私和監控的擔心。因此,一些研究人員正在重新審視這種野蠻收集他人照片的行徑。在充滿分享精神的互聯網中,使用他人照片本應征求別人同意。
照片從哪里來?
由于深度學習的普及,近年來機器學習研究蒸蒸日上,人臉識別技術也得到了極大的改善。在一個典型的用例中,照片、視頻或實時流媒體中的人臉會被掃描、分析,接著,它們的特征會被拿來與數據庫中注釋過的人臉進行比較。
這項技術正被用于打擊人口販運和機場快速安檢,同時它也被用于監視音樂會、體育賽事。
然而,面部識別的準確性仍是一個問題。研究人員開始擔心人工智能系統中存在的歧視和偏見。該技術在正確識別有色人種和女性等方面還存在著重大缺陷。造成這一問題的原因之一,是數據集里男性相對于女性、白人相對有色人種的懸殊比例。
對機器訓練來說,數據多樣性很重要,但數據的體量大小也同樣重要。人臉識別系統的訓練和測試需要在數千萬甚至數百萬張人臉上進行。
多年來,研究人員一直通過IBM的人臉識別數據集來進行相關研究。這個包含圖片鏈接的數據集都是從Flickr和雅虎發布一百萬張圖片的資源包中整理生成。該資源包被稱為YFCC100M,它被用于各種各樣的科學項目研究,包括在不使用地理坐標的情況下估算照片和視頻的拍攝地點的研究。
許多公司、研究機構和個人都為面部識別編制了數據集,IBM只是其中之一。其中一些數據集由實際的圖像組成,還有一些類似IBM的數據集,是由圖像鏈接組成的。有時,數據集也是可以通過拍攝模特得到的。
這些人像屬于英偉達用于訓練GAN系統的數據集
通常情況下,這些數據集是知識共享的,但它們必須用于非商業目的,比如算法研究。但CNN發現,大量的類似數據集可以從Github等網站免費下載。
David A. Shamma在雅虎實驗室擔任研究主管時,幫助整理了Flickr的數據集。他認為,近些年來學術界為了機器視覺和識別研究,正從他們能接觸到的任何地方,想方設法地搜集數據,“在這個一個學術領域里,人們經常說,‘沒有造成傷害,就不算犯規’”。
Shamma認為,他和他的同事發布的Flickr大數據集,通過將大量授權的圖片交給研究人員,可以幫助學術界以此為基礎進行研究。
這些被上傳到Flickr上的圖片來源于像韋斯特這樣的普通人和一些專業人士。這些圖片擁有的知識共享協議是一種特殊類型的版權許可,?它明確規定了圖像可以在何種條件下被他人使用和共享。
知識共享協議于2002年首次發布,遠遠早于當前的人工智能熱潮。
盡管研究人員在Flickr等網站上免費使用圖片,但他們也承認,許多上傳這些照片的人可能會對照片被用于訓練人工智能的事實感到驚訝。
Shamma說:“我認為人們對自己的照片用途有一定的預計,但是當被告知具體的人工智能用途時,他們仍會感到意外。”
不滿在升級
不論人工智能的從業者們如何解釋,韋斯特在得知自己照片被用作機器學習后大吃一驚。今年3月,她在閱讀了一篇NBC新聞報道后,搜索了自己的Flickr賬戶。結果發現她為朋友的家人拍的照片和其他許多照片一樣,都是數據集的一部分時,她很沮喪。她認為人工智能的未來很明朗,但自己的照片在不知情的情況下被用來訓練人工智能使她憂心重重。
Twitter上相關的帖子充斥著普通網民的抗議。很多人也沮喪地發現,他們在網上分享的照片(通常是很久以前的照片)成為了訓練人工智能的素材。
韋斯特要求IBM從數據集中刪除她的照片,但這只能通過發郵件來完成。她還必須授權IBM使用她的社交賬號,以便其能夠找到并刪除每一張照片。
IBM表示,它“致力于保護隱私權”,數據集中涉及到的人隨時都可以選擇退出。不過,它并沒有提供工具來幫助確認數據集是否包含了特定的圖像,因此人們必須通過NBC構建的搜尋工具來查找。
與此同時,芯片制造商英偉達的研究人員正在研究IBM的經驗教訓,并考慮改變自己的做法。
今年3月,英偉達發布一個在線工具,幫助人們了解他們的照片是否被包含在用于訓練StyleGAN的數據集里。StyleGAN是今年2月英偉達公布的一個人工智能系統,善于創造實際上并不存在的逼真人臉,它的數據集包含70,000張高質量的Flickr授權圖片。
在NBC揭露了私人圖片被用作機器訓練后,英偉達的在線工具才出現在網絡上。然而英偉達負責圖形研究的副總裁David Luebke辯稱,這項工具已經開發了一段時間了。
他說:“當人們慢慢意識到這一點的同時,我們也一直在為之努力。只要有人(對搜集自己的圖片)提出反對,我們也希望能贏得他們尊重。”
如果用戶想從數據集中刪除自己的照片,或避免其用于未來的計算機視覺研究,該公司還列出了一系列預防措施對用戶進行指導。
這些建議包括將照片設為私有、更改其附帶的使用許可,以及在照片上添加一個標簽,以表明他們不希望將其用于計算機視覺研究。
Luebke說:“我認為很多人要么不在乎,要么會很樂意他們的照片被用在StyleGAN這樣的研究上。但如果有人不喜歡這樣,那也有辦法退出。”
這張韋斯特的自拍照和其他的照片一起被編入IBM的數據集中
一些研究人員認為,人們應該通過授權,自己決定圖片是否可以用于計算機視覺或人工智能研究。
對此,知識共享協議并不能幫上大忙。只要遵循相關的條款,這個來自非營利組織的許可協議并不限制任何形式的人工智能開發。
知識共享組織首席執行官Ryan Merkley稱:“這些協議并不是為了保護隱私或研究倫理而設計的。”
等待立法
近年來,人工智能發展之快,以至于相關法規幾乎還沒有來得及制定,更不用說實施了。法律上,在收集和使用圖像進行面部識別時,公司并沒有告知義務。
目前還沒有相關的聯邦法規出臺。在各州,情況則有所不同:例如,伊利諾斯州有一項法律,要求公司在收集生物特征信息之前必須得到客戶的同意;亞馬遜和微軟總部所在地華盛頓州的州參議院最近通過了一項限制面部識別使用的法案,該法案仍需在該州眾議院獲得通過。
Merkley和其他人認為應該考慮立法來規范數據收集。今年3月,參議院提出了一項法案,要求企業在收集和共享識別數據之前必須征得消費者的同意。它還要求公司進行外部測試,以確保算法在實施前是公平的。
數字版權組織電子前沿基金會(Electronic Frontier Foundation)技術政策主管Jeremy Gillula則表示,即使沒有嚴格的法律限制私人照片用于人工智能訓練,企業和研究團體也應該注意遵守道德規范。
在他看來,這意味著使用照片就要得到照片中人物的明確同意。即便這很難做到,它也是企業必須面對的現實。
-
人工智能
+關注
關注
1791文章
47208瀏覽量
238290 -
照片
+關注
關注
0文章
15瀏覽量
9597
發布評論請先 登錄
相關推薦
評論