Facebook研究人員發(fā)布了一個數(shù)據(jù)集,旨在幫助機(jī)器學(xué)習(xí)開發(fā)人員測試算法的偏差。
即使在不同的光照條件下,算法是否能夠?qū)Σ煌挲g、性別和膚色的人一視同仁呢?Facebook的AI Red團(tuán)隊近日發(fā)布了一個名為“Casual Conversations”的數(shù)據(jù)集,用于回答這個問題。10兆字節(jié)的數(shù)據(jù)由3011名參與者錄制的視頻組成;數(shù)據(jù)集由每人約15個1分鐘片段組成,總時長超過45000分鐘。視頻分別被標(biāo)記出年齡和性別,由每個參與者自我報告,膚色由訓(xùn)練有素的注解者使用標(biāo)準(zhǔn)比例確定,以及照明條件,也由注解者確定。
Facebook AI Red團(tuán)隊的研究經(jīng)理Cristian Canton給了我一個簡單的例子,說明了開發(fā)人員是如何使用數(shù)據(jù)集的。
“考慮門戶(Portal)設(shè)備,”他說。(門戶是Facebook價值150美元的桌面智能屏幕。)“我們有一個攝像頭,可以跟蹤人們。如果我現(xiàn)在是工程師來構(gòu)建這項技術(shù),為了確保它的包容性,我可以獲取臨時會話數(shù)據(jù)集,通過門戶中的跟蹤算法來運行它,并測量它在哪些地方表現(xiàn)不好。比如說,你可能會發(fā)現(xiàn),對于一個特定年齡、膚色或性別的人來說,在昏暗的光線下,這是行不通的。然后我就會知道我的算法對于特定的子組有缺陷。”
Facebook的研究人員在去年的Deepfake Detection Challenge(一項旨在開發(fā)自動識別欺詐媒體工具的競賽)的前五名獲獎?wù)呱砩蠝y試了該數(shù)據(jù)集。
在近日發(fā)布的一篇研究論文和博客文章中,他們報告說,雖然所有五種算法都在與較暗的膚色作斗爭,但在年齡、性別和光照條件等方面表現(xiàn)最為一致的模型并不是第一名得主Selim Seferbekov,而是排名第三的團(tuán)隊NTechLab。有趣的是,排名第四的18歲的研究小組最擅長分析的是年齡在45歲以上的年齡組中的受試者的視頻。
在不同的人群中表現(xiàn)平平,并不是Deep Fake Challenge的評判標(biāo)準(zhǔn)之一,因為還沒有完整的非正式對話數(shù)據(jù)集。
Said Canton說:“如果我們今天重新開始比賽,也許我們會考慮尋找一個更具包容性的方法?!?/p>
Canton說,近日發(fā)布的Casual Conversations數(shù)據(jù)集只是創(chuàng)造人工智能公平所需工作的開始。首先,他指出,這個問題是多方面的,雖然有這樣的數(shù)據(jù)是有幫助的,但這并不是最終的解決辦法。
Image: FacebookThese pie charts show the frequency of the different tags for age, gender, apparent skin tone, and lighting conditions in the 45,186 videos that make up the Casual Conversations data set.
至于數(shù)據(jù)集開發(fā)本身,他說,該團(tuán)隊還只是在“漫長旅程的第一步”。我們已經(jīng)確定了年齡、性別、膚色和光照條件,但(這些視頻)都是在美國錄制的。如果我們在其他國家錄制,我們可能會發(fā)現(xiàn)更多我們需要考慮且尚未看到的多樣性。”
Canton指出,錄音的音頻部分也代表了尚未開發(fā)的潛力。這些音頻文件是通過要求受試者回答簡單的對話提示(如“你最喜歡的菜是什么”)而創(chuàng)建的,目前只針對年齡和性別進(jìn)行標(biāo)記。“我們還沒有對口音進(jìn)行注釋,但這是未來可實現(xiàn)的一個潛在途徑。我們確實認(rèn)為這篇文章可以有一些有趣的結(jié)果。不過,我們要測試音頻模型的包容性?!?/p>
Canton希望,將這些數(shù)據(jù)公之于眾將引發(fā)反饋,從而使數(shù)據(jù)集更豐富、更具包容性?!拔液芟M吹剿玫讲捎?,然后讓我的同事和學(xué)者告訴我們更多他們的想法。我們希望進(jìn)行自我批評。有了反饋,我們可以不斷改進(jìn)它。我們希望它成為衡量人工智能公平性的標(biāo)準(zhǔn)方式。”
Canton還希望這個數(shù)據(jù)集的發(fā)展能夠樹立一個新的標(biāo)準(zhǔn)。他對這個數(shù)據(jù)集的創(chuàng)建方式感到自豪,包括它是可信來源。他在我們的談話中多次強(qiáng)調(diào),3000多名受試者的付出是有報酬的,并且他們了解自己的聲音和視頻圖像是如何被使用的,如果他們改變了參與的想法,以后可以退出。
他說:“我們正試圖為負(fù)責(zé)任的人工智能在未來的樣子設(shè)定一個標(biāo)準(zhǔn),”他補(bǔ)充說,F(xiàn)acebook團(tuán)隊希望“激勵更多的人記錄擴(kuò)充數(shù)據(jù)集。重要的是要做正確的事情 -- 通過使用正確的工具?!?br /> 編輯:lyn
-
Facebook
+關(guān)注
關(guān)注
3文章
1429瀏覽量
54725 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8408瀏覽量
132576 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24691 -
AI算法
+關(guān)注
關(guān)注
0文章
249瀏覽量
12260
原文標(biāo)題:人工智能算法對年齡、性別和膚色一視同仁嗎?
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論