人工智能真正值得擔心的是缺德,而不是聰明
我們都要思考技術如何體現特定的價值觀和假設,這有助于確?!拔覀冇眉夹g打造的世界,是一個我們想要居于其中的世界”。
2018年3月18日晚10點左右,伊萊恩·赫茨伯格(Elaine Herzberg)在亞利桑那州坦佩市騎車橫穿馬路,被一輛自動駕駛汽車撞倒,不幸身亡。雖然車上有安全駕駛員,但當時汽車完全由自動駕駛系統(人工智能)控制。
和其他涉及人與AI技術交互的事故一樣,這起事故提出了一系列的道德和原始法律問題:開發該系統的程序員在防止該系統奪人性命方面負有怎樣的道德責任?
誰應該為赫茨伯格的死負責?
是坐在駕駛位上的那個人嗎?
是測試那輛汽車的公司嗎?
是該AI系統的設計者嗎?
還是車載感應設備的制造商?
“人工智能”是指從周圍環境中獲取線索,根據這些數據來解決問題、評估風險、作出預測和采取行動的系統。在高性能計算機和大數據之前的時代,人工智能系統由人類編寫,遵循人類發明的規則,但技術進步已經導致了新方法的出現,其中便包括機器學習?,F在,機器學習是最活躍的AI領域,它通過統計方法來讓系統從數據中“學習”,作出決策,不必進行顯式編程。這樣的系統配合上一種算法或者一系列步驟,利用一個知識庫或者知識流(算法用來構建模型的信息)來解決一個問題。
這些技術進步引發了道德擔憂,主要聚焦于AI在致命性軍用無人機方面的應用,或者AI可能使全球金融系統陷入混亂的風險??紤]到自主無人系統已經威脅到了無數貨車司機和打車司機的飯碗,AI激起了普通民眾對失業的焦慮。除了這些宏觀的社會和經濟考量,數據科學家還擔心AI系統的偏見、這項技術的倫理實現和人機交互的本質(如果這些系統恰當且公平地部署于最尋常普通的應用)。
讓我們來看一個似乎平淡無奇的社會變化:機器已經有能力作出可以改變人們日常生活的決定。AI能匯集和評估大量數據,有時超出人力所及的范疇,因此AI可以提出雇傭建議,在幾秒內確定貸款申請人的信用度,預測罪犯再次犯罪的幾率。
但這樣的應用引發了令人不安的倫理問題,因為AI系統能強化它們從現實數據中獲得的認知,甚至放大熟悉的風險,比如種族和性別偏見。在面對不熟悉的場景時,AI系統還可能作出錯誤判斷。由于很多AI系統都是“黑箱”,人類不太容易獲知或者理解它們的決策依據,因此難以提出質疑或者進行探查。
這樣的例子有很多。2014年,亞馬遜開發了一款招聘工具,用來識別這家公司想要招募的軟件工程師。很快,該系統開始歧視女性,在2017年被亞馬遜棄用。2016年,ProPublica分析了一款商業軟件。該系統預測罪犯再次犯罪的可能性,旨在幫助法官作出更明智的量刑決定。ProPublica發現,該系統對黑人存有偏見。在過去兩年里,依靠規則和訓練數據來運作的自動駕駛汽車導致了幾起致命事故,原因是對外界環境不熟悉或者導航系統無法理解輸入數據。私營商業開發商通常拒絕公布他們的代碼以供檢查,因為其軟件被視為專有知識產權,是另一種形式的不透明性——法律上的,而非技術上的。
技術進步本身無法解決AI的深層次根本性問題:算法的設計哪怕再周全,也必須根據現實世界的數據來作出決定,但現實世界是有缺陷的、不完美的、不可預測的、特異的。
計算機科學家比其他人更快意識到,在系統被設計出來之后,工程并不總是能解決這樣的問題。盡管數據隱私得到加強,對算法公平的局限性有了更加清醒的認識,但人們意識到,在系統投入使用之前,必須把道德關切納入考量。這種認知促使倫理學課程(由哲學系博士后和研究生講授)被正式整合進哈佛大學的很多計算機科學課程。哈佛大學以及人工智能倫理與治理基金機構(由哈佛大學法學院伯克曼·克萊因中心和麻省理工學院媒體實驗室共同創辦)的數據科學家,就AI對人類社會的影響進行了深入討論。這種對倫理的關注源于哈佛大學一位資深的計算機科學教授。
從溝通到合作——和倫理學
自然科學教授芭芭拉·格羅茲(Barbara Grosz)說:“幾年前,我去拜訪微軟的幾位朋友。其中一人研究計算機視覺系統。我們開車去某處散步。在高速公路上,我們前面的是一輛卡車,上面載著一個移動廁所,一輛自行車綁在這個移動廁所上?!业南到y會怎么處理這個東西?’那人說,‘它知道該作何反應嗎?’”答案是可能不知道。這樣的一幅情景不可能成為其“體驗”——大量的圖像,由人類進行標記,構成了系統的訓練數據——的一部分。
芭芭拉·格羅茲
現在的AI系統還很弱小,比不上強大的人類智能——可以把在一個場景中學到的東西迅速應用到另一個場景??v然電腦能區分自動車、卡車和移動廁所,但如果這些物體混在一起,以每小時100公里的速度,沿著帶自行車道的高速公路行駛,那么電腦就會搞不清狀況。(利用這一弱點就是“AI和敵對攻擊”的主題。)換句話說,AI缺乏常識和推理能力,即使它能發現人類發現不了的東西,比如發現復雜生物網絡中的三階或更高階相互作用(必須三個或更多變量相互作用才能產生效果)?!皠e老想著機器人會統治世界。與其擔心人們知道其局限性的智能系統,不如擔心人們以為很聰明的愚蠢系統。”
格羅茲曾在康奈爾大學學習數學,后來在加州大學伯克利分校攻讀計算機科學,1973年成為斯坦福國際研究院(SRI International)人工智能中心的研究數學家,從此開始鉆研AI問題。計算機如何生成和理解人類語音和文本是AI研究的一個子領域,格羅茲被視為該領域的奠基人(榮獲2017年國際計算語言學協會終生成就獎),她能說出Alexa、Siri和谷歌等智能語音系統一大堆的不足之處。例如,這些系統知道最近的醫院在哪里,卻沒辦法指引腳踝受傷的人前往。
她在語言方面開展AI研究的時候,還沒有自然語言處理這種數據驅動的方法,所以她發明了一種基于模型的方法來代表人類語言,好讓計算機可以理解其含義。事實證明這對該領域特別有價值,因為這促使她深入思考人機交互的本質,后來在構想人機協作的未來時,又促使她提出了旨在跟人進行團隊合作的協作型AI系統的理論模型。
她在語言計算模型方面的研究遠遠超出了語法規則設計的范疇。理解說話者的意圖,以便確定對話的結構,從而解譯人類話語的含義,這是她開創的一個重要策略。她指出,真正的對話經常偏離主題,焦點不時轉換。她舉了一個著名的例子:一個人試圖通過電傳打字機,告訴另一個人如何組裝一臺空氣壓縮機,兩人的自發對話被她記錄了下來。其中一人用“它”來指代一個已經有半小時都沒有被提及的物體,但兩人十分清楚是什么意思。她說,語氣也是理解歧義句的關鍵?!澳闶钦嬲耐踝印笨赡苷f得真心誠意,也可能語帶諷刺,必須教電腦明白二者的區別。
從這種跨學科研究中,產生了關于人機交互本質的一般性原則。格羅茲和博士生(現為微軟研究院高級研究員)艾瑟·卡馬爾(Ece Kamar)提出了“中斷管理”理論,用于引導人機之間的信息交換,以大大提高人機對話的效率。在漫長的職業生涯中,她逐漸意識到,AI系統與人類團隊協作才能最大程度地發揮AI的作用。她設想的未來將智能電腦的速度和統計能力與人類的天賦相結合,而不是機器和人類彼此對抗。在描述AI系統擊敗象棋和圍棋世界冠軍或者取代人類工作崗位時,對抗常常被用來形容機器和人類的關系??梢哉f,人機協作代表了AI系統的前沿。
格羅茲開始在醫療領域試驗基于團隊的AI系統。她和一位斯坦福兒科醫生啟動了一個協調罕見病兒童護理工作的項目。照料這些兒童的人有很多,除了父母之外,還包括醫生、家庭護理人員、理療師和老師。她說,護理時間橫跨數年,“我不知道有哪個人可以在這么長的時間內,持續追蹤另外15個人都干了些什么”。
格羅茲和博士生(現為以色列理工學院教員)奧夫拉·阿米爾(Ofra Amir)從分析患者護理團隊如何工作開始,提出了一個團隊合作的理論,引導人類成員和旨在協調兒童護理信息的AI系統進行互動。正如她在語言方面的AI研究一樣,她從一般性原則著手?!霸诶碚搶用嫔?,我們希望更好地了解在團隊擁有多個成員的環境中如何共享信息,然后打造工具,先是為父母,接著為醫生。”
她和巴伊蘭大學教授薩里特·克勞斯(Sarit Kraus)提出了一個重要原則:團隊成員不應該承擔他們缺乏必要知識或者無力完成的任務。這是良好的人類團隊合作所具有的一個特征,也是“知道自身局限性的智能系統”所具有的一個重要特征?!皢栴}在于,不僅是AI,還有很多已經面世的技術無法完成分配給它們的工作?!薄安恢滥阆胍裁础钡木W絡客服聊天機器人就是一例。她說,這些系統原本應該采取不同的設計,以便客戶的初次互動是在電腦的幫助下跟一個人進行,那個人應該和客戶建立關系,并檢查電腦明顯誤解的地方,而系統應該幫助那個人更快地作出回答。當智能系統設計的這些基本原則沒有得到應有的尊重時,系統被認為能夠做到它們實際上做不到的事情,或者以不恰當的方式被使用。
格羅茲的跨學科研究方法涵蓋語言學、哲學、心理學、經濟學,甚至還有一點人類學和社會學,這促使她思考其中哪些學科對AI系統設計的教學最有幫助。1987年至2001年,她曾教了一門AI導論課程,當時AI的應用大體上還處于理論層面,但在2013年和2014年,她重開那門課程時,世界已經大變,全面運行的AI系統投入了使用。格羅茲意識到,關于AI提出的倫理挑戰和良好的系統設計之間的相互影響,出現了一個教學良機。
這導致了格羅茲對哈佛大學計算機科學教學工作最重要的貢獻之一:倫理學應該緊密地整合進所有課程。2015年秋,她引入了一門新課程,名叫“智能系統設計與倫理挑戰”。次年,該課程的25個名額有140多名學生申請,這使她有了信心。格羅茲鼓勵她的計算機科學同事將倫理學整合進他們自己的課程。由于他們大多缺乏倫理學的教學經驗,她開始和哲學系主任、哲學沃爾科特教授艾莉森·西蒙斯(Alison Simmons)合作。他們攜手各自領域的同事,招募愿意將倫理單元囊括進計算機科學課程的計算機科學教授和愿意教授倫理單元的哲學系研究生。
這項“嵌入式倫理計算機科學”計劃的目標,是教那些打造未來AI系統的人如何識別和思考倫理問題。(計算機科學現在是哈佛大學本科生人數第二多的專業,如果把統計學和應用科學等相關專業的學生計算在內,那么招生總數將大大超過排名第一的經濟學專業。)“大多數的倫理挑戰并沒有一個簡單的正確答案,”格羅茲指出,“所以,就像學生們學習基本的計算技能一樣,我希望他們學習基本的倫理推理技能?!?017年春,四門計算機科學課程囊括了倫理學習,同年秋達到五門,2018年春增加到八門,現在總共有18門,包括系統編程、機器學習及其對公平和隱私的影響、社交網絡與審查問題、機器人與就業和人機交互。
對就讀這些課程的學生進行調查后發現,80%到90%的學生贊同嵌入式倫理教學,并且還想要更多。格羅茲說:“我希望所有的計算機科學課程,可能除了一兩門以外,都包含倫理單元?!边@樣一來,到畢業時,每個學生都會知道,“倫理在該領域的方方面面都非常重要,而不僅僅是在AI方面”。她和同事希望學生們明白,想要解決偏見和AI可解釋性等問題,他們在設計系統時,必須從一開始就把倫理原則放在心上。
變成波士頓司機
伯克曼·克萊因互聯網及社會中心教務主任、國際法和計算機科學教授喬納森·齊特林(Jonathan Zittrain)一直從原始法律的角度朝這個目標努力。2018年春,他和麻省理工學院媒體實驗室主任伊藤穰一(Joi Ito)共同教授一門課程,內容是探索應該如何塑造AI技術,使其將公共利益牢記在心。自動駕駛汽車是極好的研究對象,迫使學生們正視復雜性的本質,遠非決定誰生誰死的“失控電車難題”那么簡單。
齊特林解釋說,一旦汽車真正實現自主,“這意味著,如果發出了對某人的逮捕令,那么下次那個人進入一輛自動駕駛汽車時,車門會自動上鎖,汽車會把他送到最近的警局?;蛘?,要是車里的人突然發病了,該怎么辦?車輛能否以每小時110公里的速度在城市道路上飛奔,把人送往醫院,而其他所有車輛都自動向兩邊分開,讓出一條道路?”
齊特林班上的學生以為他們知道有關自動駕駛汽車的討論會如何展開。但當齊特林提出一個非常簡單的問題時,他們面臨著系統設計者在道德上的兩難抉擇。那個問題是:“司機應不應該能夠要求車輛以每小時128公里的速度行駛?”如果是,而汽車以那個速度行駛時發生了車禍,司機是否應該承擔責任?或者,允許汽車達到那個速度的汽車制造商是否應該負責?“超速行駛時有發生,但我們知道我們對此無能為力,這能讓我們心里好過點?!饼R特林指出,“對自動駕駛汽車的初始前提是,車上沒有司機,我們又不能責怪汽車,因為它是個死物??雌饋砗孟駴]有責任,但實際上責任大了?!逼囍圃焐獭I系統設計者、政策制定者和司機都可以被追責。
齊特林指出,如果車載AI系統從道路駕駛經歷中“學習”,不斷改變其行為,那么情況會變得更加復雜?!叭绻诓ㄊ款D開得夠多,說不定它會變成波士頓司機!”這適用于很多學習系統,而相關的法律解決方案還未經探索。他說,如果學習系統的行為并不總是可以預測,帶著那種不確定性投入使用,會讓人們付出代價。
齊特林說,在跨學科研究中,各學科之間的聯系是關鍵所在。在伯克曼·克萊因中心和麻省理工學院媒體實驗室,他和同事建立了一個名叫“集會”的團體,讓其他公司的軟件開發人員跟學生、跟彼此共事幾個月,研究AI和數據科學其他領域的一些問題?!扒度胧絺惱硎谡n可以為哈佛大學不同專業的學生提供彼此相逢的機會,利用他們在各自專業學到的知識,以團隊方式研究這類東西?!?/p>
“我認為,這是格羅茲的教學和研究具有重大影響力和長久魅力的一個原因。她教的不是如何干預和修復計算機系統或軟件,而是在更宏觀的層面上思考人和技術應該如何互動?!奔夹g能被追責嗎?技術能被理解嗎?技術能是公平的嗎?
系統偏見和社會工程
在2018年10月舉行的首屆哈佛數據科學大會(HDSC)上,自主無人系統的公平問題被放在了一個突出的位置。計算機科學教授大衛·帕克斯(David Parkes)列出了哈佛大學數據科學研究的指導原則:應該解決包括隱私在內的道德問題;不應該延續現有偏見;應該是透明的。但想要創造出體現這些原則的學習型AI系統是很難的。系統復雜性(可能有數千甚至更多變量)使人們幾乎不可能真正理解AI系統,而且存在于學習系統所依賴的數據集中的偏見很容易得到強化。
人們為什么很想打開AI系統的“引擎蓋”,弄明白它到底是如何作出決定的?這有很多原因:評估是什么導致輸出結果存在偏見,在出事故前進行安全檢查,或者在涉及自動駕駛汽車的事故發生后認定責任。
你能迅速完成這個簡單的決策樹嗎?輸入數據是:國際機器學習會議;2017年;澳大利亞;袋鼠;晴天。假設你已經正確完成,請用文字來解釋你是如何達成拍手這個決定的。要是有100萬個變量,會怎么樣?
這探究起來其實很難、很復雜。為了說明這一點,計算機科學助理教授費娜麗·杜什-維雷茲(Finale Doshi-Velez)把一個相對簡單的決策樹投射到大屏幕上。該決策樹深四層,按照5個輸入數據來回答問題。如果執行正確,最終的結果是舉起你的左手。一些與會者能按規定完成。然后,她展示了一個更加復雜得多的決策樹,可能深25層,增加了5個新參數來確定沿該決策樹到達正確答案的路徑。這個任務對電腦來說易如反掌。然而,當維雷茲詢問有沒有觀眾可以用文字來描述他們為什么會到達他們得出的那個答案時,沒人回答。即使標出正確路徑,也很難用外行人的話來描述復雜的交互式輸入數據對結果的影響。這還只是決策樹那樣的簡單模型,而不是擁有數百萬個參數的現代深度架構。開發從任意模型(可擴展系統,擁有任意數量的變量、任務和輸出數據)中獲取解釋的技術,這是維雷茲及其同事的研究課題。
偏見造成了一系列的問題。在HDSC大會上發表關于算法公平的講話時,計算機科學教授辛西婭·德沃克(Cynthia Dwork)說,面對不同的群體(比如種族不同或者宗教信仰不同),評定是否符合資格(比如貸款資格)的算法應該對每個群體都一視同仁。但在機器學習系統中,算法本身(逐步解決一個特定問題的過程)只是系統的一部分。另一個部分是數據。在自動作出貸款決定的AI系統中,算法部分可能是沒有偏見的,對每個群體都完全公平的,但在算法從數據中學習后,結果可能就不是這樣了。德沃克解釋道:“算法訪問的數據沒有被正確標注(也就是沒有獲得真相)?!比绻挥脕碜鞒鰶Q定的數據存在偏見,那么決定本身就可能存在偏見。
有幾個方法可能解決這個問題。一是仔細挑選被算法納入考量的申請人屬性(郵政編碼是著名的種族代號,因此常常被排除)。但偏見可以通過算法使用的其他變量的相關性(比如姓氏與地理普查數據相結合)卷土重來。
德沃克說,針對特定群體的偏見常??梢酝ㄟ^聰明的算法設計來加以解決,但由于算法決策的一個基本特征,確保對個人的公平要難得多。任何一個這樣的決定都會劃一條線:正如德沃克所說,總是會有來自不同群體的兩個人靠近這條線,線的兩邊各有一人,他們在幾乎所有方面都非常相似,但只有一個人會獲得貸款。
在某些情況下,通過系統設計來糾正偏見可能不是個好主意??纯从嬎銠C科學教授陳伊玲(Yiling Chen,音譯)和研究生莉莉·胡(Lily Hu)設計的一個雇傭系統。該系統旨在消除對非洲裔美國人的雇傭偏見。莉莉說:“作為純粹的優化驅動工具,算法會繼承、吸收、再現和加劇已有的不平等。比如,就業市場上存在一個由來已久的偏見,這時機器學習來了,它通過學會,重現了這個偏見?!彼麄兊慕鉀Q方法(利用經濟學和社會學工具來理解就業市場上的偏見)使人們對算法公平的思考超出計算機科學的范疇,從跨學科、全系統的角度來看待這一問題。
陳伊玲從事于社會計算,這個數據科學領域強調人類行為對算法輸入數據的影響。由于人是“自私的、獨立的、容易犯錯的且不可預測的”,這使得算法設計不可能在任何情況下都確保公平公正,于是她開始思考如何消除訓練數據(雇傭算法使用的現實信息)中的偏見。
她和莉莉致力于解決在招聘過程中落實反歧視行動的問題。想要消除少數群體歷來面臨的不公,一個直截了當的方法是在其他所有條件相等的情況下,作出有利于少數群體的雇傭決定。(這可能被視為對多數群體的不公,但在真正實現就業平等之前,仍然是可以接受的。)但陳伊玲和莉莉考慮了人的因素。假設少數群體中的很多人都沒有上過大學,原因是“學費高昂,而且由于歧視的緣故,我即使拿到了學位,找到工作的幾率仍然很低”。同時,雇主可能認為“來自少數群體的人,受教育程度較低,工作表現不好,因為他們不夠努力”。陳伊玲和莉莉說,考慮到由來已久的不平等,即使某個少數群體人士不上大學的決定是理性的,但那個決定會強化雇主對整個群體的成見。這種反饋效應模式不僅難以打破,而且正是算法(著眼于以前的成功招聘并將之與大學學位聯系起來)將會強化的那種數據模式。
陳伊玲和莉莉提出的解決方法不單單基于數學,而是社會工程,利用算法來改變數據標注。這相當于承認消除數據中的偏見非常困難。研究人員提議創建一個臨時的就業市常陳伊玲說,可以將之視為一個實習期,每個應聘者必須實習兩年,然后才能轉正。進入這個實習庫后,會面臨一個簡單的“公平約束”算法,該算法要求雇主從少數和多數群體中選擇實習生,實習生數量要具有代表性。然后,在實習結束時,是否轉正只看工作表現,不考慮屬于哪個群體。由于從族群角度來說是同樣聰明的,兩個群體最終實現了平等。
莉莉說:“我們試圖反駁的是一切都可歸結為優化問題、預測問題或者分類問題的觀點。這種觀點在機器學習/AI圈子里仍然是主流。如果你以標準的機器學習方式來處理,最后的結果將是加劇那些不平等?!?/p>
她說,人們必須明白,“創造技術的行為和我們使用技術的方式,其本身就是政治行動。技術不是憑空存在的,就像有時為善、有時為惡的儀器工具一樣。我覺得,以那種方式來看待技術是很幼稚的”。
莉莉強調,不管技術被用來識別視頻片段中的犯罪嫌疑人,還是被用來提供適合不同學習風格的教育或者醫療建議,“我們都要思考技術如何體現特定的價值觀和假設。這是第一步:要知道,問題并非是倫理上的和非倫理上的,其實,在我們設計的一切東西中,總會有規范性問題,每一步都是如此”。把那種認知整合進現有的課程中,這有助于確?!拔覀冇眉夹g打造的世界,是一個我們想要居于其中的世界”。
評論
查看更多