不可預測性、不可解釋性和不可理解性
介紹
AI 研究人員開始確定工程 AI 安全的主要挑戰,例如解決價值對齊問題作為過去 60 年 AI 失敗的主要原因。另一個暴露的現實是:機器越智能,人類就越無法預測、解釋和理解其影響。
不可預測性
人工智能的不可預測性是指我們無法準確、一致地預測系統將用于實現其目標的具體行動。如果我們想象一場智能國際象棋比賽,我們可以預測 AI 會贏——如果這是它的目標——但我們無法預測它為實現目標會采取的確切動作。這種情況下的后果并不顯著,但不可預測性隨著目標的智能和復雜性的增加而增加。如第 2 部分所述,假設 AI 的任務是治愈癌癥;從理論上講,它可以通過消滅人類來做到這一點。
這些臨時步驟取決于幾個因素,包括 AI 在整個過程中的交互。第 3 部分中介紹的 Microsoft 的 Tay(bot)開始根據與在線人的互動用不恰當的評論激怒他人。更重要的是,低智能系統無法學會預測高智能系統做出的決定。盡管高級人工智能可以將所有可能的選擇、決策或策略理論化,但人類沒有這種能力。對于在某個領域比人類具有更高智能的狹窄系統,情況可能類似,即使該系統總體上能力較差。
無法解釋
無法解釋指的是不可能以既可理解又準確的方式解釋智能系統做出的決定。例如,用于批準或拒絕抵押貸款的人工智能可能會使用數百萬甚至數十億個加權因素來做出決定。但當申請人被拒絕時,解釋會指出一兩個因素,例如“信用不良”或“薪水不足”。然而,這種解釋充其量只是對如何做出決定的簡化。這類似于糟糕的圖像壓縮,其中數據在縮小過程中丟失,即使生成的圖像在很大程度上代表了原始圖像。以類似的方式,解釋抵押貸款拒絕是基于“不良信用”而忽略了其他因素可能產生的影響。由此產生的解釋是不完整的,因此不是 100% 準確。
其他因素是否一定需要解釋?他們可以。例如,在美國,涉及貸款、住房、醫療保健等的決策不能基于受保護的階層。用于批準或拒絕抵押貸款的人工智能不能在決策過程中使用年齡或性別等因素,但這些數據可以成為因素。例如,如果抵押貸款公司歷來拒絕向居住在舊金山且沒有大學學位的 18-25 歲拉丁裔女性提供貸款,人工智能可能會了解到符合這些標準的申請人拖欠貸款的風險更高,無論是否有其他有利條件標準。在這里,不可預測性也會出現,但這是一個很好的例子,說明為什么能夠準確、完整地解釋決策很重要。
不可理解
如果抵押貸款拒絕得到完整和準確的解釋,解釋是否可以理解?可理解性在某種程度上是相對于個人的;擁有金融學位或在抵押貸款行業擁有多年經驗的人會比沒有類似領域智慧的人更(或更容易)理解準確和完整的解釋。也就是說,考慮到一百萬個不同加權因素的系統的詳細響應對于人類來說是不可理解的,因為我們沒有存儲容量、內存和理解那么多相互關聯的變量的能力。
對安全人工智能的影響
不可預測性、不可解釋性和不可理解性使得實現 100% 安全的 AI 變得不可能,因為即使是既定的標準、法律和工具也無法適當地鼓勵或阻止不必要的影響。即使我們能夠預測 AI 行為,我們也無法在不限制智能或系統價值的情況下有效地控制行為。當然,評估和調試 AI 故障需要易于理解的解釋,隨著機器智能的增加,這種解釋變得越來越不可能。接下來,第 5 部分探討了 AI 安全將如何影響工程領域。
審核編輯hhy
-
AI
+關注
關注
87文章
30746瀏覽量
268897 -
人工智能
+關注
關注
1791文章
47200瀏覽量
238269
發布評論請先 登錄
相關推薦
評論