OpenAI 近日的一篇新文章簡(jiǎn)述了如何通過(guò)辯論使 AI 系統(tǒng)矯正自身的問(wèn)題來(lái)保證系統(tǒng)的安全,人類是辯論的最終評(píng)價(jià)者。由于人類直接決定辯論勝負(fù),所以人類可以讓 AI 系統(tǒng)的價(jià)值取向始終與人類保持一致,作者認(rèn)為這種方法可以保證 AI 系統(tǒng)的安全。
AI Safety via Debate通過(guò)辯論達(dá)成AI安全。
我們提出了一項(xiàng)新的人工智能安全技術(shù),該方法先訓(xùn)練智能體對(duì)話題進(jìn)行辯論,然后由人判斷輸贏。我們認(rèn)為這種或類似的方法最終可以幫助我們訓(xùn)練 AI 系統(tǒng)去執(zhí)行超過(guò)人類認(rèn)知能力的任務(wù),同時(shí)這些任務(wù)的執(zhí)行結(jié)果仍然與人的價(jià)值觀是一致的。我們將通過(guò)初步的概念驗(yàn)證實(shí)驗(yàn)來(lái)概括這種方法,同時(shí)我們還會(huì)發(fā)布了一個(gè) Web 網(wǎng)頁(yè),讓人們可以體驗(yàn)這項(xiàng)技術(shù)。
辯論方法可視為圍棋中使用的游戲樹(shù),只不過(guò)把走子換成了辯論的句子,然后在最終的葉子節(jié)點(diǎn)由人類的判斷決定輸贏。在辯論和圍棋中,真正的答案要從整個(gè)樹(shù)進(jìn)行全局考慮,但是強(qiáng)大的智能體選擇的某條單一路徑可以是最終答案。 例如,雖然業(yè)余的圍棋手不能直接評(píng)估職業(yè)選手某一步下法的好壞,但他們可以通過(guò)評(píng)估游戲結(jié)果來(lái)判斷職業(yè)玩家的實(shí)力。
想要讓 AI 智能體符合人類目標(biāo)和偏好,有一種方法是人類在訓(xùn)練期間先規(guī)定好哪些行為是安全和有用的。雖然這種思路看似不錯(cuò),但這種方法要求人類判斷AI智能體表現(xiàn)出的行為的好壞,然而在很多情況下,智能體的行為可能太復(fù)雜,以至于人們無(wú)法理解,或者任務(wù)本身可能就難以判斷或評(píng)價(jià)。例如,在計(jì)算機(jī)安全相關(guān)環(huán)境中運(yùn)行的代理程序或協(xié)調(diào)大量工業(yè)機(jī)器人的代理程序,這些都是人類無(wú)法直接觀察進(jìn)行評(píng)價(jià)的場(chǎng)景。
我們?nèi)绾问谷祟惸軌蛴行У乇O(jiān)督先進(jìn)的 AI 系統(tǒng)呢?一種方法是利用 AI 自身來(lái)輔助監(jiān)督,即要求 AI 系統(tǒng)指出所有自身行為中存在的缺陷。為了達(dá)到這個(gè)目的,我們將學(xué)習(xí)過(guò)程重新定義為兩個(gè)智能體之間進(jìn)行辯論,然后人類對(duì)辯論過(guò)程進(jìn)行評(píng)判。即使智能體對(duì)問(wèn)題有比人類更深層次的理解,人類也可以去判斷哪個(gè)智能體有更好的論點(diǎn)(類似于專家和證人爭(zhēng)辯說(shuō)服陪審團(tuán))。
我們的方法為兩個(gè)對(duì)抗的 AI 智能體之間的辯論游戲提供了一個(gè)特定的辯論格式。這兩個(gè)智能體可以進(jìn)行自我訓(xùn)練,類似于 AlphaGo Zero 或 Dota 2AI。我們希望經(jīng)過(guò)適當(dāng)培訓(xùn)的智能體能夠擁有遠(yuǎn)超人類價(jià)值判斷能力。如果兩個(gè)智能體對(duì)現(xiàn)狀持不同意見(jiàn),但它們各自完整的推理過(guò)程太繁瑣而無(wú)法向人展示,那么辯論就可以集中在更簡(jiǎn)單的事實(shí)爭(zhēng)議上,最終向人類呈現(xiàn)一個(gè)簡(jiǎn)單可判斷的選擇。
上面講的不直觀,下面舉個(gè)例子,我們現(xiàn)在考慮一下這個(gè)問(wèn)題:「哪里是度假的最佳去處?」。如果一個(gè)智能體 Alice 從主人翁的角度考慮后說(shuō)「阿拉斯加」,其實(shí)很難判斷這是否是最好的選擇。如果第二個(gè)智能體 Bob 說(shuō)「不,應(yīng)該是巴厘島」,這聽(tīng)起來(lái)可能令人信服,因?yàn)榘屠鍗u更加暖和。Alice 回復(fù)說(shuō):「你不能去巴厘島,因?yàn)槟愕淖o(hù)照來(lái)不及辦了」,這表明巴厘島這個(gè)選項(xiàng)存在缺陷,而這一缺陷我們可能沒(méi)意識(shí)到。然后鮑勃反擊「加急護(hù)照服務(wù)只需兩周」。辯論一直持續(xù)到人類可以正確選擇為止,也就是直到另一方的智能體知道再辯論下去也無(wú)法再改變?nèi)祟惖臎Q定為止。
說(shuō)服一個(gè)稀疏 MNIST 分類器
雖然我們認(rèn)為這種方法在智能體長(zhǎng)期使用自然語(yǔ)言與對(duì)方進(jìn)行對(duì)話時(shí)最為有效,但我們需要在更簡(jiǎn)單的領(lǐng)域進(jìn)行測(cè)試,因?yàn)榻裉斓淖匀徽Z(yǔ)言建模能力不足以完成此任務(wù)。另一方面因?yàn)閷?duì)于未超出人類能力的任務(wù),測(cè)試更容易。所以我們決定將測(cè)試轉(zhuǎn)到可視化領(lǐng)域,并將「智能體有評(píng)價(jià)者(人類)不具有的能力」的降辯論難度,降低到「智能體有評(píng)價(jià)者(人類)不具有的知識(shí)」。測(cè)試中評(píng)價(jià)者的目的是猜測(cè)圖像的內(nèi)容,但評(píng)價(jià)者除了智能體篩選顯示的像素點(diǎn)外看不到其他內(nèi)容。智能體們看到完整的圖像,然后開(kāi)始游戲——它們交替顯示單個(gè)像素給評(píng)價(jià)者,這個(gè)過(guò)程會(huì)持續(xù)很多輪。這個(gè)測(cè)試中的完整圖像人類無(wú)法輕易判斷出來(lái),每個(gè)顯示的像素都是智能體的辯論點(diǎn)。
描述一下實(shí)驗(yàn)可能更加容易理解。我們?cè)谧詈?jiǎn)單的 MNIST 數(shù)據(jù)集上進(jìn)行了測(cè)試。測(cè)試的評(píng)價(jià)者不是人類,而是預(yù)先訓(xùn)練的分類器,在預(yù)訓(xùn)練分類器時(shí)每個(gè)圖片都隨機(jī)采樣,最終目的是這個(gè)分類器通過(guò)識(shí)別 6 個(gè)非黑色像素來(lái)判斷 MNIST 數(shù)字。實(shí)驗(yàn)開(kāi)始首先兩個(gè)智能體對(duì)交替顯示的像素的位置進(jìn)行辯論,在顯示 6 個(gè)像素后停止(所以評(píng)價(jià)者總共只看到一點(diǎn)點(diǎn)信息)。測(cè)試中一個(gè)智能體是誠(chéng)實(shí)的,并試圖讓評(píng)價(jià)者猜對(duì),另一個(gè)智能體試圖讓評(píng)價(jià)者猜錯(cuò)。如果兩個(gè)智能體均事先聲明他們爭(zhēng)論的是哪個(gè)數(shù)字,那么這場(chǎng)辯論會(huì)將稀疏分類器的準(zhǔn)確率從 59.4%提升到 88.9%。也就是說(shuō),誠(chéng)實(shí)的智能體在 MNIST 測(cè)試集中獲勝概率為 88.9%,在辯論過(guò)程中還提升了評(píng)價(jià)者的準(zhǔn)確率。
MNIST 辯論游戲的結(jié)構(gòu)。辯手 Alice 和 Bob 看到一個(gè)圖像,Alice 試圖欺騙評(píng)價(jià)者認(rèn)為它是一個(gè) 6,Bob 試圖正確說(shuō)服評(píng)價(jià)者是一個(gè) 5。他們交替向評(píng)價(jià)者展示非黑色像素,評(píng)價(jià)者在看完 6 個(gè)像素后正確地將其標(biāo)識(shí)為 5。Alice 追蹤顯示底部曲線使其看起來(lái)像一個(gè) 6(紅色像素),但是 Bob 通過(guò)揭示右上角的像素(藍(lán)色像素)來(lái)有效地針對(duì) Alice 的策略,因?yàn)檫@是 MNIST 中大多數(shù) 6 所沒(méi)有的部位。
直觀地說(shuō),圖像更可能包含證明圖片真實(shí)內(nèi)容的像素,而不是包含混淆圖片內(nèi)容的的像素,所以選擇的 6 個(gè)像素中一半誠(chéng)實(shí)和一半欺騙,要比 6 個(gè)隨機(jī)像素更公平。如果評(píng)價(jià)者是一個(gè)能夠一次綜合多個(gè)參數(shù)進(jìn)行推理但不能篩選所有可能參數(shù)的人類,那么我們希望獎(jiǎng)勵(lì)機(jī)制可以獎(jiǎng)勵(lì)辯論智能體幫我們做篩選這一行為,即便我們?nèi)狈σ粋€(gè)區(qū)分辯論好壞的先驗(yàn)機(jī)制。
下面的圖片顯示了幾個(gè)示例游戲。因?yàn)槠垓_者勝利比誠(chéng)實(shí)者勝利更有趣,所以我們選擇特定樣本以便欺騙者在下面顯示的游戲中獲得 50% 的勝率(實(shí)際上,欺騙者勝率是 11.1%)。
上圖就是游戲截圖,可以看到顯示的數(shù)字已經(jīng)評(píng)價(jià)者的判斷過(guò)程。有一些數(shù)字特別容易混淆,比如 8 和 9。
上圖是對(duì)角線設(shè)置為零的混淆矩陣。用作對(duì) 6 像素 MNIST 數(shù)據(jù)進(jìn)行判斷,左側(cè)是隨機(jī)像素,右側(cè)是用于辯論的像素。6 個(gè)隨機(jī)像素的識(shí)別錯(cuò)誤之間沒(méi)有明顯的關(guān)聯(lián)模式,而用作辯論的像素識(shí)別錯(cuò)誤則集中在數(shù)字 8 和 9 上。特別容易讓評(píng)價(jià)者混淆的數(shù)字是 5 和 8,評(píng)論者還容易把 4 判斷成 9。這可能是將游戲人為限制為非黑色像素導(dǎo)致的:試想如果 8 是純白的,那么數(shù)字上有黑點(diǎn),就證明該數(shù)字不是 8。
貓狗之爭(zhēng)
辯論實(shí)驗(yàn)更加復(fù)雜的下一階段仍然使用圖像,但需要比數(shù)字更加精細(xì)復(fù)雜的圖片,比如貓和狗的圖片。更復(fù)雜的圖像可能要用到一些自然語(yǔ)言識(shí)別或常識(shí)推理,所以我們還沒(méi)有使用機(jī)器學(xué)習(xí)來(lái)做下一步研究。 但是我們已經(jīng)為人類做了一個(gè)測(cè)試原型網(wǎng)站來(lái)進(jìn)行這樣的實(shí)驗(yàn),網(wǎng)站中人類可以扮演法官和辯手的角色。在這里,辯論者可以用自然語(yǔ)言與評(píng)價(jià)者交談,但辯論者所有的陳述都可能是謊言。每個(gè)辯論者都可以在辯論過(guò)程中顯示一個(gè)像素,并且該像素絕對(duì)是真實(shí)的。
兩位人類辯手進(jìn)行辯論,一位人類評(píng)價(jià)者進(jìn)行判斷,只有辯手才能看到圖像。 紅色爭(zhēng)辯說(shuō)是一只狗,藍(lán)色說(shuō)是貓。
在一場(chǎng)典型的辯論中,愛(ài)麗絲可能會(huì)誠(chéng)實(shí)地宣稱照片內(nèi)容是一只貓,而鮑勃卻謊稱是一只狗。愛(ài)麗絲可以說(shuō):「這個(gè)小矩形的中心是貓的綠眼睛。」鮑勃不能承認(rèn)這的確是眼睛,所以他編造了另一個(gè)謊言:「這是一只在草地上玩耍的狗,矩形中心是一片草地。」但是這個(gè)謊言描述的場(chǎng)景很難與周圍的真實(shí)場(chǎng)景保持一致,比如愛(ài)麗絲可以反駁「如果它是草,那么這個(gè)細(xì)長(zhǎng)矩形的頂部或底部應(yīng)該是綠色的」。辯論一直持續(xù)到評(píng)價(jià)者確認(rèn)某個(gè)特定像素為止,這個(gè)像素的特點(diǎn)是兩者對(duì)于該像素有分歧,但是鮑勃再也無(wú)法圓謊,此時(shí) Alice 在該像素的辯論中獲勝。我們?cè)?jīng)玩過(guò)這個(gè)游戲,盡管為了公平對(duì)待欺騙者,我們限制了評(píng)價(jià)者請(qǐng)求信息的速度(一個(gè)完美的謊言的確難以構(gòu)造,需要時(shí)間編解釋),然而結(jié)果顯示誠(chéng)實(shí)的辯論者確實(shí)更容易獲勝。
兩個(gè)辯手和一個(gè)評(píng)價(jià)者在玩「貓狗大戰(zhàn)」
未來(lái)工作中的限制
我們的大部分論文都是概念化的分析,上面的實(shí)驗(yàn)非常初步。將來(lái),我們希望做更多困難的視覺(jué)實(shí)驗(yàn)并最終以自然語(yǔ)言進(jìn)行實(shí)驗(yàn)。我們認(rèn)為最終評(píng)價(jià)者應(yīng)該是人類(或者是使用人類判斷結(jié)果訓(xùn)練出來(lái)的模型),而不是類人化的機(jī)器學(xué)習(xí)模型。至于智能體,它最終應(yīng)該是功能強(qiáng)大的機(jī)器學(xué)習(xí)系統(tǒng),它可以做人類無(wú)法直接理解的事情。因?yàn)槿祟惪创挛锟赡軒в星疤岷推?jiàn),所以我們認(rèn)為讓智能體對(duì)「價(jià)值高低」這樣的問(wèn)題進(jìn)行辯論也很重要,這樣我們就能測(cè)試出它們是否會(huì)和有偏見(jiàn)的人類作出一樣的評(píng)價(jià)。
即使有了這些改進(jìn),辯論模式也存在一些根本的局限性,可能需要用其他方法來(lái)改進(jìn)或增強(qiáng)。我們想強(qiáng)調(diào),一,辯論這種方法并不會(huì)試圖解決對(duì)抗性樣本或數(shù)據(jù)分布漂變等問(wèn)題,這只是一種為復(fù)雜目標(biāo)獲得訓(xùn)練信號(hào)的方法,并不是保證目標(biāo)魯棒性的方法(這需要通過(guò)其他技術(shù)來(lái)實(shí)現(xiàn))。二是這種方法也無(wú)法保證辯論會(huì)得到最佳結(jié)果或正確的表述,盡管左右互搏的方法在 AlphaGo 和其他游戲 AI 的實(shí)踐中表現(xiàn)良好,但我們對(duì)其最終表現(xiàn)的優(yōu)劣并沒(méi)有理論保證。三是由于訓(xùn)練辯論智能體需要用到更多的計(jì)算資源,比那些直接得出答案的多(即使是不好的或不安全的答案),所以辯論智能體這個(gè)方法可能無(wú)法與更便宜或不太安全的方法競(jìng)爭(zhēng)。最后,我們認(rèn)為人類并不一定會(huì)是高明的評(píng)價(jià)者,有時(shí)因?yàn)槿祟惒粔蚵斆鳎词怪悄荏w篩選出了最簡(jiǎn)單的事實(shí),他們也無(wú)法據(jù)此做出最好的評(píng)價(jià);有時(shí)他們心存偏見(jiàn),只會(huì)相信任何他們?cè)敢庀嘈诺氖虑椤km然這都是一些經(jīng)驗(yàn)判斷,但也都是我們希望進(jìn)一步研究的問(wèn)題。
最后我們認(rèn)為如果辯論或類似的方法有效,那么即使以后人類無(wú)法直接監(jiān)督 AI 系統(tǒng),它也會(huì)使未來(lái)的人工智能系統(tǒng)更安全,因?yàn)檫@種方法可以使 AI 系統(tǒng)與人類的目標(biāo)和價(jià)值取向保持一致。 即使對(duì)于人類可以監(jiān)督的較弱的系統(tǒng),辯論的方法也可以通過(guò)降低樣本復(fù)雜度的方法來(lái)降低評(píng)價(jià)任務(wù)的難度。
-
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238265
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論