人工智能在模仿人類的道路上,Get 到了一項(xiàng)精髓 —— 偷懶。
2018 年 4 月,OpenAI 公司舉辦了首屆針對 AI 的強(qiáng)化學(xué)習(xí)競賽。這場比賽讓 AI 們來玩 NES 平臺(tái)上的《刺猬索尼克》單機(jī)游戲。舉辦方希望 AI 能夠在學(xué)習(xí)游戲技巧之后,能夠擁有在其他地圖上自覺找到最佳通關(guān)方法的能力,以此來評估強(qiáng)化算法的泛化能力。
結(jié)果 AI 好像對游戲有著一套自己的理解,它們繞過研究員預(yù)期的目標(biāo)和設(shè)定,通過不斷 “卡 Bug” 的方式找到了通關(guān)的 “捷徑”。
谷歌 DeepMind AI 項(xiàng)目的研究人員維多利亞?克拉科夫納(Victoria Krakovna)在其他游戲中也發(fā)現(xiàn)了這種現(xiàn)象。在《海岸賽艇》里,AI 操縱的船只為了獲得更高分?jǐn)?shù),不斷利用 Bug 來撞擊獎(jiǎng)勵(lì)而忘了要抵達(dá)終點(diǎn)。甚至在玩《俄羅斯方塊》這種小游戲時(shí),AI 也找到了終極密碼:只要游戲暫停就永不會(huì)輸……
在最后,OpenAI 的強(qiáng)化學(xué)習(xí)競賽雖然沒有認(rèn)可 “走捷徑” 獲勝的 AI,但研究人員還是認(rèn)為:“AI 展示了它如何在沒有人類介入的情況下贏得游戲勝利,出乎意料并極富有創(chuàng)造性,這可能完全顛覆人類對游戲如何運(yùn)行的理解。”
AI 是如何學(xué)會(huì)走捷徑的?
針對這一現(xiàn)象,北京大學(xué)王選計(jì)算機(jī)研究所和北京大學(xué)計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室的研究團(tuán)隊(duì)在 arXiv 上發(fā)表了研究論文《為什么機(jī)器閱讀理解模型學(xué)會(huì)走捷徑》 (Why Machine Reading Comprehension Models Learn Shortcuts)。
機(jī)器閱讀理解(Machine Reading Comprehension, MRC)為自然語言處理(NLP)的核心任務(wù)之一,也是評價(jià)模型理解文本能力的重要指標(biāo),可以將其視為一種句子關(guān)系匹配任務(wù)。通常任務(wù)是讓機(jī)器閱讀給定的一篇文章并回答關(guān)于該文章的一個(gè)問題。其常見任務(wù)形式有四種:完形填空、多想選擇、片段抽取和自由作答。
完形填空即將文章中的某些單詞隱去,讓模型根據(jù)上下文判斷被隱去的單詞最可能是哪個(gè);多項(xiàng)選擇是指讓模型從多個(gè)備選答案中選擇一個(gè)最有可能是正確答案的選項(xiàng);片段抽取是讓模型從文章中抽取連續(xù)的單詞序列;自由作答則是讓模型自主生成一個(gè)單詞序列,使之作為問題的答案,與片段抽取任務(wù)不同,自由作答的序列并不局限于文章中給定的句子。
論文中提到,許多 MRC 模型繞過了常規(guī)的推理路徑,通過 “走捷徑” 給出了出人意料的答案。但這些答案往往無法真正解決問題,無法幫助人類達(dá)到預(yù)期目標(biāo)。為了解決這一問題,該團(tuán)隊(duì)將關(guān)注點(diǎn)聚焦在為什么這些算法模型學(xué)會(huì)了 “走捷徑”。
研究者認(rèn)為,訓(xùn)練數(shù)據(jù)庫中的大量 “捷徑” 問題是導(dǎo)致模型過渡依賴 “偷懶行為” 的 “罪魁禍?zhǔn)住薄?/p>
北大研究者設(shè)計(jì)了一個(gè)經(jīng)過標(biāo)注的全新數(shù)據(jù)集,在這個(gè)數(shù)據(jù)集中,每個(gè)問題都會(huì)有 “捷徑式” 和 “挑戰(zhàn)式” 兩個(gè)版本的答案。他們還進(jìn)一步提出了兩種新的研究方法來量化分析在 “捷徑模式” 和 “挑戰(zhàn)模式” 下學(xué)習(xí)的難易程度,并試圖揭示在這兩種不同模式下的固有學(xué)習(xí)機(jī)制。
研究人員將能夠 “釋義”( Paraphrasing )作為更為復(fù)雜和高級的答案標(biāo)準(zhǔn),將那些只有關(guān)鍵字提取而沒有任何上下文理解和推理的答案定義為 “捷徑” 版答案。
研究人員發(fā)現(xiàn),在訓(xùn)練數(shù)據(jù)集中高占比的 “捷徑模式” 數(shù)據(jù)使得模型更加依賴 “偷懶”,致使其之后的訓(xùn)練中無法提升更為復(fù)雜的推理技巧,阻礙了模型去學(xué)習(xí) “釋義” 過程由此解決更具挑戰(zhàn)性的問題。文章表明,如果訓(xùn)練集中 “挑戰(zhàn)版” 問題足夠多的話,算法模型不但能吸收 “挑戰(zhàn)版” 問題,同時(shí)還能正確回答 “捷徑版” 的問題。
論文表示,在早期階段,模型通常會(huì)用最簡單的方法來擬合訓(xùn)練數(shù)據(jù)。“走捷徑” 所消耗的資源最少,因此這種路徑會(huì)成為優(yōu)先選項(xiàng)。當(dāng)模型發(fā)現(xiàn) “偷懶” 可以解決大部分問題時(shí),其余問題便無法再激勵(lì) AI 去探索更為復(fù)雜的解決方法。
研究者認(rèn)為,導(dǎo)致 AI 習(xí)慣性偷懶的原因,除了 NLP 架構(gòu)的設(shè)計(jì)問題之外,也有可能是訓(xùn)練過程中標(biāo)準(zhǔn)優(yōu)化和資源保護(hù)的結(jié)果,此外,讓 AI 在有限時(shí)間內(nèi)迅速輸出答案也會(huì)使給其造成 “壓力”。
因此,人們可以通過修改 NLP 架構(gòu),讓 AI 優(yōu)先考慮更具挑戰(zhàn)的數(shù)據(jù)和問題,并且再數(shù)據(jù)預(yù)處理領(lǐng)域也需要將數(shù)據(jù)中的 “捷徑” 考慮進(jìn)去。
原文標(biāo)題:AI竟也學(xué)會(huì)偷懶?北大團(tuán)隊(duì):數(shù)據(jù)集“走捷徑”問題占比太高
文章出處:【微信公眾號(hào):DeepTech深科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
AI
+關(guān)注
關(guān)注
87文章
30763瀏覽量
268917 -
人工智能
+關(guān)注
關(guān)注
1791文章
47208瀏覽量
238304
原文標(biāo)題:AI竟也學(xué)會(huì)偷懶?北大團(tuán)隊(duì):數(shù)據(jù)集“走捷徑”問題占比太高
文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論