人類,1分;AI,0分。
上個月,來自約克大學和多倫多大學的兩名研究人員合作發表了一篇論文:The Elephant in the Room,在學界引起巨大反響。通過實驗,他們發現現有人工智能系統還存在巨大缺陷,它們在“看圖識物”這類視覺任務上的表現甚至還比不上人類幼兒。
看罷這篇論文,加里·馬庫斯表達了對研究人員的贊許:“這是一篇聰明而重要的論文,它提醒我們所謂的‘深度學習’還沒有那么‘深刻’?!彼羌~約大學的認知心理學教授,也是優步(Uber)人工智能實驗室的負責人。
這項成果出現在計算機視覺領域,論文設計的任務很常規:訓練一個機器學習系統,讓它學會檢測和分類圖像中的對象。隨著自動駕駛汽車離真正落地越來越近,學界對機器的視覺處理技術一直寄予厚望。為了保障安全,計算機必須能從一幅街景圖中準確分辨哪個是鳥,哪個是自行車,即便達不到超人水平,它們至少也應該和被替代的人眼一樣好用。
但是,這個任務并不簡單,它突出了人類視覺的復雜性——以及構建模仿系統的高難度。在這項研究中,研究人員首先展示了一個能檢測、識別客廳場景下物品的計算機視覺系統,它的性能很不錯,能發現客廳里有一把椅子、一個人和書架上的書。之后,他們在同一幅圖中加入了一個異常物體——一只大象,這時系統卻“指鹿為馬”了,它開始把椅子稱為沙發,把大象稱為椅子,還忽視了之前能“看”到的其他物品。
對此,論文作者之一Amir Rosenfeld認為:“這些奇怪現象的出現,表明了目前的物體檢測系統是多么脆弱?!彼麄儧]能在論文中解釋為什么會出現這種脆弱,但提出了一個破有見地的猜想:
這和人類具備,而AI沒有的一項能力有關——人類在看圖識物時能理解圖像中是否存在令人困惑的東西,從而讓自己去看第二眼。
房間里的大象
人類視覺和機器視覺很不一樣。
當我們睜開雙眼時,眼球開始收集大量視覺信息,并把它們輸送給大腦快速處理,這時我們知道天是藍的,草是綠的,萬物在不斷生長。
相比之下,機器在生成“視覺”上更費力。它們看待事物的方式類似用盲文閱讀,其中圖像的像素就是“文字”,通過在像素上運行各類算法,機器最終能生成關于目標物體的越來越復雜的表達形式。運行這一復雜過程的系統是神經網絡,它由許多“層”構成。
輸入一幅圖像后,神經網絡會逐層提取圖像中的細節,比如各個像素的顏色和亮度,層數越深,它提取到的特征就越抽象。在過程結束時,它會對根據這些特征對其正在觀察的內容輸出最佳預測。
這個過程意味著相比人類,神經網絡能把握更多人眼難辨的細節。事實上,現在基于神經網絡的系統已經在許多視覺處理任務上超越人類,比如依據品種對狗進行分類。這些成功應用提高了人們對技術的期待,研究人員也開始著手研究,看計算機視覺系統是否能幫助汽車快速通過擁擠的街道。
但是,這項技術的成功也激勵了一批人去探索它的脆弱性,比如近幾年非常流行的“對抗樣本”。通過在原圖上做一些肉眼幾乎看不到的擾動,新圖像就能欺騙人工智能系統,讓它把“虎斑貓”分類成“鱷梨醬”,把3D打印的“烏龜”分類為“步槍”。這些研究不是杞人憂天,試想一下,如果有人惡意在道路標志上添加了這種擾動,致使自動駕駛汽車誤讀、漏讀路標,那車上乘客的生命安全該如何保障?
論文中的研究具有相同的精神。研究人員向機器展示了一個普通的客廳生活場景:一名男子正坐在破舊椅子邊緣,前傾身體,聚精會神地玩著游戲。如下圖所示,在“思考”片刻后,神經網絡正確檢測到了一系列物體:椅子、手提包、杯子、筆記本電腦、人、書籍、電視機、瓶子、時鐘。
但是,當他們在場景中引入了一些不協調的東西——一只大象后,神經網絡就被新加入的像素迷惑了。如下圖所示,在幾次試驗中,神經網絡開始把大象識別為椅子,把椅子識別為沙發,它也忽略了靠近大象一側的一排書。即便是離大象較遠的物體,系統也存在錯漏情況。
這個發現之所以令學界震驚,是因為實驗展示的是現在最基礎、最通行的物體檢測技術,雖然客廳內突然出現一頭大象并不現實,但公路上出現一只火雞確實可能的。現實道路上會發生很多意料之外的事,根據論文結果,我們有理由懷疑,自動駕駛汽車會因為路邊突然出現的一只火雞,而無法檢測到車前的行人。
正如羅恩菲爾德說的:“如果房間里真的有一頭大象,那你肯定會注意到它,但這個系統卻甚至沒能檢測到它的存在?!?/p>
萬事皆有因果
當人類看到意想不到的東西時,我們會先愣一下,然后才恍然大悟。這是一個具有真實認知意義的常見現象——它恰好揭示了為什么神經網絡無法處理“怪異”場景。
現如今,最先進的物體檢測神經網絡還是以“前饋”的方式工作,這意味著信息流經神經網絡時是單向的,從輸入細粒度像素開始,到檢測曲線、檢測形狀、檢測場景,再到最后輸出最佳預測。為了確保預測的準確性,它必須在整個過程中不斷收集“有用”信息,但這種單向性也意味著如果早期信息存在某種錯誤,那這些錯誤就會污染預測結果。
論文作者之一Tsotsos表示:“從神經網絡頂部開始,我們確實可以探索和結果相關的一切內容,但我們也有可能讓每個位置的每個特征都對每一個可能的輸出作出干擾?!?/p>
舉一個大家都理解的例子。假設圖中有一個圓和一個正方形,它們顏色各異,一個是紅的,一個是藍的。現在要求你在短時間內觀察圖片,并迅速答出正方形是什么顏色的。如果注意力夠集中,我們可能一瞥就能給出答案;如果有些頭昏腦脹,我們可能看了一眼后還會有點迷惑,然后自然而然地會去重新看一遍。而且當我們看第二遍時,注意力是高度集中在觀察正方形顏色上的。
簡而言之,人類的視覺系統如果沒有獲得想要的答案,它會回頭看看自己在哪里犯了錯。而這個過程可以用1990年《Behavioral and Brain Sciences》一篇論文中提到的概念——選擇性調整模型(ST)來解釋。如上圖所示,那篇論文假設視覺處理架構在結構上是金字塔形的,該網絡內的節點接收前饋和反饋連接。當刺激輸入視覺系統時,首先它會以前饋的方式激活與其連接的金字塔內的所有節點;之后,輸出的結果再以反饋的方式重新回到之前的節點中,激活倒置子金字塔。
這個模型的優勢在于人類能依靠前饋和反饋,選擇感興趣的時空區域,選擇與當前任務相關的事物并選擇最佳視點,同時,我們也能通過修剪不相關的內容來限制任務相關的搜索空間,只考慮之前有過提示信息的位置,用位置/特征信息抑制感受野中的干擾,更簡單、高效的獲取最佳結果。
而大多數神經網絡缺乏這種反饋能力,這也是科研人員一直無法有所突破的研究難點。現在使用前饋網絡的一個優點是容易訓練——只需讓輸入通過一個6層神經網絡,但是,如果我們希望未來機器也能“先愣一下,然后才恍然大悟”,它們就必須理解什么時候該回頭看看,什么時候該簡單前饋。
人腦可以在這些過程之間無縫切換,但神經網絡還需要一個新的理論框架才能做同樣的事情。
就在本月,谷歌上線了一個對抗樣本挑戰Unrestricted Adversarial Examples Challenge,他們向社區征集參賽鳥/自行車分類器,要求參賽的“對抗者”可以在輸入有擾動的圖像后,依然準確分類鳥和自行車;而“攻擊者”的目標是生成一張包含鳥的圖像,讓“對抗者”分類器把它分類成自行車。這離構建選擇性調整模型還有不小距離,但這是通向解決問題的第一步——也是不可或缺的一步。
本文來源:Quanta Magazine
-
神經網絡
+關注
關注
42文章
4771瀏覽量
100720 -
AI
+關注
關注
87文章
30763瀏覽量
268908 -
機器學習
+關注
關注
66文章
8408瀏覽量
132574
發布評論請先 登錄
相關推薦
評論