經過一段漫長時期的沉寂之后,人工智能正在進入一個蓬勃發展的新時期,這主要得益于深度學習和人工神經網絡近年來取得的長足發展。更準確地說,人們對深度學習產生的新的興趣在很大程度上要歸功于卷積神經網絡(CNNs)的成功,卷積神經網絡是一種特別擅長處理視覺數據的神經網絡結構。 但是,如果有人告訴你卷積神經網絡存在根本性的缺陷,你會怎么看呢?而這一點是被譽為“深度學習鼻祖”和“神經網絡之父”的Geoffrey Hinton教授在2020年度人工智能頂級會議 – AAAI大會上作的主題演講中提出的,AAAI(譯注:AAAI全稱為美國人工智能協會)大會是每年主要的人工智能會議之一。 Hinton,與Yann LeCun和Yoshua Bengio一起出席了這次會議,這三大深度學習巨頭,圖靈獎的獲得者,被業界并稱為“深度學習教父”。Hinton談到了卷積神經網絡(CNNs)和膠囊網絡的局限性,并提出這是他在人工智能領域的下一個突破方向。 和他所有的演講一樣,Hinton深入探討了許多技術細節,這些細節使得卷積神經網絡與人類視覺系統相比越來顯得效率低下而且不同。本文將會詳細闡述他在大會上提出的一些要點。但在我們接觸這些要點之前,讓我們像以往一樣,了解關于人工智能的一些基礎知識,以及為什么卷積神經網絡(CNNs)對人工智能社區來說如此重要的背景和原因。
計算機視覺的解決方案
在人工智能的早期,科學家們試圖創造出一種計算機,它能像人類一樣“看”世界。這些努力導致了一個全新的研究領域的產生,這就是計算機視覺。 計算機視覺的早期研究涉及到符號人工智能的使用,其中的每個規則都必須由人類程序員指定。但是問題在于,并不是人類視覺設備的每一個功能都可以用明確的計算機程序規則來分解。所以,這種方法的使用率和成功率都非常有限。 另一種不同的方法是機器學習。與符號人工智能相反,機器學習算法被賦予了一個通用的結構,并通過對訓練實例的檢驗來開發自己的行為能力。然而,大多數早期的機器學習算法仍然需要大量的人工工,來設計用來檢測圖像相關特征的部件。
卷積神經網絡(CNNs),與以上兩種方法不同,這是一種端到端的人工智能模型,它開發了自己的特征檢測機制。一個訓練有素的多層次卷積神經網絡會以一種分層的方式自動識別特征,從簡單的邊角到復雜的物體,如人臉、椅子、汽車、狗等等。 卷積神經網絡(CNNs)最早是在20世紀80年代由LeCun引入,當時他在多倫多大學的Hinton實驗室做博士后研究助理。但是,由于卷積神經網絡對計算和數據的巨大需求,它們被擱置了下來,它在那個時間獲得的采用非常有限。而后,經過三十年的發展,并且借助計算硬件和數據存儲技術取得的巨大進步,卷積神經網絡開始充分發揮其強大的潛力。 今天,得益于大型的計算集群、專用的硬件和海量的數據,卷積神經網絡在圖像分類和對象識別方面已經得到了廣泛而且有益的應用。
卷積神經網絡的每一層都將從輸入圖像中提取特定的特征。
卷積神經網絡(CNNs)與人類視覺的區別 在AAAI大會的演講中,Hinton指出:“卷積神經網絡(CNNs)充分利用了端對端的學習方式。事實證明,如果一項功能在某個地方不錯,那么在其他地方也會很不錯,因此他們贏得了巨大的成功。這使得它們可以結合證據,并很好地在不同位置進行泛化。然而,它們與人類的感知非常不同。” 計算機視覺的關鍵挑戰之一是處理現實世界中的數據差異。我們的視覺系統可以從不同的角度、不同的背景和不同的光照條件下識別物體。當物體被其他物體部分遮住或以古怪的方式著色時,我們的視覺系統利用線索和其他知識來填補缺失的信息以及我們這樣看的理由。 事實證明,創建能夠復制相同對象識別功能的人工智能非常困難。 Hinton說:“卷積神經網絡(CNNs)是為解決物體的平移問題而設計的”。這意味著一個訓練有素的卷積神經網絡可以識別一個對象,而不管其在圖像中的位置如何。但是他們并不能很好地處理視點變化的其他效果,例如旋轉和縮放。 根據Hinton的說法,解決這個問題的一種方法是使用4D或6D地圖來訓練人工智能,然后執行對象檢測。他補充道:“但這實在是令人望而卻步。”。 目前,我們最好的解決方案是收集大量的圖像,在不同的位置顯示每個對象。然后,我們在這個龐大的數據集上訓練卷積神經網絡,希望它能看到足夠多的對象示例以進行泛化,并且能夠在真實世界中以可靠的準確度來檢測對象。諸如ImageNet這樣的數據集包含超過1,400萬個帶有注釋的圖像,目的就是旨在實現這一目標。 Hinton說道:“這不是很有效。我們希望卷積神經網絡能夠毫不費力地推廣到新的視點。如果他們學會了識別某些東西,而你把它放大10倍并旋轉60度,那么這根本不會給他們帶來任何問題。我們知道計算機圖形學就是這樣,我們希望卷積神經網絡更像這樣。” 事實上,ImageNet已經被證明是有缺陷的,它目前是評估計算機視覺系統的首選基準。盡管數據集龐大,但是它無法捕獲對象的所有可能角度和位置。它主要由在理想照明條件下以已知角度拍攝的圖像組成。 這對于人類視覺系統來說是可以接受的,因為它可以輕松地進行知識泛化。事實上,當我們從多個角度觀察到某個對象后,我們通常可以想象它在新位置和不同視覺條件下的外觀。 但是卷積神經網絡(CNNs)需要詳細的示例來說明他們需要處理的案例,而且他們不具備人類思維的創造力。深度學習開發人員通常試圖通過應用一個稱為“數據增強”的過程來解決這個問題,在這個過程中,他們在訓練神經網絡之前翻轉圖像或少量旋轉圖像。實際上,卷積神經網絡將在每個圖像的多個副本上進行訓練,每個副本都會略有不同。這將有助于人工智能針對同一對象的變化進行泛化。在某種程度上,數據增強使得人工智能模型更加健壯。 然而,數據增強無法涵蓋卷積神經網絡和其他神經網絡無法處理的極端情況,比如說,一張上翹的椅子,或者放在床上的一件皺巴巴的T恤衫。這些都是現實生活中像素操縱無法實現的情況。
ImageNet與現實對比:在ImageNet(左列)中,對象放置整齊,處于理想的背景和光照條件下。而現實世界比它混亂得多(資料來源:objectnet.dev) 已經有人通過創建能夠更好地表示現實世界的混亂現實的計算機視覺基準和訓練數據集來解決這一泛化問題。但是,盡管它們可以改進當前人工智能系統的結果,但它們并不能解決跨視點泛化的根本問題。總會有新的角度、新的照明條件、新的顏色和姿勢,而這些新的數據集并不能包含所有這些情況。這些新情況甚至會使最大、最先進的人工智能系統陷入混亂。
差異可能是危險的 從上面提出的觀點來看,卷積神經網絡(CNNs)顯然是以與人類截然不同的方式來識別物體的。但是,這些差異不僅在弱泛化上存在局限,而且還需要更多的示例來學習一個對象。卷積神經網絡生成對象的內部表示形式也與人腦的生物神經網絡非常不同。 這是如何表現出來的?“我可以拍攝一張照片,再加上一點點噪點,卷積神經網絡就會將其識別為完全不同的東西,而我本人幾乎看不出它們有什么不同。這似乎真的很奇怪,我認為這是證據,卷積神經網絡實際上是在使用與我們完全不同的信息來識別圖像。” Hinton在AAAI會議上的主題演講中說道。 這些稍加修改的圖像被稱為“對抗性樣本”,是人工智能領域的研究熱點。
對抗性樣本可能會導致神經網絡對圖像進行錯誤分類,而對人眼卻沒有影響。 Hinton說:“并不是說這是錯的,他們只是使用一種完全不同的方式來工作,而且他們這種完全不同的做法在如何泛化方面也會有一些不同。”。 但是許多例子表明,對抗性干擾可能是極其危險的。當你的圖像分類器錯誤地將熊貓標記為長臂猿時,這一切都是可愛和有趣的。但是,當自動駕駛汽車的計算機視覺系統缺少了一個停車標志時,而繞過面部識別安全系統的邪惡黑客,或者谷歌照片將人類標記為大猩猩時,你就會有大麻煩了。 關于檢測對抗性擾動并創建可抵抗對抗性擾動的強大的人工智能系統,已經有很多研究。但是,對抗性樣本也提醒我們:我們的視覺系統經過幾代人的進化,已經能夠處理我們周圍的世界,我們也創造了我們的世界來適應我們的視覺系統。因此,如果我們的計算機視覺系統以與人類視覺根本不同的方式工作,它們將是不可預測且不可靠的,除非它們得到諸如激光雷達和雷達測繪等補充技術的支持。
坐標系和部分-整體關系很重要 Geoffrey Hinton在AAAI大會的主題演講中指出的另一個問題是,卷積神經網絡無法從對象及其部分的角度來理解圖像。它們將圖像識別為以不同圖案排列的像素斑點。它們也沒有實體及其關系的顯式內部表示。 “當你將卷積神經網絡想象成各個像素位置的中心時,你會越來越豐富地描述該像素位置上發生的事情,這取決于越來越多的上下文。最后,你獲得了如此豐富的描述,以至于你知道圖像中存在哪些對象。但是它們并沒有明確地解析圖像。”Hinton說。 我們對物體構成的理解有助于我們了解這個世界,并理解我們以前從未見過的東西,比如這個奇特的茶壺。
將對象分解為多個部分有助于我們了解其性質。這是馬桶還是茶壺?(資源來源:Smashing lists) 卷積神經網絡中還缺少坐標系,這是人類視覺的基本組成部分。基本上,當我們看到一個物體時,我們開發了一個關于它的方向的心理模型,這有助于我們解析它的不同特征。例如,在下圖中,考慮右邊的臉。如果你將其倒置,你會看到左邊的臉。但實際上,你不需要物理翻轉圖像就可以看到左邊的臉。只需在精神上調整坐標系,就可以看到兩個面,無論圖像的方向如何。 Hinton指出:“根據所施加的坐標系,你會有完全不同的內部感知。卷積神經網絡確實不能解釋這一點。你給他們一個輸入,他們就有一個感知,而感知并不依賴于強加的坐標系。我想,這與對抗性樣本有關,也與卷積神經網絡以與人完全不同的方式進行感知這一事實有關。”
從計算機圖形學中吸取教訓 Hinton在AAAI會議上的演講中指出,解決計算機視覺的一種非常簡便的方法是制作逆向圖。三維計算機圖形模型是由對象的層次結構組成的。每個對象都有一個轉換矩陣,該矩陣定義了其相對于其父對象的平移,旋轉和縮放比例。每個層次結構中頂級對象的變換矩陣定義了其相對于世界原點的坐標和方向。 例如,考慮汽車的3D模型。基礎對象具有4×4變換矩陣,該矩陣表示汽車的中心位于具有旋轉(X = 0,Y = 0,Z = 90)的坐標(X = 10,Y = 10,Z = 0)處 。汽車本身由許多對象組成,如車輪、底盤、方向盤、擋風玻璃、變速箱、發動機等。每個對象都有自己的變換矩陣,以父矩陣(汽車的中心)為參照,它們定義了自己的位置和方向。例如,左前輪的中心位于(X=-1.5,Y=2,Z=-0.3)。左前輪的世界坐標可以通過將其變換矩陣與其父矩陣相乘得到。 其中一些對象可能具有自己的子集。例如,車輪由輪胎,輪輞,輪轂,螺母等部件組成。這些子項中的每一個都有自己的變換矩陣。 使用這種坐標系層次結構,可以非常輕松地定位和可視化對象,而不管它們的姿勢、方向或視點如何。當你要渲染對象時,將3D對象中的每個三角形乘以其變換矩陣及其父對象的變換矩陣。然后將其與視點對齊(另一個矩陣乘法),然后在柵格化為像素之前轉換為屏幕坐標。 “如果你(對從事計算機圖形學工作的人)說:‘你能從另一個角度向我展示嗎?’他們不會說,‘哦,好吧,我很樂意。但是我們沒有從那個角度進行訓練,所以我們無法從那個角度向你展示。’他們只是從另一個角度向你展示,因為他們有一個3D模型,他們依據部分和整體之間的關系對一個空間結構進行建模,而這些關系根本不依賴于視點。”Hinton說。“我覺得在處理3D對象的圖像時,不利用這種漂亮的結構是很瘋狂的。” 膠囊網絡(Capsule Network),是Hinton的另一個雄心勃勃的新項目,它嘗試制作逆向計算機圖形。盡管膠囊網絡應該有自己獨立的一套東西,但其背后的基本思想也是拍攝圖像,提取其對象及其部分,定義其坐標系,并創建圖像的模塊化結構。 膠囊網絡仍在研發中,自2017年推出以來,它們已經經歷了多次迭代。但是,如果Hinton和他的同事們能夠成功地使他們發揮作用,我們將更接近復制人類的視覺。
-
神經網絡
+關注
關注
42文章
4771瀏覽量
100772 -
計算機視覺
+關注
關注
8文章
1698瀏覽量
45993
原文標題:理解 AI 最偉大的成就之一:卷積神經網絡的局限性
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論