近日,******強調人工智能具有溢出帶動性很強的“頭雁”效應,必須把增強原創能力作為重點,夯實新一代人工智能發展的基礎。這把原本就火熱的人工智能推向新的高潮,也可以看到發展人工智能原創技術的重要性。
“堅持原創,讓AI引領人類進步”是商湯科技的使命。11月8日,在“2018中國AI開發者大會(AINEXTCon)”上,商湯科技副總裁、工程院院長沈徽發表了主題為“創新極限賦能百業——商湯智能視覺的產業化落地”的演講。
沈徽認為,人工智能特別是計算機視覺技術不是一個單點上的突破,如果我們要真正把它做好,是整個技術平臺性的提升。當AI跟越來越多的場景結合之后,能夠獲得新的需求,這些需求點會成為技術提升的輸入和數據。從實踐中來到實踐中去,AI產業不斷發揚光大。
如下是商湯君整理的沈徽演講內容:
很高興能夠有機會和大家分享商湯科技在智能視覺方面的進展和落地應用方面的實踐。
首先講下大背景,人類社會的演進背后都有技術在推進,如青銅器的出現讓農業有了較大發展。
過去幾年,由于深度學習技術突破所帶來的AI領域革命性的突破,對社會影響非常深遠。往次的技術革命,技術延展了我們的手和腳,增強了我們的肌肉。而AI則延展了我們的大腦,使人類能夠更加敏銳,AI技術進步對人類社會的影響和文化影響都是非常深遠的,大家應該感到非常激動,因為我們正處在這樣一個時代的開始。
人工智能從技術領域來說是個很泛的技術,人能做計算機不能做的我們都認為是智能。人工智能的技術路線有很多模塊,基于統計思路的機器學習是人工智能里很重要的技術方向,經歷了三次浪潮,1957年感知器,1986年神經網絡,以及近些年基于深度學習技術所帶來的AI感知層面的突破。我們現在處在第三次浪潮中,2010、2011年由深度學習真正實用化開始為代表的一次浪潮。
計算機視覺處在一個超越大眾的階段
什么是機器學習?輸入x輸出y,假設y滿足一定規律,機器學習就能找出f,能更好的擬合概率分布。第一類是物體識別,是貓還是狗,還有一種應用是低分辨率圖像變成高分辨率圖像。在機器學習里面擬合f有多種不同的技術,神經網絡是中間技術的一種,神經網絡由多個神經元以及之間互相連接形成的一個網絡,如果看到每個神經元都有一個或者多個輸入通常一個輸出,一個輸出可能連接到多個神經元的輸入里,在神經網絡里每個神經元都要找到相應的位置,得出一個輸出函數。
我們看神經網絡的時候,X1、X2、X3這些輸入叫做特征,特征在深度學習出現之前大量都是人手工把它做出來的,人根據自己的經驗、自己的技術把現實世界中的數據轉化成可以被神經網絡消費的特征。
我們在很大程度上不需要人工做特征的識別,而是可以用神經網絡把這樣的特征學出來,這是深度學習網絡帶來的很重要的突破,它的應用會變得更加普適,因為不需要針對每個場景做特征指令級,我們可以把算力變成真正的智能,這樣一個通路就打開了。
我想很客觀的評價一下我們現在處在什么階段,技術必須要到一定程度才能真正轉化為生產力,否則之前更多的是研究的狀態。第一階段往往技不如人,五年前的人臉識別、語音識別和人的差距還很大,從錯誤率來看大概幾倍甚至幾十倍的差距。第二階段是我們真正能達到甚至超越普通人的水準。第三階段是超越專家,AlphaGo在圍棋這個領域超越了專家。
計算機視覺現在大概還處在第二階段,處在一個超越大眾的階段。一方面,在一些細分領域定義的很清楚,我們用深度學習的辦法有足夠的數據能夠做得非常好,超越人類;另一方面,它的普適性還有很大的欠缺,包括對數據的依賴沒有達到人工智能需要的量。在這個階段,AI已經變成一個非常可用的東西了。
下面我分三方面介紹一下商湯所做的事,從技術與平臺、產品和行業解決方案三個角度進行介紹。
技術與平臺
深度學習最重要的三個點,第一是算法模型,第二是數據,第三是算力。
商湯在三年前構建的DNN(深層神經網絡),有1200多層,在ImageNet上第一次贏得世界冠軍。
再講一下商湯的深度學習平臺SenseParrots。大家知道AI領域有各種各樣的開源平臺,商湯為什么要建立自己的SenseParrots平臺?因為商湯的數據資源處于世界領先地位,如果想取得不斷的突破必須要很好的工具,這個訓練平臺是非常重要的工具,而領先的工具很難從開源平臺獲取,很多時候想真正滿足用戶的需求不是一個網絡模型就能解決問題,我們需要能夠在這樣的平臺上構建完整的網絡,這是構建這個平臺的原因。商湯內部大量的研發工作都在這個平臺上完成,未來我們也會向合作伙伴輸出這樣的能力。
算力方面,今年商湯會擁有超過14000塊GPU,體現了旺盛的需求,商湯在超過18個行業有各種各樣的落地場景,在這些行業里必然有各種各樣不同的基于計算機視覺的需求,所以造成對算力巨大的渴望。我們一方面把我們算力的總量提升,另一方面把算力的效率提高。
第三是數據,我們有海量可以用來訓練的數據,涵蓋超過18個行業,人臉只是當中的一小部分。
產品和行業解決方案
接下來講一下應用。
這是基于商湯AR引擎的應用,把王者榮耀里的虛擬化人物放到真實的場景中,它不是簡單的疊加,必須要對物理環境有3D感知,這樣才能真正把虛擬人物非常自然的放在里邊。手機雙攝頭可以獲取場景的3D信息,借此我們重構出一個3D的場景,用六自由度實時跟蹤技術,確定很多場景的關鍵點,根據這些關鍵點之間的關系以及變化,對虛擬物體做3D的構建,進而產生這種自然的效果。
商湯的SenseAR技術在兩年前,就已廣泛應用于各類短視頻、直播等用戶原創內容(UGC)視頻平臺中。我們利用人臉關鍵點技術,用計算機理解人臉。左邊第一張圖在方框里綠色的點標出了五官的位置,這樣就很容易做出好玩的AR效果,這就是關鍵點技術實現的。
自動駕駛中的視覺感知,左邊是行駛區域的檢測和車道線檢測,右邊是在這個基礎上對信號燈的檢測和路邊物體的檢測,這些都是用智能視覺技術對環境做感知。除了感知道路也能感知車輛,更重要的是能夠感知運動方向并做出相應的預測。
我們當時發了一篇關于在復雜情況下車道線檢測算法的Paper,除了用程序視覺技術對環境做理解之外,我們還把視覺技術和結構化技術做結合,使我們對遮擋或視覺不清情況下的車道線恢復能起到很好的效果,中間用傳統CNN做,很多車道線不是特別清晰,右邊做了一個解析,效果好了很多。這個創新告訴我們當做AI技術或深度學習技術時一定不要限制在窄的范圍內。
這是DMS中的視覺感知,是用于智慧車艙的技術,可以對大貨車、出租車司機進行檢測和監控,看他是不是注意力集中,有沒有危險動作,有沒有疲勞等等,這是多種視覺技術的結合。第一張圖是注意力,注意力是如何檢測的呢?我們看他視線的方向,在DMS中做視覺跟蹤,我們做眼球檢測,計算出注意力的方向進而做一個預估,可以達到非常高的精度。
下面講一下智能視覺賦能城市大腦,舉一個用于尋人的真實案例:今年初南方某地公安局使用我們的技術在三小時之內就找到了一位走失三天、患阿爾茨海默癥的老人。
我們不光看人臉,還看很多其他信息,比如一個交通路口,信息和道路狀況結合之后可以做自動交通管控。很多時候大家會說這個就是去識別和做一些檢索,但是當數據量級很大的時候就很難做了,為此我們構建了SenseFoundry方舟城市級視覺開放平臺,同時做實時檢測、實時跟蹤和實時分析,這在北上廣深等大城市中已經應用了。
它一方面要有系統的提升,另一方面要有算法的提升。如果想從十個人里識別一個人,和一千萬人里識別一個人,對算法的要求是完全不一樣的。我們人臉識別的技術在不斷提升,包括采用增量學習的技術,對不同環境高容忍度、高普適性的技術。在此之上我們做了人臉和人體的聯合搜索,大量的環境下很難捕捉到一個完整的人臉,這個時候人臉、人體再加上其他信息去做聯合搜索能大大提高搜索的準確度。
去年蘋果第一次在手機上推出了3D人臉解鎖,但對人臉解鎖的研究商湯早就進行了。和iPhone不一樣,我們要想在安卓系統上為多家廠商提供人臉解鎖的能力,我們需要有一定的算法優化。人臉解鎖不單單是簡單的臉和臉的比對,很重要的是活體檢測和注意力檢測,不能拿一張照片就給手機解鎖,別人不能在你睡覺的時候拿著你的臉給手機解鎖。人臉解鎖雖然已經實現了一個功能但是它在不斷迭代,單純用人臉解鎖手機時,準確率可能需要達到10的負4次方量級,相當于4位密碼,但當你要做支付、認證等和金融相關的應用時就需要有10的負6次方,甚至負8次方量級才能達到要求,我們現在已經超過了10的負8次方。
活體檢測方面,進攻方會想出各種各樣的辦法用人臉攻擊識別系統,識別系統不斷發現潛在漏洞,避免系統性的活體檢測失誤。商湯有一個專門的團隊每天的任務就是想著怎么把活體檢測的系統突破掉,這里有幾個簡單的攻擊手段,包括紙質照片、面具、三維面具和視頻等,我們一方面不斷尋找新的方式做攻擊,同時做防守。
這是人臉3D重建,拿著一個手機的前攝從五個角度拍到人臉,當拍到五張照片之后用五個方向的人臉做一個3D的重建。
下面看一些其他產品。想必大家已經在一些小區、大樓看到刷臉進門,從以前刷卡按指紋變成了刷臉。當人在運動當中走過一個閘門時,我們希望以最快的速度檢測到人臉,并用最快的速度判定應該開門還是關門。大家可以想象隨著人步入通道臉的大小不斷變化,怎樣能獲取更高精度的檢測?最簡單的是把圖片按照不同的大小進行分割,但這樣算法效率非常低,99%的計算都是無用的計算,我們是在模型里做一些優化,能大大提高效率,訓練的時候精度提升會變得更快。
這是一些數據,右上角的表用不同的技術把它疊加在一起,包括精度和速度提升,我們可以通過不同的硬件做選型。
此外,刷臉技術還用于很多不同的場景,包括身份驗證、門禁、閘機等等。商湯是通過刷臉進辦公室的,今年北京航空航天大學9月份新生入學時,也用了商湯SenseHello刷臉系統做注冊。
剛才說的技術產品都是由內向外的,行業解決方案是因為大量客戶很多時候并不在乎用什么技術,更在乎能幫助他解決什么問題,我們要提供解決方案,這樣才能把他的精力從痛點移開,進而去關注他的業務。
今年九月,在上海召開的世界人工智能大會上,我們在人工智能大會現場的黃浦江西岸做了智慧公共空間管理系統,融合了多種感知技術,用視覺技術和IOT技術做觀察、理解、預判和行動形成一個管理閉環。只有提供這樣的完整解決方案客戶才能夠實實在在感受到它的價值。
AI必須要跟行業結合才能產生價值
介紹了這么多產品和技術落地的事情,我想談的是人工智能特別是計算機視覺技術不是一個單點上的突破,如果我們要真正的把它做好,它是整個技術平臺性的提升,也是商湯在過去多年不斷積累,在各個行業尋求問題,構建研究能力和技術上的突破。
AI技術本身是不能產生價值的,必須要跟行業結合,跟實際場景結合。當AI技術跟越來越多場景結合之后,一方面能夠提供價值,另一方面能夠獲得新的需求,這些需求點會成為技術提升的輸入和數據,從實踐中來到實踐中去,AI產業不斷發揚光大,真正拓展我們的腦力和感知能力,使社會生產力進步。我覺得每一位都可以加入到AI系統里面來,擁抱AI,從中獲取能更好地解決現在問題的方案,把社會帶到一個新的高度,謝謝大家。
-
計算機視覺
+關注
關注
8文章
1698瀏覽量
46030 -
ai技術
+關注
關注
1文章
1281瀏覽量
24349 -
商湯科技
+關注
關注
8文章
513瀏覽量
36107
原文標題:商談丨商湯工程院院長沈徽:AI技術本身不產生價值 必須要跟行業結合
文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論