機器能否比人眼看得更清楚?近年來,隨著CV(Computer Vision)芯片產(chǎn)品不斷推出,這一疑惑正在慢慢變成現(xiàn)實。就如AlphaGo戰(zhàn)勝“圍棋天才”柯潔一樣,在某些應用場景,機器視覺因其準確性、客觀性、穩(wěn)定性,比人類生理視覺更具優(yōu)勢。
在我們通常的印象中,一個視力正常的人可以迅速且毫不費力地感知世界,甚至可以詳細生動得感知整個視覺場景;但其實這只是一個錯覺,人類生理視覺有著天然的局限,只有投射到眼球中心視覺場景的中間部分,我們才能詳細而色彩鮮明地看清楚。比起人眼來,CV其實具備了相當多的優(yōu)勢(詳見表一),可以清楚的看到,CV的視力已經(jīng)遠不止5.0了!
表一:機器視覺相對人眼的優(yōu)勢
機器視覺的視力為何如此之強?關鍵在于芯片,核心是將一些特定圖像算法用芯片方式實現(xiàn),同時融入了深度學習和神經(jīng)網(wǎng)絡算法。
機器視覺原理--圖像處理和算法
機器視覺或稱計算機視覺是用一個可以代替人眼的光學裝置和傳感器來對客觀世界三維場景進行感知,即獲取物體的數(shù)字圖像,利用計算機或者芯片,結合專門應用軟件來模擬人腦的判斷準則而對所獲取的數(shù)字圖像進行測量和判斷。該技術已廣泛用于實際的測量、控制和檢測中,隨著芯片技術發(fā)展,在人工智能各個領域應用也逐步展開。
圖一:機器視覺代替人眼抽象圖
一個典型的工業(yè)機器視覺系統(tǒng)包括:光源、鏡頭、相機(包括CCD相機和COMS相機)、圖像處理單元(或機器視覺芯片)、圖像處理軟件、監(jiān)視器、通訊、輸入輸出單元等。系統(tǒng)可再分為主端電腦、影像采集與影像處理器、影像攝影機、CCTV鏡頭、顯微鏡頭、照明設備、Halogen光源、LED光源、高周波螢光燈源、閃光燈源、其他特殊光源、影像顯示器、LCD、機構及控制系統(tǒng)、控制器、精密桌臺、伺服運動機臺。
可見,從應用技術劃分,機器視覺是一門綜合了模擬、數(shù)字電子、計算機、圖像處理、傳感器、機械工程、光源照明、光學成像等跨學科的前沿技術;從應用學科劃分,機器視覺是一門涉及人工智能、神經(jīng)生物學、心理物理學、計算機科學、圖像處理、模式識別等多個領域的交叉學科。
機器視覺技術的發(fā)展,歸功于計算機軟件技術使現(xiàn)有大規(guī)模集成電子電路技術發(fā)展的成果達到了極大化的利用,尤其是多媒體和數(shù)字圖像處理及分析理論方面的技術成熟,使得機器視覺技術不僅在理論,而且在應用上都得到了高速發(fā)展。
機器視覺之于人工智能的意義等同于視覺之于人類的意義,而決定著機器視覺的就是圖像處理技術。不同的應用領域需要不同的圖像處理算法來實現(xiàn)機器視覺。常用的機器視覺領域圖像算法有運動目標檢測算法、基于深度學習的人臉算法等。
下面現(xiàn)象介紹下機器視覺中的運動目標檢測圖像算法,該方法是運動物體識別和跟蹤的基礎。移動物體的檢測依據(jù)視頻圖像中背景環(huán)境地不同可以分為靜態(tài)背景檢測和動態(tài)背景檢測。由于篇幅有限,我們這里只介紹靜態(tài)背景檢測算法。常見的靜態(tài)背景目標的檢測算法包括幀間差分法、背景減除法、光流法等。這些背景不變算法的優(yōu)缺點描述如下表二。
在上述檢測算法中,幀間差分法和背景減除法更加適用于如視頻監(jiān)控、智能交通系統(tǒng)等圖像背景靜止的環(huán)境中。光流法則更加適用于背景不斷變化的動態(tài)環(huán)境中。下面我們來介紹以上三種常用算法的基本原理。
表二 各種機器視覺物體運動檢測算法比較
幀間差分法的適應環(huán)境能力強、計算量小、且穩(wěn)定性好,是目前應用廣泛的一類運動檢測方法。其原理是將相幀或者三幀序列圖像像素點的對應灰度值進行相減,如果灰度差值大于閾值則說明此處物體發(fā)生了變化,它是運動的;如果像素的灰度差值小于給定閾值說明此處物體沒有發(fā)生變化,認為它是靜止的。將像素灰度值發(fā)生變化的部分標記出來,這些被標記的點就組成了運動目標區(qū)域。進一步對灰度圖像進行二值化分析,提取目標運動信息,區(qū)分出前景和背景圖像,進而分割出運動目標。
背景減除法其實是一種特別的幀間差分法,背景減除法根據(jù)將當前幀圖像與背景模型做差來實現(xiàn)對運動目標的檢測。這種方法首先獲取背景模型,并將其保存起來,當對某一幀圖像進行檢測時,用實時獲取的幀圖像與背景模型做差分運算,得到要檢測的運動目標。
光流法是當運動目標在監(jiān)控場景中產(chǎn)生運動的時候,物體表面會形成位移矢量場,根據(jù)其變化可以得到運動目標。光流是指移動物體在其對應的灰度圖像上的表面運動,在光流場中,運動目標的速度矢量形成的平面投影構成了目標的運動信息f281。運動目標在投影上形成的速度矢量是比較均勻,運動目標速度不同形成的速度矢量也不相同,通過光流的計算結果就可以區(qū)分出速度不同的運動目標。
圖像處理算法一開始應用應該是采用服務器的軟件算法來完成,隨著互聯(lián)網(wǎng)技術的不斷成熟,會擴展到云端計算來完成,但是這樣對于網(wǎng)絡帶寬要求非常大,對于云服務器的計量量要求也非常高。筆者估計,視頻圖像處理技術算法的大規(guī)模產(chǎn)業(yè)化應用,必然是需要專業(yè)的芯片來完成,該芯片就是機器視覺(CV)芯片。芯片方式一定是能夠降低成本,同時提高運算能力。從近年的整個行業(yè)情況來看,計算機視覺作為人工智能領域最重要的方向之一,由于機器視覺芯片誕生和深度學習算法不斷發(fā)展,近幾年獲得了巨大的發(fā)展,各項應用在不同的行業(yè)里開始落地生根。
機器視覺的應用
歷史
最早的機器視覺提出開始與上個視覺60年代,隨后1973年,美國自然科學基金會制定了1973-1982 視覺系統(tǒng)和機器人的發(fā)展計劃,并研究成功了一些實用的視覺系統(tǒng),應用于機械手定位、集成電路生產(chǎn)、精密電子產(chǎn)品裝配、飲料罐裝的檢驗等場合;后來在PCB制作工藝中也采用機器視覺系統(tǒng),用于印制電路板的質(zhì)量監(jiān)測等。除了在生產(chǎn)制造領域外,軍事領域也廣泛應用,如精確的制導系統(tǒng)等,無人機的自動導航等;還有CV也應用在生物實驗等領域,用于監(jiān)測生物各個生產(chǎn)規(guī)律,通過加速視頻播放來呈現(xiàn)生物生長等過程;在汽車自動駕駛領域,CV芯片也有不斷深入的應用。
現(xiàn)在
在當今這個時代,計算機視覺領域呈現(xiàn)出很多新的趨勢,其中最為顯著的一個,就是應用的爆炸性增長。除了手機、個人電腦和工業(yè)檢測之外,計算機視覺技術在智能安防、機器人、自動駕駛、智慧醫(yī)療、無人機、增強現(xiàn)實(AR)等領域都出現(xiàn)了各種形態(tài)的應用方式。計算機視覺迎來了一個應用爆炸性增長的時代,目前的應用如下圖所示,主要以運動控制為主。
圖二:當前機器視覺多種應用方式
隨著各個領域技術不斷發(fā)展,許多科技巨頭也開始了在圖像識別和人工智能領域的布局,F(xiàn)acebook簽下的人工智能專家Yann LeCun最重大的成就就是在圖像識別領域,其提出的LeNet為代表的卷積神經(jīng)網(wǎng)絡,在應用到各種不同的圖像識別任務時都取得了不錯效果,被認為是通用圖像識別系統(tǒng)的代表之一;Google 借助模擬神經(jīng)網(wǎng)絡“DistBelief”通過對數(shù)百萬份YouTube 視頻的學習自行掌握了貓的關鍵特征,這是機器在沒有人幫助的情況下自己讀懂了貓的概念。值得一提的是,負責這個項目的Andrew NG已經(jīng)轉(zhuǎn)投百度領導百度研究院,其一個重要的研究方向就是人工智能和圖像識別。這也能看出國內(nèi)科技公司對圖像識別技術以及人工智能技術的重視程度。
未來
機器視覺領域的應用將呈現(xiàn)了爆發(fā)式的增長態(tài)勢。剛才已經(jīng)提到在安防監(jiān)控、高度的自動化駕駛、增強現(xiàn)實、醫(yī)療圖像、機器人工業(yè)視覺、移動互聯(lián)網(wǎng)等領域都有眾多的計算機視覺應用產(chǎn)生。CV芯片的成熟量產(chǎn)將使得人類生活在一個無所隱藏的時代,每個帶有CV芯片的攝像頭就是一雙雙視力遠遠高于5.0的眼睛,并且超強的分析判斷能力;當然人工智能的有序應用,最終將造福人類。圖是對2014年至2018年全球機器視覺系統(tǒng)及部件機器視覺市場規(guī)模預測,圖中折線為年增長率,由圖根據(jù)復合增長率可以計算出2014-2018年的復合增長率為8.39%。
圖三:全球機器視覺市場規(guī)模預測
CV(Computer Vision)芯片公司與特點
國內(nèi)進展
國內(nèi)的機器視覺相關公司有一些,大部分都是屬于視覺芯片產(chǎn)品應用型公司,而半導體芯片制造公司比較少。
視覺芯片產(chǎn)品應用型公司如杭州海康機器人技術有限公司,起步于全球安防排名首位—??低?/u>(002415)成立的機器視覺業(yè)務部,依托??低曉谝曇纛l、成像采集與核心算法等領域技術積累,??禉C器人主攻智能制造,業(yè)已開拓機器視覺、移動機器人以及行業(yè)級無人機等業(yè)務領域。其中,機器視覺產(chǎn)品覆蓋全系列工業(yè)面陣、線陣、立體相機,鏡頭,視覺軟件平臺,視覺控制器及工業(yè)智能相機等。
廣州云從信息科技有限公司(簡稱云從科技)是一家專注于計算機視覺與人工智能的高科技企業(yè),核心技術源于四院院士、計算機視覺之父——ThomasS.Huang黃煦濤教授。核心團隊曾于2007年到2011年6次斬獲智能識別世界冠軍,得到上市公司佳都科技與香港杰翱資本的戰(zhàn)略投資。公司主要技術團隊來自中國科學院重慶分院,是中科院研發(fā)實力最雄厚的人臉識別團隊,并作為中科院戰(zhàn)略性先導科技專項的唯一人臉識別團隊,代表參與了新疆喀什等地安防布控。
格靈深瞳是一家將計算機視覺和深度學習技術應用于商業(yè)領域的科技公司,自主研發(fā)的深瞳技術在人和車的檢測、跟蹤與識別方面居于世界領先水平。公司借助海量數(shù)據(jù),讓計算機像人一樣看懂這個世界,實時獲取自然世界正在發(fā)生的一切,打造自然世界的搜索引擎。華為海思在機器視覺這塊也積極布局,但是目前還沒有成熟量產(chǎn)CV芯片推出。
中星微電子
中星微電子是國內(nèi)為數(shù)不多的一家機器視覺芯片設計公司,其芯片的主要功能在人臉識別領域的應用。2016年6月20日,中星率先推出中國首款嵌入式神經(jīng)網(wǎng)絡處理器(NPU)芯片中星微,這是全球首顆具備深度學習人工智能的嵌入式視頻采集壓縮編碼系統(tǒng)級芯片,并取名“星光智能一號”。這款基于深度學習的芯片運用在人臉識別上,最高能達到98%的準確率,超過人眼的識別率。該芯片于2016年3月6日實現(xiàn)量產(chǎn),目前出貨量為十幾萬件。該NPU采用了“數(shù)據(jù)驅(qū)動”并行計算的架構,單顆NPU(28nm)能耗僅為400mW,極大地提升了計算能力與功耗的比例,可以廣泛應用于高清視頻監(jiān)控、智能駕駛輔助、無人機、機器人等嵌入式機器視覺領域。
圖四:中星微NPU框架
國外發(fā)展
NEXTCHIP
韓國NEXTCHIP公司1997年成立,2007年在韓國已經(jīng)上市,是一個以圖像處理技術為主的公司。公司的產(chǎn)品設計視頻監(jiān)控、DVR、SOC、自動駕駛系統(tǒng)中的核心芯片,均是以圖形處理、傳輸為主的半導體芯片廠家。公司涉及機器視覺領域芯片是在自動駕駛系統(tǒng)的應有中,主打產(chǎn)品APACHE4是瞄準下一代的ADAS體系的SOC芯片。
APACHE4加入了專用檢測引擎,支持行人檢測、車輛檢測、車道檢測和移動物體檢測四種監(jiān)測類型。嵌入其中的CEVA-XM4圖像和視覺平臺可讓APACHE4的客戶使用高階軟件編程來開發(fā)差異化的ADAS應用,具體應有如下圖,在車輛系統(tǒng)的前后左右都有圖像采集系統(tǒng),搭配一顆APACHE4,并將采集數(shù)據(jù)送入到圖像分析系統(tǒng)ECU,并將分析結果送入汽車操控系統(tǒng)。
圖五:APACHE4在汽車自動駕駛中應用
Movidius
Movidius是一家無晶圓半導體公司,2016年9月英特爾宣布將收購計算機視覺創(chuàng)業(yè)公司Movidius,這家公司也是谷歌Project Tango 3D傳感器技術背后的功臣。Movidius的使命是“為機器賦予視覺能力”,同時也將與英特爾的RealSense技術配合。該公司主要產(chǎn)品為低功耗視覺處理器:Myriad 系列 VPU,而且已經(jīng)與谷歌、聯(lián)想和大疆等公司簽訂了協(xié)議。
DJI大疆宣布推出最新的無人機產(chǎn)品Phantom 4。這款飛行器采用計算機視覺來實現(xiàn)自主飛行,核心的機器視覺芯片就是采用了Movidius的Myriad 2芯片。早在2014年,Movidius推出的首顆芯片Myriad 1就應用到了谷歌的第一代Project Tango平板中。
2017年8月28日,INTEL宣布推出Movidius Myriad X視覺處理器(VPU),該處理器是一款低功耗SoC,主要用于基于視覺的設備的深度學習和AI算法加速,比如無人機、智能相機、VR/AR頭盔。
圖六:Myriad X視覺處理器
Myriad X的推出并不會取代Myriad 2。Movidius稱,Myriad X能在同一功率范圍內(nèi)的深度神經(jīng)網(wǎng)絡DNN推理中,提供10倍于Myriad 2的性能。Myriad X擁有Movidius稱之為神經(jīng)計算引擎(Neural Compute Engine)的功能,這是一種集成在芯片上的DNN加速器。
Movidius稱,有了它,Myriad X的DNN推理吞吐量能達到每秒超過一萬億次運算(TOPS)。除了神經(jīng)計算引擎,SoC 16還具有可編程矢量處理器,可配置MIPI通道和Vision Accelerator。矢量處理器使您能夠一起運行多個成像和視覺應用。
此外,MIPI通道確保您可以將多達8個HD-RGB攝像機直接連接到Myriad X.該芯片可以處理高達每秒7億像素的圖像信號。最后,Vision Accelerator可以讓您執(zhí)行光流量和立體聲深度等任務,而無需額外的計算能力。與人類相媲美的視覺智能設備構成了計算的下一步, 隨著低功耗的CV芯片的逐漸發(fā)展,真正的AI離我們越來越近了。
Ambarella
美國安霸(Ambarella)是高清視頻業(yè)界的技術領導者,主要提供低功耗、高清視頻壓縮與圖像處理的解決方案。2015年安霸收購意大利公司VisLab,計劃借此進入計算機視覺芯片市場。
安霸收購VisLab后,包括“計算機視覺算法、傳感器融合以及基于算法的感知、探測和決斷”等在內(nèi)的多項核心技術也將一并納入安霸麾下,同時安霸的汽車軌跡記錄芯片以及基于攝像頭的系統(tǒng)級芯片解決方案也是吸引VisLab加入的重要原因。
安霸本身是圖像處理芯片公司,同時一直在汽車行業(yè)也有出色的芯片應用,有了機器視覺芯片后,安霸在汽車自動駕駛領域?qū)鸬礁笞饔谩I(yè)界消息反饋,目前安霸的機器視覺芯片CV1將在今秋送樣。安霸的CV1未來取決于算法和軟件,最終是有沒有可能投入到龐大的車隊和達到LEVEL4的自動駕駛水平。
摩根士丹利證券分析師 Joseph Moore 指出,“電腦視覺(computer vision)”蘊藏極大商機,將創(chuàng)造出許多贏家,安霸在影像處理領域的深厚專業(yè)知識使其處于獨特的地位。安霸首款電腦視覺芯片將自今年秋季起開始送樣并進行必要的車用認證程序。如果一切進行順利,安霸的電腦視覺芯片可望自明年起開始拉高產(chǎn)量。
Inuitive
Inuitive是一家先進的3D計算機視覺和圖像處理器設計廠家,利用CEVA-XM4智慧視覺DSP的授權許可,運行復雜的即時深度感測、特征跟蹤、目標識別、深度學習和其它以各種行動設備為目標的視覺相關之演算法。
CEVA圖像和視覺DSP滿足最復雜計算攝影和電腦視覺應用對極端處理的需求,比如視頻分析、擴增實境和先進駕駛輔助系統(tǒng)(ADAS)。透過從CPU和GPU卸載下這些性能密集型的任務,這些高效的DSP可大幅降低整體系統(tǒng)的功耗,同時還可提供完整的靈活性。這些行動設備包括擴增實境和虛擬實境頭戴耳機、無人機、消費機器人、360度相機和深度感測器等。
圖七:Inuitive視覺處理器NU3000
目前該公司在機器視覺的芯片有NU3000和NU4000 兩款。NU4000是Inuitive在其NU3000多核影像處理器成功的基礎之上所推出的新款產(chǎn)品;NU3000以第三代的CEVA-MM3101圖像和視覺DSP來提供立體視覺功能,現(xiàn)在是Google Project Tango生態(tài)系統(tǒng)中的一部分,開發(fā)人員能夠利用它來開發(fā)需要即時深度產(chǎn)生、映射、定位、導航和其它復雜信號處理演算法的應用。
小結
從目前的數(shù)據(jù)看,機器視覺領域目前是一個巨大的市場,如下圖預測,預計在2018年市場容量將達到50.43億美元的規(guī)模。面對如此巨大的市場,并且核心的硬件芯片占了整套視覺系統(tǒng)大概35%的成本的情形下,半導體行業(yè)各個大公司都對此領域虎視眈眈。但是因其技術壁壘較高,需要有成熟的圖像算法方面積累,半導體公司也不敢貿(mào)然進入。
中國國內(nèi)大部分是在視覺產(chǎn)品中下游公司,設計生產(chǎn)專用機器視覺芯片公司鳳毛麟角。從中國國內(nèi)機器視覺專利申請數(shù)量看,在二十年前,幾乎沒有任何的專利創(chuàng)新,2011年,我國機器視覺專利申請數(shù)為267個;2012年,我國機器視覺專利申請數(shù)量為298個;2013年為101個,說明國內(nèi)也在不斷重視機器視覺這個領域,試圖在產(chǎn)業(yè)的高端有所突破。
放眼全球,INTEL、安霸等半導體巨頭在CV領域早有研究,并且目前有成熟可量產(chǎn)的CV芯片上市,在高端控制了整個機器視覺領域,同時,這些國際大公司也通過自己本身在行業(yè)的影響地位,不斷推動CV的各個行業(yè)的具體應用,大力推動了整個CV行業(yè)的高速發(fā)展。
CV芯片未來發(fā)展趨勢
從目前CV芯片的現(xiàn)狀和機器視覺系統(tǒng)的應用來看,芯片領域是一個非常巨大的市場,是計算機視覺未來大規(guī)模應用的重要一環(huán),筆者認為未來的CV芯片有下面三大發(fā)展趨勢。
趨勢一:CV芯片的集成度進一步提高。隨著半導體加工工藝向6nm邁進,單顆CV的集成度將大大提升。更高效的大卷積解構與復用機制成熟,在超大神經(jīng)網(wǎng)絡中可以進一步減少總線上的數(shù)據(jù)通信,可以適當深度學習和神經(jīng)網(wǎng)絡IP更加容易集成;同時,各種圖形處理算法IP直接固化在CV芯片中,降低了對GPU的計算能力依賴。未來的單顆CV芯片,將會標配深度學習功能、神經(jīng)網(wǎng)絡功能和機器視覺處理、分析功能。
趨勢二:機器視覺芯片出現(xiàn)細分。CV芯片將隨著應用領域不同而出現(xiàn)細分,如分為專用的自動駕駛CV芯片、無人機導航CV芯片、AR/VR應用CV芯片等。因為在某個特殊領域,隨著機器視覺算法應用需求越來越多,必然帶來成本的需求,以增加產(chǎn)品的利潤,所以,在CV芯片上做costdown,裁減非本領域的應用功能,并不斷深化該領域應用是必然的。
趨勢三:低功耗,SOC方式。云+端的方式,通過端完成關鍵的機器視覺功能,把處理結果傳回云,利用云端做分析判斷。這種方式優(yōu)勢是減少網(wǎng)絡帶寬,把視頻處理運算由中心分散到前端,這個筆者一定是未來的一個重要趨勢。因此,作為端的CV芯片必須是低功耗并且?guī)в幸欢ǖ腃PU功能,需要做到單顆電池續(xù)航能力持久,并且具備一定的數(shù)據(jù)通信、任務調(diào)度功能。
在不久的將來,機器眼時代將全面來臨,我們都準備好了嗎?
-
芯片
+關注
關注
456文章
50965瀏覽量
424851 -
數(shù)據(jù)
+關注
關注
8文章
7085瀏覽量
89215 -
機器視覺
+關注
關注
162文章
4389瀏覽量
120449
發(fā)布評論請先 登錄
相關推薦
評論