視頻大數據作為攝像頭等硬件的普及與人工智能算法飛速發(fā)展相結合的產物,近年來的發(fā)展得到了人們的廣泛關注。計算機視覺作為視頻大數據分析的一個重要環(huán)節(jié),特別是人工智能和深度學習的算法在計算機視覺更廣泛的應用,使計算機視覺這幾年熱度一直不減。
本文我們從計算機視覺的智能化前端去思考,這里的智能化前端指智能硬件、移動設備等輕量級的硬件,以區(qū)別于云端服務器級別的設備。我們一直認為,市場和實際的應用是決定一個產業(yè)能否發(fā)展的先決條件,再從工程技術的角度去分析是否滿足實際應用場景;同時工程技術的成熟,又會促進市場和實際應用、商業(yè)模式的發(fā)展。因此,本文主要從市場/應用、算法和硬件三個維度去探討。當然由于本人知識儲備尚且有不足,希望能拋磚引玉,借此與各算法、硬件的產業(yè)界專家,以及行業(yè)研究者做更深入的探討。
一、行業(yè)與應用
如上次文章的闡述,我們一直從全產業(yè)鏈、競爭格局、技術發(fā)展趨勢、應用導向和市場空間5個維度,來分析行業(yè)發(fā)展的機會。
計算機視覺作為一種人工智能的基礎技術應用,使用場景多樣,市場潛力巨大。其中,人臉識別和視頻監(jiān)控作為計算機視覺的重要應用領域,2015年市場容量已達十億和百億級別。隨著計算機視覺與傳統(tǒng)行業(yè)、商業(yè)聯(lián)系越來越緊密,未來更具有市場空間。
從計算機視覺的產業(yè)鏈來看,包括了基礎支撐層、技術提供層、以及場景應用層。從產業(yè)鏈的廠商來看,包括了側重于算法的Google、Microsoft、facebook、BAT等互聯(lián)網公司,Intel、Nvidia等半導體公司,海康、大華等傳統(tǒng)公司,也包括曠視、商湯、依圖等創(chuàng)業(yè)公司。從競爭的格局來看,由于Google、微軟等互聯(lián)網巨頭對算法等經常做開源算法,初創(chuàng)企業(yè)在通用層面很難以算法來保持競爭優(yōu)勢,而是必須結合特定的應用場景,采用軟硬件結合的方式,深耕細分垂直市場,更容易保持持續(xù)性的優(yōu)勢。
從技術發(fā)展趨勢來看,由于基于人工智能的深度學習的廣泛應用,計算機視覺的準確度和識別率已經超過人眼,當然這是在服務器端硬件處理能力、并行計算能力,深度學習算法、以及海量視頻圖像數據等因素的驅動下。但是隨著智能前端芯片的處理能力越來越強,我們希望看到越來越多的計算機視覺處理部分能放到前端來處理,無疑這意味著失去了以Hadoop大數據并行計算的優(yōu)勢,同時由于硬件處理能力減弱,我們必須對整個視覺模型進行裁減,如把20多層的深度神經網絡減少到7層,可能要先在服務器上進行模型訓練,再以先驗的閾值對前端進行巧妙的設置,同時要充分考慮到精確度、能耗、吞吐量/延遲性以及成本,這無疑對硬件與算法提出了挑戰(zhàn)。
DSP的全稱為Digital Signal Process,即數字信號處理技術,目前全球最大的DSP芯片廠商是TI,最大的DSP IP廠商是CEVA。DSP芯片被廣泛用于自動控制、圖像處理、通信技術、網絡設備、儀器儀表和家電等領域。DSP芯片的內部采用程序和數據分開的哈佛結構,具有專門的硬件乘法器,廣泛采用流水線操作,提供特殊的DSP指令,可以用來快速地實現各種數字信號處理算法,如數字濾波、自適應濾波、快速傅里葉變換、相關運算、頻譜分析、卷積等。
DSP天然擁有處理計算機視覺算法的優(yōu)勢。近期Inuitive已經取得CEVA-XM4智慧視覺DSP的授權許可,并且也已經部署在其下一代的AR/VR 和電腦視覺SoC元件NU4000之中。Inuitive將利用CEVA-XM4來運行復雜的即時深度感測、特征跟蹤、目標識別、深度學習和其它以各種行動設備為目標的視覺相關之演算法,這些行動設備包括擴增實境和虛擬實境頭戴耳機、無人機、消費機器人、360度相機和深度感測器等。NU3000以第三代的CEVA-MM3101圖像和視覺DSP來提供立體視覺功能,現在是Google Project Tango生態(tài)系統(tǒng)中的一部分,開發(fā)人員能夠利用它來開發(fā)需要即時深度產生、映射、定位、導航和其它復雜信號處理演算法的應用。
CEVA ADK包括一個可簡化軟體發(fā)展和整合工作的安卓多媒體框架(AMF)、一套先進的軟體發(fā)展工具和一系列專為這些DSP而優(yōu)化的軟體產品及程式庫。針對以深度學習為目標的嵌入式系統(tǒng),CEVA深層類神經網路(Deep Neural Network,CDNN)即時類神經網路軟體框架簡化機器學習部署,功耗遠遠低于基于先進GPU的系統(tǒng)。
我認為在機器視覺的智能化前端,DSP會有更廣泛的應用,甚至不亞于GPU。
最近有報道,亞馬遜(AWS)宣布將通過云交付模式提供高端 Xilinx FPGA,首先提供開發(fā)者預覽模式,然后使用更高級的工具進行分支,以幫助新用戶啟用和調試 FPGA 加速。基于FPGA的深度學習算法越來越受重視。不僅在云端,目前基于FPGA的計算機視覺的智能化前端應用也很廣,包括基于FPGA的視覺ADAS的應用,圖形圖像視頻識別等方面。由于FPGA是采用硬件描述語言如Verilog、VHDL等,與我們通常理解的軟件不一樣,硬件具有時序概念,很適合同步運算。拿高端的來說,3000多個固定乘法器,拿數字邏輯還能搭3000個,最快能到接近300mhz, 也就是1800g這個量級。在實時性、流處理方面都有優(yōu)勢,從渠道的反饋情況,在功耗性能比上,優(yōu)于GPU。
最近在看一本書,《FPGA前沿:可重構計算的新應用》,里面有關于FPGA在新的應用領域的探討,推薦大家看一下。誠如書中所言,目前FPGA方面要解決好易開發(fā)的問題,如采用OpenCL建立通用的API層,便于客戶的二次開發(fā)。在這一塊,我們會一直跟蹤Xilinx及其合作伙伴,在創(chuàng)建基于FPGA的各種深度學習包括機器視覺開發(fā)庫上的進展。
二、智能前端算法
計算機視覺是指用計算機來模擬人的視覺系統(tǒng),實現人的視覺功能,以適應、理解外界環(huán)境和控制自身的運動。概括的說,視覺系統(tǒng)主要解決的是物體識別、物體形狀和方位確認以及物體運動判斷這三個問題。從技術上來說,主要分為目標檢測、目標識別、行為識別。
關于計算機視覺上的算法進展,在2010年,ImageNet 創(chuàng)建,提供了一個真正大規(guī)模有標注的圖像數據集,在千萬圖像量級,有上千圖像類別。這使圖像分析技術開始有明顯提高。2012年,深度神經網絡被成功用于ImageNet圖像分類年度競賽,將其性能大幅度提升,展示了深度神經網絡對視覺研究的極大潛能,也激起了視覺研究的新高潮,讓人們看到了計算機視覺實用化的希望。短短幾年后的今天,深度神經網絡技術發(fā)展迅速,在ImageNet圖像分類上的性能已超過人類,人們研究的重點也從圖像分類轉移到圖像物體語義分割等更細更復雜的任務。在深度神經網絡中,卷積神經網絡(Convolutional Neural Network,簡稱CNN)是參考人的視覺形成規(guī)律所構建的,因此常常用于圖像識別。
在人工智能、機器學習、人工神經網絡、深度神經網絡、監(jiān)督學習、無監(jiān)督學習等等概念方面,下面的圖很好的解釋了彼此之間的關系,推薦給大家。
上面是目前較常用的開源算法。對本文來說,我們關注的是計算機視覺的智能前端化的算法,所以我們關注最近谷歌開源深度學習框架 TensorFlow 發(fā)布了完整的1.0版本,使得在普通智能手機上運行機器學習,特別是深度學習程序成為可能。 我們更關注這些算法,包括深度學習的算法,在智能化前端設備上的運行,它可能需要對算法進行裁減,那會不會影響算法模型的收斂性、精確度、延遲等問題,是否因為模型的修改要重新訓練。最先進的 DNNs 所耗費的能量比其他形式的嵌入處理(比如視頻壓縮)要高出幾個數量級,如果運用在嵌入式的前端,對功耗有多大程度的影響。針對特定場景的應用,結合哪些硬件處理芯片和算法模型,就能很好的應用,這些問題,我們沒有第一手資料,所以如果大家能做分享,我們非常感興趣。
我們在對待這個領域的態(tài)度,一直秉持應用為王的理念,無論是以前做工程師,現在看創(chuàng)業(yè)類的項目,初心不改。
同時,安創(chuàng)加速器一直依托Arm生態(tài)圈,理解產業(yè)和技術的發(fā)展趨勢;同時,依托創(chuàng)業(yè)投資圈,理解投融資動態(tài);并通過自身的行業(yè)研究,加深行業(yè)的理解。
作者:馮棕煦
審核編輯 黃昊宇
-
智能化
+關注
關注
15文章
4940瀏覽量
55630 -
人工智能
+關注
關注
1794文章
47642瀏覽量
239625 -
計算機視覺
+關注
關注
8文章
1700瀏覽量
46074
發(fā)布評論請先 登錄
相關推薦
評論