由于人眼只能看到 390nm(藍光)至 700nm(紅光)波長之間的可見光譜,但成像設備憑借各種傳感器能捕獲到更寬泛波長的圖像,包括 X 光、紫外線、紅外線以及可見光譜,因此基于成像傳感器的嵌入式視覺成為先進最熱門的技術之一,應用包括無人駕駛、無人機、機器人、醫療診斷等很多領域,現在,嵌入式視覺正結合了機器學習向自主智能視覺系統發展,但機器學習需要針對應用場景優化,且傳統開發時間長,現在,FPGA領頭羊賽靈思就放了一個大招,它推出的一個產品不但可以大大簡化視覺導向機器學習,更可以提升視覺智能系統的響應時間,并實現軟硬件可重配置。
1、reVISION堆棧橫空出世,它有多牛?
3月13日,賽靈思在全球同步推出Xilinx reVISION? 堆棧,它能夠支持更廣泛的沒有或者很少硬件設計專業知識的嵌入式軟件和系統工程師,使其與機器學習、計算機視覺、傳感器融合,從而可以更快速地開發視覺導向的智能系統。
“reVISION 支持以最快速度打造響應最快的視覺系統,相比最具競爭力的計算嵌入式 GPU 和典型 SoC,將機器學習推斷的單位功耗圖像捕獲速度提升了 6 倍,將計算機視覺處理的單位功耗幀速度提升了 42 倍,時延降低為 1/5?!痹谫愳`思媒體發布會上,Xilinx公司戰略與市場營銷部高級副總裁Steve Glaser指出,“即便是沒有硬件專業知識的開發人員也能通過結合使用 C/C++/OpenCL 開發流程、業界標準的框架,以及 Caffe 和 OpenCV 等庫,用單個 Zynq SoC 或 MPSoC 芯片開發出嵌入式視覺應用?!?/p>
以下圖關于開發易用性和和開發時間為例,如果采用傳統的RTL流程,如果采用賽靈思FPGA則,賽靈思提供了20%解決方案用戶解決剩下的80%工作,而自從賽靈思推出軟件定義開發環境以后,開發效率大大提升,例如軟件定義數據庫開發SDSoc,可以把以前需要三周的開發縮短為4天?,F在,如果采用賽靈思 reVISION? 堆棧,則機器學習開發時間可以大大縮短!
?
“我們有大約1100家SDSoC開發環境付費用戶,其中半數都是在開發視覺應用。我們了解到,客戶希望能夠應用行業標準的庫和行業應用框架來幫助他們進一步提高工作效率,所以我們推出了reVISION堆棧,它可以大大減少開發時間,采用了這個堆棧,用戶能有80%的高起點,他們只需要做剩下20%就能夠完成的應用開發。”Steve Glaser強調,“而且,我們的效率更高,在機器學習方面最主要的一個指標就是圖像/秒/瓦,在這方面賽靈思的產品比業內最佳的其他方案要高出6倍,其他方案包括英偉達Tegra、高通的So等,在計算機視覺方面,我我們圖像/秒/瓦指數比競爭對手高出42倍。”
?
另外,在機器學習領域,很多的應用性能不僅僅取決于推斷,還取決于響應時間時延,在這方面,Steve 表示賽靈思的reVISION堆棧方案只有競爭對手的1/5,就憑這點,在很多汽車應用中,就可以拯救更多的生命!
以下圖為例,如果前車急停,如果用reVISION堆棧,它只需要2.7毫秒就可以讓后車停止。而如果是英偉達的GPU,則需要49毫秒甚至320毫秒才能停住,如果汽車的時速是65英里,則停車的距離差可能就會從1.5米到100米,而這個差距就是發生了事故和沒有發生事故的差別。
?
2、客戶如何評價reVISION? 堆棧?
對于這個簡化機器學習開發的革命性產品,賽靈思客戶如何評價呢?
“我們的Dobby 口袋無人機-AI版集成了復雜的計算機視覺和機器學習技術,通過手勢控制和對象及主題跟蹤為消費者提供獨特的體驗,”零度智控CEO楊建軍說,“這些功能,直到最近還只屬于更昂貴的系統,而我們借助Zynq All Programmable器件將這些復雜的算法實現到了Dobby AI中。我們非常高興看到賽靈思推出reVISION堆棧平臺,它將支持我們的團隊更容易地提升這些關鍵計算機視覺和機器學習算法,從而助力我們為Dobby AI賦予更加獨特的個性。擁有像Xilinx這樣不斷深耕技術的合作伙伴,將確保我們可以在這個領域持續開發突破性的解決方案?!?/p>
深鑒科技(DeePhi)創始人兼CEO姚頌表示:“深鑒科技致力于為機器人/無人機和安防監控等行業應用提供先進的嵌入式視覺解決方案。我們已經開發了一個完整的工作流程,用于在FPGA上部署深度學習算法,實現算法、軟件和硬件的協同優化。reVISION 堆棧中所包含的完整的工具包,可以讓我們的客戶更加輕松容易地利用全可編程FPGA 和SoC —即使是沒有任何FPGA開發背景的算法工程師也能有效地部署經過訓練的模型。這對于利用FPGA搭建智能解決方案有莫大的好處。”
“Vrvana enables truly immersive Mixed‐Reality experiences by leveraging Xilinx’s All Programmable technology, which provides the flexibility and throughput capability important for a low‐ latency, high‐resolution, camera‐based Mixed‐Reality solution that is unique on the market,” said Bertrand Nepveu, CEO. The release of the reVISION stack for Xilinx will give us the ability to more rapidly integrate new computer vision and machine learning features into our headsets.”
此外很多從事機器學習的廠商對reVISION 堆棧表示了歡迎這里不一一列舉了。據透露目前在無人駕駛、無人機、工業視覺、醫療診斷領域已經有大量客戶采用了賽靈思的FPGA嵌入式視覺方案,因此,賽靈思能洞悉客戶需求,及時推出加速視覺導向的機器學習堆棧。
3、為什么reVISION 堆棧性能如此突出?
機器學習從應用端走向云端是必然發展趨勢,賽靈思一直深耕這個領域,面向云應用,賽靈思推出了可重配置加速堆棧(2016年11月推出詳見《FPGA 成超級數據中心主流應用,賽靈思5年轉型見成效》),目標直指包括機器學習推斷在內的各種計算加速應用。 而reVISION? 堆棧則是面向端應用機器學習加速工具。
?
Steve 表示reVISION? 堆棧性能突出贏在賽靈思FPGA的獨特工藝和架構。例如在響應速度快方面,“在嵌入式GPU和典型的SoC中,需要傳輸的數據以及需要用于計算機視頻視覺處理和機器學習的數據是需要經過外部存儲,但賽靈思SoC經過了優化,可以簡化數據流是從傳感器到視覺處理、機器學習甚至到控制的處理無需經過外部存儲。所以系統響應速度會快很多。”Steve解釋說,“另外一方面響應還可以預知,每次都可以知道系統對于外部事件作出響應的時間,而我們的競爭對手并沒有辦法去預知響應時間?!?/p>
另外,他強調在開發下一代DSP內核時,賽靈思定義了一種高效的DSP內核,賽靈思的 DSP48E2 設計用于在一個時鐘周期內高效地完成一個乘法累加算法 , 多達 18x27 位的乘法和多 達 48 位的累加,如下圖所示。
使用 MACC 模式的 DSP Slice
?
在運行 INT8 深度學習時,Altera較寬的 27 位寬自然占有優勢。在傳統應用中,預加法器一般用于高效實現 (A+B) x C 計算,但這類計算在深度學習應用中很少見。將 (A+B) x C 的結果拆分為 A x C 和 B x C,然后在獨立的 數據流中進行累加,使之適用于典型深度學習計算的要求。
對 INT8 深度學習運算來說,擁有 18x27 位乘法器很占優勢。乘法器的輸入中至少有一個必須為最小 24 位,同時進位累加器必須為 32 位寬,才能在一個 DSP Slice 上同時進行兩個 INT8 MACC 運算。27 位輸 入能與 48 位累加器結合,從而將深度學習求解性能提升 1.75 倍(1.75:1 即為 DSP 乘法器與 INT8 深度 學習 MACC 的比率)。而其他廠商如Altera所提供的 FPGA 在單個 DSP 模塊中只提供 18x19 乘法器,DSP 乘法器與 INT8 MACC 之比僅為 1:1。
“Altera早做下一代DSP開發的時候,本來它的DSP定點效率就要低于賽靈思,它后來做出的決定使得它比原來落后賽靈思的差距又擴大了,比賽靈思的效率低了100%,所以在8位一個周期里我們可以操作運算兩次,而它只能一次,所以在DSP架構方面,賽靈思的比它的效率提升兩倍,但實際上我們最高效率可以比它大6倍,所以除了這個DSP以外,我們還有其他兩個優勢?!盨teve 表示,“在我們存儲器層級上,我們引入一個XRAM架構,另外一個優勢是我們的工藝領先Altera一代。”這是一個對比。
他也表示神經網絡理論是不斷發展的,過去兩年里取得的進展幾乎要等于之前45年的技術進步 因此賽靈思的方案還可以了重配置性。“通過這樣可重配置的功能,就可以應用最新的關于視覺和機器學習方面的最新的技術和進展,而無需來改變自己系統的硬件?!彼硎尽?/p>
?
另外,在嵌入式視覺領域,越來越多的傳感器技術需要融合進來,例如以前是環境傳感器,而現在則融合了更多化學、機械、光學、成像、雷達等等,融合的驅動就是人工智能,所以賽靈思的reVISION也考慮到了傳感器的融合發展?!皞鞲衅魅诤虾苤匾?,例如工業機器人在工作時,除了視覺處理還需要壓力處理,因為曾經發生或工業機器人傷害人類的事件,所以需要度傳感器信號做融合處理。”他指出。
?
它的驅動力量在于人工智能,也就是人工智能在所有AI擴展驅動了傳感器融合的渠道。所以我們推出的reVISION,它能夠實現非常獨特的可重配置的功能,不僅僅是能夠支持不同的類型和技術傳感器,而且還能夠支持這些傳感器的集成和融合。
從響應速度和可重配置來看,賽靈思的reVISION都非常出眾
4、reVISION 堆棧如何使用?
針對客戶的視覺應用機器學習,賽靈思除了提供軟件堆棧以外,還有硬件的平臺和傳感器,使得客戶可以很快上手。如圖的嵌入式視覺開發套件,從28nm的Zynq到最新的16nm MPSOC都有覆蓋。
“賽靈思有幾百家客戶在做基于視覺的系統,還有幾十家客戶在做機器學習,要把機器學習與計算機視覺相結合。客戶需要投入特殊的開發資源,隨著reVISION的推出,能夠消除機器學習廣泛采用所面臨的很多障礙。”Steve 強調。
賽靈思 reVISION 堆棧包括用于平臺、算法和應用開發的豐富的開發資源,支持最流行的神經網絡(諸如 AlexNet、GoogLeNet、SqueezeNet、SSD 和 FCN)以及庫元素(如 CNN 網絡層的預定義優化型實現方案,這也是構建定制神經網絡 DNN/CNN 所需的)。配合豐富的滿足加速要求的 OpenCV 功能,支持機器視覺處理。
?
對應用層面的開發來說,賽靈思支持流行的框架,包括用于機器學習的 Caffe 和用于計算機視覺的 OpenVX(將于 2017 年下半年推出)。reVISION 堆棧還包括賽靈思和第三方提供的基于 Zynq SoC 和 MPSoC 的開發平臺。
reVISION 開發流程從 熟悉的C、C++ 和/或 OpenCL 語言及相關編譯器技術的基于 eclipse 的開發環境(即 SDSoC 開發環境)啟動。在 SDSoC 環境中,軟件工程師和系統工程師能以 reVISION 硬件平臺為目標,并采用大量的加速就緒型計算機視覺庫,很快還能采用OpenVX框架,從而快速構建應用。
對于機器學習,可用 Caffe 等流行的框架來培訓神經網絡,用 Caffe 生成的 .prototxt 文件對基于 ARM 的軟件調度器進行配置,從而驅動專門為可編程邏輯預先優化的CNN 推斷加速器。
對計算機視覺和其他專有算法來說,用戶可對軟件代碼進行特征分析,發現瓶頸,并在代碼中標出希望加速并進行“硬件優化”的特定功能?!跋到y優化編譯器”則用來創建加速的實現方案,包括處理器/加速器接口(數據移動器)和軟件驅動器。結合計算機視覺和機器學習功能,該編譯器能創建優化的融合實現方案。
實際開發流程
Steve 介紹了利用reVISION堆棧的開發流程。
reVISION堆棧的開發流程
客戶可以首先獲得我們的reVISION堆棧,然后有一個帶有Zynq和MPSoC的開發板,開發板有傳感器,且都是經過預先驗證的。在機器學習方面,賽靈思會預裝比特流或者配置定制神經網絡層用于應用和Zynq器件的快速優化。
客戶的應用和算法的工程師會選擇他們非常熟悉的框架,賽靈思首要支持的Caffe框架來支持他們的開發應用。然后客戶可以使用本地的數據中心來進行訓練,做到合適的網絡配置,Caffe輸出文件就會進入到解決方案當中,然后創建出一個優化的實施方案用于虛擬技術,然后會有一個非常快速的編譯過程,對預優化的CNN層進行定時,定制的神經網絡層是由ARM處理器來控制,整個編譯過程會非常快,之后整個機器學習的應用會非??斓脑谀繕似骷线\行。
這個流程是把視覺類機器學習簡化了很多
Steve表示未來的智能視覺系統不僅要會思考,而且還能對情境立即做出“響應”。因此機器學習開發方案要適應神經網絡理論和算法的不斷演化,要具備軟硬件的可重配置和升級,此外還要支持廣泛的互聯性,能進行云端通信,賽靈思的方案都支持上述需求。通過高效的推斷和控制,賽靈思實現了傳感器的最快響應時間,支持最新的神經網絡,算法和傳感器的可重構性,并支持與傳統或新機器、網絡和云的任意連接。
期待機器學習領域賽靈思推出更多有差異化的細分方案。
針對reVISION堆棧的福利活動
慶祝賽靈思reVISION堆棧推出,本微信號特別推出福利活動,凡是轉發本條微信,將轉發截圖發到我微信號朋友將可以進入“FPGA技術交流群”參加紅包抽獎,獎品為賽靈思獨家制作的reVISION堆棧紀念款T恤!
評論
查看更多