隨著智能手機(jī)需要處理的內(nèi)容變得日益復(fù)雜,用戶對當(dāng)今主流和入門級移動設(shè)備的要求已越來越高。而人工智能技術(shù)的日益成熟,以及邊緣計(jì)算的興起,使得人工智能成為了提升智能手機(jī)體驗(yàn)的重要法寶。目前眾多的高端智能手機(jī)都已經(jīng)開始引入人工智能技術(shù)。去年,華為、蘋果等廠商都推出了集成人工智能核心的手機(jī)處理器,而作為全球最大的移動芯片IP提供商,Arm自去年以來也在不斷的加碼人工智能。
日前,Arm正式發(fā)布了全新的DynamIQ技術(shù),加入了針對人工智能的指令集和優(yōu)化庫,ARMV8.2版本的指令集開始支持神經(jīng)網(wǎng)路卷積運(yùn)算,極大的提升人工智能和機(jī)器學(xué)習(xí)的效率。隨后在去年5月底,Arm發(fā)布了首款DynamIQ技術(shù)處理器Cortex-A75/A55。今年2月下旬,Arm又宣布了針對人工智能的ProjectTrillium項(xiàng)目,推出了多款獨(dú)立的人工智能IP。
Arm在北京召開2018全球技術(shù)發(fā)布會,再次詳細(xì)介紹了ProjectTrillium項(xiàng)目,同時Arm還正式發(fā)布了全新的面向主流市場的圖形處理器Mali-G52,以及面向入門級的Mali-G31。特別值得一提的是,Mali-G52還首次加入了對于機(jī)器學(xué)習(xí)的支持,進(jìn)一步加碼人工智能。而且新的IP套件可與現(xiàn)有基于DynamIQ的CPU和其他Arm IP無縫集成。
ProjectTrillium:全新人工智能IP
ProjectTrillium是今年2月Arm公布的針對人工智能的Arm IP 套件。包括了全新的機(jī)器學(xué)習(xí)處理器IP、目標(biāo)檢測處理器IP和神經(jīng)網(wǎng)絡(luò)軟件庫。
得益于終端側(cè)人工智能市場的快速增長,以及ARM在移動及物聯(lián)網(wǎng)市場的巨大優(yōu)勢,ProjectTrillium項(xiàng)目目前主要針對的也是移動終端和物聯(lián)網(wǎng)設(shè)備。
1、全新架構(gòu)的機(jī)器學(xué)習(xí)處理器IP
根據(jù)Arm及研究機(jī)構(gòu)的預(yù)計(jì),到 2028 年,移動設(shè)備的數(shù)量將從現(xiàn)在的17億臺增長到 22 億臺,智能IP Camera將由現(xiàn)在的1.6億臺增長到13億臺。在終端側(cè)具有人工智能的設(shè)備將會由現(xiàn)在的3億臺增長到32億臺。足見人工智能市場增長之迅速。而Arm的機(jī)器學(xué)習(xí)處理器IP的推出則是順應(yīng)了市場對于專用的人工智能加速芯片的需求。
據(jù)介紹,Arm的機(jī)器學(xué)習(xí)處理器IP依托于Arm多年的研究成果,采用的是全新的架構(gòu),可以為其CPU和GPU遇到的挑戰(zhàn)提供解決方案。該架構(gòu)還為16位整數(shù)運(yùn)算進(jìn)行了優(yōu)化。
根據(jù)Arm公布的數(shù)據(jù)顯示,其機(jī)器學(xué)習(xí)處理器IP的性能最高可以達(dá)到每平方毫米(芯片面積)超過4.6 TOPs的性能,而且在實(shí)際應(yīng)用中,結(jié)合系統(tǒng)及應(yīng)用優(yōu)化,可以實(shí)現(xiàn)2-4倍提升。
那么Arm的機(jī)器學(xué)習(xí)處理器的4.6 TOPs/平方毫米的性能屬于一個什么水平呢?我們拿華為麒麟970所集成的NPU來比較一下。
據(jù)華為介紹,麒麟970集成的NPU專用硬件處理單元,設(shè)計(jì)了HiAI移動計(jì)算架構(gòu),其AI性能密度大幅優(yōu)于CPU和GPU。相較于四個Cortex-A73核心,處理相同AI任務(wù),新的異構(gòu)計(jì)算架構(gòu)擁有約50倍能效,以及25倍性能優(yōu)勢,面積只有CPU的1/2,運(yùn)算能力達(dá)到了1.92TOPs。
根據(jù)Arm的資料顯示,Cortex-A73是采用ARMv8-A架構(gòu)中核心最小的處理器,每核心面積在0.65平方毫米。四個Cortex-A73核心,面積至少應(yīng)該是2.6平方毫米。那么華為麒麟970的NPU的面積應(yīng)該是在1.3平方毫米左右。換算下來,麒麟970的NPU每平方毫米的性能約為1.48 TOPs。也就是說,Arm新推出的機(jī)器學(xué)習(xí)處理器IP的單位面積性能可能達(dá)到麒麟970的NPU的4倍,確實(shí)非常的強(qiáng)悍。
另外,對于移動設(shè)備和一些物聯(lián)網(wǎng)設(shè)備,能效也是非常重要的,Arm的機(jī)器學(xué)習(xí)處理器IP在能效上可以實(shí)現(xiàn)3 TOPs/W,Arm認(rèn)為3 TOPs/W將是移動AI芯片的一個“甜蜜點(diǎn)”。
在Arm看來,其目前的主要優(yōu)勢還是在移動市場,而且現(xiàn)在很多AI創(chuàng)新都是從移動端發(fā)生的。另外,Arm的業(yè)務(wù)模式主要是進(jìn)行IP授權(quán),這就需要體量比較大的市場來支撐,顯然目前移動市場對于人工智能的需求量最最為龐大的。所以Arm的人工智能處理器會先從移動市場進(jìn)行切入。
根據(jù)Arm的機(jī)器學(xué)習(xí)處理器的路線圖也顯示,移動市場將會是Arm的機(jī)器學(xué)習(xí)處理器首先切入的市場。Arm透露,其首款針對移動市場的機(jī)器學(xué)習(xí)處理器IP將會在2018年年中推向市場。
另外,Arm也表示,其機(jī)器學(xué)習(xí)處理器IP是具有高可擴(kuò)展性、兼容性和可編程的,可以提供計(jì)算性能最低從2 GOPs到超過70 TOPs的產(chǎn)品。除了移動市場之外,Arm的機(jī)器學(xué)習(xí)處理器IP也將會開始向物聯(lián)網(wǎng)、工業(yè)、汽車、網(wǎng)絡(luò)以及服務(wù)器市場進(jìn)軍。
2、第二代的目標(biāo)檢測處理器
除了首次推出的機(jī)器學(xué)習(xí)處理器IP之外,Arm此次還針對安防監(jiān)控市場帶來了其第二代的目標(biāo)檢測處理器。其實(shí)早在2016年Arm就推出了其首款目標(biāo)檢測處理器Spirit,隨后被其2016年收購的計(jì)算機(jī)視覺和圖像處理器的公司Apical(其產(chǎn)品覆蓋超過15億設(shè)備)所采用,隨后廣泛的用于英國智能家居品牌Hive安防攝像頭當(dāng)中。如果說,Arm此前推出的目標(biāo)檢測處理器Spirit是一次試水,那么這次的第二代的目標(biāo)檢測處理器產(chǎn)品則將是Arm全面進(jìn)軍安防監(jiān)控市場的開始。
根據(jù)Arm公布的數(shù)據(jù)顯示,其第二代目標(biāo)檢測處理器可以支持全高清畫質(zhì)下60fps實(shí)時檢測,支持50×60像素以上的無限數(shù)量的目標(biāo)檢測。其還提供了詳細(xì)的人體模型提供了豐富的源數(shù)據(jù),使人臉、方向、軌跡、姿勢和動作檢測成為可能。
Arm表示,其還可提供集成解決方案,采用其機(jī)器學(xué)習(xí)處理器+目標(biāo)檢測處理器,可以更高效的實(shí)現(xiàn)比如人臉、物體識別等應(yīng)用。在實(shí)時目標(biāo)識別任務(wù)中,目標(biāo)檢測處理器會首先分離出區(qū)域,比如人臉、物體。這樣,機(jī)器學(xué)習(xí)處理器就能夠分析更少的像素,以實(shí)現(xiàn)更快、更精細(xì)的結(jié)果。
3、神經(jīng)網(wǎng)絡(luò)軟件庫
Arm的神經(jīng)網(wǎng)絡(luò)庫包括:CMSIS-NN,Compute Library和Object DetectionLibraries。
CMSIS-NN是Arm提供的神經(jīng)網(wǎng)絡(luò)推理運(yùn)算庫,根據(jù)Arm此前的數(shù)據(jù),其對于運(yùn)行時間/吞吐量將會有4.6倍的提升,而對于能效將有4.9倍的提升;Arm Compute Library是Arm公司去年發(fā)布的開源工具,旨在為圖像/視頻/多媒體/計(jì)算機(jī)視覺等領(lǐng)域的開發(fā)者提供Arm平臺的硬件加速庫;Object DetectionLibraries則是Arm針對其目前檢測處理器的目標(biāo)檢測庫。
據(jù)介紹,Arm的神經(jīng)網(wǎng)絡(luò)庫可支持主流的神經(jīng)網(wǎng)絡(luò)框架,如TensorFlow、Caffe/Caffe2、mxnet等。此外,Arm的神經(jīng)網(wǎng)絡(luò)庫還針對 Arm Cortex CPU、Mali GPU 和新的機(jī)器學(xué)習(xí)處理器和目標(biāo)檢測處理器進(jìn)行了優(yōu)化。通過以上這些主流框架,開發(fā)者可以輕松調(diào)用Arm的神經(jīng)網(wǎng)絡(luò)庫API,從而發(fā)揮出Arm的AI/ML硬件IP的性能。
Mali-G52發(fā)布,Arm GPU首次加入了對于機(jī)器學(xué)習(xí)的支持
在3月6日的發(fā)布會上,Arm發(fā)布了兩款全新的GPU產(chǎn)品:針對中端市場Mali-G52和針對入門級市場的Mali-G31。
其中,Mali G31是基于Arm此前只用于中高端產(chǎn)品線當(dāng)中的Bifrost架構(gòu),是Arm目前最小的GPU,還加入了對于Vulkan的支持。可以說Mali-G31的推出是Arm首次將之前一些中高端產(chǎn)品的能力開始引入到入門級產(chǎn)品當(dāng)中。
而Mali-G52則是Mali-G51的升級產(chǎn)品,不僅可從容應(yīng)對更高的圖形復(fù)雜度,允許在主流移動系統(tǒng)的功率和帶寬限制內(nèi)實(shí)現(xiàn)更多的機(jī)器學(xué)習(xí)功能。
根據(jù)Arm的資料顯示,Mali-G52由于采用了更寬的執(zhí)行引擎,相比前代產(chǎn)品的4線程,Mali-G52最多可提供8線程,可在相同芯片面積上,提供更高的圖形性能,性能密度相對于Mali-G51提高了30%。另外,在能效方面,Mali-G52也提高了15%。這里需要指出的是,Mali-G52的面積是G51的1.2倍。
當(dāng)然,更為值得關(guān)注的是Mali-G52首次加入了對于INT8數(shù)據(jù)類型的支持,再加上Mali-G52的執(zhí)行引擎增加到了8個,使得其可以更加高效的進(jìn)行進(jìn)行針對人工智能的運(yùn)算。
我們都知道,相對于CPU來說,采用GPU來做AI運(yùn)算效率會更高一些。所以,我們看到Nvidia的人工智能計(jì)算卡主要也是基于GPU來運(yùn)算的。
根據(jù)Arm公布的數(shù)據(jù)顯示,與Mali-G51相比,在圖形識別能力方面,Mali-G52的性能提升了3.6倍,在Yolonetwork卷積性能測試當(dāng)中,性能提升了3.5倍。
近年來隨著Arm GPU產(chǎn)品線的越來越強(qiáng)大,目前Arm的Mali系列GPU已經(jīng)成為全球出貨最多的GPU。根據(jù)資料顯示,2017年Arm的Mali系列GPU出貨超過12億顆。隨著此次,Arm首次使得其Mali-G52 GPU開始支持機(jī)器學(xué)習(xí),相信后續(xù)將會有更多的新的Arm GPU也將會支持。
據(jù)了解,今年年中,Mali-G52 GPU就將會推向市場。
將人工智能帶入到每一個設(shè)備當(dāng)中
Arm認(rèn)為機(jī)器學(xué)習(xí)正變得日益普及,可跨越多個設(shè)備,觸達(dá)每一位用戶。而Arm的愿景則是讓將機(jī)器學(xué)習(xí)在更多智能設(shè)備中普及。
目前一些高端智能設(shè)備當(dāng)中的人臉識別、物體識別、指紋識別、用戶習(xí)慣學(xué)習(xí)等應(yīng)用都有用到機(jī)器學(xué)習(xí),有些廠商還在SoC上配置了獨(dú)立的人工智能處理器來進(jìn)行加速。但是對于目前的主流智能手機(jī)市場來說,都配備專門的人工智能處理器并不實(shí)際,所以這些任務(wù)可以交給SoC上的其他單元來進(jìn)行 ,比如DynamIQ CPU和Mali-G52 GPU,以提升現(xiàn)有應(yīng)用的機(jī)器學(xué)習(xí)性能。
Arm資深市場營銷總監(jiān)Ian Smythe先生也在會上表示:“對終端設(shè)備而言,支持豐富的多層用戶界面以及一系列廣泛的最新應(yīng)用已成為必然趨勢。更為重要的是,機(jī)器學(xué)習(xí)不再是高端智能手機(jī)的專有配置。各級用戶都希望輕松使用配備機(jī)器學(xué)習(xí)功能的各類APP應(yīng)用。”
當(dāng)然,對于需要用到專用的人工智能處理器的設(shè)備和市場,Arm此次也推出了ProjectTrillium項(xiàng)目,推出了專用的獨(dú)立的機(jī)器學(xué)習(xí)處理器IP和目標(biāo)檢測處理器IP。并且,Arm的機(jī)器學(xué)習(xí)和目標(biāo)檢測處理器IP是具有高可擴(kuò)展性、兼容性和可編程的,可以覆蓋更為廣泛的市場。
另外值得一提的是,Arm此次推出的新的ProjectTrillium項(xiàng)目的IP套件可與現(xiàn)有基于DynamIQ的CPU、Mali-G52 GPU和其他Arm IP無縫集成。
根據(jù)IDC的研究數(shù)據(jù)顯示,目前90%的具有人工智能能力的設(shè)備都是基于Arm的(主要是基于ARM的CPU/GPU)。而隨著Arm將人工智能的能力帶入其GPU產(chǎn)品,以及ProjectTrillium項(xiàng)目的推出,再加上去年就推出的針對人工智能優(yōu)化的DynamIQ CPU,未來這一比例可能將進(jìn)一步提升。
顯然,從前面的一系列介紹,我們不難看出,現(xiàn)在的Arm已經(jīng)開始全面擁抱AI,并希望通過AI獲取更大的市場份額。
得益于Arm在移動CPU及GPU市場的領(lǐng)先地位和生態(tài)優(yōu)勢,隨著ProjectTrillium的推出,Arm的人工智能IP或?qū)⒊蔀锳rm一條全新的產(chǎn)品線,而且隨著人工智能在終端側(cè)的快速發(fā)展,未來其有望成為與Cortex系列CPU、Mali系列多媒體IP并駕齊驅(qū)的第三大產(chǎn)品線。
-
ARM
+關(guān)注
關(guān)注
134文章
9111瀏覽量
368037 -
AI
+關(guān)注
關(guān)注
87文章
31155瀏覽量
269487 -
人工智能
+關(guān)注
關(guān)注
1792文章
47442瀏覽量
239005
原文標(biāo)題:揭秘Arm人工智能戰(zhàn)略:不僅CPU/GPU會支持,還有獨(dú)立的AI產(chǎn)品線!
文章出處:【微信號:icsmart,微信公眾號:芯智訊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論