近年來,隨著越來越多的人工智能(AI)與機器學習(ML)成功案例出現,它們已經從一個相對模糊的計算機科學概念迅速發展成為實現智能化的必備技術。國際權威基金評級機構Morningstar預測,2021年全球AI芯片市場規模有可能超過200億美元。2017年5月Grand View Research 的最新報告稱,全球深度學習市場規模預計在2025年達到102億美元。
機器學習算法和深度學習芯片組在取得不斷突破的同時,AI也持續向不同垂直行業領域、邊緣終端縱橫滲透,從軟/硬兩方面實現降本增效及體驗升級,而整個AI產業生態正在構建,新的秩序正在形成,市場玩家已遠不止IT巨頭與“獨角獸們”,包括Arm在內的IP設計公司、通用或專用芯片公司、傳統電子、通信巨頭也紛紛開展自己的AI生態布局。
近日在Arm Tech Day上,Arm多部門的技術專家首次聯手為業界闡述了Arm AI/ML發展觀和最新戰略布局。針對不同AI需求層次、發展路徑、市場空白,Arm又會如何應對呢?
Arm機器學習事業部技術總監Ian Bratt在Arm Tech Day上發表演講
“慢工出細活”,Arm穩步推進AI平臺搭建
在智能化的行業大背景下,機器學習可以被應用于公司中每個崗位,并可能影響到各行各業各家公司,眾多玩家紛紛涌入該領域。不過隨著高速5G網絡時代的到來,Arm機器學習事業部技術總監Ian Bratt認為, AI應用場景所要求的低時延與快速響應、將實時數據傳輸至云端的成本與出于對數據安全性的保護,機器學習正在由數據中心走向邊緣設備,而在邊緣端部署機器學習的關鍵并不在于某一款處理器,圍繞的其實是更為宏觀的生態系統。
Arm一直在扎實而積極地布局AI/ML領域,通過不斷推出創新架構與高性能IP加強AI/ML的計算力。“2017年3月,Arm推出全新DynamIQ技術,代表了多核處理設計行業的轉折點,其靈活多樣性將重新定義更多類別設備的多核體驗,覆蓋從端到云的安全、通用平臺,利用針對AI/ML的全新處理器指令集以實現更先進的人工智能;
2018年2月, Arm為了實現在邊緣的AI/ML工作負載推出了Project Trillium項目,這是一套包括Arm ML處理器與OD(Object Detection)處理器在內的高度可擴展處理器的IP組合,能夠在大量提升計算需求的同時,也保持出色的能效表現。后文要提到的ML處理器則是專門針對機器學習而重新設計的,它基于高度可擴展的Arm機器學習架構,并達到了機器學習應用場景要求的最高性能和效率;
2018年6月,Arm發布全新計算和多媒體IP套件,包括基于DynamIQ技術的Cortex-A76 CPU,Mali-G76 GPU與Mali-V76 VPU,對Arm Project Trillium項目完美補充,也將高性能計算力由移動端覆蓋到筆記本端。”Arm市場營銷資深總監Ian Smythe介紹了Arm針對不用層次、環節AI/ML需求的扎實創新節奏。
Arm全新計算和多媒體IP套件優化了AI/ML在設備端的使用
此外,有研究分析顯示:目前中國AI開發者正在接受從封閉的單機系統轉向快捷靈活的開源框架的新一代AI技術演進。而據悉,Arm Project Trillium絕不是要與現有的成熟神經網絡開源框架(如Caffe、TensorFlow等)競爭。實質上,它依靠類似于Arm NN等神經網絡機器學習軟件橋接了現有神經網絡框架與在嵌入式 Linux 平臺上運行的底層處理硬件(例如 CPU、GPU 、Arm 機器學習處理器或合作伙伴IP),讓開發人員繼續使用他們首選的框架和工具,無縫轉換結果后可在底層平臺上運行,真正達到無處不在的機器學習應用。
“從0開始”設計ML處理器架構,Arm補全AI市場空白
雖然目前市場上幾乎所有機器學習工作負載,利用針對機器學習應用優化的最新Cortex-A76處理器應對已完全沒有問題,但Arm機器學習事業部技術總監Ian Bratt始終認為,機器學習作為一種全新的技術,如果想在該領域更進一步,比如獲得更高的計算密度,Arm也必須要“從0開始”設計一個全新的處理器架構,從而實現未來最高效率、最高吞吐量且靈活的機器學習負載處理。
由于Arm在CPU和GPU處理器領域擁有世界領先的技術,因此Arm專用機器學習處理器在設計時很好結合了在CPU與GPU方面的領先技術,實現了高效的卷積、高效的數據移動與可編程性和靈活性,目標是能夠在7nm制程工藝之下,實現3 TOPs/W的性能。據Ian Bratt介紹,Arm 第一代ML處理器設計的高峰吞吐量是每秒4.6 TOPs,同時有針對激活和權重專門的硬件壓縮,利用了Cortex-M的技術來支持Android NNAPI和Arm NN計算節點。同時Arm也專門配置了一套開源軟件堆棧實現在ML處理器上成功便捷的部署ML。
Arm ML專用處理器的幾大特征
除了開發機器學習專用處理器外,Arm目標檢測處理器目前也已經發展到了第二代,支持全高清、每秒60幀的實時處理。在與Arm其他處理器進行協同工作時,OD處理器能進行預處理,先甄別出來每幀畫面上的關鍵要素,再傳給其他的處理器去處理,大幅度降低其他處理器的工作量。目前第一代OD處理器已經成功用于英國Hive,以及中國海康威視的監控攝像頭。
Arm NN神經網絡SDK則鋪平了個別神經網絡框架在 Arm 架構核心上執行的道路,讓開發者可以無障礙在 Arm 平臺上執行主流 AI 應用。通過上述技術解決方案,Arm 補全了AI市場的空白,也足夠應對幾乎所有應用場景的AI/ML需求。
Arm NN SDK鋪平了個別神經網絡框架在Arm架構核心上執行的道路
不同的AI需求層次,Arm如何滿足?
但是,AI與ML畢竟不能“開箱即用”,需要打下堅實的基礎才能應用。正如AI “馬斯洛”需求層次論認為,如果把AI/ML看作是需求金字塔的頂端,自我實現(AI/ML)非常棒,但首先需要食物、水和庇護所(數據素養、數據采集和基礎設施)。
AI需求金字塔的底部基礎是利用傳感器進行數據采集,與未來萬物互聯時代Arm所預測的2035年將會有1萬億臺互聯設備一致,龐大的終端設備網將進行一手的數據采集。而如果把終端設備市場比作一個舞臺,那Arm毫無疑問將是真正的幕后主導者,畢竟通過采用出售IP的經營模式,迄今為止Arm設計了全球95%的智能手機芯片架構。
而后Arm傾力打造的AI/ML平臺(Project Trillium)則是高可擴展的,從低至2~20 GOPs,到高至70 TOPs的場景應用,都有相應產品支持。正因如此,Arm提供的機器學習能力也并不僅限于旗艦產品,通過支持各種硬件類型和可擴展性選項,從低成本智能手機到昂貴的服務器,各種產品均可受益。Arm始終認為,在做機器學習處理時,除了需要有完整的生態平臺支持外,相較大數據廠商聚焦于云端AI,更要從小做起、聚焦邊緣端的計算力,滿足另一種AI/ML發展方向的需求。
坐享Arm頂級“朋友圈”,助推中國AI新勢力崛起
眾所周知,中國有著全球最多的數據量以及巨大的應用市場,在AI狂飆突進了三、四年之久后開始面臨商業化落地的現實問題,眾多公司也正圍繞AI構建完善的產業生態鏈。在行業細分領域,AI結合醫療、自動駕駛、語音交互、通用或專用芯片等呈現出各種新業態。
雖然國外廠商在通用芯片領域占據了先發優勢,云端訓練領先國內,但國產品牌也在積極尋求從AI專用芯片及嵌入式領域實現突圍的良機,AI通用技術公司開始向產業鏈上下游延伸,用整套解決方案深耕垂直領域。截至2018年5月8日,全國人工智能企業數量達到4040家,其中獲得過風險投資的公司達1237家。
Arm正攜手國內合作伙伴,精心耕耘中國市場,積極推動提升中國AI硬實力的國際競爭力,而Arm頂級“朋友圈”資源也將作為有力支撐。除了在技術創新方面專為AI設計的指令集擴展、專用AI加速硬件IP和配套的軟件解決方案推出外,在生態創新方面,Arm積極與AI產業各個關鍵節點進行合作,力圖打通從芯片、硬件方案、計算庫、深度學習框架到應用的全產業鏈;在平臺建設方面,Arm在國家政府和產業伙伴的支持下成立了Arm開放人工智能實驗室(Open AI Lab)與Arm人工智能生態聯盟(AIEC),致力于嵌入式人工智能技術的普及。在今年3月發布的《2017中國獨角獸企業發展報告》中,AIEC聯盟成員商湯科技、寒武紀科技、優必選科技等多家人工智能企業榜上有名,圖像識別、智能語音、AI芯片成為主要創業方向。
“雙引擎”加速AI/ML多場景落地
放眼萬物互聯邁向萬物智能時代,智能終端不僅需要具備靈活性強、功耗低的特點,同時還要擁有快速的AI/ML處理能力,這就需要高能耗比硬件芯片與高效算法的完美協作。在這一大趨勢下,Arm正扮演協跑者的角色,不斷推出突破性能極限的處理器芯片與神經網絡機器學習軟件,在通用平臺Project Trillium架構的指導下,“雙引擎”加速AI/ML在多場景的落地,讓全球AI領先開發技術和資源惠及中國,同時推動中國AI技術輻射全球。
-
ARM
+關注
關注
134文章
9088瀏覽量
367413 -
機器學習
+關注
關注
66文章
8408瀏覽量
132576 -
Cortex-M
+關注
關注
2文章
229瀏覽量
29755 -
ai平臺
+關注
關注
0文章
3瀏覽量
1643
發布評論請先 登錄
相關推薦
評論