當以5G、IoT、AI等作為主要驅動力的第五波浪潮(fifth wave)來襲時,計算領域的發展重新構建了我們的生活。
一直以來,大量的數據從邊緣流向云端,但隨著數據和設備的數量呈指數型增長,把所有數據都放到云端處理變得越來越不現實,更不用說安全和成本效益。
機器學習(Machine Learning,ML)向“邊緣”轉移成為必然趨勢,它將助力AI在更大范圍的普及,推進更為多元化的應用。從整體架構來看,只有提升邊緣的智能性,才能解決帶寬、功耗、成本、延時、可靠性和安全性等多方面問題。
由于消費級設備越來越智能化,通過專屬的ML處理器提供額外的AI性能與效率非常有必要。
自從推出Cortex-A73后,Arm便逐步且逐代地提升性能,大幅拓寬針對ML的CPU覆蓋。計算能力不斷被推升至全新水平,直到最新一代Matterhorn內核,預計其計算性能將提升10倍。
當CPU和GPU面對邊緣計算更密集計算、更復雜任務、更高效需求等顯現出一定的匱乏時,NPU將派上用場。
繼定位于高端設備的Ethos-N77發布后,此次,Ethos NPU家族又添Ethos-N57與Ethos-N37兩位新成員,將ML處理器延伸到主流市場。全新的Ethos對成本與電池壽命最為敏感的設計進行了優化,可以為日常生活設備帶來優質的AI體驗。
Ethos-N57與Ethos-N37的設計理念包括:
針對Int8與Int16數據類型的支持性進行優化;
先進的數據管理技術,以減少數據的移動與相關的耗電;
通過如創新的Winograd技術的落地,使性能比其他NPU提升超過200%。
Ethos-N57旨在提供平衡的ML性能與功耗效率,能夠針對每秒2兆次運算次數的性能范圍進行優化;Ethos-N37則為了提供面積最小的ML推理處理器(小于1平方毫米)而設計,能夠針對每秒1兆次運算次數的性能范圍進行優化。
Arm在ML內核方面主要關注數據管理,在設計中更多地注入了智能數據管理的功能和理念,例如數據敏感型的壓縮技術、高密度剪枝和稀疏功能等。
Mali-G57關鍵功能包括:
與Mali-G52相比,各種內容都能達到1.3倍的性能密度;
能效比提升30%,電池壽命更長;
針對VR提供注視點渲染支持,且設備ML性能提升60%,以便進行更復雜的XR實境應用。
Mali-D37關鍵功能包括:
單位面積效率高,DPU在支持全高清(Full HD)與2K分辨率的組態下,16nm制程的面積將小于1 mm2;
通過減少GPU核心顯示工作以及包括MMU-600等內存管理功能,系統電力最高可節省30%;
從高階的Mali-D71保留關鍵的顯示功能,包括與Assertive Display 5結合使用后,可混合顯示高動態對比(HDR)與標準動態對比(SDR)的合成內容。
對此,Arm市場營銷副總裁Ian Smythe表示,這首先取決于是什么樣的機器學習負載,如果是關鍵字識別,確實不需要專門的ML處理器,只需要在Cortex-M上運行推理引擎就可以,因為它本身就具有數據管理的能力,基本適用于一般的傳感器系統。但如果是更加復雜的機器學習,就要考慮工作負載的卸載問題了,具體包括硬件方面的成本,以及編程工具的工作量等等。
Arm建議從系統級別出發進行選擇,以達到降低功耗、減小芯片面積、提高效率、優化總體設計的目的。以圖形處理任務為例,如果用GPU,它在執行任務時會多次訪問內存,可能需要強制縮小像素,降低清晰度;但用DPU執行同樣的任務,它會在完成任務后直接把數據發給GPU,這時GPU就無需再去訪問內存,相當于把GPU的一些工作負載分配給DPU,從而能夠節約能耗和帶寬。
Arm ML事業群商業與營銷副總裁Dennis Laudick強調,Arm的NPU屬于通用型。其實現在市場上大部分還是用Arm的CPU來處理ML工作負載,新發布的NPU是對其CPU ML性能的進一步提升,以便提供更多的IP選擇。
現在的市場時機之下,Dennis Laudick認為,選擇通用型處理器非常合適。就ML處理能力來看,用戶對于CPU和GPU的需求還是非常高的,同時也有一些針對NPU的需求。由于AI本身還處于非常初期的階段,選擇通用處理器是比較安全的做法,即便算法迭代非常快,硬件還能夠有2到3年的生命周期。
探究Arm這一舉動背后的含義。
首先,當我們真正進入IoT時代時,不論傳感器還是其他IoT設備都是萬億級的,客戶規模及類型都將指數級增長,Arm需要授予客戶能力,讓他們能夠根據實際需求實現自己指令集的定制化。
其次,可以說市場上一些開源指令集的出現對Arm構成了一定的競爭,Arm雖然能夠提供非常全面的指令集產品,但是定制化需求確實越來越強勁。
去年11月,Facebook就曾發表白皮書,要求其開發人員在移動設備上針對Cortex A53 SoC進行優化。由于不同SoC對AI加速的實施方法不同,如果是原生的軟件,可以利用SoC的加速能力;但如果是第三方軟件(Facebook就屬于第三方應用),就很難用到這些SoC的加速能力。
類似的案例,使Arm逐漸認識到了有定制需求的市場規模。通過框架開源,能夠允許第三方開發人員接入,在標準的編譯訪問、工具訪問的情況下,只需一次開發就可以獲得Arm全系列的硬件產品性能。
此外,Arm也宣布延伸與Unity的合作伙伴關系。目前,有七成VR內容的開發都在Unity工具鏈中發生,雙方將進一步優化基于Arm的SoC、CPU和GPU的性能,使開發人員得以將更多的時間用于創造全新的、沉浸式的內容。
全面計算(Total Compute)的理念被應用到Arm的每一個計算要素,包括CPU、NPU、GPU、DPU,以及互連或系統IP等。初衷在于確保它們是由實際體驗所驅動,同時針對解決未來工作負荷的復雜運算挑戰進行了優化。
硬件方面普及性不斷提升,軟件開始一定的開源嘗試——這是Arm對于未來計算架構思考方式的重大轉變。
在介紹Total Compute理念的時候,Ian Smythe提到了三個因素:性能、可訪問、安全。前兩個因素主要來自于軟硬件的協同發展,而第三個因素——安全,是一切設想得以實現的基礎。
Total Compute的安全性基于三個層次:
第一個層級是最基本的平臺級安全,涉及標準以及規則,做到合規;
第二個是處理級的安全,指的是處理器運行的軟件線程,主要防止通過某一個處理通道發起的攻擊,屬于深度防御;
第三個是應用級的安全,即虛擬機在云端的應用安全。
在最基本層次的安全方面,Arm將會加強基本安全級別如身份驗證、鑒權等工作,同時還有防止分支攻擊的方式。此外還有一種安全架構叫做內存時間延展,Arm發現70%的操作系統崩潰或錯誤,都是因為內存不當的訪問造成的,于是和Google共同合作了Arm V8.5,來防止類似的情況發生。
針對應用層安全,Arm與微軟、谷歌等公司聯合進行了安全架構方面的研究,主要通過編程方式的改變來防范現在比較流行的攻擊方式。與劍橋大學共同開發的Prototype能力架構,能夠將每個應用獨立隔離,如果黑客攻破其中一個應用,其他不受影響。
Arm正在將創新的安全功能整合到Total Compute內,以迎合客戶的各種需求。
這種異構計算需求能否為Arm及其生態發展帶來新一輪增長點?Arm生態中的合作伙伴能否從中獲得巨大的商業價值?市場還需要持續的發酵和驗證。不過,觀察他們是如何提升生態系統的高度,找到長久盛放的辦法,可以從中得到一些答案。
一直以來,大量的數據從邊緣流向云端,但隨著數據和設備的數量呈指數型增長,把所有數據都放到云端處理變得越來越不現實,更不用說安全和成本效益。
機器學習(Machine Learning,ML)向“邊緣”轉移成為必然趨勢,它將助力AI在更大范圍的普及,推進更為多元化的應用。從整體架構來看,只有提升邊緣的智能性,才能解決帶寬、功耗、成本、延時、可靠性和安全性等多方面問題。
持續拓寬ML處理器IP覆蓋
在日前的Arm Tech Symposia 2019北京站上,Arm宣布進一步擴充其IP組合。這些IP組合沿襲了Arm一直倡導的大小核理念,既有比較高端的配置(如Ethos-N57和Mali-G57),也有入門級的產品(如Ethos-N37和Mali-D37),目的在于將軟硬件充分結合,并充分發揮生態系統的力量來提升主流設備的使用體驗。由于消費級設備越來越智能化,通過專屬的ML處理器提供額外的AI性能與效率非常有必要。
自從推出Cortex-A73后,Arm便逐步且逐代地提升性能,大幅拓寬針對ML的CPU覆蓋。計算能力不斷被推升至全新水平,直到最新一代Matterhorn內核,預計其計算性能將提升10倍。
當CPU和GPU面對邊緣計算更密集計算、更復雜任務、更高效需求等顯現出一定的匱乏時,NPU將派上用場。
繼定位于高端設備的Ethos-N77發布后,此次,Ethos NPU家族又添Ethos-N57與Ethos-N37兩位新成員,將ML處理器延伸到主流市場。全新的Ethos對成本與電池壽命最為敏感的設計進行了優化,可以為日常生活設備帶來優質的AI體驗。
Ethos-N57與Ethos-N37的設計理念包括:
針對Int8與Int16數據類型的支持性進行優化;
先進的數據管理技術,以減少數據的移動與相關的耗電;
通過如創新的Winograd技術的落地,使性能比其他NPU提升超過200%。
Ethos-N57旨在提供平衡的ML性能與功耗效率,能夠針對每秒2兆次運算次數的性能范圍進行優化;Ethos-N37則為了提供面積最小的ML推理處理器(小于1平方毫米)而設計,能夠針對每秒1兆次運算次數的性能范圍進行優化。
Arm在ML內核方面主要關注數據管理,在設計中更多地注入了智能數據管理的功能和理念,例如數據敏感型的壓縮技術、高密度剪枝和稀疏功能等。
Mali-G57:為主流市場帶來智能與沉浸式體驗的GPU
同時推出的還有將優質智能與沉浸式體驗帶到主流市場的Mali-G57,是第一個基于Valhall架構的主流GPU。主要針對移動市場中最大的一部分應用,包括高保真游戲、媲美電玩主機的移動設備圖型效果、DTV的4K/8K用戶接口,以及更為復雜的虛擬現實和增強現實的負荷等。Mali-G57關鍵功能包括:
與Mali-G52相比,各種內容都能達到1.3倍的性能密度;
能效比提升30%,電池壽命更長;
針對VR提供注視點渲染支持,且設備ML性能提升60%,以便進行更復雜的XR實境應用。
Mali-D37:Arm單位面積效率最高的處理器
Mali-D37是一個在最小的可能面積上包含豐富顯示與性能的DPU。對于終端用戶而言,這意味著當面積成為首要考慮,在例如入門級智能手機、平板電腦與分辨率在2K以內的小顯示屏等成本較低的設備上,會有更佳的視覺效果與性能。Mali-D37關鍵功能包括:
單位面積效率高,DPU在支持全高清(Full HD)與2K分辨率的組態下,16nm制程的面積將小于1 mm2;
通過減少GPU核心顯示工作以及包括MMU-600等內存管理功能,系統電力最高可節省30%;
從高階的Mali-D71保留關鍵的顯示功能,包括與Assertive Display 5結合使用后,可混合顯示高動態對比(HDR)與標準動態對比(SDR)的合成內容。
ML選擇通用還是專用處理器?
是否一定需要專用的ML處理器?能否通過跨IP組合設計,或是對加速器進行優化,從而達到同樣的或類似的性能?對此,Arm市場營銷副總裁Ian Smythe表示,這首先取決于是什么樣的機器學習負載,如果是關鍵字識別,確實不需要專門的ML處理器,只需要在Cortex-M上運行推理引擎就可以,因為它本身就具有數據管理的能力,基本適用于一般的傳感器系統。但如果是更加復雜的機器學習,就要考慮工作負載的卸載問題了,具體包括硬件方面的成本,以及編程工具的工作量等等。
Arm建議從系統級別出發進行選擇,以達到降低功耗、減小芯片面積、提高效率、優化總體設計的目的。以圖形處理任務為例,如果用GPU,它在執行任務時會多次訪問內存,可能需要強制縮小像素,降低清晰度;但用DPU執行同樣的任務,它會在完成任務后直接把數據發給GPU,這時GPU就無需再去訪問內存,相當于把GPU的一些工作負載分配給DPU,從而能夠節約能耗和帶寬。
Arm ML事業群商業與營銷副總裁Dennis Laudick強調,Arm的NPU屬于通用型。其實現在市場上大部分還是用Arm的CPU來處理ML工作負載,新發布的NPU是對其CPU ML性能的進一步提升,以便提供更多的IP選擇。
現在的市場時機之下,Dennis Laudick認為,選擇通用型處理器非常合適。就ML處理能力來看,用戶對于CPU和GPU的需求還是非常高的,同時也有一些針對NPU的需求。由于AI本身還處于非常初期的階段,選擇通用處理器是比較安全的做法,即便算法迭代非常快,硬件還能夠有2到3年的生命周期。
開源Arm NN——標準化前提下的定制化
此次Arm的一個重要舉措還有開源類神經網絡開發工具包 Arm NN,允許第三方合作伙伴進行定制化——Arm稱之為“允許標準化前提下的定制化”。探究Arm這一舉動背后的含義。
首先,當我們真正進入IoT時代時,不論傳感器還是其他IoT設備都是萬億級的,客戶規模及類型都將指數級增長,Arm需要授予客戶能力,讓他們能夠根據實際需求實現自己指令集的定制化。
其次,可以說市場上一些開源指令集的出現對Arm構成了一定的競爭,Arm雖然能夠提供非常全面的指令集產品,但是定制化需求確實越來越強勁。
去年11月,Facebook就曾發表白皮書,要求其開發人員在移動設備上針對Cortex A53 SoC進行優化。由于不同SoC對AI加速的實施方法不同,如果是原生的軟件,可以利用SoC的加速能力;但如果是第三方軟件(Facebook就屬于第三方應用),就很難用到這些SoC的加速能力。
類似的案例,使Arm逐漸認識到了有定制需求的市場規模。通過框架開源,能夠允許第三方開發人員接入,在標準的編譯訪問、工具訪問的情況下,只需一次開發就可以獲得Arm全系列的硬件產品性能。
此外,Arm也宣布延伸與Unity的合作伙伴關系。目前,有七成VR內容的開發都在Unity工具鏈中發生,雙方將進一步優化基于Arm的SoC、CPU和GPU的性能,使開發人員得以將更多的時間用于創造全新的、沉浸式的內容。
Total Compute理念應對未來復雜邊緣計算
應對未來復雜邊緣計算的趨勢,不難發現,Arm的關注焦點正在從單一的產品演進轉化為以應用場景與體驗為導向的系統解決方案。全面計算(Total Compute)的理念被應用到Arm的每一個計算要素,包括CPU、NPU、GPU、DPU,以及互連或系統IP等。初衷在于確保它們是由實際體驗所驅動,同時針對解決未來工作負荷的復雜運算挑戰進行了優化。
硬件方面普及性不斷提升,軟件開始一定的開源嘗試——這是Arm對于未來計算架構思考方式的重大轉變。
在介紹Total Compute理念的時候,Ian Smythe提到了三個因素:性能、可訪問、安全。前兩個因素主要來自于軟硬件的協同發展,而第三個因素——安全,是一切設想得以實現的基礎。
Total Compute的安全性基于三個層次:
第一個層級是最基本的平臺級安全,涉及標準以及規則,做到合規;
第二個是處理級的安全,指的是處理器運行的軟件線程,主要防止通過某一個處理通道發起的攻擊,屬于深度防御;
第三個是應用級的安全,即虛擬機在云端的應用安全。
在最基本層次的安全方面,Arm將會加強基本安全級別如身份驗證、鑒權等工作,同時還有防止分支攻擊的方式。此外還有一種安全架構叫做內存時間延展,Arm發現70%的操作系統崩潰或錯誤,都是因為內存不當的訪問造成的,于是和Google共同合作了Arm V8.5,來防止類似的情況發生。
針對應用層安全,Arm與微軟、谷歌等公司聯合進行了安全架構方面的研究,主要通過編程方式的改變來防范現在比較流行的攻擊方式。與劍橋大學共同開發的Prototype能力架構,能夠將每個應用獨立隔離,如果黑客攻破其中一個應用,其他不受影響。
Arm正在將創新的安全功能整合到Total Compute內,以迎合客戶的各種需求。
結語
未來,隨著數據類型愈發多樣,如大數據應用、分布式存儲和部分邊緣計算等對多核、高能效計算提出明確需求,單個設備的計算能力固然很重要,但已不再是唯一的關注點,整個系統的計算能力更應該被關注。這種異構計算需求能否為Arm及其生態發展帶來新一輪增長點?Arm生態中的合作伙伴能否從中獲得巨大的商業價值?市場還需要持續的發酵和驗證。不過,觀察他們是如何提升生態系統的高度,找到長久盛放的辦法,可以從中得到一些答案。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
處理器
+關注
關注
68文章
19349瀏覽量
230295 -
ARM
+關注
關注
134文章
9111瀏覽量
368037 -
ML
+關注
關注
0文章
149瀏覽量
34670 -
機器學習
+關注
關注
66文章
8425瀏覽量
132775 -
IOT
+關注
關注
187文章
4217瀏覽量
197073 -
邊緣計算
+關注
關注
22文章
3104瀏覽量
49144
發布評論請先 登錄
相關推薦
虹軟AI視覺賦能雷鳥V3 AI拍攝眼鏡發布
技術,支持拍照、視頻錄制、開放式耳機等多種實用功能。作為雷鳥V3整體視覺系統的技術賦能方,虹軟充分融合計算攝影與AI技術,為雷鳥V3的影像與AI交互體驗提供強大支撐,賦予用戶探索更智能
Arm如何賦能無處不在的AI
作為人工智能 (AI) 的創新基礎,眾多企業都在使用通用且應用廣泛的 Arm 計算平臺。迄今為止,合作伙伴基于 Arm 架構的芯片出貨量已逾 2,800 億顆。如今,Arm 已為各類技
軟銀與英特爾AI芯片合作談判破裂,合作計劃告終
8月15日最新消息,英國《金融時報》披露,軟銀集團與英特爾之間的秘密會談未能如愿達成,原本旨在聯手開發能夠與英偉達一較高下的AI芯片項目宣告流產。據悉,這場未公開的談判中,軟銀構想將Arm
硬開關和軟開關的主要區別
能量和用于平滑開關模式轉換器輸出無源元件的尺寸及數量,還為轉換器構建了減少發熱量并由此使用更小散熱片的基礎。 對于傳統的硅基功率晶體管而言,一些效率和頻率上的改進得益于功率轉換器設計中從簡單硬開關向軟開關架構的轉
軟銀巨資加注AI,欲尋求更大規模交易
身為軟銀創始人的孫正義積極倡導其對 AI 的重視及改革軟銀的必要,正在尋找可能的機會以支持集團子公司 Arm 的發展。自孫正義宣布這一決定以來,軟
Arm計劃2025年大規模銷售AI芯片
軟銀集團旗下的英國芯片巨頭Arm近日公布了其雄心勃勃的AI芯片銷售計劃。該公司宣布,計劃到2025年實現AI芯片的大規模銷售,以進一步鞏固其在全球芯片市場的領先地位。
軟銀孫正義擬投資640億美元轉型,Arm計劃2025年推出AI芯片
軟銀集團子公司Arm將進軍人工智能(AI)芯片的開發,尋求在2025年推出首批產品。
硬電線和軟電線之間又有何區別?
軟電線,又叫護套線。一般是多股直徑1毫米以下可導電的固態金屬絲絞合而成的導線,即內部為多股銅絲纏繞在一起。
硬電線,又叫塑銅線。一般10平方以下的硬電線都是單股線,是由少數幾根粗銅芯組成的。
對稱電池測試怎么分析?什么是軟短路,什么是硬短路?
對稱電池測試怎么分析?什么是軟短路,什么是硬短路? 對稱電池測試是一種針對電池的測試方法,旨在評估電池的對稱性能和電池內部是否存在短路現象。軟短路和硬短路是兩種不同類型的短路情況,它們
Linux中的軟、硬鏈接的區別
不同。
4: 若想復制時日期相同,可以通過命令:cp –p /etc/inittab /test/inittab2
5:硬鏈接的同步更新
軟連接類似于快捷方式,訪問的就是源文件,所有肯定是跟
發表于 02-04 16:34
什么是PLC的軟冗余和硬冗余?PLC不做性能冗余可不可以?
什么是PLC的軟冗余和硬冗余?PLC不做性能冗余可不可以? 軟冗余和硬冗余都是指在PLC(可編程邏輯控制器)系統中,為了提高系統的可靠性和容錯能力而采取的措施。
評論