如果能夠擁有一部智能個人助理,它能聽懂我們說的話并做出智能反應(yīng),然后處理日常任務(wù),那感覺一定很棒。鑒于機(jī)器學(xué)習(xí)(ML)領(lǐng)域近期取得的進(jìn)展,Arm相信這一天很快就會到來。機(jī)器學(xué)習(xí)已經(jīng)遠(yuǎn)遠(yuǎn)越過移動市場的邊界,延伸到醫(yī)療保健、零售、汽車和服務(wù)器等領(lǐng)域,從只能識別貓的圖片發(fā)展到可以解決現(xiàn)實(shí)問題的水平。
現(xiàn)在主要的難點(diǎn)是如何將這種能力轉(zhuǎn)移到邊緣,解決如今普遍存在的隱私、安全、帶寬和延遲問題,Arm 機(jī)器學(xué)習(xí)處理器朝這個方向邁出了一大步。
移動性能
機(jī)器學(xué)習(xí)處理器是專門為移動和相鄰市場(例如智能相機(jī)、AR/VR、無人機(jī)、醫(yī)療和消費(fèi)性電子產(chǎn)品等)推出的全新設(shè)計,性能為 4.6 TOP/s,能效為 3 TOPs/W。計算能力和內(nèi)存的進(jìn)一步優(yōu)化大大提高了它們在不同網(wǎng)絡(luò)中的性能。
其架構(gòu)包括用于執(zhí)行卷積層的固定功能引擎以及用于執(zhí)行非卷積層和實(shí)現(xiàn)選定原語和算子的可編程層引擎。網(wǎng)絡(luò)控制單元管理網(wǎng)絡(luò)的整體執(zhí)行和網(wǎng)絡(luò)的遍歷,DMA 負(fù)責(zé)將數(shù)據(jù)移入、移出主內(nèi)存。板載內(nèi)存可以對重量和特征圖進(jìn)行中央存儲,減少流入外部存儲器的流量,從而降低功耗。
有了固定功能和可編程引擎,機(jī)器學(xué)習(xí)處理器變得非常強(qiáng)大、高效和靈活,足以應(yīng)對未來的挑戰(zhàn),不僅保留了原始性能,還具備多功能性,能夠有效運(yùn)行各種神經(jīng)網(wǎng)絡(luò)。
主要特點(diǎn)
采用開源軟件,無鎖定。
與現(xiàn)有軟件框架緊密集成:TensorFlow、TensorFlow Lite、Caffe、Caffe 2。
經(jīng)優(yōu)化后適用于Arm Cortex CPU和Arm Mali GPU。
Arm 機(jī)器學(xué)習(xí)處理器架構(gòu)
為應(yīng)對多個市場帶來的挑戰(zhàn),滿足不同的性能需求,從物聯(lián)網(wǎng)的每秒幾 GOP 到服務(wù)器的每秒數(shù)十 TOP,機(jī)器學(xué)習(xí)處理器采用了全新的可擴(kuò)展架構(gòu)。
對于物聯(lián)網(wǎng)或嵌入式應(yīng)用,該架構(gòu)的性能可降低至約每秒 2 GOP,而對于 ADAS、5G 或服務(wù)器型應(yīng)用,性能可提高至每秒 150 TOP。這些多重配置的效率可達(dá)到現(xiàn)有解決方案的數(shù)倍。
由于與現(xiàn)有的 Arm CPU、GPU 和其他 IP 兼容,且能提供完整的異構(gòu)系統(tǒng),該架構(gòu)還可通過 TensorFlow、TensorFlow Lite、Caffe 和 Caffe 2 等常用的機(jī)器學(xué)習(xí)框架來獲取。
隨著機(jī)器學(xué)習(xí)的工作負(fù)載不斷增大,計算需求將呈現(xiàn)出多種形式。Arm 已經(jīng)開始采用擁有不同性能和效率等級的增強(qiáng)型 CPU 和 GPU,運(yùn)行多種機(jī)器學(xué)習(xí)用例。我們推出Arm 機(jī)器學(xué)習(xí)平臺的目的在于擴(kuò)大選擇范圍,提供異構(gòu)環(huán)境,滿足每種用例的選擇和靈活性需求,開發(fā)出邊緣智能系統(tǒng)。
-
ARM
+關(guān)注
關(guān)注
134文章
9104瀏覽量
367781 -
cpu
+關(guān)注
關(guān)注
68文章
10872瀏覽量
211993 -
智能機(jī)器人
+關(guān)注
關(guān)注
17文章
868瀏覽量
82342 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8422瀏覽量
132712
原文標(biāo)題:助力邊緣設(shè)備機(jī)器學(xué)習(xí),Arm機(jī)器學(xué)習(xí)處理器來了!
文章出處:【微信號:Ithingedu,微信公眾號:安芯教育科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論