電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))邊緣計(jì)算從始至終都是一個(gè)讓業(yè)界苦思冥想的問(wèn)題,與云端計(jì)算這種集中式結(jié)構(gòu)不同,邊緣計(jì)算的分布式結(jié)構(gòu)杜絕了“齊心辦大事”的可能性。而且并非將體積依然不可小視的計(jì)算服務(wù)器部署在邊緣端,就能解決邊緣計(jì)算的一切要求,尤其是在邊緣AI需求持續(xù)高漲的當(dāng)下。
根據(jù)IDC的統(tǒng)計(jì),到了2025年全球互聯(lián)設(shè)備將達(dá)到416億臺(tái),與此同時(shí)邊緣傳感器收集的數(shù)據(jù)將達(dá)到79.4ZB。在這么龐大的量下,邊緣AI提出的要求卻是高性能、低功耗,挑戰(zhàn)確實(shí)不亞于手機(jī)SoC的開(kāi)發(fā)了。即便如此,雨后春筍一般冒頭的AI芯片公司還是在挑戰(zhàn)“卷”的限度。
軟件定義的邊緣AI加速器
平時(shí)留意RISC-V動(dòng)向的小伙伴們應(yīng)該有所耳聞,3月中旬IP廠商Alphawave花了2億美元收購(gòu)SiFive旗下OpenFive。然而同樣在3月,在收購(gòu)之前,專注于高速連接SoC IP的OpenFive宣布了與AI初創(chuàng)公司EdgeCortix的合作,共同打造下一代的邊緣AI加速器。
在軟件定義的AI加速中,靈活度最高的還得屬通用CPU,但一談到能耗,就有些相形見(jiàn)絀了,與較為專一的GPU相比,從性能和能效上都有一定差距。然而GPU雖說(shuō)能效高于GPU,但放在邊緣端動(dòng)輒幾百瓦的功耗又太夸張了,因此特定領(lǐng)域的AI加速器雖然犧牲了一定的靈活性,但做到了最高的能效比,也因此被邊緣AI所看重。
在這一理念下,EdgeCortix推出了動(dòng)態(tài)神經(jīng)加速器(DNA),一個(gè)運(yùn)行時(shí)可重構(gòu)的特定領(lǐng)域加速器設(shè)計(jì),用于低功耗的實(shí)時(shí)AI推理應(yīng)用,既可以部署在FPGA上,也可以部署在自研設(shè)計(jì)的ASIC芯片上。
SAKURA,正是基于該設(shè)計(jì)打造的一款高能效的邊緣AI協(xié)處理器。與部分AI芯片不一樣,SAKURA并沒(méi)有選擇5nm之類的先進(jìn)工藝,而是選擇了12nm的成熟工藝。在800MHz的頻率下,SAKURA可以達(dá)到40TOPS的算力,在多芯片組合下更是可以達(dá)到200TOPS,搭載該芯片的PCIe板卡典型功耗只有10W到15W。
只談性能不談規(guī)模是毫無(wú)意義的,AI芯片廠商最喜歡拿來(lái)對(duì)比還是英偉達(dá)的各大GPU,這不,EdgeCortix也選擇了同用臺(tái)積電12nm工藝的英偉達(dá)AGX Xavier GPU來(lái)進(jìn)行對(duì)比,可以看出AGX Xavier的面積近乎是SAKURA的四倍,在算力上依然比后者低上25%,兩者能耗相差不大,但PPA上明顯是SAKURA更勝一籌。
不過(guò)這也不是實(shí)際場(chǎng)景的比較,我們還是拿深度學(xué)習(xí)模型的測(cè)試結(jié)果來(lái)看,由于軟件定義的特性,無(wú)論是在單芯多核和多芯的擴(kuò)展下,SAKURA的異構(gòu)計(jì)算單元都可以得到有效的利用。EdgeCortix給出了在YOLOv3這一實(shí)時(shí)物體檢測(cè)算法中的比較,在同規(guī)模的數(shù)據(jù)下SAKURA的推理耗時(shí)最高可以做到AGX Xavier的16分之一。
這倒不是說(shuō)SAKURA就一定是邊緣AI的最優(yōu)解,在給出的諸多對(duì)比中,大部分是Batch Size只有1下的測(cè)試結(jié)果,這是因?yàn)镾AKURA對(duì)低Batch Size和INT8做過(guò)優(yōu)化。更何況SAKURA對(duì)標(biāo)的還是英偉達(dá)AGX Xavier、AGX Orin和高通Cloud AI 100這一檔的邊緣AI芯片。
模擬與AI
不久前,筆者曾介紹了AI初創(chuàng)公司Aspinity的AML100邊緣AI芯片,主打處理傳感器輸出的模擬數(shù)據(jù),來(lái)實(shí)現(xiàn)降低功耗的作用。近日,Aspinity透露了更多這款芯片的細(xì)節(jié),并更新了一些數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)Always On方案無(wú)論是在智能手機(jī)、智能手表還是智能家居產(chǎn)品中都已經(jīng)普及,而且主打的就是低功耗,甚至低至數(shù)十uW。那么這種模擬AI芯片的優(yōu)勢(shì)又在哪呢?
傳統(tǒng)的超低功耗芯片在提及功耗時(shí),其實(shí)還是自身的功耗乃至待機(jī)時(shí)的功耗,而從傳感器和ADC再到芯片的功耗,以及整個(gè)系統(tǒng)的功耗還是沒(méi)那么容易忽略的。比如傳統(tǒng)的Always On數(shù)字處理器架構(gòu)系統(tǒng)在檢測(cè)語(yǔ)音事件時(shí),總功耗大概在3700uW左右,數(shù)字處理器的功耗還是占大頭。
而在AML100組成的Always On系統(tǒng)中,傳感器的功耗不變,而AML100可以做到40uW以下的功耗,這時(shí)由于AML100從模擬端接手了預(yù)處理和機(jī)器學(xué)習(xí)的任務(wù),ADC和數(shù)字處理器端的功耗無(wú)限約接近0uW,因此總功耗要小于140uW,將整個(gè)系統(tǒng)的功耗降低了95%以上。
AML100終究還是一個(gè)用于事件喚醒的邊緣AI芯片,面向破窗安全監(jiān)測(cè)、語(yǔ)音喚醒之類的Always On應(yīng)用,那么針對(duì)通用的邊緣AI應(yīng)用,它能否派上用場(chǎng)呢?
其實(shí)作用也是有的,AML100的定位本質(zhì)上就是一個(gè)模擬層面上的預(yù)處理,可以有效減小數(shù)據(jù)集的大小,這樣交給MCU或云端的數(shù)據(jù)會(huì)減少至多百倍,對(duì)于大部分邊緣應(yīng)用來(lái)說(shuō),處理數(shù)據(jù)的減少也近似等效于延長(zhǎng)電池壽命了。
原文標(biāo)題:邊緣AI芯片正在數(shù)倍百倍地卷
文章出處:【微信公眾號(hào):電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
審核編輯:湯梓紅
-
加速器
+關(guān)注
關(guān)注
2文章
801瀏覽量
37926 -
邊緣計(jì)算
+關(guān)注
關(guān)注
22文章
3098瀏覽量
49091 -
邊緣AI
+關(guān)注
關(guān)注
0文章
96瀏覽量
5029
原文標(biāo)題:邊緣AI芯片正在數(shù)倍百倍地卷
文章出處:【微信號(hào):elecfans,微信公眾號(hào):電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論