(文章來源:雷鋒網(wǎng))
隨著AI算法的逐步成熟以及芯片算力的提升,歷經(jīng)幾年的熱潮之后,AI技術(shù)只有落地應(yīng)用才能獲得進(jìn)一步的發(fā)展。不過,算法需求與芯片算力不匹配的需求成為了AI落地的一大障礙,AI軟硬一體化成為關(guān)鍵。但在軟硬一體化提高效率的同時(shí),如何滿足多樣化的需求也非常關(guān)鍵,定制化成為了趨勢(shì)。
這一輪AI熱潮,不僅讓越來越多的人認(rèn)識(shí)和了解了AI技術(shù),AI也正在成為每臺(tái)智能設(shè)備日常工作的一部分。事實(shí)證明,深度神經(jīng)網(wǎng)絡(luò)(DNN)非常有用,但是AI的進(jìn)一步發(fā)展和落地仍有很多挑戰(zhàn)。比如,如何使得現(xiàn)有解決方案跟上發(fā)展趨勢(shì)?如何擴(kuò)展解決方案?如何以成熟的工具鏈縮短TTM(Time to Market)和降低成本?
面對(duì)這些問題,需要整個(gè)產(chǎn)業(yè)鏈的協(xié)作,共同滿足市場(chǎng)的需求。根據(jù)市場(chǎng)研究機(jī)構(gòu)的報(bào)告,到2022年,全球具有計(jì)算機(jī)視覺/機(jī)器視覺相繼的規(guī)模將超過15億個(gè),包括智能手機(jī)、安防、消費(fèi)電子、汽車圖像傳感器、工業(yè)等。這就意味著,定制化的AI加速器可以更好地滿足市場(chǎng)的不同需求,但與此同時(shí),AI在邊緣端的落地也面臨挑戰(zhàn)。CEVA營(yíng)銷副總裁Moshe Sheier認(rèn)為,在邊緣AI中,AI的落地面臨的問題就是數(shù)據(jù)量太大且運(yùn)算太復(fù)雜,芯片的算力非常關(guān)鍵。
Moshe Sheier近日接受雷鋒網(wǎng)采訪時(shí)表示,AI算法公司在做落地項(xiàng)目的時(shí)候,受困于硬件算力不足的問題,可能會(huì)犧牲很多特性。所以我們現(xiàn)在希望算法公司能夠向芯片公司提出更多的需求,讓芯片的設(shè)計(jì)能夠更好地滿足算法需求。只有算法的效率提高了,AI才能更好的落地。
提到效率,無法避開的問題就是AI到底需要專用還是通用的芯片,通用的芯片能夠更好適應(yīng)算法的演進(jìn),但算力不及專用芯片。Moshe Sheier認(rèn)為,AI加速器一定是一個(gè)趨勢(shì),同時(shí),視頻DSP在AI中非常重要,因?yàn)锳I算法還有很多不確定性。如今算法公司不會(huì)只采用一種神經(jīng)網(wǎng)絡(luò),而是會(huì)進(jìn)行組合。運(yùn)行多個(gè)神經(jīng)網(wǎng)絡(luò)模型就一定會(huì)涉及對(duì)結(jié)果進(jìn)行CV的處理,這時(shí)候CPU可能會(huì)面臨一些瓶頸。我們的XM DSP針對(duì)了所有流行的神經(jīng)網(wǎng)絡(luò)都進(jìn)行了優(yōu)化,能夠更好的滿足多神經(jīng)網(wǎng)絡(luò)的算法。
基于對(duì)流行神經(jīng)網(wǎng)絡(luò)特征的理解,CEVA在今年9月推出了第二代面向邊緣設(shè)備的AI推理處理器架構(gòu)NeuPro-S,NeuPro-S系列包括NPS1000、NPS2000和NPS4000,它們是每個(gè)周期分別具有1000、2000和4000個(gè)8位MAC的預(yù)配置處理器。NPS4000具有最高的單核CNN性能,在1.5GHz時(shí)可達(dá)到12.5 TOPS,并且可完全擴(kuò)展,最高可達(dá)到100 TOPS。
根據(jù)官方的說法,與CEVA第一代AI處理器相比,NeuPro-S的性能平均提升50%,內(nèi)存帶寬和功耗分別降低了40%和30%。這種性能的提升主要來自硬件還是軟件的優(yōu)化?Moshe Sheier表示主要是來自硬件,因?yàn)镃EVA在NeuPro-S中增加了離線的權(quán)重壓縮和硬件的權(quán)重解壓縮。
之所以要這么做,是因?yàn)樯窠?jīng)網(wǎng)絡(luò)與視頻編解碼不太一樣,即便很小的圖片,引入卷積后權(quán)重的數(shù)據(jù)量非常大,因此帶寬成為了AI處理器的瓶頸。而CEVA采用的多重權(quán)重壓縮,可分為兩種方式,一種是零值和非零值,可以用4bit或者8bit表示,另一種是通過查表的方式,通過共用權(quán)重,只傳一次數(shù)據(jù),減少對(duì)帶寬的需求。
不僅如此,NeuPro-S還支持多級(jí)內(nèi)存系統(tǒng)。具體而言,就是加入了L2內(nèi)存的支持,用戶通過設(shè)置L2的大小,可以盡量把數(shù)據(jù)放在L2的緩存,減少使用外部SDRAM,降低傳輸成本。Moshe Sheier指出,硬件增加L2并不復(fù)雜,CEVA主要的工作是在我們CNDD軟件框架中加入對(duì)L2內(nèi)存的支持。
因此,NeuPro-S相比上一代NeuPro非常重要的工作就是進(jìn)行帶寬的優(yōu)化,這樣才有可能達(dá)到理論設(shè)計(jì)的利用率。雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))了解到,CEVA設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)引擎時(shí)最關(guān)注的問題就是乘法利用率,CEVA借助DSP設(shè)計(jì)的豐富經(jīng)驗(yàn),設(shè)計(jì)出的神經(jīng)網(wǎng)絡(luò)引擎理論的乘法利用率在80%-90%、雖然實(shí)際利用率會(huì)低于理論值,但NeuPro-S帶寬的增大將能夠減少數(shù)據(jù)的等待,能提高乘法利用率。
最終,經(jīng)設(shè)計(jì)優(yōu)化NeuPro-S,能夠?qū)吘壴O(shè)備中視頻和圖像中的物品進(jìn)行分割、檢測(cè)和分類神經(jīng)網(wǎng)絡(luò),顯著提高系統(tǒng)感知性能。除了支持多級(jí)內(nèi)存系統(tǒng)以減少使用外部SDRAM的高成本傳輸,并支持多重壓縮選項(xiàng)和異構(gòu)可擴(kuò)展性,提升算力滿足AI算法的需求。
(責(zé)任編輯:fqj)
-
芯片
+關(guān)注
關(guān)注
455文章
50714瀏覽量
423158 -
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268892
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論