雖然 AI 和 ML 應(yīng)用程序的加速仍然是一個(gè)相對(duì)較新的領(lǐng)域,但各種處理器如雨后春筍般涌現(xiàn),幾乎可以加速任何神經(jīng)網(wǎng)絡(luò)工作負(fù)載。從處理器巨頭到業(yè)內(nèi)一些最新的初創(chuàng)公司,它們都提供了不同的東西——無(wú)論是針對(duì)不同的垂直市場(chǎng)、應(yīng)用領(lǐng)域、功率預(yù)算還是價(jià)格點(diǎn)。這是今天市場(chǎng)上的快照。
應(yīng)用處理器 Intel Movidius Myriad X由愛(ài)爾蘭初創(chuàng)公司 Movidius 開(kāi)發(fā),并于 2016 年被英特爾收購(gòu),Myriad X是該公司的第三代視覺(jué)處理單元,也是第一款配備專(zhuān)用神經(jīng)網(wǎng)絡(luò)計(jì)算引擎的產(chǎn)品,每臺(tái)可提供 1 tera 運(yùn)算第二 (TOPS) 專(zhuān)用深度神經(jīng)網(wǎng)絡(luò) (DNN) 計(jì)算。神經(jīng)計(jì)算引擎直接與高吞吐量智能內(nèi)存結(jié)構(gòu)接口,以避免在傳輸數(shù)據(jù)時(shí)出現(xiàn)任何內(nèi)存瓶頸。它支持 FP16 和 INT8 計(jì)算。Myriad X 還具有一組 16 個(gè)專(zhuān)有 SHAVE 內(nèi)核以及升級(jí)和擴(kuò)展的視覺(jué)加速器。
Myriad X 可在英特爾的神經(jīng)計(jì)算棒 2 中使用,它實(shí)際上是一個(gè) USB 拇指驅(qū)動(dòng)器形式的評(píng)估平臺(tái)。它可以插入任何工作站,讓人工智能和計(jì)算機(jī)視覺(jué)應(yīng)用程序在專(zhuān)用的 Movidius 硬件上快速啟動(dòng)和運(yùn)行。
NXP Semiconductors i.MX 8M Plus i.MX 8M Plus是一款異構(gòu)應(yīng)用處理器,采用芯原 (Vivante VIP8000) 的專(zhuān)用神經(jīng)網(wǎng)絡(luò)加速器 IP 。它為消費(fèi)和工業(yè)物聯(lián)網(wǎng) (IIoT) 中的端點(diǎn)設(shè)備的推理提供 2.3 TOPS 的加速,足以進(jìn)行多對(duì)象識(shí)別、40,000 個(gè)單詞的語(yǔ)音識(shí)別,甚至是醫(yī)學(xué)成像(MobileNet v1,每秒 500 張圖像)。
除神經(jīng)網(wǎng)絡(luò)處理器外,i.MX 8M Plus 還具有運(yùn)行頻率為 2 GHz 的四核 Arm Cortex-A53 子系統(tǒng),以及 Cortex-M7 實(shí)時(shí)子系統(tǒng)。
對(duì)于視覺(jué)應(yīng)用,有兩個(gè)圖像信號(hào)處理器支持兩個(gè)用于立體視覺(jué)的高清攝像頭或一個(gè) 12 兆像素 (MP) 攝像頭。對(duì)于語(yǔ)音,該設(shè)備包括一個(gè) 800-MHz HiFi4 音頻數(shù)字信號(hào)處理器 (DSP),用于對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理和后處理。
NXP 的 i.MX 8M Plus 是該公司首款配備專(zhuān)用神經(jīng)網(wǎng)絡(luò)加速器的應(yīng)用處理器。它專(zhuān)為物聯(lián)網(wǎng)應(yīng)用而設(shè)計(jì)。
XMOS xcore.ai xcore.ai旨在實(shí)現(xiàn)物聯(lián)網(wǎng) (AIoT) 應(yīng)用程序中的語(yǔ)音控制。該設(shè)備是一款交叉處理器(具有應(yīng)用處理器的性能和微控制器的低功耗實(shí)時(shí)操作),專(zhuān)為語(yǔ)音信號(hào)的機(jī)器學(xué)習(xí)推理而設(shè)計(jì)。
它基于 XMOS 專(zhuān)有的 Xcore 架構(gòu),它本身建立在稱(chēng)為邏輯內(nèi)核的構(gòu)建塊上,可用于 I/O、DSP、控制功能或 AI 加速。每個(gè) xcore.ai 芯片上有 16 個(gè)這樣的內(nèi)核,設(shè)計(jì)人員可以選擇為每個(gè)功能分配多少個(gè)。將不同的功能映射到固件中的邏輯內(nèi)核允許創(chuàng)建完全用軟件編寫(xiě)的“虛擬 SoC”。XMOS 為 Xcore 增加了用于機(jī)器學(xué)習(xí)工作負(fù)載的矢量管道功能。
xcore.ai 支持 32 位、16 位、8 位和 1 位(二值化)網(wǎng)絡(luò),提供 3,200 MIPS、51.2 GMACC 和 1,600 MFLOPS。它具有 1 MB 的嵌入式 SRAM 以及用于擴(kuò)展的低功耗 DDR 接口。
XMOS 的 xcore.ai 基于專(zhuān)有架構(gòu),專(zhuān)為語(yǔ)音處理應(yīng)用程序中的 AI 工作負(fù)載而設(shè)計(jì)。
汽車(chē) SoC Texas Instruments Inc. TDA4VM作為用于汽車(chē)高級(jí)駕駛輔助系統(tǒng) (ADAS)的Jacinto 7 系列的一部分,TDA4VM 是 TI 首款具有專(zhuān)用片上深度學(xué)習(xí)加速器的片上系統(tǒng) (SoC)。該模塊基于 C7x DSP 加上內(nèi)部開(kāi)發(fā)的矩陣乘法加速器 (MMA),可實(shí)現(xiàn) 8 TOPS。
SoC 可以處理來(lái)自前置攝像頭的高達(dá) 8 MP 或四到六個(gè) 3 MP 攝像頭加上雷達(dá)、激光雷達(dá)和超聲波傳感器的組合的視頻流。例如,MMA 可用于在自動(dòng)代客泊車(chē)系統(tǒng)中對(duì)這些輸入執(zhí)行傳感器融合。TDA4VM 專(zhuān)為 5 到 20 W 之間的 ADAS 系統(tǒng)而設(shè)計(jì)。
該設(shè)備仍處于預(yù)生產(chǎn)階段,但開(kāi)發(fā)套件現(xiàn)已上市。
TI TDA4VM 適用于允許車(chē)輛感知其環(huán)境的復(fù)雜汽車(chē) ADAS 系統(tǒng)。
GPU Nvidia Corp. Jetson Nano Nvidia 著名的Jetson Nano是一個(gè)小型但功能強(qiáng)大的圖形處理單元 (GPU) 模塊,用于端點(diǎn)設(shè)備中的 AI 應(yīng)用程序。Nano 模塊上的 GPU 建立在與 Jetson 系列的較大成員(AGX Xavier 和 TX2)相同的 Maxwell 架構(gòu)上,具有 128 個(gè)內(nèi)核,并且能夠達(dá)到 0.5 TFLOPS,足以在來(lái)自高端的多個(gè)數(shù)據(jù)流上運(yùn)行多個(gè)神經(jīng)網(wǎng)絡(luò)。據(jù)該公司稱(chēng),分辨率圖像傳感器。它在使用時(shí)僅消耗 5 W。該模塊還具有四核 Arm Cortex-A57 CPU。
與 Nvidia 范圍內(nèi)的其他部件一樣,Jetson Nano 使用 CUDA X,這是 Nvidia 的神經(jīng)網(wǎng)絡(luò)加速庫(kù)集合。價(jià)格低廉的 Jetson Nano 開(kāi)發(fā)套件隨處可見(jiàn)。
Nvidia 的 Jetson Nano 模塊包含一個(gè)強(qiáng)大的 GPU,具有 128 個(gè)核心,用于邊緣的 AI。
消費(fèi)類(lèi)協(xié)處理器 Kneron Inc. KL520美國(guó)-臺(tái)灣初創(chuàng)公司 Kneron 的第一款產(chǎn)品是KL520神經(jīng)網(wǎng)絡(luò)處理器,專(zhuān)為智能家居、安全系統(tǒng)和移動(dòng)設(shè)備等應(yīng)用中的圖像處理和面部識(shí)別而設(shè)計(jì)。它針對(duì)運(yùn)行卷積神經(jīng)網(wǎng)絡(luò) (CNN) 進(jìn)行了優(yōu)化,這是當(dāng)今圖像處理中常用的類(lèi)型。
KL520 可以運(yùn)行 0.3 TOPS 并消耗 0.5 W(相當(dāng)于 0.6 TOPS/W),該公司表示,鑒于該芯片的 MAC 效率很高(超過(guò) 90%),這足以進(jìn)行準(zhǔn)確的面部識(shí)別。芯片架構(gòu)是可重構(gòu)的,可以針對(duì)不同的 CNN 模型進(jìn)行定制。該公司的互補(bǔ)編譯器還使用壓縮技術(shù)來(lái)幫助在芯片資源內(nèi)運(yùn)行更大的模型,從而幫助節(jié)省功耗和成本。
KL520 現(xiàn)已上市,也可以在制造商研揚(yáng)科技 (M2AI-2280-520) 的加速卡上找到。
Kneron 的 KL520 使用可重新配置的架構(gòu)和巧妙的壓縮來(lái)在移動(dòng)和消費(fèi)設(shè)備中運(yùn)行圖像處理。
Gyrfalcon Lightspeeur 5801專(zhuān)為消費(fèi)電子市場(chǎng)設(shè)計(jì),Gyrfalcon 的Lightspeeur 5801在 224 mW 功耗(相當(dāng)于 12.6 TOPS/W)下提供 2.8 TOPS,延遲為 4 ms。與其他架構(gòu)相比,該公司使用了一種特別節(jié)能的內(nèi)存處理器技術(shù)。通過(guò)在 50 到 200 MHz 之間改變時(shí)鐘速度,功耗實(shí)際上可以與時(shí)鐘速度進(jìn)行權(quán)衡。Lightspeeur 5801 包含 10 MB 內(nèi)存,因此整個(gè)模型都可以安裝在芯片上。
這部分是該公司的第四款生產(chǎn)芯片,已經(jīng)在 LG 的 Q70 中端智能手機(jī)中找到,用于處理相機(jī)效果的推斷。USB 拇指驅(qū)動(dòng)器開(kāi)發(fā)套件 5801 Plai 插頭現(xiàn)已上市。
超低功耗 Eta Compute ECM3532 Eta Compute 的首款量產(chǎn)產(chǎn)品ECM3532專(zhuān)為物聯(lián)網(wǎng)電池供電或能量收集設(shè)計(jì)中的 AI 加速而設(shè)計(jì)。圖像處理和傳感器融合中的始終在線應(yīng)用可以通過(guò)低至 100 μW 的功率預(yù)算來(lái)實(shí)現(xiàn)。
該芯片有兩個(gè)內(nèi)核——一個(gè) Arm Cortex-M3 微控制器內(nèi)核和一個(gè) NXP CoolFlux DSP。該公司使用專(zhuān)有的電壓和頻率縮放技術(shù),可以調(diào)整每個(gè)時(shí)鐘周期,以從兩個(gè)內(nèi)核中榨取最后一滴電源。機(jī)器學(xué)習(xí)工作負(fù)載可以由任一內(nèi)核處理(例如,某些語(yǔ)音工作負(fù)載更適合 DSP)。
ECM3532 現(xiàn)已提供樣品,預(yù)計(jì)將于 2020 年第二季度開(kāi)始量產(chǎn)。
Syntiant Corp. NDP100美國(guó)初創(chuàng)公司 Syntiant 的NDP100處理器設(shè)計(jì)用于在電力緊張的應(yīng)用中對(duì)語(yǔ)音命令進(jìn)行機(jī)器學(xué)習(xí)推理。其基于內(nèi)存處理器的芯片消耗的有功功率低于 140 μW,并且可以運(yùn)行用于關(guān)鍵字發(fā)現(xiàn)、喚醒詞檢測(cè)、說(shuō)話(huà)者識(shí)別或事件分類(lèi)的模型。該公司表示,該產(chǎn)品將用于實(shí)現(xiàn)耳塞、助聽(tīng)器、智能手表和遙控器等消費(fèi)設(shè)備的免提操作。開(kāi)發(fā)套件現(xiàn)已上市。
Syntiant 的 NDP100 器件專(zhuān)為超低功耗應(yīng)用中的語(yǔ)音處理而設(shè)計(jì)。
GreenWaves Technologies GAP9 GAP9 是法國(guó)初創(chuàng)公司 GreenWaves 的首款超低功耗應(yīng)用處理器,擁有一個(gè)由九個(gè) RISC-V 內(nèi)核組成的強(qiáng)大計(jì)算集群,其指令集經(jīng)過(guò)大量定制以?xún)?yōu)化功耗。它具有雙向多通道音頻接口和 1.6 MB 內(nèi)部 RAM。
GAP9 可以處理電池供電物聯(lián)網(wǎng)設(shè)備中圖像、聲音和振動(dòng)傳感的神經(jīng)網(wǎng)絡(luò)工作負(fù)載。GreenWaves 的數(shù)據(jù)顯示 GAP9 在 160 × 160 圖像上運(yùn)行 MobileNet V1,在 12 毫秒內(nèi)通道縮放為 0.25,功耗為 806 μW/幀/秒。
評(píng)論
查看更多