CPU、GPU、DPU、TPU、NPU……各種不同的XPU還分不同等級(jí)的系列,價(jià)格也大不相同。
常見(jiàn)的XPU的英文全稱:
CPU全稱:Central Processing Unit, 中央處理器;
GPU全稱:Graphics Processing Unit, 圖像處理器;
TPU全稱:Tensor Processing Unit, 張量處理器;
DPU全稱:Deep learning Processing Unit, 深度學(xué)習(xí)處理器;
NPU全稱:Neural network Processing Unit, 神經(jīng)網(wǎng)絡(luò)處理器;
BPU全稱:Brain Processing Unit, 大腦處理器。
下面簡(jiǎn)單總結(jié)一下這些“XPU”。
1、CPU:中央處理器
CPU( Central Processing Unit, 中央處理器)一般是指的設(shè)備的“大腦”,是整體布局、發(fā)布執(zhí)行命令、控制行動(dòng)的總指揮。
CPU主要包括運(yùn)算器(ALU, Arithmetic and Logic Unit)和控制單元(CU, Control Unit),除此之外還包括若干寄存器、高速緩存器和它們之間通訊的數(shù)據(jù)、控制及狀態(tài)的總線。CPU遵循的是馮諾依曼架構(gòu),即存儲(chǔ)程序、順序執(zhí)行。一條指令在CPU中執(zhí)行的過(guò)程是:讀取到指令后,通過(guò)指令總線送到控制器中進(jìn)行譯碼,并發(fā)出相應(yīng)的操作控制信號(hào)。然后運(yùn)算器按照操作指令對(duì)數(shù)據(jù)進(jìn)行計(jì)算,并通過(guò)數(shù)據(jù)總線將得到的數(shù)據(jù)存入數(shù)據(jù)緩存器。因此,CPU需要大量的空間去放置存儲(chǔ)單元和控制邏輯,相比之下計(jì)算能力只占據(jù)了很小的一部分,在大規(guī)模并行計(jì)算能力上極受限制,而更擅長(zhǎng)于邏輯控制。
簡(jiǎn)單一點(diǎn)來(lái)說(shuō)CPU主要就是三部分:計(jì)算單元、控制單元和存儲(chǔ)單元。
2、GPU:圖像處理器
在正式了解GPU之前,先了解一個(gè)概念——并行計(jì)算。
并行計(jì)算(Parallel Computing)是指同時(shí)使用多種計(jì)算資源解決計(jì)算問(wèn)題的過(guò)程,是提高計(jì)算機(jī)系統(tǒng)計(jì)算速度和數(shù)據(jù)處理能力的一種有效手段。它的基本思想是用多個(gè)處理器來(lái)共同求解同一個(gè)問(wèn)題,即將被求解的問(wèn)題分解成若干個(gè)部分,各部分均由一個(gè)獨(dú)立的處理機(jī)來(lái)并行計(jì)算完成。
并行計(jì)算可分為時(shí)間上的并行和空間上的并行。
時(shí)間上的并行是指流水線技術(shù),比如說(shuō)工廠生產(chǎn)食品的時(shí)候分為四步:清洗-消毒-切割-包裝。
如果不采用流水線,一個(gè)食品完成上述四個(gè)步驟后,下一個(gè)食品才進(jìn)行處理,耗時(shí)且影響效率。但是采用流水線技術(shù),就可以同時(shí)處理四個(gè)食品。這就是并行算法中的時(shí)間并行,在同一時(shí)間啟動(dòng)兩個(gè)或兩個(gè)以上的操作,大大提高計(jì)算性能。
空間上的并行是指多個(gè)處理機(jī)并發(fā)的執(zhí)行計(jì)算,即通過(guò)網(wǎng)絡(luò)將兩個(gè)以上的處理機(jī)連接起來(lái),達(dá)到同時(shí)計(jì)算同一個(gè)任務(wù)的不同部分,或者單個(gè)處理機(jī)無(wú)法解決的大型問(wèn)題。
為了解決CPU在大規(guī)模并行運(yùn)算中遇到的困難, GPU應(yīng)運(yùn)而生,GPU全稱為Graphics Processing Unit,中文為圖形處理器,就如它的名字一樣,圖形處理器,GPU最初是用在個(gè)人電腦、工作站、游戲機(jī)和一些移動(dòng)設(shè)備(如平板電腦、智能手機(jī)等)上運(yùn)行繪圖運(yùn)算工作的微處理器。
GPU采用數(shù)量眾多的計(jì)算單元和超長(zhǎng)的流水線,善于處理圖像領(lǐng)域的運(yùn)算加速。但GPU無(wú)法單獨(dú)工作,必須由CPU進(jìn)行控制調(diào)用才能工作。CPU可單獨(dú)作用,處理復(fù)雜的邏輯運(yùn)算和不同的數(shù)據(jù)類型,但當(dāng)需要大量的處理類型統(tǒng)一的數(shù)據(jù)時(shí),則可調(diào)用GPU進(jìn)行并行計(jì)算。近年來(lái),人工智能的興起主要依賴于大數(shù)據(jù)的發(fā)展、算法模型的完善和硬件計(jì)算能力的提升。其中硬件的發(fā)展則歸功于GPU的出現(xiàn)。
為什么GPU特別擅長(zhǎng)處理圖像數(shù)據(jù)呢?這是因?yàn)閳D像上的每一個(gè)像素點(diǎn)都有被處理的需要,而且每個(gè)像素點(diǎn)處理的過(guò)程和方式都十分相似,也就成了GPU的天然溫床。
從架構(gòu)圖我們就能很明顯的看出,GPU的構(gòu)成相對(duì)簡(jiǎn)單,有數(shù)量眾多的計(jì)算單元和超長(zhǎng)的流水線,特別適合處理大量的類型統(tǒng)一的數(shù)據(jù)。
但GPU無(wú)法單獨(dú)工作,必須由CPU進(jìn)行控制調(diào)用才能工作。CPU可單獨(dú)作用,處理復(fù)雜的邏輯運(yùn)算和不同的數(shù)據(jù)類型,但當(dāng)需要大量的處理類型統(tǒng)一的數(shù)據(jù)時(shí),則可調(diào)用GPU進(jìn)行并行計(jì)算。
注:GPU中有很多的運(yùn)算器ALU和很少的緩存cache,緩存的目的不是保存后面需要訪問(wèn)的數(shù)據(jù)的,這點(diǎn)和CPU不同,而是為線程thread提高服務(wù)的。如果有很多線程需要訪問(wèn)同一個(gè)相同的數(shù)據(jù),緩存會(huì)合并這些訪問(wèn),然后再去訪問(wèn)dram。
再把CPU和GPU兩者放在一張圖上看下對(duì)比,就非常一目了然了。
有一點(diǎn)需要強(qiáng)調(diào),雖然GPU是為了圖像處理而生的,但是我們通過(guò)前面的介紹可以發(fā)現(xiàn),它在結(jié)構(gòu)上并沒(méi)有專門為圖像服務(wù)的部件,只是對(duì)CPU的結(jié)構(gòu)進(jìn)行了優(yōu)化與調(diào)整,所以現(xiàn)在GPU不僅可以在圖像處理領(lǐng)域大顯身手,它還被用來(lái)科學(xué)計(jì)算、密碼破解、數(shù)值分析,海量數(shù)據(jù)處理(排序,Map-Reduce等),金融分析等需要大規(guī)模并行計(jì)算的領(lǐng)域。
所以GPU也可以認(rèn)為是一種較通用的芯片。
3、TPU:張量處理器
按照上文所述,CPU和GPU都是較為通用的芯片,但是有句老話說(shuō)得好:萬(wàn)能工具的效率永遠(yuǎn)比不上專用工具。
隨著人們的計(jì)算需求越來(lái)越專業(yè)化,人們希望有芯片可以更加符合自己的專業(yè)需求,這時(shí),便產(chǎn)生了ASIC(專用集成電路)的概念。
ASIC是指依產(chǎn)品需求不同而定制化的特殊規(guī)格集成電路,由特定使用者要求和特定電子系統(tǒng)的需要而設(shè)計(jì)、制造。當(dāng)然這概念不用記,簡(jiǎn)單來(lái)說(shuō)就是定制化芯片。
因?yàn)锳SIC很“專一”,只做一件事,所以它就會(huì)比CPU、GPU等能做很多件事的芯片在某件事上做的更好,實(shí)現(xiàn)更高的處理速度和更低的能耗。但相應(yīng)的,ASIC的生產(chǎn)成本也非常高。
而TPU(Tensor Processing Unit, 張量處理器)就是谷歌專門為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的一款芯片,其實(shí)也是一款A(yù)SIC。
人工智能旨在為機(jī)器賦予人的智能,機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的強(qiáng)有力方法。所謂機(jī)器學(xué)習(xí),即研究如何讓計(jì)算機(jī)自動(dòng)學(xué)習(xí)的學(xué)科。TPU就是這樣一款專用于機(jī)器學(xué)習(xí)的芯片,它是Google于2016年5月提出的一個(gè)針對(duì)Tensorflow平臺(tái)的可編程AI加速器,其內(nèi)部的指令集在Tensorflow程序變化或者更新算法時(shí)也可以運(yùn)行。TPU可以提供高吞吐量的低精度計(jì)算,用于模型的前向運(yùn)算而不是模型訓(xùn)練,且能效(TOPS/w)更高。在Google內(nèi)部,CPU,GPU,TPU均獲得了一定的應(yīng)用,相比GPU,TPU更加類似于DSP,盡管計(jì)算能力略有遜色,但是其功耗大大降低,而且計(jì)算速度非常的快。然而,TPU,GPU的應(yīng)用都要受到CPU的控制。
原來(lái)很多的機(jī)器學(xué)習(xí)以及圖像處理算法大部分都跑在GPU與FPGA(半定制化芯片)上面,但這兩種芯片都還是一種通用性芯片,所以在效能與功耗上還是不能更緊密的適配機(jī)器學(xué)習(xí)算法,而且Google一直堅(jiān)信偉大的軟件將在偉大的硬件的幫助下更加大放異彩,所以Google便想,我們可不可以做出一款專用機(jī)機(jī)器學(xué)習(xí)算法的專用芯片,TPU便誕生了。
據(jù)稱,TPU與同期的CPU和GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。初代的TPU只能做推理,要依靠Google云來(lái)實(shí)時(shí)收集數(shù)據(jù)并產(chǎn)生結(jié)果,而訓(xùn)練過(guò)程還需要額外的資源;而第二代TPU既可以用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),又可以用于推理。
為什么TPU會(huì)在性能上這么牛呢?TPU是怎么做到如此之快呢?
(1)深度學(xué)習(xí)的定制化研發(fā):TPU 是谷歌專門為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的一款芯片,其實(shí)也是一款 ASIC(專用集成電路)。
(2)大規(guī)模片上內(nèi)存:TPU 在芯片上使用了高達(dá) 24MB 的局部?jī)?nèi)存,6MB 的累加器內(nèi)存以及用于與主控處理器進(jìn)行對(duì)接的內(nèi)存。
(3)低精度 (8-bit) 計(jì)算:TPU 的高性能還來(lái)源于對(duì)于低運(yùn)算精度的容忍,TPU 采用了 8-bit 的低精度運(yùn)算,也就是說(shuō)每一步操作 TPU 將會(huì)需要更少的晶體管。
4、NPU:神經(jīng)網(wǎng)絡(luò)處理器
所謂NPU(Neural network Processing Unit), 即神經(jīng)網(wǎng)絡(luò)處理器。神經(jīng)網(wǎng)絡(luò)處理器(NPU)采用“數(shù)據(jù)驅(qū)動(dòng)并行計(jì)算”的架構(gòu),特別擅長(zhǎng)處理視頻、圖像類的海量多媒體數(shù)據(jù)。NPU處理器專門為物聯(lián)網(wǎng)人工智能而設(shè)計(jì),用于加速神經(jīng)網(wǎng)絡(luò)的運(yùn)算,解決傳統(tǒng)芯片在神經(jīng)網(wǎng)絡(luò)運(yùn)算時(shí)效率低下的問(wèn)題。
在GX8010中,CPU和MCU各有一個(gè)NPU,MCU中的NPU相對(duì)較小,習(xí)慣上稱為SNPU。NPU處理器包括了乘加、激活函數(shù)、二維數(shù)據(jù)運(yùn)算、解壓縮等模塊。乘加模塊用于計(jì)算矩陣乘加、卷積、點(diǎn)乘等功能,NPU內(nèi)部有64個(gè)MAC,SNPU有32個(gè)。
激活函數(shù)模塊采用最高12階參數(shù)擬合的方式實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)中的激活函數(shù),NPU內(nèi)部有6個(gè)MAC,SNPU有3個(gè)。二維數(shù)據(jù)運(yùn)算模塊用于實(shí)現(xiàn)對(duì)一個(gè)平面的運(yùn)算,如降采樣、平面數(shù)據(jù)拷貝等,NPU內(nèi)部有1個(gè)MAC,SNPU有1個(gè)。解壓縮模塊用于對(duì)權(quán)重?cái)?shù)據(jù)的解壓。為了解決物聯(lián)網(wǎng)設(shè)備中內(nèi)存帶寬小的特點(diǎn),在NPU編譯器中會(huì)對(duì)神經(jīng)網(wǎng)絡(luò)中的權(quán)重進(jìn)行壓縮,在幾乎不影響精度的情況下,可以實(shí)現(xiàn)6-10倍的壓縮效果。
既然叫神經(jīng)網(wǎng)絡(luò)處理器,顧名思義,就是想用電路模擬人類的神經(jīng)元和突觸結(jié)構(gòu)!
由于深度學(xué)習(xí)的基本操作是神經(jīng)元和突觸的處理,而傳統(tǒng)的處理器指令集(包括x86和ARM等)是為了進(jìn)行通用計(jì)算發(fā)展起來(lái)的,其基本操作為算術(shù)操作(加減乘除)和邏輯操作(與或非),往往需要數(shù)百甚至上千條指令才能完成一個(gè)神經(jīng)元的處理,深度學(xué)習(xí)的處理效率不高。
神經(jīng)網(wǎng)絡(luò)中存儲(chǔ)和處理是一體化的,都是通過(guò)突觸權(quán)重來(lái)體現(xiàn)。而馮·諾伊曼結(jié)構(gòu)中,存儲(chǔ)和處理是分離的,分別由存儲(chǔ)器和運(yùn)算器來(lái)實(shí)現(xiàn),二者之間存在巨大的差異。當(dāng)用現(xiàn)有的基于馮·諾伊曼結(jié)構(gòu)的經(jīng)典計(jì)算機(jī)(如X86處理器和英偉達(dá)GPU)來(lái)跑神經(jīng)網(wǎng)絡(luò)應(yīng)用時(shí),就不可避免地受到存儲(chǔ)和處理分離式結(jié)構(gòu)的制約,因而影響效率。這也就是專門針對(duì)人工智能的專業(yè)芯片能夠?qū)鹘y(tǒng)芯片有一定先天優(yōu)勢(shì)的原因之一。
5、BPU:大腦處理器
Brain Processing Unit (大腦處理器)。地平線機(jī)器人(Horizon Robotics)以 BPU 來(lái)命名自家的 AI 芯片。地平線是一家成立于 2015 年的 start-up,總部在北京,目標(biāo)是“嵌入式人工智能全球領(lǐng)導(dǎo)者”。地平線的芯片未來(lái)會(huì)直接應(yīng)用于自己的主要產(chǎn)品中,包括:智能駕駛、智能生活和智能城市。地平線機(jī)器人的公司名容易讓人誤解,以為是做“機(jī)器人”的,其實(shí)不然。地平線做的不是“機(jī)器”的部分,是在做“人”的部分,是在做人工智能的“大腦”,所以,其處理器命名為 BPU。相比于國(guó)內(nèi)外其他 AI 芯片 start-up 公司,第一代是高斯架構(gòu),第二代是伯努利架構(gòu),第三代是貝葉斯架構(gòu)。目前地平線已經(jīng)設(shè)計(jì)出了第一代高斯架構(gòu),并與英特爾在2017年CES展會(huì)上聯(lián)合推出了ADAS系統(tǒng)(高級(jí)駕駛輔助系統(tǒng))。BPU主要是用來(lái)支撐深度神經(jīng)網(wǎng)絡(luò),比在CPU上用軟件實(shí)現(xiàn)更為高效。然而,BPU一旦生產(chǎn),不可再編程,且必須在CPU控制下使用。BPU 已經(jīng)被地平線申請(qǐng)了注冊(cè)商標(biāo),其他公司就別打 BPU 的主意了。
Biological Processing Unit。一個(gè)口號(hào)“21 世紀(jì)是生物學(xué)的世紀(jì)”忽悠了無(wú)數(shù)的有志青年跳入了生物領(lǐng)域的大坑。其實(shí),這句話需要這么理解,生物學(xué)的進(jìn)展會(huì)推動(dòng) 21 世紀(jì)其他學(xué)科的發(fā)展。比如,對(duì)人腦神經(jīng)系統(tǒng)的研究成果就會(huì)推動(dòng) AI 領(lǐng)域的發(fā)展,SNN 結(jié)構(gòu)就是對(duì)人腦神經(jīng)元的模擬。不管怎么說(shuō),隨著時(shí)間的推移,坑總會(huì)被填平的。不知道生物處理器在什么時(shí)間會(huì)有質(zhì)的發(fā)展。
Bio-Recognition Processing Unit。生物特征識(shí)別現(xiàn)在已經(jīng)不是紙上談兵的事情了。指紋識(shí)別已經(jīng)是近來(lái)智能手機(jī)的標(biāo)配,電影里的黑科技虹膜識(shí)別也上了手機(jī),聲紋識(shí)別可以支付了 ... 不過(guò),除了指紋識(shí)別有專門的 ASIC 芯片外,其他生物識(shí)別還基本都是 sensor 加通用 cpu/dsp 的方案。不管怎樣,這些芯片都沒(méi)占用 BPU 或 BRPU 這個(gè)寶貴位置。
D 是 Deep Learning 的首字母,以 Deep Learning 開(kāi)頭來(lái)命名 AI 芯片是一種很自然的思路。
6、DPU:深度學(xué)習(xí)處理器
Deep-Learning Processing Unit(深度學(xué)習(xí)處理器)。DPU 并不是哪家公司的專屬術(shù)語(yǔ)。在學(xué)術(shù)圈,Deep Learning Processing Unit(或 processor)被經(jīng)常提及。例如 ISSCC 2017 新增的一個(gè) session 的主題就是 Deep Learning Processor。以 DPU 為目標(biāo)的公司如下。
Deephi Tech(深鑒) 深鑒是一家位于北京的 start-up,初創(chuàng)團(tuán)隊(duì)有很深的清華背景。深鑒將其開(kāi)發(fā)的基于 FPGA 的神經(jīng)網(wǎng)絡(luò)處理器稱為 DPU。到目前為止,深鑒公開(kāi)發(fā)布了兩款 DPU:亞里士多德架構(gòu)和笛卡爾架構(gòu),分別針對(duì) CNN 以及 DNN/RNN。雖然深鑒號(hào)稱是做基于 FPGA 的處理器開(kāi)發(fā),但是從公開(kāi)渠道可以看到的招聘信息以及非公開(kāi)的業(yè)內(nèi)交流來(lái)看,其做芯片已成事實(shí)。
TensTorrent 一家位于 Toronto 的 start-up,研發(fā)專為深度學(xué)習(xí)和智能硬件而設(shè)計(jì)的高性能處理器,技術(shù)人員來(lái)自 NVDIA 和 AMD。
Deep Learning Unit。深度學(xué)習(xí)單元。Fujitsu(富士通)最近高調(diào)宣布了自家的 AI 芯片,命名為 DLU。名字雖然沒(méi)什么創(chuàng)意,但是可以看到 DLU 已經(jīng)被富士通標(biāo)了“TM”,雖然 TM 也沒(méi)啥用。在其公布的信息里可以看到,DLU 的 ISA 是重新設(shè)計(jì)的,DLU 的架構(gòu)中包含眾多小的 DPU(Deep Learning Processing Unit)和幾個(gè)大的 master core(控制多個(gè) DPU 和 memory 訪問(wèn))。每個(gè) DPU 中又包含了 16 個(gè) DPE(Deep-Learning Processing Element),共 128 個(gè)執(zhí)行單元來(lái)執(zhí)行 SIMD 指令。富士通預(yù)計(jì) 2018 財(cái)年內(nèi)推出 DLU。
Deep Learning Accelerator。深度學(xué)習(xí)加速器。NVIDA 宣布將這個(gè) DLA 開(kāi)源,給業(yè)界帶來(lái)了不小的波瀾。大家都在猜測(cè)開(kāi)源 DLA 會(huì)給其他 AI 公司帶來(lái)什么。參考這篇吧"從 Nvidia 開(kāi)源深度學(xué)習(xí)加速器說(shuō)起"
Dataflow Processing Unit。數(shù)據(jù)流處理器。創(chuàng)立于 2010 年的 wave computing 公司將其開(kāi)發(fā)的深度學(xué)習(xí)加速處理器稱為 Dataflow Processing Unit(DPU),應(yīng)用于數(shù)據(jù)中心。Wave 的 DPU 內(nèi)集成 1024 個(gè) cluster。每個(gè) Cluster 對(duì)應(yīng)一個(gè)獨(dú)立的全定制版圖,每個(gè) Cluster 內(nèi)包含 8 個(gè)算術(shù)單元和 16 個(gè) PE。其中,PE 用異步邏輯設(shè)計(jì)實(shí)現(xiàn),沒(méi)有時(shí)鐘信號(hào),由數(shù)據(jù)流驅(qū)動(dòng),這就是其稱為 Dataflow Processor 的緣由。使用 TSMC 16nm FinFET 工藝,DPU die 面積大概 400mm^2,內(nèi)部單口 sram 至少 24MB,功耗約為 200W,等效頻率可達(dá) 10GHz,性能可達(dá) 181TOPS。前面寫過(guò)一篇他家 DPU 的分析,見(jiàn)傳輸門 AI 芯片|淺析 Yann LeCun 提到的兩款 Dataflow Chip。
Digital Signal Processor。數(shù)字信號(hào)處理器。芯片行業(yè)的人對(duì) DSP 都不陌生,設(shè)計(jì) DSP 的公司也很多,TI,Qualcomm,CEVA,Tensilica,ADI,F(xiàn)reescale 等等,都是大公司,此處不多做介紹。相比于 CPU,DSP 通過(guò)增加指令并行度來(lái)提高數(shù)字計(jì)算的性能,如 SIMD、VLIW、SuperScalar 等技術(shù)。面對(duì) AI 領(lǐng)域新的計(jì)算方式(例如 CNN、DNN 等)的挑戰(zhàn),DSP 公司也在馬不停蹄地改造自己的 DSP,推出支持神經(jīng)網(wǎng)絡(luò)計(jì)算的芯片系列。在后面 VPU 的部分,會(huì)介紹一下針對(duì) Vision 應(yīng)用的 DSP。和 CPU 一樣,DSP 的技術(shù)很長(zhǎng)時(shí)間以來(lái)都掌握在外國(guó)公司手里,國(guó)內(nèi)也不乏兢兢業(yè)業(yè)在這方向努力的科研院所,如清華大學(xué)微電子所的 Lily DSP(VLIW 架構(gòu),有獨(dú)立的編譯器),以及國(guó)防科大的 YHFT-QDSP 和矩陣 2000。但是,也有臭名昭著的“漢芯”。?
國(guó)際上,Wave Computing最早提出DPU。在國(guó)內(nèi),DPU最早是由深鑒科技提出,是基于Xilinx可重構(gòu)特性的FPGA芯片,設(shè)計(jì)專用深度學(xué)習(xí)處理單元,且可以抽象出定制化的指令集和編譯器,從而實(shí)現(xiàn)快速的開(kāi)發(fā)與產(chǎn)品迭代。
7、被占用的XPU
據(jù)說(shuō)每過(guò)18天,集成電路領(lǐng)域就會(huì)多出一個(gè)XPU,直到26個(gè)字母被用完。這被戲稱為AI時(shí)代的XPU版摩爾定律。
據(jù)不完全統(tǒng)計(jì),已經(jīng)被用掉的有:
7.1、APU
Accelerated Processing Unit, 加速處理器,AMD公司推出加速圖像處理芯片產(chǎn)品。
7.2、BPU
Brain Processing Unit,大腦處理器, 地平線公司主導(dǎo)的嵌入式處理器架構(gòu)。
7.3、CPU
Central Processing Unit 中央處理器, 目前PC core的主流產(chǎn)品。
7.4、DPU
Deep learning Processing Unit, 深度學(xué)習(xí)處理器,最早由國(guó)內(nèi)深鑒科技提出;另說(shuō)有Dataflow Processing Unit 數(shù)據(jù)流處理器, Wave Computing 公司提出的AI架構(gòu);Data storage Processing Unit,深圳大普微的智能固態(tài)硬盤處理器。
7.5、EPU
Emotion Processing Unit 情感處理器,Emoshape 并不是這兩年才推出 EPU 的,號(hào)稱是全球首款情緒合成(emotion synthesis)引擎,可以讓機(jī)器人具有情緒。但是,從官方渠道消息看,EPU 本身并不復(fù)雜,也不需要做任務(wù)量巨大的神經(jīng)網(wǎng)絡(luò)計(jì)算,是基于 MCU 的芯片。結(jié)合應(yīng)用 API 以及云端的增強(qiáng)學(xué)習(xí)算法,EPU 可以讓機(jī)器能夠在情緒上了解它們所讀或所看的內(nèi)容。結(jié)合自然語(yǔ)言生成(NLG)及 WaveNet 技術(shù),可以讓機(jī)器個(gè)性化的表達(dá)各種情緒。例如,一部能夠朗讀的 Kindle,其語(yǔ)音將根據(jù)所讀的內(nèi)容充滿不同的情緒狀態(tài)。
7.6、FPU
Floating Processing Unit 浮點(diǎn)計(jì)算器,浮點(diǎn)單元,不多做解釋了。現(xiàn)在高性能的 CPU、DSP、GPU 內(nèi)都集成了 FPU 做浮點(diǎn)運(yùn)算。 Force Processing Unit。原力處理。
7.7、GPU
Graphics Processing Unit, 圖形處理器,采用多線程SIMD架構(gòu),為圖形處理而生。
7.8、HPU
Holographics Processing Unit 全息圖像處理器。Microsoft 專為自家 Hololens 應(yīng)用開(kāi)發(fā)的。第一代 HPU 采用 28nm HPC 工藝,使用了 24 個(gè) Tensilica DSP 并進(jìn)行了定制化擴(kuò)展。HPU 支持 5 路 cameras、1 路深度傳感器(Depth sensor)和 1 路動(dòng)作傳感器(Motion Sensor)。Microsoft 在最近的 CVPR 2017 上宣布了 HPU2 的一些信息。HPU2 將搭載一顆支持 DNN 的協(xié)處理器,專門用于在本地運(yùn)行各種深度學(xué)習(xí)。指的一提的是,HPU 是一款為特定應(yīng)用所打造的芯片,這個(gè)做產(chǎn)品的思路可以學(xué)習(xí)。據(jù)說(shuō) Microsoft 評(píng)測(cè)過(guò) Movidius(見(jiàn) VPU 部分)的芯片,但是覺(jué)得無(wú)法滿足算法對(duì)性能、功耗和延遲的要求,所有才有了 HPU。
7.9、IPU
Intelligence Processing Unit,智能處理器, Deep Mind投資的Graphcore公司出品的AI處理器產(chǎn)品。
7.10、JPU
一種新型聯(lián)合上采樣模塊(joint upsampling module)來(lái)替代耗時(shí)又耗內(nèi)存的擴(kuò)張卷積,即 Joint Pyramid Upsampling(JPU)。
7.11、KPU
Knowledge Processing Unit,知識(shí)處理器。嘉楠耘智(canaan)號(hào)稱 2017 年將發(fā)布自己的 AI 芯片 KPU。嘉楠耘智要在 KPU 單一芯片中集成人工神經(jīng)網(wǎng)絡(luò)和高性能處理器,主要提供異構(gòu)、實(shí)時(shí)、離線的人工智能應(yīng)用服務(wù)。這又是一家向 AI 領(lǐng)域擴(kuò)張的不差錢的礦機(jī)公司。作為一家做礦機(jī)芯片(自稱是區(qū)塊鏈專用芯片)和礦機(jī)的公司,嘉楠耘智累計(jì)獲得近 3 億元融資,估值近 33 億人民幣。據(jù)說(shuō)嘉楠耘智近期將啟動(dòng)股改并推進(jìn) IPO。
另:Knowledge Processing Unit 這個(gè)詞并不是嘉楠耘智第一個(gè)提出來(lái)的,早在 10 年前就已經(jīng)有論文和書(shū)籍講到這個(gè)詞匯了。只是,現(xiàn)在嘉楠耘智將 KPU 申請(qǐng)了注冊(cè)商標(biāo)。
7.12、LPU
Line Protocol Unit -- 線路協(xié)議部件 Line Processing Unit -- 線路處理單元
7.13、MPU/MCU
Microprocessor/Micro controller Unit, 微處理器/微控制器,一般用于低計(jì)算應(yīng)用的RISC計(jì)算機(jī)體系架構(gòu)產(chǎn)品,如ARM-M系列處理器。
7.14、NPU
Neural Network Processing Unit,神經(jīng)網(wǎng)絡(luò)處理器,是基于神經(jīng)網(wǎng)絡(luò)算法與加速的新型處理器總稱,如中科院計(jì)算所/寒武紀(jì)公司出品的diannao系列。
7.15、OPU
Optical-Flow Processing Unit。光流處理器。
7.16、PPU
Physical Processing Unit。物理處理器。物理計(jì)算,就是模擬一個(gè)物體在真實(shí)世界中應(yīng)該符合的物理定律。具體的說(shuō),可以使虛擬世界中的物體運(yùn)動(dòng)符合真實(shí)世界的物理定律,可以使游戲中的物體行為更加真實(shí),例如布料模擬、毛發(fā)模擬、碰撞偵測(cè)、流體力學(xué)模擬等。開(kāi)發(fā)物理計(jì)算引擎的公司有那么幾家,使用 CPU 來(lái)完成物理計(jì)算,支持多種平臺(tái)。但是,Ageia 應(yīng)該是唯一一個(gè)使用專用芯片來(lái)加速物理計(jì)算的公司。Ageia 于 2006 年發(fā)布了 PPU 芯片 PhysX,還發(fā)布了基于 PPU 的物理加速卡,同時(shí)提供 SDK 給游戲開(kāi)發(fā)者。2008 年被 NVIDIA 收購(gòu)后,PhysX 加速卡產(chǎn)品被逐漸取消,現(xiàn)在物理計(jì)算的加速功能由 NVIDIA 的 GPU 實(shí)現(xiàn),PhysX SDK 被 NVIDIA 重新打造。
7.17、QPU
Quantum Processing Unit。量子處理器。量子計(jì)算機(jī)也是近幾年比較火的研究方向。作者承認(rèn)在這方面所知甚少。可以關(guān)注這家成立于 1999 年的公司 D-Wave System。DWave 大概每?jī)赡昕梢詫⑵?QPU 上的量子位個(gè)數(shù)翻倍一次。
7.18、RPU
Resistive Processing Unit。阻抗處理單元 RPU。這是 IBM Watson Research Center 的研究人員提出的概念,真的是個(gè)處理單元,而不是處理器。RPU 可以同時(shí)實(shí)現(xiàn)存儲(chǔ)和計(jì)算。利用 RPU 陣列,IBM 研究人員可以實(shí)現(xiàn) 80TOPS/s/W 的性能。 Ray-tracing Processing Unit。光線追蹤處理器。Ray tracing 是計(jì)算機(jī)圖形學(xué)中的一種渲染算法,RPU 是為加速其中的數(shù)據(jù)計(jì)算而開(kāi)發(fā)的加速器。現(xiàn)在這些計(jì)算都是 GPU 的事情了。 Radio Processing Unit, 無(wú)線電處理器, Imagination Technologies 公司推出的集合集Wifi/藍(lán)牙/FM/處理器為單片的處理器。
7.19、SPU
Streaming Processing Unit。流處理器。流處理器的概念比較早了,是用于處理視頻數(shù)據(jù)流的單元,一開(kāi)始出現(xiàn)在顯卡芯片的結(jié)構(gòu)里。可以說(shuō),GPU 就是一種流處理器。甚至,還曾經(jīng)存在過(guò)一家名字為“Streaming Processor Inc”的公司,2004 年創(chuàng)立,2009 年,隨著創(chuàng)始人兼董事長(zhǎng)被挖去 NVIDIA 當(dāng)首席科學(xué)家,SPI 關(guān)閉。
Speech-Recognition Processing Unit。語(yǔ)音識(shí)別處理器,SPU 或 SRPU。這個(gè)縮寫還沒(méi)有公司拿來(lái)使用。和語(yǔ)音識(shí)別相關(guān)的芯片如下。 Smart Processing Unit。敏捷處理器??這個(gè)不確定。 Space Processing Unit。空間處理器。
7.20、TPU
Tensor Processing Unit 張量處理器, Google 公司推出的加速人工智能算法的專用處理器。目前一代TPU面向Inference,二代面向訓(xùn)練。
7.21、UPU
Universe Processing Unit。宇宙處理器。和 Space Processing Unit 相比,你更喜歡哪個(gè)?
7.22、VPU
Vector Processing Unit 矢量處理器,Intel收購(gòu)的Movidius公司推出的圖像處理與人工智能的專用芯片的加速計(jì)算核心。
Vision Processing Unit。視覺(jué)處理器 VPU 也有希望成為通用名詞。
7.23、WPU
Wearable Processing Unit, 可穿戴處理器,一家印度公司Ineda Systems公司推出的可穿戴片上系統(tǒng)產(chǎn)品,包含GPU/MIPS CPU等IP。
Wisdom Processing Unit。智慧處理器。這個(gè) WPU 聽(tīng)起來(lái)比較高大上,拿去用,不謝。不過(guò),有點(diǎn)“腦白金”的味道。
7.24、XPU
百度與Xilinx公司在2017年Hotchips大會(huì)上發(fā)布的FPGA智能云加速,含256核。
百度公開(kāi)了其 FPGA Accelerator 的名字,就叫 XPU。
7.25、YPU
unsign 。
7.26、ZPU
Zylin Processing Unit, 由挪威Zylin 公司推出的一款32位開(kāi)源處理器。
挪威公司 Zylin 的 CPU 的名字。為了在資源有限的 FPGA 上能擁有一個(gè)靈活的微處理器,Zylin 開(kāi)發(fā)了 ZPU。ZPU 是一種 stack machine(堆棧結(jié)構(gòu)機(jī)器),指令沒(méi)有操作數(shù),代碼量很小,并有 GCC 工具鏈支持,被稱為“The worlds smallest 32 bit CPU with GCC toolchain”。Zylin 在 2008 年將 ZPU 在 opencores 上開(kāi)源。有組織還將 Arduino 的開(kāi)發(fā)環(huán)境進(jìn)行了修改給 ZPU 用。
編輯:黃飛
?
評(píng)論
查看更多