清華大學(xué)基于多個(gè)憶阻器陣列的全硬件完整存算一體系統(tǒng),能夠高效的運(yùn)行卷積神經(jīng)網(wǎng)絡(luò)算法,證明了存算一體架構(gòu)全硬件實(shí)現(xiàn)的可行性,對(duì)今后AI算力瓶頸的突破有著極大意義。
集微網(wǎng)消息,近日來,清華大學(xué)微電子學(xué)研究所、未來芯片技術(shù)高精尖創(chuàng)新中心的錢鶴、吳華強(qiáng)教授團(tuán)隊(duì)與合作者在《自然》在線發(fā)表了題為“Fully hardware-implemented memristor convolutional neural network”的研究論文,報(bào)道了基于憶阻器陣列芯片卷積網(wǎng)絡(luò)的完整硬件實(shí)現(xiàn)。該成果所研發(fā)的基于多個(gè)憶阻器陣列的存算一體系統(tǒng),在處理卷積神經(jīng)網(wǎng)絡(luò)時(shí)的能效遠(yuǎn)高于GPU,大幅提升了計(jì)算設(shè)備的算力,成功實(shí)現(xiàn)了以更小的功耗和更低的硬件成本完成復(fù)雜的計(jì)算。
隨著以人工智能為代表的信息技術(shù)革命興起,基于各種深度神經(jīng)網(wǎng)絡(luò)的算法可以實(shí)現(xiàn)圖像識(shí)別與分割、物體探測(cè)以及完成對(duì)語音和文本的翻譯、生成等處理。然而深度神經(jīng)網(wǎng)絡(luò)算法是一類以數(shù)據(jù)為中心的計(jì)算,實(shí)現(xiàn)該算法的硬件平臺(tái)需要具有高性能、低功耗的處理能力,這就對(duì)集成電路芯片技術(shù)提出了的更高要求。目前傳統(tǒng)實(shí)現(xiàn)該算法的硬件平臺(tái)是基于存儲(chǔ)和計(jì)算分離的馮諾依曼架構(gòu),這種架構(gòu)在計(jì)算時(shí)需要將數(shù)據(jù)在存儲(chǔ)器件和計(jì)算器件之間來回搬移,因此在包含大量參數(shù)的深度神經(jīng)網(wǎng)絡(luò)的計(jì)算過程中,該架構(gòu)的能效較低。為此,開發(fā)一種新型計(jì)算硬件來運(yùn)行深度神經(jīng)網(wǎng)絡(luò)算法成為當(dāng)前亟需解決的問題。
基于這種情況,清華大學(xué)團(tuán)隊(duì)于2019年11月7日提出一項(xiàng)名為“基于憶阻器的神經(jīng)網(wǎng)絡(luò)的并行加速方法及處理器、裝置”的發(fā)明專利(申請(qǐng)?zhí)枺?01911082236.3),申請(qǐng)人為清華大學(xué)。此專利針對(duì)復(fù)雜神經(jīng)網(wǎng)絡(luò)的運(yùn)算,提供了一種基于憶阻器的存算一體化架構(gòu)和并行加速方法,并在該系統(tǒng)架構(gòu)上高效運(yùn)行了卷積神經(jīng)網(wǎng)絡(luò)。
圖1 憶阻器單元及陣列示意圖
圖一展示了憶阻器單元及陣列,是此專利所用的核心硬件結(jié)構(gòu)。憶阻器是一種可以通過施加外部激勵(lì),調(diào)節(jié)其電導(dǎo)狀態(tài)的非易失型器件。由憶阻器構(gòu)成的陣列可以并行的完成乘累加計(jì)算,并同時(shí)進(jìn)行計(jì)算和存儲(chǔ),因此基于這種特性可以對(duì)大量數(shù)據(jù)實(shí)現(xiàn)存算一體計(jì)算。由于乘累加是運(yùn)行神經(jīng)網(wǎng)絡(luò)需要的核心計(jì)算任務(wù)。將憶阻器的的電導(dǎo)表示為權(quán)重值,可以實(shí)現(xiàn)高能效的神經(jīng)網(wǎng)絡(luò)運(yùn)算,圖1右側(cè)展示的憶阻器陣列即為一個(gè)m行n列的神經(jīng)網(wǎng)絡(luò)權(quán)重矩陣。
圖2 基于憶阻器陣列的卷積神經(jīng)網(wǎng)絡(luò)卷積計(jì)算與全連接計(jì)算示意圖
卷積神經(jīng)網(wǎng)絡(luò)包括卷積層、下采樣層、池化層和全連接層,每一層都需要做模塊化的功能處理。在卷積層中,通過卷積核替代標(biāo)量的權(quán)重,加上偏置量,并在每一層添加非線性激活函數(shù),通過多個(gè)卷積層來解決較為復(fù)雜的問題。圖2展示了基于憶阻器陣列的卷積計(jì)算和全連接計(jì)算示意圖,用一個(gè)憶阻器陣列來實(shí)現(xiàn)一個(gè)卷積層的卷積計(jì)算,如對(duì)輸入圖像 “ 2”進(jìn)行卷積處理,同時(shí)該卷積層包括多個(gè)卷積核,每個(gè)卷積核對(duì)應(yīng)憶阻器陣列的一行,且每行的多個(gè)憶阻器分別用于表示一個(gè)卷積核的各個(gè)元素的值。而對(duì)于全連接型的計(jì)算,該憶阻器陣列的每一列用于接收全連接層的輸入,各行用于提供全連接層的輸出,每一行的多個(gè)憶阻器分別用于表示該行的輸出對(duì)應(yīng)的各個(gè)權(quán)重。
圖3 基于憶阻器的神經(jīng)網(wǎng)絡(luò)并行加速示意圖
基于憶阻器的神經(jīng)網(wǎng)絡(luò)并行加速示意圖如圖3所示,主要將多個(gè)第一憶阻器陣列并行地執(zhí)行卷積層的操作,并將結(jié)果輸出至第二功能層。通常卷積層需要多個(gè)子輸入數(shù)據(jù),可以按照任意順序分別提供給多個(gè)第一憶阻器陣列,由于各子輸入數(shù)據(jù)由憶阻器陣列進(jìn)行卷積處理需要耗用的時(shí)間基本相同,因此加快卷積層的處理速度,即加快神經(jīng)網(wǎng)絡(luò)的處理速度,利用并行處理方式可以大大縮短處理時(shí)間。
圖4 神經(jīng)網(wǎng)絡(luò)片外訓(xùn)練方法
圖4展示了基于憶阻器陣列的神經(jīng)網(wǎng)絡(luò)片外訓(xùn)練方法,首先利用數(shù)學(xué)軟件構(gòu)建神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型,進(jìn)而基于處理器和存儲(chǔ)器等運(yùn)行及訓(xùn)練上述數(shù)學(xué)模型,最后將訓(xùn)練好的數(shù)學(xué)模型的權(quán)重參數(shù)寫入神經(jīng)網(wǎng)絡(luò)對(duì)應(yīng)的憶阻器陣列,此時(shí)則可執(zhí)行并行加速的計(jì)算過程,并同時(shí)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),實(shí)現(xiàn)存算一體加速。
隨著計(jì)算存儲(chǔ)一體化的發(fā)展趨勢(shì),基于憶阻器在硬件架構(gòu)方面的革新,將數(shù)據(jù)存儲(chǔ)單元和計(jì)算單元融合為一體,能顯著減少數(shù)據(jù)搬運(yùn),極大提高計(jì)算并行度和能效。清華大學(xué)的錢鶴、吳華強(qiáng)教授團(tuán)隊(duì)搭建的這一基于多個(gè)憶阻器陣列的全硬件完整存算一體系統(tǒng),并能夠高效的運(yùn)行卷積神經(jīng)網(wǎng)絡(luò)算法,并驗(yàn)證了圖像識(shí)別功能,證明了存算一體架構(gòu)全硬件實(shí)現(xiàn)的可行性,對(duì)今后AI算力瓶頸的突破有著極大意義。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100720 -
憶阻器
+關(guān)注
關(guān)注
8文章
73瀏覽量
19865 -
存算一體
+關(guān)注
關(guān)注
0文章
102瀏覽量
4298
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論