電子發(fā)燒友網(wǎng)報道(文/李彎彎)隨著技術(shù)的發(fā)展,現(xiàn)在計(jì)算的任務(wù)越來越復(fù)雜,需要的數(shù)據(jù)也越來越多,而在馮諾依曼架構(gòu)中,數(shù)據(jù)需要在存儲、內(nèi)存、緩存、計(jì)算單元中不斷搬運(yùn),造成大部分時間、帶寬、緩存、功耗都消耗在數(shù)據(jù)搬運(yùn)上,而不是計(jì)算上,因此內(nèi)存墻都成了一個越來越嚴(yán)重的問題。
這種問題在人工智能計(jì)算中尤為明顯,知存科技創(chuàng)始人兼CEO王紹迪近日在某論壇分享到:“這種數(shù)據(jù)搬運(yùn)消耗的功耗超過95%以上,帶寬也會達(dá)到80%以上,比如片上緩存,1MB的SRAM和8KB的SRAM在數(shù)據(jù)搬運(yùn)上消耗的功耗相差10倍。”因此業(yè)界都在思考減少內(nèi)存墻問題。
存算一體有效解決內(nèi)存墻問題
存算一體主要有近存計(jì)算和存內(nèi)計(jì)算。近存計(jì)算可以理解為通過先進(jìn)封裝拉近存儲、內(nèi)存和計(jì)算單元的距離,比如SRAM,在馮諾依曼架構(gòu)中,很多時候SRAM用作緩存,多核共同使用,這樣緩存到每個核都有一定距離,數(shù)據(jù)搬運(yùn)、訪問時間、功耗都會增加,王紹迪介紹:“近緩存計(jì)算把SRAM與計(jì)算單元合在一起,這個SRAM只供本地計(jì)算單元使用,數(shù)據(jù)訪問時間和帶寬都有很大提升。”
存內(nèi)計(jì)算比近存計(jì)算更高效,同時也更難以實(shí)現(xiàn),存內(nèi)計(jì)算一般是使用存儲的參數(shù)去完成計(jì)算,比如SRAM存內(nèi)計(jì)算,F(xiàn)lash存內(nèi)計(jì)算、以及RRAM存內(nèi)計(jì)算。存內(nèi)計(jì)算實(shí)際上是一個計(jì)算的模塊,而不再是存儲的模塊,實(shí)踐的方式是用存儲的參數(shù)去完成運(yùn)算,從存儲器中讀出的數(shù)據(jù)是運(yùn)算的結(jié)果,而不是存儲的數(shù)據(jù)。
在馮諾依曼架構(gòu)中,不管是做加法運(yùn)算還是乘法運(yùn)算,都需要把數(shù)據(jù)從存儲架構(gòu)中讀出來,包括緩存、內(nèi)存、以及片外的存儲,最終將數(shù)據(jù)讀到計(jì)算單元中完成運(yùn)算。從緩存中讀取數(shù)據(jù),要消耗運(yùn)算幾倍、幾十倍、甚至幾百倍的功耗,從內(nèi)存讀取數(shù)據(jù),搬運(yùn)功耗是運(yùn)算的近千倍,從外部的存儲讀取,達(dá)到上萬倍。
因此在數(shù)據(jù)量很大的計(jì)算中,馮諾依曼架構(gòu)的效率就會非常低,而存內(nèi)計(jì)算,存儲器中存儲了參數(shù),被處理的數(shù)據(jù)作為輸入信號,被處理的信號流過存儲器中所有的參數(shù),從存儲器中輸出的數(shù)據(jù)就是運(yùn)算的結(jié)果。
王紹迪表示,“存內(nèi)計(jì)算的優(yōu)勢在于,能夠?qū)⒋鎯ζ髦斜姸嗟拇鎯卧D(zhuǎn)化為運(yùn)算單元,這樣能計(jì)算的并行度就會大幅提高,從原來幾十、幾百個并行,到存內(nèi)計(jì)算幾百萬、幾千萬、甚至幾億個乘加法的并行度,運(yùn)算效率很高。”
除了可以大規(guī)模并行運(yùn)算,還可以很大程度節(jié)省數(shù)據(jù)帶寬。簡單來說,一個傳統(tǒng)的存儲器,多行多列,一次至多激活一行,讀取出一行的數(shù)據(jù),而要把多行數(shù)據(jù)讀取出來,需要進(jìn)行多個存儲器周期,分別激活每一行,讀出每一行的數(shù)據(jù)。而存內(nèi)計(jì)算可以同時把輸入數(shù)據(jù)給多行,同時多行的輸入數(shù)據(jù)與每一行的參數(shù)做乘法運(yùn)算,在列的方向直接把運(yùn)算的結(jié)果讀取出來,它是同時多行多列并行激活的方法。
現(xiàn)在的存內(nèi)計(jì)算可以做到千行千列同時開啟,使用效率比傳統(tǒng)存儲器提高近千倍,王紹迪談到:“整體來看,包括輸入輸出,存內(nèi)計(jì)算運(yùn)算效率一般會有幾十倍的提升,而且提升倍數(shù)還一直在增加,存內(nèi)計(jì)算的發(fā)展速度很快,最近處于早期的快速發(fā)展階段,每年都有數(shù)倍性能的提升。”
知存科技WTM2101智能解決方案
知存科技目前在存內(nèi)計(jì)算領(lǐng)域較為領(lǐng)先,公司成立于2017年底,目前已經(jīng)推出兩款存算一體芯片,其中WTM1001已經(jīng)批量量產(chǎn),WTM2101處于小批量階段,知存科技目前已經(jīng)完成五輪融資。
WTM2101是一款尺寸很小的SOC芯片,包括一個1.8MB存內(nèi)計(jì)算的Flash,該存儲模塊除了用于存內(nèi)計(jì)算,也可以用于普通的存儲。王紹迪介紹:“這款芯片的封裝很小,可以用在可穿戴設(shè)備中,目前計(jì)算的功耗非常低,比如如果做連續(xù)100個詞到300個詞的識別,功耗可以控制在1mA以內(nèi),其中100個詞可以功耗可以到60微安。該芯片在運(yùn)行語音識別、語音增強(qiáng)、物體識別、智能健康,以及其他的一些AI算法上,可以把算力和效率提升20倍到50倍。”
另外WTM2101首次用了獨(dú)有的專利HPU,它是一個混合計(jì)算單元,實(shí)際上是把數(shù)字計(jì)算和模擬計(jì)算結(jié)合在一起,因?yàn)槟M計(jì)算有精度上限,為了提高精度,加了一個稀疏的計(jì)算單元,可以把存內(nèi)計(jì)算的精度進(jìn)一步提高,最高提高4比特。
存內(nèi)計(jì)算未來的發(fā)展趨勢
隨著存內(nèi)計(jì)算的發(fā)展,未來的應(yīng)用場景也會越來越廣,當(dāng)前存內(nèi)計(jì)算主要應(yīng)用在端側(cè),一是受精度的限制,8比特,二是受容量限制,在幾兆的級別,三是算力,基本在0.1T到1T的范圍。
不過未來一兩年將會發(fā)展到邊側(cè),精度會提高到12比特,容量會達(dá)到16兆到64兆,算力也可以提升到最大32T,這樣可以覆蓋很多邊緣側(cè)的應(yīng)用需求。未來還會向云端發(fā)展,存內(nèi)計(jì)算精度會達(dá)到到16比特,容量會超過1000M,算力會達(dá)到256T到1024T。
存內(nèi)計(jì)算在云側(cè)、邊側(cè)、端側(cè),優(yōu)勢各不相同,在端側(cè),存內(nèi)計(jì)算在功耗的限制下可以提供大的算力,在邊緣側(cè),在功耗、體積限制下也有很強(qiáng)的算力,在云端,可以提供更低成本的解決方案。
存內(nèi)計(jì)算現(xiàn)在處于一個很快的發(fā)展階段,未來幾年,每年都會有很快的迭代速度。早期,產(chǎn)業(yè)界對存內(nèi)計(jì)算的關(guān)注不多,投入也很少,最近存內(nèi)計(jì)算逐漸得到越來越多的關(guān)注,王紹迪認(rèn)為,未來五年存內(nèi)計(jì)算都會在處在非常快速的發(fā)展階段,在各種各樣的場景中,進(jìn)行規(guī)模化的落地應(yīng)用。
聲明:本文由電子發(fā)燒友原創(chuàng),轉(zhuǎn)載請注明以上來源。如需入群交流,請?zhí)砑游⑿舉lecfans999,投稿爆料采訪需求,請發(fā)郵箱huangjingjing@elecfans.com。
編輯:jq
-
存儲器
+關(guān)注
關(guān)注
38文章
7507瀏覽量
163968 -
SoC芯片
+關(guān)注
關(guān)注
1文章
613瀏覽量
34946 -
人工智能
+關(guān)注
關(guān)注
1792文章
47378瀏覽量
238882 -
存算一體
+關(guān)注
關(guān)注
0文章
102瀏覽量
4309
原文標(biāo)題:有效解決內(nèi)存墻問題 存算一體正處在快速發(fā)展階段
文章出處:【微信號:elecfans,微信公眾號:電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論