在TinyML Summit上,早期的模擬AI加速器初創公司Areanna首次公開披露了其架構,并公開了其基于40 TOPS / W SRAM陣列的設計的某些功能。不尋常的設計在存儲陣列內集成了模數和數模轉換。由于ADC和DAC通常在內存中計算設計中占用絕大部分硅面積和功率預算,因此在存儲器陣列中集成此功能可能會改變模擬計算技術。
Areanna由前泰克模擬設計工程師Behdad Youssefi以及另一個前Tek同事Patrick Satarzadeh領導。他們仍然是公司僅有的兩名全職員工,以及兩名兼職工程師和數名顧問。該公司根據其架構的建立和運行情況,獲得了一個帶有一個計算塊的測試芯片。
模擬計算的基本前提。DAC將輸入數據轉換為模擬電壓。通過調節陣列中可變電阻器的電導乘以模擬輸入電壓,可以實現乘法。信號累積在垂直累積線上,然后由ADC轉換回數字域。例如,可變電阻器陣列可以基于憶阻器或存儲單元(來源:Areanna)
計算和量化
Areanna稱其架構為內存中的計算和量化(CQIM)。該概念基于模擬內存計算技術,與其他幾家AI芯片初創公司(Mythic,Gyrfalcon等)采用的基本概念相同。但是,Areanna使用SRAM陣列而不是非易失性存儲器,并混合了大量的秘密調味料。
Behdad Youssefi(來源:Areanna)
Areanna的IP在其SRAM陣列的設計中,該陣列在陣列內部集成了ADC和DAC功能。其他內存計算設計在每行/每個輸入上使用一個DAC,在每列/每個輸出上使用一個ADC。這些ADC和DAC占據了芯片功耗預算和硅片面積的很大一部分(根據Areanna的數據,高達85%的功耗和98%的硅片面積)。在他的TinyML演示中,尤塞菲描述了模擬計算方法“用數據轉換瓶頸代替了馮·諾依曼體系結構的內存瓶頸”。
在Areanna的CQIM架構中,AD和DA轉換是通過與計算相同的電路結構執行的– Areanna稱這些乘法位單元(MBC)。
雖然Areanna的前提是基于模擬計算,但電路幾乎完全是數字化的,并且是用數字處理技術制造的。通過從SRAM位單元讀取權重參數,然后將其乘以輸入激活,然后通過單位電容器轉換為電荷,并在垂直累積線上進行累加,即可進行計算。具有相同的MBC結構可進行AD和DA轉換,從而節省了大量的硅面積,而缺少ADC采樣電路可節省功耗。
Youssefi在接受EE Times采訪時說:“有一個SRAM位單元,然后有一個乘法器,一些邏輯,邏輯塊的輸出是數字信號。”“ [金屬]電容器將該信號轉換為電荷,該電荷在垂直累積線上共享。為了執行這種所謂的模擬計算,幾乎沒有模擬電路。”
Areanna的CQIM體系結構在每個乘法位單元(MBC)中都包含DAC和ADC功能(來源:Areanna)
該設計的一個重要特征是,每個點積計算僅需要一次量化(一次AD轉換),而與計算的分辨率無關。
尤塞菲說:“我們生成和累積MAC結果并將其量化回數字的方式使我們只能進行一次量化。”“這是因為我們在量化之前在模擬域中進行縮放的方式。在其他內存中計算體系結構中,該縮放發生在數字域中,因此,當您完成AD轉換后,就可以進行縮放。我們在模擬領域以高度的完整性來做到這一點。”
尤塞菲說,其他的內存中計算架構可能會在每條垂直累積線上解析每個計算的一到四位。典型的架構可能需要一個兩位數字輸入并產生一個四位數字輸出(通常使用較低精度的DAC和ADC來節省芯片面積)。因此,將八位權重與輸入激活相乘可能需要將計算分解為多個部分。Areanna的設計提供了完全可編程的分辨率,而不會影響硬件利用率。
他說:“我們不會通過從8位提高到4位再到1位來降低硬件利用率,無論分辨率如何,它仍然是100%的硬件利用率,”他說。“ [[對于其他內存計算方案]如果要提供可變分辨率,則必須大大降低硬件利用率。”
數據流優化
與非易失性存儲器相比,使用SRAM的優勢包括SRAM的低讀寫能量;這樣就可以從片外引入重量,而不會產生高能耗。Youssefi解釋說,SRAM的低寫入能量還為數據流優化提供了靈活性。
當今行業中正在使用各種數據流優化方法-它們的區別在于哪些數據類型保持不變,哪些數據類型圍繞芯片移動。例如,對于具有很多權重的大型神經網絡層,保持權重固定可能是有效的。對于處理高分辨率圖像的網絡,輸入激活數據是數據密集度最高的數據類型,因此使輸入激活保持靜止可能更有意義。Areanna的基于SRAM的架構允許雙重靜態數據流優化,也就是說,無需額外的硬件就可以使兩種數據類型成為靜態數據。
Youssefi說:“因為我們的計算是在模擬域中并行完成的,所以我們實際上并不需要移動數據。”“由于架構的原因,可以使權重或用戶選擇的任何內容固定,并且部分和[輸出]始終固定。因此,這兩種數據類型沒有變化。”
用戶可以選擇使輸入激活和部分和固定不變,或者使權重和部分和固定均固定,這取決于對應用程序(或神經網絡中特定層)最有效的選擇。
可伸縮性
據Youssefi稱,當前許多內存計算架構的另一個問題是它們的可伸縮性受到限制。
Youssefi在他的TinyML演示中說:“針對功率性能進行了優化的邏輯技術被用于構建這些數據轉換器。”“然后有一種存儲技術,該技術針對密度進行了優化,并用于制造存儲陣列。當您將這兩種技術放在同一個芯片上時,您將面臨兩全其美的局面。”
由于Areanna的設計幾乎完全建立在數字模塊上,因此可以在標準CMOS工藝中進行制造,并可以根據摩爾定律跟蹤到較小的工藝節點。也無需擔心困擾其他內存計算設計的模擬非理想情況-Areanna使用的金屬電容器具有非常高的精確度匹配精度,其他一切都是數字的。
Areanna的測試芯片(來源:Areanna)
測試芯片
Areanna成立于2019年,以小企業創新研究(SBIR)贈款的形式獲得了美國國家科學基金會的種子資金,總計225,000美元。該公司在其架構上擁有兩項專利。2020年,這家初創公司發布了磁帶,并制造出了能夠部分矩陣乘法的工作測試芯片,從而證明了該架構的功能。該芯片的基準功率效率為40 TOPS / W,計算密度為2 TOPS / mm2硅面積(兩個數字均為8位計算)。每個內核的內存帶寬為2 TB / s。
尤塞菲說,下一步是阿雷安娜(Areanna)使用多個計算塊構建更大的測試芯片。第二個更高級的測試芯片將在2022年問世。
編輯:hfy
-
電容器
+關注
關注
64文章
6217瀏覽量
99541 -
模擬電路
+關注
關注
125文章
1556瀏覽量
102721 -
存儲器
+關注
關注
38文章
7484瀏覽量
163768 -
adc
+關注
關注
98文章
6496瀏覽量
544476 -
數字信號
+關注
關注
2文章
969瀏覽量
47539
發布評論請先 登錄
相關推薦
評論