婷婷精品进入,婷婷久久综合九色综合九七,亚洲高清影院

作為后摩爾時代發(fā)展的必然趨勢之一，存算一體越來越受到行業(yè)的關(guān)注。在存算十問的前六問中，我們梳理了存算一體的技術(shù)路線、挑戰(zhàn)和通用性等問題，這一次我們從技術(shù)的壁壘入手，邀請后摩智能的幾位研發(fā)人員來談?wù)劊瑥膶W(xué)術(shù)到商用，存算一體的技術(shù)壁壘體現(xiàn)在哪里，后摩智能又是如何從IP、電路設(shè)計、架構(gòu)設(shè)計等層面突破技術(shù)難題，形成自己獨有的技術(shù)壁壘。

Q1存算一體芯片是一個壁壘比較高的技術(shù)方向嗎？它的壁壘體現(xiàn)在哪些方面？

存算一體芯片是技術(shù)壁壘很高的一個方向。從芯片底層到軟件劃分的話，主要體現(xiàn)在以下幾個方面：

（1）CIM的基本運算單元（即MACRO）的設(shè)計是第一個難點。作為存算一體芯片的基石，存內(nèi)計算IP的功能和性能直接影響存算一體芯片的整體表現(xiàn)。存內(nèi)計算IP依托的存儲介質(zhì)和所采用的計算范式繁多且呈“百花齊放”。

以SRAM CIM MACRO為例，因為需要修改存儲陣列以加入計算的邏輯單元、支持“存儲-計算”雙工作模式，并且在滿足計算性能的同時還需要保證陣列的規(guī)整性來優(yōu)化面積效率、保證陣列的可靠性、可測試性等。需要SRAM專家針對性的進(jìn)行設(shè)計。值得強調(diào)的是，當(dāng)前的EDA工具不支持設(shè)計流程，必須自主設(shè)計相應(yīng)的EDA工具來配合整個過程，包括margin, aging, EMIR, PPA的分析、Sign-off、PI/S等工具。

（2）當(dāng)完成CIM MACRO設(shè)計后，需要將大量的MACRO高效的組織在一起來處理形式多樣的Tensor運算，同時配合一定的通用算力來滿足各種長尾算子（通常指計算量較小的非Tensor算子）的處理能力。這里涉及到多個MACRO之間的數(shù)據(jù)流組織方式，即如何將一個Tensor的運算分配到多個MACRO協(xié)同處理，完成這個目標(biāo)需要精心進(jìn)行架構(gòu)設(shè)計，并且通常需要一個高效的片上網(wǎng)絡(luò)（NoC）來支持。

另外，通常需要在芯片內(nèi)配置大容量的SRAM來減少片外DRAM的訪存需求，如何組織SRAM，并且配合上述計算流程，也是一個重要的設(shè)計內(nèi)容。

（3）存算一體AI核和SoC的架構(gòu)設(shè)計和實現(xiàn)：存內(nèi)計算IP提供了高能效的并行計算模式，但同樣受限于其支持運算類型的局限性，因而對于存算一體AI核和SoC的架構(gòu)設(shè)計的難度和復(fù)雜度要求急劇上升，既要充分利用存內(nèi)計算IP本身運算的高效性，又要減少存內(nèi)計算IP之間的數(shù)據(jù)傳輸，同時還要兼顧支持網(wǎng)絡(luò)算子的通用性和物理實現(xiàn)的可行性。

（4）存算一體軟件編譯器的快速部署和實現(xiàn)：軟件工具鏈對于發(fā)揮存算芯片的效率也至關(guān)重要。軟件需要將模型切分成合適的Tensor算子，然后生成相應(yīng)的指令調(diào)用底層硬件來處理。

在后端算子性能優(yōu)化時，需要打破算子的邊界，要解決層間流水，多模型流水并行，結(jié)合存算架構(gòu)的特點完成優(yōu)化。業(yè)界有很多開源框架的 IR 可以參考，像 MLIR 和 TVM 的 Relay 和 TIR，這些開源的 IR 無法很好地處理上述優(yōu)化需求，我們根據(jù)存算架構(gòu) AI Core 的特點，設(shè)計了一層 IR ，更好地解決了數(shù)據(jù)流分析、數(shù)據(jù)依賴分析，可以更方便地進(jìn)行層間調(diào)度和切分等優(yōu)化。

同時，對于自動駕駛等場景，通過算子融合來提升計算和訪存效率是非常關(guān)鍵的一個優(yōu)化目標(biāo)，需要工具鏈自動化的完成算子的融合、調(diào)度及對大容量SRAM的高效管理，以同時提升芯片的利用率和應(yīng)用的開發(fā)效率等。

Q2相較于傳統(tǒng)的芯片電路設(shè)計，后摩智能的存算電路架構(gòu)設(shè)計和電路設(shè)計有何特殊性和優(yōu)點？

（1）電路方面：自主設(shè)計的定制CIM MACRO，包括定制的乘法單元、加法樹、讀寫電路、累加器等，進(jìn)一步拉近計算和存儲的距離顯著提升性能和能效，通過SRAM單元替代寄存器實現(xiàn)更高的計算密度、更低的讀寫功耗。相比傳統(tǒng)電路設(shè)計面效提升2倍左右、能效提升一個量級左右；

（2）架構(gòu)：層次化的架構(gòu)設(shè)計，將大量MACRO有效組織在一起；CIM MACRO負(fù)責(zé)Tensor計算，自主設(shè)計的RISC-V Vector擴展架構(gòu)配合定制的SFU負(fù)責(zé)長尾算子處理，同時滿足處理效率和通用性的需求；定制化的NoC，滿足多個MACRO和SRAM之間的數(shù)據(jù)通信需求等

后摩智能的存算電路主要采用了基于全數(shù)字域的存算路徑，通過對存儲單元和計算單元的深度定制來實現(xiàn)高能效的計算目的，從而減少訪存開銷，打破存儲墻瓶頸，這種從SPEC到signoff的全定制化流程研發(fā)周期長，且對于研發(fā)迭代效率要求極高。

同時，還需要兼顧大規(guī)模量產(chǎn)和車規(guī)需求，開發(fā)特有的CIM BIST和硬件修復(fù)電路，保障芯片良率和車規(guī)認(rèn)證。

Q3后摩智能自研的芯片IPU架構(gòu)，從一代到二代的天樞、天璣，相對于傳統(tǒng)架構(gòu)的優(yōu)點和創(chuàng)新之處是什么？

這張圖就是我們已經(jīng)推出的H30芯片天樞架構(gòu)IPU圖。

我們的芯片里有4個IPU核，都掛在系統(tǒng)總線NoC上。這4個核是完全一樣的設(shè)計。對于每一個Core，又由4個Tile組成，每個Tile就對應(yīng)了一個硬件線程，它們可以獨立進(jìn)行不同的計算，也可以聯(lián)合起來做同一個計算。

每個Tile內(nèi)部有CPU、Tensor Engine，Special Function Unit，Vector Processor和多通道DMA，這些計算單元可以直接共享一個多Bank的共享存儲資源。這樣的架構(gòu)使得AI計算不但不用在多個處理器，例如CPU，GPU，DSP之間分配任務(wù)，甚至數(shù)據(jù)不用出AI核，就可以高效的完成全部端到端的AI計算。

這個架構(gòu)里還有一個重要的部分就是數(shù)據(jù)的傳輸。就像我們?nèi)撕腿酥g需要更好的溝通一樣，我們的計算單元之間，也需要很好的共享數(shù)據(jù)和消息。

我們設(shè)計了專用的數(shù)據(jù)傳輸總線，可以靈活的在各個Tile，以及各個Core之間建立高速的直接的數(shù)據(jù)傳輸通道，而不需要通過系統(tǒng)總線和緩存。

CIM macro有計算形式單一、需求輸入數(shù)據(jù)整齊、沒有累加器等缺點。第一代天樞架構(gòu)為這些功能上的缺點做了相應(yīng)的補充，使得CIM macro能夠真正的應(yīng)用在大規(guī)模AI計算中，而不只停留在paper上；另一方面，將CIM macro用于工程上，有BIST，yield，PI/SI等問題需要摸索解決，第一代架構(gòu)也在這方面做了規(guī)劃和適配。

我們下一代的天璇架構(gòu)IPU設(shè)計理念將會是：基于Mesh互聯(lián)的AI cluster。采用Mesh的互聯(lián)結(jié)構(gòu)，可以將計算單元的數(shù)量靈活的配置成M行N列，根據(jù)場景需求，AI算力規(guī)模可大可小。

審核編輯：湯梓紅

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關(guān)注

關(guān)注
459

文章
51883

瀏覽量
433099
sram

sram

+關(guān)注

關(guān)注
6

文章
778

瀏覽量
115499
AI

AI

+關(guān)注

關(guān)注
87

文章
33411

瀏覽量
273936
存算一體

存算一體

+關(guān)注

關(guān)注
0

文章
106

瀏覽量
4548

存算一體大算力AI芯片將逐漸走向落地應(yīng)用

電子發(fā)燒友網(wǎng)報道（文/李彎彎）前不久，后摩智能宣布，其自主研發(fā)的業(yè)內(nèi)首款存算一體大算力AI芯片成功點亮，并成功跑通智能駕駛算法模型。 ? 這

發(fā)表于 05-31 00:03 ?5304次閱讀

比存算一體更進(jìn)一步，“感存算一體化”前景如何？

電子發(fā)燒友網(wǎng)報道（文/吳子鵬）近一段時間，存算一體再燃熱潮，成為破除“內(nèi)存墻”，以及打造大算力芯片

發(fā)表于 06-08 00:01 ?5957次閱讀

SRAM存算一體芯片的研究現(xiàn)狀和發(fā)展趨勢

人工智能時代對計算芯片的算力和能效都提出了極高要求。存算一體芯片

發(fā)表于 01-02 11:02 ?3274次閱讀

存算一體技術(shù)路線如何選

電子發(fā)燒友網(wǎng)報道（文/李彎彎）過去幾年，越來越多企業(yè)加入到存算一體技術(shù)的研究中，如今，存算

發(fā)表于 06-21 09:27 ?4696次閱讀

存算一體技術(shù)發(fā)展現(xiàn)狀和未來趨勢

存算一體

電子發(fā)燒友網(wǎng)官方
發(fā)布于 :2023年04月25日 17:21:41

知存科技數(shù)模混合存算一體AI芯片專利解析

知存科技的該項專利是關(guān)于數(shù)模混合存算一體芯片技術(shù)，除能有效降低設(shè)計復(fù)雜度和制造成本外，還特別適用

發(fā)表于 12-24 11:02 ?7440次閱讀

億鑄科技發(fā)布基于ReRAM的全數(shù)字化存算一體AI大算力芯片技術(shù)

在剛剛結(jié)束的GTIC 2022全球AI芯片峰會存算一體專題論壇上，億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬博士發(fā)表了題為“存算新動能——基于Re

發(fā)表于 09-01 11:50 ?2930次閱讀

存算一體芯片在可穿戴設(shè)備市場有哪些機會

2022年，TWS耳機廠商在一種新型計算架構(gòu)中找到突破口——存算一體。與傳統(tǒng)馮諾依曼架構(gòu)相比，基于存算

發(fā)表于 10-14 09:38 ?1414次閱讀

2023年存算一體是芯片設(shè)計的技術(shù)趨勢

存算一體旨在計算單元與存儲單元融合，在實現(xiàn)數(shù)據(jù)存儲的同時直接進(jìn)行計算，以消除數(shù)據(jù)搬移帶來的開銷，極大提升運算效率，以實現(xiàn)計算存儲的高效節(jié)能。存算

發(fā)表于 01-13 15:26 ?2477次閱讀

基于3DIC架構(gòu)的存算一體芯片仿真解決方案

的“存儲墻”、“功耗墻”問題。存算一體將存儲與計算有機融合以其巨大的能效比提升潛力，有望成為數(shù)字經(jīng)濟時代的先進(jìn)生產(chǎn)力。存算

發(fā)表于 02-24 09:34 ?5838次閱讀

特斯拉的下一代AI芯片：存算一體

根據(jù)存儲與計算的距離遠(yuǎn)近，將廣義存算一體的技術(shù)方案分為三大類，分別是近存計算 (Processing Near Memory，PNM)、

發(fā)表于 03-09 09:22 ?2015次閱讀

蘋芯亮相ESWEEK，探索存算一體技術(shù)新思路

蘋芯科技作為專注存算一體芯片領(lǐng)域的創(chuàng)新型企業(yè)，長期以來一直關(guān)注國際前沿技術(shù)動向。蘋芯很榮幸能夠在

發(fā)表于 09-23 10:12 ?991次閱讀

存算一體芯片新突破！清華大學(xué)研制出首顆存算一體芯片

這幾天清華大學(xué)又火出圈了。但這次并不是因為招生搶人和飯?zhí)茫乔迦A大學(xué)的芯片研發(fā)團(tuán)隊研制出全球首顆全系統(tǒng)集成的存算一體芯片。這是我國、乃至全

發(fā)表于 10-11 14:39 ?1301次閱讀

淺談為AI大算力而生的存算-體芯片

大模型爆火之后，存算一體獲得了更多的關(guān)注與機會，其原因之一是因為存算

發(fā)表于 12-06 15:00 ?516次閱讀

存算一體芯片如何支持Transformer等不同模型？

后摩智能致力于打造通用人工智能芯片，自主研發(fā)的存算一體芯片在支持各類模型方面表現(xiàn)突出，包括YOLO系列網(wǎng)絡(luò)、BEV系列網(wǎng)絡(luò)、點云系列網(wǎng)絡(luò)等。

發(fā)表于 01-05 14:14 ?1607次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

存算一體芯片的技術(shù)壁壘

評論

存算一體大算力AI芯片將逐漸走向落地應(yīng)用

比存算一體更進(jìn)一步，“感存算一體化”前景如何？

SRAM存算一體芯片的研究現(xiàn)狀和發(fā)展趨勢

存算一體技術(shù)路線如何選

存算一體技術(shù)發(fā)展現(xiàn)狀和未來趨勢

知存科技數(shù)模混合存算一體AI芯片專利解析

億鑄科技發(fā)布基于ReRAM的全數(shù)字化存算一體AI大算力芯片技術(shù)

存算一體芯片在可穿戴設(shè)備市場有哪些機會

2023年存算一體是芯片設(shè)計的技術(shù)趨勢

基于3DIC架構(gòu)的存算一體芯片仿真解決方案

特斯拉的下一代AI芯片：存算一體

蘋芯亮相ESWEEK，探索存算一體技術(shù)新思路

存算一體芯片新突破！清華大學(xué)研制出首顆存算一體芯片

淺談為AI大算力而生的存算-體芯片

存算一體芯片如何支持Transformer等不同模型？

電子發(fā)燒友