在近日三星Foundry舉辦的SAFE論壇中,三星公布了一系列與IP、EDA和封裝廠商合作與創(chuàng)新的消息,比如云端芯片設(shè)計(jì)平臺(tái)的優(yōu)化,以及EDA工具在三星3nm至5nm制程和2.5D/3D封裝技術(shù)上的認(rèn)證。而在論壇末尾,三星請(qǐng)到了半導(dǎo)體老將JimKeller分享其初創(chuàng)公司Tenstorrent在AI芯片設(shè)計(jì)的過(guò)程中,是如何實(shí)現(xiàn)模塊化設(shè)計(jì)的。
軟件2.0時(shí)代
JimKeller稱我們即將迎來(lái)軟件2.0時(shí)代,這也是他在特斯拉任職時(shí),從特斯拉AI主管Andrei Karpathy那聽(tīng)來(lái)的概念。人們使用大數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)去做有用的事,而不再是編寫大量代碼,依照過(guò)去的思路來(lái)構(gòu)建程序。其次,我們將看到更多的算法用于訓(xùn)練網(wǎng)絡(luò),比如對(duì)抗訓(xùn)練等等,計(jì)算機(jī)將開(kāi)始實(shí)時(shí)思考他們正在解決的問(wèn)題。
自動(dòng)駕駛就是一個(gè)很好的例子,過(guò)去典型的視覺(jué)代碼中,每個(gè)目標(biāo)檢測(cè)背后都需要大量的代碼支撐。如今大數(shù)據(jù)集的存在給自動(dòng)駕駛帶來(lái)了巨大的改變,你可以找到場(chǎng)景中所有的對(duì)象和路徑,甚至可以得出每個(gè)actor的意圖。
WormholeAI芯片Dieshot/Tenstorrent
在50至80年代左右,那時(shí)基本都是標(biāo)量編程,直到后來(lái)向量和矩陣的出現(xiàn)。而如今我們正在構(gòu)建的芯片很多是專門用來(lái)滿足人工智能計(jì)算的,這就要考慮到晶體管密度、代工制程和全新的人工智能算法等多項(xiàng)因素,這些考量也改變了人們?cè)O(shè)計(jì)芯片的思路。
芯片設(shè)計(jì)的變化
過(guò)去的芯片結(jié)構(gòu)相當(dāng)復(fù)雜,一個(gè)芯片中會(huì)有50到100多個(gè)IP集成在一起,包含了各種各樣的接口,需要一個(gè)上百人的大團(tuán)隊(duì)才能把整個(gè)芯片組裝起來(lái)。這也造成一系列的問(wèn)題,比如流片成本過(guò)高,多次測(cè)試才能獲得最終成品。
而過(guò)去的5到10年間,這種狀況開(kāi)始發(fā)生變化,這也多虧了代工廠制程的提升和更高質(zhì)量的PDK。經(jīng)過(guò)硅驗(yàn)證的IP為芯片設(shè)計(jì)帶來(lái)了便捷,無(wú)論是頂級(jí)的CAD公司、代工廠、初創(chuàng)企業(yè)還是內(nèi)部設(shè)計(jì),都提供了可信任的IP,甚至先發(fā)制人在下一代IP上做好了準(zhǔn)備,比如PCIe5.0、400G以太網(wǎng)和GDDR6等。JimKeller開(kāi)玩笑稱,芯片設(shè)計(jì)如今就像是逛宜家一樣,買到所需的現(xiàn)成IP后自行組裝,加快了產(chǎn)品從設(shè)計(jì)到上市的進(jìn)程。
模塊化設(shè)計(jì)/Tenstorrent
除了通過(guò)硅驗(yàn)證的IP外,模塊化設(shè)計(jì)也成了當(dāng)今芯片設(shè)計(jì)的主流方案。以Tenstorrent的設(shè)計(jì)流程為例,他們?cè)谟布用嫦葟拇ぜ夹g(shù)、CAD工具和設(shè)計(jì)庫(kù)來(lái)考慮如何打造這個(gè)芯片,然后將經(jīng)過(guò)驗(yàn)證的IP和自己的IP統(tǒng)統(tǒng)放進(jìn)SoC里。在軟件層面,先把PyTorch程序通過(guò)Tenstorrent的圖形編譯器運(yùn)行,接著把它放在芯片上,由AI系統(tǒng)完成協(xié)調(diào),調(diào)用數(shù)學(xué)內(nèi)核與數(shù)據(jù)流來(lái)管理計(jì)算。這種清晰的設(shè)計(jì)流程意味著只需要更小的團(tuán)隊(duì),在流片前就可以完成硬件和軟件的仿真和測(cè)試,最終一次性通過(guò)測(cè)試。不過(guò)當(dāng)前不少AI芯片都選用了更先進(jìn)的制程,所以流片費(fèi)用依舊昂貴。
AI芯片設(shè)計(jì)
Wormhole/Tenstorrent
與近些年的客戶端芯片和移動(dòng)端芯片不同,AI計(jì)算是相當(dāng)有規(guī)律的,所以往往是大量AI處理器協(xié)同工作,依照數(shù)據(jù)運(yùn)行一個(gè)龐大的程序,所以在設(shè)計(jì)思路上必須做出改變。以Tenstorrent的第二代AI芯片Wormhole為例,該芯片只有六個(gè)分區(qū),AI處理器、GDDR6內(nèi)存、100G以太網(wǎng)、PCIe4.0、ARC CPU和一些系統(tǒng)邏輯。拿內(nèi)存這個(gè)物理分區(qū)來(lái)說(shuō),解決GDDR6 PHY、GDDR6內(nèi)存控制器和NOC接口的問(wèn)題,然后再以同樣的流程完成余下的分區(qū),其芯片頂層其實(shí)就是NOC總線、時(shí)鐘和掃描鏈。這種思路讓芯片設(shè)計(jì)變得更容易管理,也能更快過(guò)渡到下一個(gè)制程節(jié)點(diǎn)。
AscalonRISC-V處理器/Tenstorrent
在Tenstorrent的AI芯片上,還用到了5個(gè)RISC-V核心,負(fù)責(zé)一部分的計(jì)算和協(xié)調(diào)工作。為了進(jìn)一步擁抱開(kāi)源生態(tài),Tenstorrent宣布將開(kāi)源自己的RISC-V小核,同時(shí)也正在考慮開(kāi)源其向量單元。JimKeller還提到了Tenstorrent正在研發(fā)的RISC-V處理器Ascalon,這是一個(gè)64位8取指6發(fā)射的高性能處理器,配備了先進(jìn)的分支預(yù)測(cè)單元、兩個(gè)向量單元、兩個(gè)浮點(diǎn)單元和兩個(gè)讀取/存儲(chǔ)單元。
此外,由于AI工作負(fù)載往往需要龐大的計(jì)算量,單芯片和多芯片互聯(lián)的方案往往只能解決單個(gè)機(jī)架的問(wèn)題,而多機(jī)架的互聯(lián)才是對(duì)AI芯片擴(kuò)展性的考驗(yàn)。Wormhole可以直接通過(guò)以太網(wǎng)實(shí)現(xiàn)相同模組的互聯(lián),在芯片到芯片、服務(wù)器到服務(wù)器和機(jī)架到機(jī)架之間實(shí)現(xiàn)相同的滿載帶寬。此外,Wormhole在設(shè)計(jì)時(shí)已經(jīng)內(nèi)置了交換機(jī),所以超算一類的方案不再需要用到任何昂貴的交換機(jī)。當(dāng)然了,傳統(tǒng)的數(shù)據(jù)中心在機(jī)架數(shù)量的配置要求上更靈活一些,這時(shí)采用頂部交換機(jī)的方案雖然不會(huì)影響芯片之間的帶寬,但確實(shí)會(huì)對(duì)服務(wù)器間與機(jī)架間的帶寬產(chǎn)生一定影響。
結(jié)語(yǔ)
根據(jù)JimKeller預(yù)測(cè),未來(lái)五年的人工智能將在處理器、算法以及與芯片的協(xié)同工作上出現(xiàn)大量的創(chuàng)新。而AI芯片的設(shè)計(jì)不僅是把AI軟件和算法考慮在內(nèi),甚至后者也在反過(guò)來(lái)助力AI芯片的設(shè)計(jì),比如我們已經(jīng)在設(shè)計(jì)工具中見(jiàn)到的布局與布線,未來(lái)AI構(gòu)建的測(cè)試平臺(tái)也可能會(huì)幫助我們驗(yàn)證代碼和區(qū)塊。AI芯片設(shè)計(jì)與AI設(shè)計(jì)芯片重合的場(chǎng)景可能離我們并不遠(yuǎn)了。
-
AI芯片
+關(guān)注
關(guān)注
17文章
1894瀏覽量
35104
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論