摩爾定律的終結——真正的摩爾定律,即晶體管隨著工藝的每次縮小而變得更便宜、更快——正在讓芯片制造商瘋狂。
有兩種不同的方法可以制造容量更大但通常不是更快的計算引擎——將設備分解成小芯片并將它們連接在一起或將它們蝕刻在整個硅晶圓上——再加上第三種覆蓋層,這兩種方法都可以與 2.5D 和 3D 堆疊一起使用,以擴展容量和功能。
無論如何,所有這些方法都受到用于蝕刻芯片的光刻設備的掩模版限制的限制。
目前的設備是針對 300 mm 硅晶圓定制的,該屏障為 858 mm 2,僅此而已。它就像終結者,或者真空中的光速。你不能與它爭論或討價還價。沒有任何芯片可以蝕刻得比這更大。在過去的三十年里,從 150 毫米晶圓到 200 毫米晶圓到 300 毫米晶圓并沒有改變掩模版極限,從可見光光刻到水浸光刻再到極紫外光刻也沒有改變掩模版極限。假設轉向 450 毫米晶圓也不會改變掩模版限制。
盡管我們會指出,到 2023 年,擁有 450 毫米晶圓將允許更大容量的晶圓級計算引擎。但 450 毫米晶圓的工程挑戰對于 IBM、英特爾、三星、臺積電、GlobalFoundries 和尼康來說太難解決,但這一努力于 2015 年被放棄。
光罩限制(光穿過芯片掩模以在硅晶圓上蝕刻晶體管的孔徑大小)不僅定義了小芯片的設計方式,而且還限制了離散計算和內存塊的大小單個晶圓。如果我們有 450 毫米的晶圓,并且晶圓級計算機的所有邏輯都可以用比晶圓更大的掩模版一次性蝕刻,那將是令人驚奇的,但這不是光刻設備的工作原理。總而言之,小芯片和晶圓級之間的區別實際上在于如何構建互連,以利用計算和內存的離散元件來構建計算引擎插槽。
盡管存在這樣的限制,業界始終需要構建更強大的計算引擎,并且在摩爾定律結束時,如果能夠找到一種方法,讓這些設備的制造成本也更低,那就太好了。
中國科學院計算技術研究所的研究人員剛剛在《Fundamental Research》雜志上發表了一篇論文,討論了光刻和小芯片的局限性,并提出了一種他們稱之為“Big Chip”的架構,該架構模仿了不幸的晶圓級公司Trilogy Systems 在 20 世紀 80 年代的努力以及Cerebras Systems 在 2020 年代成功的晶圓級架構。埃隆·馬斯克 (Elon Musk) 的特斯拉正在打造自己的“Dojo”超級計算機芯片,但這不是晶圓級設計,而是將Dojo D1 核心復雜地封裝成某種東西,如果你瞇著眼睛看,它看起來就像是由 360 個小芯片構建的晶圓級插槽。也許通過 Dojo2 芯片,特斯拉將轉向真正的晶圓級設計。看起來并不需要做很多工作就能完成這樣的壯舉。
中國科學院整理的這篇論文討論了很多關于為什么需要開發晶圓級器件的問題,但沒有提供太多關于他們開發的大芯片架構實際上是什么樣子的細節。它并沒有表明 Big Chip 是否會像特斯拉對 Dojo 那樣采用小芯片方法,或者像 Cerebras 從一開始就一路向晶圓級發展。但其含義很明顯,就像特斯拉一樣。
據中科院研究人員介紹,名為“Zhejiang”的大芯片將使用22 納米工藝制造。
“Zhejiang”大芯片由 16 個小芯片組成,每個小芯片有 16 個 RISC-V 內核。研究人員表示,該設計能夠在單個分立器件中擴展至 100 個小芯片,我們過去稱之為插槽,但對我們來說聽起來更像是系統板。目前尚不清楚這 100 個小芯片將如何配置,也不清楚這些小芯片將實現什么樣的內存架構(陣列中將有 1,600 個內核)。
我們所知道的是,隨著大芯片“Zhejiang”的迭代,有 16 個 RISC-V 處理器使用芯片上的網絡在共享主內存上進行對稱多處理,相互連接,并且小芯片之間有 SMP 鏈接,因此每個塊可以在整個復合體中共享內存。
以下是“Zhejiang” RISC-V 小芯片的框圖:
?
以下是如何使用中介層將 16 個小芯片捆綁在一起形成具有共享內存的 256 核計算復合體,從而實現芯片間 (D2D) 互連:
CAS 研究人員表示,絕對沒有什么可以阻止這種小芯片設計以晶圓級實現。然而,對于這次迭代,看起來它將是使用 2.5D 中介層互連的小芯片。
互連與計算元件一樣重要,這在系統和子系統設計中始終如此。
“該接口是使用基于時間復用機制的通道共享技術設計的,”研究人員在談到 D2D 互連時寫道。“這種方法減少了芯片間信號的數量,從而最大限度地減少了 I/O 凸塊和內插器布線資源的面積開銷,從而可以顯著降低基板設計的復雜性。小芯片終止于頂部金屬層,微型 I/O 焊盤就建在該金屬層上。”
雖然一個大芯片計算引擎作為多芯片或晶圓級復合體可能很有趣,但重要的是如何將這些設備互連以提供百億億級計算系統。以下是 CAS 研究人員對此的看法:
研究人員在談到這種計算和內存的分層結構時寫道:“對于當前和未來的億億級計算,我們預測分層小芯片架構將是一種強大而靈活的解決方案。”如下圖所示。“分層小芯片架構被設計為具有多個內核和許多具有分層互連的小芯片。在chiplet內部,內核使用超低延遲互連進行通信,而chiplet之間則以得益于先進封裝技術的低延遲互連,從而在這種高可擴展性系統中實現片上延遲和NUMA效應可以最小化。存儲器層次結構包含核心存儲器、片內存儲器和片外存儲器。這三個級別的內存在內存帶寬、延遲、功耗和成本方面有所不同。在分層chiplet架構的概述中,多個核心通過交叉交換機連接并共享緩存。這就形成了一個pod結構,并且pod通過chiplet內網絡互連。多個pod形成一個chiplet,chiplet通過chiplet間網絡互連,然后連接到片外存儲器。需要仔細設計才能充分利用這種層次結構。合理利用內存帶寬來平衡不同計算層次的工作負載可以顯著提高chiplet系統效率。正確設計通信網絡資源可以確保小芯片協同執行共享內存任務。”
?
我們很難反駁這句話中所說的任何內容,但 CAS 研究人員并沒有說明他們將如何實際處理這些問題。這是最困難的部分。
有趣的是,該圖中的內核被稱為“可編程”和“可重新配置”,但我們不確定這意味著什么。它可能需要使用可變線程技術(例如 IBM 的 Power8、Power9 和 Power10 處理器)來完成更多工作,而不是在核心中混合使用 CPU 和 FPGA 元件。這很難說。
CAS 研究人員表示,大芯片計算引擎將由超過 1 萬億個晶體管組成,占據數千平方毫米的總面積,采用小芯片封裝或計算和存儲塊的晶圓級集成。對于百億億次 HPC 和 AI 工作負載,我們認為 CAS 很可能正在考慮 HBM 堆疊 DRAM 或其他一些替代雙泵浦主內存,例如英特爾和 SK Hynix 開發的 MCR 內存。RISC-V 內核可能會有大量本地 SRAM 進行計算,這可能會消除對 HBM 內存的需求,并允許使用 MCR 雙泵浦技術加速 DDR5 內存。很大程度上取決于工作負載以及它們對內存容量和內存帶寬的敏感程度。
Big Chip 論文列出了一份未來技術的愿望清單,例如光電計算、近內存計算以及可以添加到 Big Chip 復合體中的 3D 堆棧式緩存和主內存 - 看起來像是使用光學 I /O 處理器是首選。但 CAS 并未透露其正在研究的內容以及何時可以交付。
據我們所知,大芯片及其大系統已經建成,CAS現在只是在談論它。例如,谷歌就是這樣做的,但隨著像谷歌這樣的公司使用有趣的系統作為招聘技術人員的方式,將某些東西投入該領域和談論它之間的時間一直在縮短。
審核編輯:劉清
-
處理器
+關注
關注
68文章
19259瀏覽量
229651 -
摩爾定律
+關注
關注
4文章
634瀏覽量
78998 -
晶體管
+關注
關注
77文章
9682瀏覽量
138080 -
芯片制造
+關注
關注
10文章
621瀏覽量
28803 -
RISC-V
+關注
關注
45文章
2270瀏覽量
46129
原文標題:終結摩爾定律?中國團隊公開“Big Chip”架構
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論