來源:半導體芯科技編譯
Mark Liu 是臺灣積體電路制造股份有限公司董事長。
Philip Wong 是斯坦福大學工程學院教授兼臺積電首席科學家。
TSMC
1997 年,IBM "深藍 "超級計算機擊敗了國際象棋世界冠軍加里·卡斯帕羅夫。這是超級計算機技術的一次開創性展示,也是高性能計算有朝一日可能超越人類智能的初露端倪。在隨后的 10 年中,我們開始將人工智能用于許多實際任務,如面部識別、語言翻譯、推薦電影和商品等。
又過了十五年,人工智能已經發展到可以 "合成知識 "的地步。生成式人工智能,如 ChatGPT 和 Stable Diffusion,可以作詩、創作藝術品、診斷疾病、撰寫總結報告和計算機代碼,甚至可以設計與人類制造的集成電路相媲美的集成電路。
人工智能將面臨巨大的機遇,成為人類所有工作的數字化助手。ChatGPT 就是一個很好的例子,它說明了人工智能如何使高性能計算的使用平民化,為社會中的每一個人帶來益處。
所有這些令人驚嘆的人工智能應用都歸功于三個因素:高效機器學習算法的創新、可用于訓練神經網絡的海量數據的可用性,以及通過半導體技術的進步在高能效計算方面取得的進展。盡管生成式人工智能革命的貢獻無處不在,但卻沒有得到應有的贊譽。
在過去的三十年里,人工智能領域的重大里程碑都得益于當時領先的半導體技術,沒有這些技術是不可能實現的。“深藍”采用 0.6 微米和 0.35 微米節點的混合芯片制造技術實現的。在 ImageNet 比賽中獲勝、開啟了當前機器學習時代的深度神經網絡,是采用 40 納米技術實現的。AlphaGo 采用 28 納米技術征服了圍棋比賽,而 ChatGPT 的最初版本是在采用 5 納米技術制造的計算機上進行訓練的。最新版本的 ChatGPT 由采用更先進的 4 納米技術的服務器驅動。相關計算機系統的每一層,從軟件和算法到架構、電路設計和設備技術,都是人工智能性能的倍增器。但公平地說,基礎晶體管-器件技術是上述各層技術進步的基礎。
如果AI革命要以目前的速度繼續下去,那么半導體行業將需要更多的努力。在十年內,它將需要一個 1 萬億晶體管 GPU,也就是說,GPU 的設備數量是當今典型設備的 10 倍。
AI模型規模持續增長
在過去五年中,人工智能訓練所需的計算量和內存訪問量呈數量級增長。例如,訓練 GPT-3 需要相當于每秒 50 億億次以上的運算量(即每天 5,000 petaflops )和 3 萬億字節(3 TB)的內存容量。
新的生成式人工智能應用所需的計算能力和內存訪問能力都在持續快速增長。我們現在需要回答一個緊迫的問題: 半導體技術如何才能跟上步伐?
從集成器件到集成芯片
自集成電路發明以來,半導體技術一直在縮小特征尺寸,以便在拇指指甲大小的芯片中塞進更多的晶體管。如今,集成度更上一層樓;我們正在超越二維擴展,進入三維系統集成。現在,我們正在把許多芯片組裝成一個緊密集成、大規模互連的系統。這是半導體技術集成的范式轉變。
在AI時代,系統的能力與集成到系統中的晶體管數量成正比。其中一個主要限制因素是,光刻芯片制造工具的設計是為了制造不超過 800 平方毫米的集成電路,這就是所謂的 “光罩極限”(reticle limit)。但是,我們現在可以將集成系統的尺寸擴展到光刻的光罩極限之外。通過將多個芯片連接到更大的中介層(一塊內置互連的硅片)上,我們可以集成一個包含比單個芯片上更多器件的系統。例如,臺積電CoWoS技術(
chip-on-wafer-on-substrate )可容納多達六個光罩場的計算芯片,以及十幾個高帶寬內存(HBM)芯片。
Nvidia 如何使用 CoWoS 先進封裝技術
CoWoS是臺積電的硅上芯片先進封裝技術,目前已應用于產品中。。示例包括 Nvidia Ampere 和 Hopper GPU。每個都由一個 GPU 芯片和六個高帶寬內存立方體組成,全部位于硅中介層上。計算GPU芯片的大小與芯片制造工具目前允許的大小差不多。Ampere 有 540 億個晶體管,Hopper 有 800 億個。從 7 納米技術到更密集的 4 納米技術的轉變使得在基本相同的面積上封裝 50% 以上的晶體管成為可能。Ampere 和 Hopper 是當今大型語言模型 (LLM) 訓練的主力軍。訓練 ChatGPT 需要數以萬計的此類處理器。
HBM 是另一個對 AI 日益重要的關鍵半導體技術的實例:通過將芯片堆疊在一起來集成系統的能力,我們臺積電稱之為系統級集成芯片 (SoIC:
system-on-integrated-chips )。HBM 由控制邏輯 IC 頂部的一組垂直互連的 DRAM 芯片組成。它使用稱為硅通孔 (TSV) 的垂直互連來獲取信號,并通過每個芯片和焊料凸點來形成存儲芯片之間的連接。如今,高性能 GPU 廣泛使用 HBMm。
展望未來,3D SoIC 技術可以為當今的傳統 HBM 技術提供“無凸通替代方案”(bumpless alternative),在堆疊芯片之間提供更密集的垂直互連。最近的進展表明,HBM 測試結構具有 12 層芯片堆疊,使用混合鍵合,這種銅對銅的連接密度比焊接凸點更高。該存儲器系統在較大的基礎邏輯芯片上低溫鍵合,總厚度僅為 600 μm。
高性能計算系統由大量運行大型人工智能模型的芯片組成,高速有線通信可能會迅速限制計算速度。如今,光互連已被用于連接數據中心的服務器機架。不久的將來,我們將需要基于硅光子技術的光接口,與 GPU 和 CPU 封裝在一起。這樣就能為 GPU 與 GPU 之間的直接光通信提供更高的能效和面積效率帶寬,從而使數百臺服務器能夠像擁有統一內存的單個巨型 GPU 一樣運行。由于人工智能應用的需求,硅光子技術將成為半導體行業最重要的使能技術之一。
邁向萬億晶體管 GPU
AMD 如何使用 3D 技術
AMD MI300A 加速處理器單元不僅利用了 CoWoS,還利用了臺積電的 3D 技術——SoIC。MI300A 結合了 GPU 和 CPU 內核,旨在處理最大的AI工作負載。GPU 執行AI的密集矩陣乘法運算,而 CPU 則控制整個系統的運行,高帶寬內存 (HBM) 則統一為兩者服務。9 個采用 5 納米技術制造的計算芯片堆疊在 4 個采用 6 納米技術制造的基礎芯片之上,這些芯片專門用于緩存和 I/O 流量。基礎芯片和 HBM 再硅中介層之上。處理器的計算部分由 1500 億個晶體管組成。
如前所述,用于人工智能訓練的典型 GPU 芯片已經達到了光罩極限 (reticle field limit)。它們的晶體管數量約為 1000 億個。晶體管數量繼續增加的趨勢將需要多個芯片,通過 2.5D 或 3D 集成相互連接來執行計算。通過 CoWoS 或 SoIC 以及相關的先進封裝技術將多個芯片集成在一起,可使每個系統的晶體管總數大大超過單個芯片的晶體管總數。我們預測,十年內多芯片 GPU 的晶體管數量將超過 1 萬億個。
我們需要在3D堆棧中將所有這些芯片連接在一起,但幸運的是,業界已經能夠迅速縮小垂直互連的間距,提高連接密度。而且還有足夠的空間容納更多。我們認為互連密度沒有理由不能增長一個數量級,甚至更高。
GPU 的高能效性能趨勢
那么,所有這些創新硬件技術是如何提升系統性能的呢?
如果我們看看能效性能指標(EEP:energy-efficient performance)的穩步提升,就能發現服務器 GPU 的發展趨勢。EEP是對系統能效和速度的綜合衡量。在過去的 15 年中,半導體行業每兩年就能將能效性能提高約三倍。我們相信,這一趨勢將以歷史性的速度持續下去。推動這一趨勢的將是多方面的創新,包括新材料、器件和集成技術、極紫外線(EUV)光刻技術、電路設計、系統架構設計以及所有這些技術要素的共同優化等等。
特別是,我們在此討論的先進封裝技術將有助于提高 EEP。此外,系統技術協同優化(STCO: system-technology co-optimization)等概念也將變得越來越重要,在STCO 中,GPU 的不同功能部分被分離到各自的芯片上,并使用性能最好、最經濟的技術來構建每個部分。
3D集成電路的Mead-Conway時刻
1978 年,加州理工學院教授 Carver Mead 和施樂 PARC的 Lynn Conway 發明了一種集成電路計算機輔助設計方法。他們使用一套設計規則來描述芯片的縮放比例,這樣工程師們就可以輕松地設計超大規模集成電路(VLSI),而無需太多的工藝技術知識。
3D芯片設計也需要這種能力。如今,設計人員需要了解芯片設計、系統架構設計以及硬件和軟件優化。制造商需要了解芯片技術、3D IC技術和先進的封裝技術。正如我們在 1978 年所做的那樣,我們再次需要一種通用語言,以電子設計工具能夠理解的方式來描述這些技術。這種硬件描述語言可以讓設計人員自由地進行 3D 集成電路系統設計,而無需考慮底層技術。它即將問世: 一種名為 3Dblox 的開源標準已被當今大多數技術公司和電子設計自動化 (EDA) 公司所采用。
隧道之外的未來
在人工智能時代,半導體技術是實現新的人工智能能力和應用的關鍵因素。新型 GPU 不再受限于過去的標準尺寸和外形尺寸。新的半導體技術也不再局限于在二維平面上縮小下一代晶體管的尺寸。一個集成的人工智能系統可以由盡可能多的高能效晶體管、適用于專業計算工作負載的高效系統架構以及優化的軟硬件關系組成。
在過去的 50 年里,半導體技術的發展就像在隧道里行走。前方的道路是清晰的,因為有一條明確的道路。每個人都知道需要做什么:縮小晶體管。
現在,我們已經走到了隧道的盡頭。從這里開始,半導體技術將越來越難發展。然而,在隧道之外,還有更多的可能性。我們不再受過去的束縛。
審核編輯 黃宇
-
半導體
+關注
關注
334文章
27298瀏覽量
218119 -
gpu
+關注
關注
28文章
4729瀏覽量
128897 -
晶體管
+關注
關注
77文章
9683瀏覽量
138085 -
AI
+關注
關注
87文章
30753瀏覽量
268901 -
人工智能
+關注
關注
1791文章
47205瀏覽量
238272
發布評論請先 登錄
相關推薦
評論