1997年,IBM的“深藍”超級計算機打敗了國際象棋世界冠軍加里?卡斯帕羅夫。這是超級計算機技術的一次突破性展示,也首次讓人們看到了高性能計算有一天可能超越人類智能。在接下來的十年里,我們開始將人工智能用于許多實際任務,如面部識別、語言翻譯以及電影和商品推薦。
又過了15年,人工智能已經發展到可以“結合知識”的地步。ChatGPT和Stable Diffusion等生成式人工智能可以寫詩、創作藝術作品、診斷疾病、編寫總結報告和計算機代碼,甚至可以設計出與人類設計相媲美的集成電路。
人工智能很有可能成為未來所有人類活動的數字助手。ChatGPT就是一個很好的例子,它展示了人工智能有助于推動高性能計算的普及性應用,為社會中的每一個人帶來益處。
所有這些奇妙的人工智能應用都歸功于3個因素:高效機器學習算法的創新、可用于訓練神經網絡的海量數據,以及通過半導體技術發展實現的節能計算進步。雖然最后這一項貢獻無處不在,但它在生成式人工智能革命中的重要性卻未得到應有的重視。
在過去30年里,人工智能的重要里程碑都是通過當時最先進的半導體技術實現的,沒有它們,這些里程碑就不可能實現。深藍計算機是通過結合0.6微米和0.35微米節點的芯片制造技術實現的;贏得ImageNet競賽并開啟當前機器學習時代的深度神經網絡是用40納米技術實現的;AlphaGo使用28納米技術征服了圍棋世界,初版ChatGPT是在采用5納米技術的計算機上訓練的。而最新版的ChatGPT則依靠使用了更先進的4納米技術的服務器提供支持。從軟件和算法到架構、電路設計和設備技術,人工智能所涉及的每一層計算機系統都是提高人工智能性能的倍增器。但公平地說,基礎晶體管技術是實現上層進步的關鍵。
如果人工智能革命要繼續按照當前的速度發展下去,將需要半導體行業提供更多的支持。10年內,它將需要擁有1萬億個晶體管的GPU,是目前常見GPU所擁有的晶體管數量的10倍。
人工智能模型規模的持續增長
過去5年里,人工智能訓練所需的計算能力和內存訪問量提高了幾個數量級。例如,訓練GPT-3需要相當于每秒超過5000千萬億次的運算持續一整天,并需要3萬億字節(3TB)的內存容量。
新的生成式人工智能應用所需的計算能力和內存訪問量還在繼續快速增長?,F在,我們需要回答一個緊迫的問題:半導體技術如何才能跟上這一步伐?
從集成器件到集成芯粒
自集成電路發明以來,半導體技術一直致力于縮小特征尺寸,以便將更多的晶體管塞進極小的芯片中。今天,集成已經上升到了一個更高的層次;我們將超越二維縮放,進入三維系統集成。我們正在將許多芯片組裝成一個緊密集成的大規模互連系統。這是半導體技術集成的范式轉變。
在人工智能時代,系統能力直接與系統集成的晶體管數量成正比。限制晶體管集成數量的主要因素之一是光刻芯片制造工具被設計成只能制造不超過約800平方毫米的集成電路,這被稱為“光罩限制”。但現在,我們可以將集成系統的尺寸擴展到光刻技術的光罩限制之外。通過將幾塊芯片連接到一個更大的中介層(一塊內置互連的硅片)上,我們可以集成一個能夠比單芯片包含更多器件的系統。例如,臺積電的基板上晶圓芯片(CoWoS)技術可以容納多達6個光罩范圍的計算芯片,以及十幾個高帶寬存儲器(HBM)芯片。
高帶寬存儲器是另一種對人工智能而言越來越重要的關鍵半導體技術:該技術可將芯片堆疊在一起進行系統集成,臺積電稱之為“集成片上系統”(SoIC)。高帶寬存儲器由一堆動態隨機存取存儲器(DRAM)垂直互連芯片組成,位于控制邏輯集成電路之上。它使用了稱為“硅通孔”的垂直互連來讓信號通過每塊芯片,并使用了焊錫球連接內存芯片。如今,高性能圖形處理器(GPU)廣泛使用了高帶寬存儲器。
未來,3D 系統級集成單芯片技術可以為目前的常規高帶寬存儲器技術提供替代方案,在堆疊芯片之間實現更密集的垂直互連。最新進展顯示,高帶寬存儲器測試結構使用混合鍵合堆疊了12層芯片,相較于目前使用的焊錫球,這種銅對銅連接實現了更高的密度。這種內存系統在低溫下在較大的基礎邏輯芯片之上進行鍵合,總厚度僅為600微米。
隨著由大量芯片組成的高性能計算系統運行大型人工智能模型,高速有線通信可能很快會限制計算速度。如今,數據中心已經在使用光互連來連接服務器機架。很快,我們將需要基于硅光子技術與GPU和中央處理器(CPU)一起封裝的光學接口。它們將提高帶寬的能源效率和面積效率,實現直接的GPU到GPU光學通信,使成百上千臺服務器像一個具有統一內存的巨型GPU一樣工作。人工智能應用的需求將讓硅光子技術將成為半導體行業最重要的使能技術之一。
邁向萬億晶體管GPU
如前所述,用于人工智能訓練的典型GPU芯片已經達到了光罩范圍限制,其晶體管數量約為1000億個。要持續晶體管數量增多的趨勢,將需要用2.5D或3D集成互連的多芯片來執行計算。通過基板上晶圓芯片、集成片上系統或相關的先進封裝技術集成多個芯片,可以使每個系統的總晶體管數量遠遠超過單塊芯片所能容納芯片的數量。我們預測,在10年內,一個多芯粒GPU將擁有超過1萬億個晶體管。
我們需要在一個3D堆棧中將所有這些芯粒連接起來,不過幸運的是,業界已經能夠迅速縮小垂直互連的間距,從而提高連接的密度,而且還有很大的進步空間。我們認為互連密度完全可以提高一個數量級,甚至更多。
GPU的能效性能趨勢
那么,這些硬件創新技術將如何提升系統性能?
如果關注能效性能(EEP)這一指標的穩步提升,我們便可以從服務器GPU中看到這一趨勢。能效性能是系統能源效率和速度的綜合衡量指標。在過去15年里,半導體行業的能效性能每兩年提高大約3倍。我們相信這一趨勢將按照歷史速度繼續。它將受到來自多方面創新的推動,包括新材料、設備和集成技術、極紫外光刻、電路設計、系統架構設計以及所有這些技術元素的協同優化等。
特別是我們在此討論的先進封裝技術,它將推動能效性能的提高。此外,系統技術協同優化等概念也會越來越重要,系統技術協同優化是將GPU的不同功能部分分散到各自的芯粒上,并使用性能最佳、最經濟的技術來構建每個部分。
3D集成電路的米德-康維時刻
1978年,加州理工學院教授卡沃?米德(Carver Mead)和施樂帕洛阿爾托研究中心的琳?康維(Lynn Conway)發明了一種用于集成電路的計算機輔助設計方法。他們使用了一套設計規則來描述芯片尺寸,使工程師無須深入了解工藝技術就能輕松設計超大規模集成電路。
現在,3D芯片設計也需要類似的能力。如今的設計師需要了解芯片設計、系統架構設計以及軟硬件優化。制造商需要了解芯片技術、3D集成電路技術和先進封裝技術。正如1978年那樣,我們再次需要一種描述這些技術的通用語言,讓電子設計工具能夠理解這些技術。這種硬件描述語言可以讓設計師自由地進行3D集成電路系統設計,而不必考慮底層技術。這種語言已經在發展之中了,一種名為3Dblox的開源標準已經被當今大多數技術公司和電子設計自動化公司接受。
隧道盡頭的未來
在人工智能時代,半導體技術是推動新的人工智能能力和應用發展的關鍵因素。新的GPU不再受制于過去的標準尺寸和形式因素。新的半導體技術不再局限于在二維平面上來縮小下一代晶體管。人工智能集成系統可以由盡可能多的節能晶體管、專用計算工作負載的高效系統架構以及軟硬件優化關系組成。
在過去50年里,半導體技術的發展就像在隧道中行走。前方的道路是清晰的,因為有一條明確的路徑,而且大家都知道需要縮小晶體管。
現在,我們已經走到了隧道的盡頭,之后的半導體技術將越來越難開發。然而在隧道之外,還有更多的可能性在等待著我們。
-
gpu
+關注
關注
28文章
4729瀏覽量
128890 -
晶體管
+關注
關注
77文章
9682瀏覽量
138080 -
人工智能
+關注
關注
1791文章
47183瀏覽量
238245
原文標題:通往萬億晶體管GPU之路
文章出處:【微信號:bdtdsj,微信公眾號:中科院半導體所】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論