飛速發(fā)展的HBM仍面臨著一些挑戰(zhàn)。
高帶寬內(nèi)存 (HBM) 正在成為超大規(guī)模廠商的首選內(nèi)存,但其在主流市場(chǎng)的最終命運(yùn)仍存在疑問(wèn)。雖然它在數(shù)據(jù)中心中已經(jīng)很成熟,并且由于人工智能/機(jī)器學(xué)習(xí)的需求而使用量不斷增長(zhǎng),但其基本設(shè)計(jì)固有的缺陷阻礙了更廣泛的采用。一方面,HBM提供緊湊的 2.5D 外形尺寸,可大幅減少延遲。
Rambus產(chǎn)品營(yíng)銷(xiāo)高級(jí)總監(jiān)Frank Ferro在本周的 Rambus 設(shè)計(jì)峰會(huì)上的演講中表示:“HBM 的優(yōu)點(diǎn)在于,您可以在很小的占地面積內(nèi)獲得所有這些帶寬,而且還可以獲得非常好的能效。”
缺點(diǎn)是它依賴昂貴的硅中介層和 TSV 來(lái)運(yùn)行。
圖 1:實(shí)現(xiàn)最大數(shù)據(jù)吞吐量的 HBM 堆棧。來(lái)源:Rambus
CadenceIP 團(tuán)隊(duì)產(chǎn)品營(yíng)銷(xiāo)總監(jiān) Marc Greenberg 表示:“目前困擾高帶寬內(nèi)存的問(wèn)題之一是成本?!?。“三維堆疊的成本很高。在堆疊芯片的底部有一個(gè)邏輯芯片,這是需要額外付出的硅片。然后是硅中介層,它位于 CPU 或 GPU 以及 HBM 存儲(chǔ)器的下方。這些都需要成本。然后,你需要更大的封裝等等。這些系統(tǒng)成本使 HBM 現(xiàn)在已經(jīng)脫離了消費(fèi)領(lǐng)域,而更多地應(yīng)用于服務(wù)器機(jī)房或數(shù)據(jù)中心。相比之下,GDDR6等顯存雖然性能不如 HBM,但成本卻低得多。實(shí)際上,GDDR6的單位成本性能比 HBM 好得多,但 GDDR6 設(shè)備的最大帶寬卻比不上 HBM 的最大帶寬。"
Greenberg表示,這些差異為公司選擇 HBM 提供了理由,即使HBM可能不是他們的第一選擇?!癏BM 提供了大量的帶寬,并且點(diǎn)對(duì)點(diǎn)傳輸?shù)哪芰繕O低。使用 HBM 是因?yàn)楸仨氝@樣做,沒(méi)有其他解決方案可以提供相同的帶寬或相同的功率配置文件?!?/p>
HBM 只會(huì)變得越來(lái)越快?!拔覀冾A(yù)計(jì) HBM3 Gen3 的帶寬將提高 50%,”美光計(jì)算產(chǎn)品事業(yè)部副總裁兼總經(jīng)理 Praveen Vaidyanathan 說(shuō)道。“從美光的角度來(lái)看,我們預(yù)計(jì) HBM3 Gen2 產(chǎn)品將在 2024 財(cái)年期間實(shí)現(xiàn)量產(chǎn)。我們預(yù)計(jì), 2024年年初將開(kāi)始為預(yù)期的數(shù)億美元收入機(jī)會(huì)做出貢獻(xiàn)。此外,我們預(yù)測(cè)美光的 HBM3 將貢獻(xiàn)比 DRAM 更高的利潤(rùn)?!?/p>
盡管如此,經(jīng)濟(jì)因素可能會(huì)迫使許多設(shè)計(jì)團(tuán)隊(duì)考慮價(jià)格敏感應(yīng)用的替代方案。
他指出:"如果可以將問(wèn)題細(xì)分為更小的部分,可能會(huì)發(fā)現(xiàn)HBM更具成本效益。例如,當(dāng)必須在一個(gè)硬件上執(zhí)行所有這些操作,而且必須在那里擁有 HBM,也許可以將其分成兩部分,讓兩個(gè)進(jìn)程并行運(yùn)行,也許連接到 DDR6。如果能將問(wèn)題細(xì)分為更小的部分,就有可能以更低的成本完成相同的計(jì)算量。但是,如果你需要巨大的帶寬,如果你能承受成本,那么 HBM 就是你的最佳選擇。”
散熱挑戰(zhàn)
另一個(gè)主要缺點(diǎn)是 HBM 的 2.5D 結(jié)構(gòu)會(huì)產(chǎn)生熱量,而靠近 CPU 和 GPU 的布局又會(huì)加劇這種情況。事實(shí)上,當(dāng)前的布局就不太合理,因?yàn)楫?dāng)前的布局是將 HBM 及其堆疊的熱敏 DRAM 放在計(jì)算密集型熱源附近。
“最大的挑戰(zhàn)是熱量,”Greenberg說(shuō)。"一個(gè) CPU會(huì)產(chǎn)生大量的數(shù)據(jù)。每秒要通過(guò)這個(gè)接口傳輸太比特的數(shù)據(jù)。即使每筆數(shù)據(jù)交換只產(chǎn)生少量的微焦耳,每秒也要處理十億次,因此 CPU 的溫度非常高。而且,CPU 的工作不僅僅是轉(zhuǎn)移數(shù)據(jù),它還必須進(jìn)行計(jì)算。除此之外,最不耐熱的半導(dǎo)體元件是 DRAM。它在 85°C 左右開(kāi)始遺失數(shù)據(jù),而在 125°C 左右就會(huì)完全無(wú)法存儲(chǔ)?!?/p>
有一點(diǎn)值得慶幸?!皳碛?2.5D 堆棧的優(yōu)點(diǎn)是,CPU 很熱,而 HBM 位于 CPU 旁邊,因此喜歡冷,之間有一定的物理隔離,”他說(shuō)。
在延遲和熱量之間的權(quán)衡中,延遲是不可變的?!拔覜](méi)有看到任何人愿意放棄優(yōu)化延遲,”Synopsys 內(nèi)存接口 IP 解決方案產(chǎn)品線總監(jiān) Brett Murdock說(shuō)道?!拔铱吹剿麄兺苿?dòng)物理團(tuán)隊(duì)尋找更好的冷卻方式,或者更好的放置方式,以保持較低的延遲?!?/p>
考慮到這一挑戰(zhàn),多物理場(chǎng)建??梢蕴岢鰷p少熱問(wèn)題的方法,但會(huì)產(chǎn)生相關(guān)成本?!斑@就是物理學(xué)變得非常困難的地方,” Ansys產(chǎn)品經(jīng)理 Marc Swinnen 說(shuō)。“功率可能是集成所能實(shí)現(xiàn)的最大限制因素。任何人都可以設(shè)計(jì)一堆芯片并將它們?nèi)窟B接起來(lái),所有這些都可以完美工作,但無(wú)法冷卻它。散發(fā)熱量是可實(shí)現(xiàn)目標(biāo)的根本限制?!?/p>
潛在的緩解措施可能很快就會(huì)變得昂貴,從微流體通道到浸入非導(dǎo)電液體,再到確定散熱器上需要多少個(gè)風(fēng)扇,以及是否使用銅或鋁。
可能永遠(yuǎn)不會(huì)有完美的答案,但模型和對(duì)期望結(jié)果的清晰理解可以幫助創(chuàng)建合理的解決方案?!氨仨毝x最佳對(duì)你來(lái)說(shuō)意味著什么,”Swinnen說(shuō)?!澳阆胍詈玫臒崃繂??最好的成本??jī)烧咧g的最佳平衡?你將如何衡量它們?答案依賴于模型來(lái)了解物理學(xué)中實(shí)際發(fā)生的情況。它依靠人工智能來(lái)處理這種復(fù)雜性并創(chuàng)建元模型來(lái)捕捉這個(gè)特定優(yōu)化問(wèn)題的本質(zhì),并快速探索這個(gè)廣闊的空間?!?/p>
HBM 和 AI
雖然計(jì)算是AI/ML最密集的部分,但如果沒(méi)有良好的內(nèi)存架構(gòu),這一切都無(wú)法實(shí)現(xiàn)。存儲(chǔ)和檢索萬(wàn)億次計(jì)算需要內(nèi)存。事實(shí)上,增加 CPU 并不能提高系統(tǒng)性能,因?yàn)閮?nèi)存帶寬不足以支持這些 CPU。這就是臭名昭著的 "內(nèi)存墻 "瓶頸。
Quadric首席營(yíng)銷(xiāo)官 SteveRoddy 表示,從最廣泛的定義來(lái)看,機(jī)器學(xué)習(xí)只是曲線擬合?!霸谟?xùn)練運(yùn)行的每次迭代中,你都在努力越來(lái)越接近曲線的最佳擬合。這是一個(gè) X,Y 圖,就像高中幾何一樣。大型語(yǔ)言模型基本上是同一件事,但是是 100 億維,而不是 2 維?!?/p>
因此,計(jì)算相對(duì)簡(jiǎn)單,但內(nèi)存架構(gòu)可能令人難以置信。
Roddy 解釋說(shuō):“其中一些模型擁有 1000 億字節(jié)的數(shù)據(jù),對(duì)于每次重新訓(xùn)練迭代,都必須通過(guò)數(shù)據(jù)中心的背板從磁盤(pán)上取出1000 億字節(jié)的數(shù)據(jù)并放入計(jì)算箱中。在兩個(gè)月的訓(xùn)練過(guò)程中,你必須將這組巨大的內(nèi)存值來(lái)回移動(dòng)數(shù)百萬(wàn)次。限制因素是數(shù)據(jù)的移入和移出,這就是為什么人們對(duì) HBM 或光學(xué)互連等從內(nèi)存?zhèn)鬏數(shù)接?jì)算結(jié)構(gòu)的東西感興趣。所有這些都是人們投入數(shù)十億美元風(fēng)險(xiǎn)投資的地方,因?yàn)槿绻芸s短距離或時(shí)間,就可以大大簡(jiǎn)化和縮短訓(xùn)練過(guò)程,無(wú)論是切斷電源還是加快訓(xùn)練速度?!?/p>
出于所有這些原因,高帶寬內(nèi)存被認(rèn)為是 AI/ML 的首選內(nèi)存。“它提供了某些訓(xùn)練算法所需的最大帶寬,”Rambus 的 Ferro 說(shuō)。“從你可以擁有多個(gè)內(nèi)存堆棧的角度來(lái)看,它是可配置的,這為你提供了非常高的帶寬?!?/p>
這就是人們對(duì) HBM 如此感興趣的原因?!拔覀兊拇蠖鄶?shù)客戶都是人工智能客戶,”Synopsys 的默多克說(shuō)。“他們正在 LPDDR5X 接口和HBM 接口之間進(jìn)行一項(xiàng)重大的基本權(quán)衡。唯一阻礙他們的是成本?!比欢?,人工智能的需求如此之高,以至于 HBM 減少延遲的前沿特征突然顯得過(guò)時(shí)且不足。這反過(guò)來(lái)又推動(dòng)了下一代 HBM 的發(fā)展。
“延遲正在成為一個(gè)真正的問(wèn)題,”Ferro說(shuō)?!霸?HBM 的前兩代中,我沒(méi)有聽(tīng)到任何人抱怨延遲。現(xiàn)在我們一直收到有關(guān)延遲的問(wèn)題。”Ferro 建議,鑒于當(dāng)前的限制,了解數(shù)據(jù)尤為重要?!八赡苁沁B續(xù)的數(shù)據(jù),例如視頻或語(yǔ)音識(shí)別。它可能是事務(wù)性的,就像財(cái)務(wù)數(shù)據(jù)一樣,可能非常隨機(jī)。如果知道數(shù)據(jù)是隨機(jī)的,那么設(shè)置內(nèi)存接口的方式將與流式傳輸視頻不同。這些是基本問(wèn)題,但也有更深層次的問(wèn)題。我要在存儲(chǔ)中使用的字長(zhǎng)是多少??jī)?nèi)存的塊大小是多少?對(duì)此了解得越多,設(shè)計(jì)系統(tǒng)的效率就越高。如果了解它,那么就可以定制處理器以最大限度地提高計(jì)算能力和內(nèi)存帶寬。我們看到越來(lái)越多的 ASIC 式 SoC 正在瞄準(zhǔn)特定市場(chǎng)細(xì)分市場(chǎng),以實(shí)現(xiàn)更高效的處理。”
降低成本
如果經(jīng)典的 HBM 實(shí)現(xiàn)是使用硅中介層,那么就有希望找到成本更低的解決方案?!斑€有一些方法可以在標(biāo)準(zhǔn)封裝中嵌入一小塊硅,這樣就沒(méi)有一個(gè)完整的硅中介層延伸到所有東西下面,”格林伯格說(shuō)。“CPU 和 HBM 之間只有一座橋梁。此外,在標(biāo)準(zhǔn)封裝技術(shù)上允許更細(xì)的引腳間距也取得了進(jìn)展,這將顯著降低成本。還有一些專(zhuān)有的解決方案,人們?cè)噲D通過(guò)高速 SerDes 類(lèi)型連接來(lái)連接存儲(chǔ)器,沿著 UCIE 的路線,并可能通過(guò)這些連接來(lái)連接存儲(chǔ)器。目前,這些解決方案是專(zhuān)有的,但我希望它們能夠標(biāo)準(zhǔn)化。”
Greenberg表示,可能存在平行的發(fā)展軌跡:“硅中介層確實(shí)提供了盡可能細(xì)的引腳間距或線間距——基本上是用最少的能量實(shí)現(xiàn)最大的帶寬——所以硅中介層將永遠(yuǎn)存在。但如果一個(gè)行業(yè)能夠聚集在一起并決定一個(gè)適用于標(biāo)準(zhǔn)封裝的內(nèi)存標(biāo)準(zhǔn),那么就有可能提供類(lèi)似的帶寬,但成本卻要低得多?!?/p>
人們正在不斷嘗試降低下一代的成本?!芭_(tái)積電已宣布他們擁有三種不同類(lèi)型的中介層,”Ferro 說(shuō)?!八麄冇幸粋€(gè) RDL 中介層,他們有硅中介層,他們有一些看起來(lái)有點(diǎn)像兩者的混合體。還有其他技術(shù),例如如何完全擺脫中介層??赡軙?huì)在接下來(lái)的 12 或 18 個(gè)月內(nèi)看到一些如何在頂部堆疊 3D 內(nèi)存的原型,理論上可以擺脫中介層?!?/p>
解決該問(wèn)題的另一種方法是使用較便宜的材料。“正在研究非常細(xì)間距的有機(jī)材料,以及它們是否足夠小以處理所有這些痕跡,”Ferro說(shuō)?!按送猓琔CIe是通過(guò)更標(biāo)準(zhǔn)的材料連接芯片的另一種方式,以節(jié)省成本。但同樣,仍然必須解決通過(guò)這些基材的數(shù)千條痕跡的問(wèn)題。”
Murdock希望通過(guò)規(guī)模經(jīng)濟(jì)來(lái)削減成本?!半S著 HBM 越來(lái)越受歡迎,成本方面將有所緩解。HBM 與任何 DRAM 一樣,歸根結(jié)底都是一個(gè)商品市場(chǎng)。在中介層方面,我認(rèn)為下降速度不會(huì)那么快。這仍然是一個(gè)需要克服的挑戰(zhàn)?!?/p>
但原材料成本并不是唯一的考慮因素?!斑@還取決于 SoC 需要多少帶寬,以及電路板空間等其他成本,”Murdock 說(shuō)。“對(duì)于那些想要高速接口并需要大量帶寬的人來(lái)說(shuō),LPDDR5X 是一種非常受歡迎的替代方案,但與 HBM 堆棧的通道數(shù)量相匹配所需的 LPDDR5X 通道數(shù)量相當(dāng)大。雖然有大量的設(shè)備成本和電路板空間成本,這些成本可能令人望而卻步。僅就美元而言,也可能是一些物理限制促使人們轉(zhuǎn)向 HBM,盡管從美元角度來(lái)看它更昂貴?!?/p>
其他人對(duì)未來(lái)成本削減則不太確定。Objective Analysis 首席分析師 Jim Handy 表示:“降低HBM 成本將是一項(xiàng)挑戰(zhàn)。由于將 TSV 放置在晶圓上的成本很高,因此加工成本已經(jīng)明顯高于標(biāo)準(zhǔn) DRAM。這使得它無(wú)法擁有像標(biāo)準(zhǔn) DRAM 一樣大的市場(chǎng)。由于市場(chǎng)較小,規(guī)模經(jīng)濟(jì)導(dǎo)致成本在一個(gè)自給自足的過(guò)程中更高。體積越小,成本越高,但成本越高,使用的體積就越少。沒(méi)有簡(jiǎn)單的方法可以解決這個(gè)問(wèn)題?!?/p>
盡管如此,Handy 對(duì) HBM 的未來(lái)持樂(lè)觀態(tài)度,并指出與 SRAM 相比,它仍然表現(xiàn)出色。“HBM 已經(jīng)是一個(gè)成熟的 JEDEC 標(biāo)準(zhǔn)產(chǎn)品,”他說(shuō)?!斑@是一種獨(dú)特的 DRAM 技術(shù)形式,能夠以比 SRAM 低得多的成本提供極高的帶寬。它還可以通過(guò)封裝提供比 SRAM 更高的密度。它會(huì)隨著時(shí)間的推移而改進(jìn),就像 DRAM 一樣。隨著接口的成熟,預(yù)計(jì)會(huì)看到更多巧妙的技巧來(lái)提高其速度。”
事實(shí)上,盡管面臨所有挑戰(zhàn),HBM 還是有理由保持樂(lè)觀?!皹?biāo)準(zhǔn)正在迅速發(fā)展,” Ferro補(bǔ)充道?!叭绻憧纯?HBM 如今的發(fā)展,會(huì)發(fā)現(xiàn)它大約以兩年為間隔,這確實(shí)是一個(gè)驚人的速度?!?
審核編輯:劉清
-
DRAM芯片
+關(guān)注
關(guān)注
1文章
84瀏覽量
18011 -
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238262 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8406瀏覽量
132565 -
TSV技術(shù)
+關(guān)注
關(guān)注
0文章
17瀏覽量
5673 -
HBM
+關(guān)注
關(guān)注
0文章
379瀏覽量
14745
原文標(biāo)題:HBM 的未來(lái):必要但昂貴
文章出處:【微信號(hào):ICViews,微信公眾號(hào):半導(dǎo)體產(chǎn)業(yè)縱橫】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論