編者按
近年來,因為AI芯片的火熱,HBM作為當中一個核心組件,在近年來的關注熱度水漲船高。關于HBM技術的細節,可以參考半導體行業觀察之前的文章《存儲巨頭競逐HBM》。在本文中,我們將回顧HBM的崛起故事,幫助大家了解這個高帶寬內存的前世今生。
以下為文章正文:
2015年6月17日,AMD中國在北京望京召開發布會。
這場發布會上,媒體的目光全集中在某款重磅產品之上,它就是全新的Radeon R9 Fury X顯卡,其采用代號為Fiji XT(斐濟群島)的28nm制程GPU核心,采用4GB HBM堆疊顯存,擁有64個計算單元(CU)、4096個GCN架構流處理器(SP),核心頻率為1050MHz,單精度浮點性能達到了8.6TFlops,而 HBM顯存擁有4096 bit帶寬,等效頻率1Ghz,顯存總帶寬達到了512GB/S,除了顯存容量外,各項配置無愧于旗艦之名。
雖說這是HBM顯存首次亮相,但AMD早已聯合SK海力士等廠商潛心研發多年,而Fury X作為首款搭載HBM的顯卡,自然會被AMD寄予厚望。
時任AMD CEO的蘇姿豐表示,HBM采用堆疊式設計實現存儲速度的提升,大幅改變了GPU邏輯結構設計,DRAM顆粒由“平房設計”改為“樓房設計”,所以HBM顯存能夠帶來遠遠超過當前GDDR5所能夠提供的帶寬上限,其將率先應用于高端PC市場,和英偉達(NVIDIA)展開新一輪的競爭。
針對R9 Fury X僅有4GB顯存,而R9?290X新版本卻配備了8GB GDDR5顯存這一問題,AMD事業群CTO?Joe?Macri還特意回應表示,顯存容量其實并不是問題,GDDR5可以做到很大,但也有著很嚴重的浪費,其實有很多空間都未得到充分利用,AMD未來會深入研究如何更高效率地利用這4GB?HBM顯存。
八年多時間過去了,AMD官網上掛著的RX 7000系列全部采用GDDR6顯存,當初辛辛苦苦和海力士合作多年才得來的HBM顯存早已不見蹤影,只有用于AI計算的加速卡還殘留著當初的豪言壯語。
而曾經的對手英偉達,用A100和H100兩塊顯卡,輕松拿下了萬億美元的市值,坐穩了AI時代的寶座,而它們用的顯存,正是AMD當初力推的HBM。
苦研七年作嫁衣
時間再倒回2015年,AMD事業群CTO Joe Macri在紐約分析師大會上,接受了媒體的專訪,針對首次落地應用的HBM做了一系列回答。
Macri表示,AMD自2009年開始,就已經著手HBM的研發工作,在長達7年的時間里,AMD與SK海力士在內的眾多業界伙伴一起完成了HBM的最終落地。
他首先談到了HBM顯存的必要性,2015年主流的顯存規格是GDDR5,經過多年的使用和發展已經進入了瓶頸期,迫切需要新的替代技術,簡單來講,就是GPU的功耗不可能無限制地增長下去,越來越大的高規格顯存正在擠壓GPU核心的功耗空間,以前一張卡就200W功耗,顯存分到30W,而之后的大容量顯存卻水漲船高,60W、70W、80W……再加上核心的提升,一張顯卡往往有五六百瓦的功耗,也難怪被稱之為核彈卡。
Macri覺得,顯存面臨的關鍵問題就是顯存帶寬,它卻決于顯存的位寬和頻率,位寬都是GPU決定的,太高了會嚴重增大GPU芯片面積和功耗,所以高端顯卡一直停留在384/512位。同時,GDDR5的頻率已經超過7GHz,提升空間不大了。另外,GDDR5(包括以前的顯存)都面臨著“占地面積”的問題。一大堆顯存顆粒圍繞在GPU芯片周圍,這已經是固定模式,GDDR5再怎么縮小也無法改變,而且已經不可能再繼續大幅度縮小了。
即使在今天來看,AMD這番關于顯卡功耗的話也挑不出什么毛病,GDDR5的頻率確實到了上限,而功耗問題也一直困擾著廠商和消費者,英偉達最新的RTX 40系顯卡為了縮減功耗和成本,就對顯存位寬開了刀,功耗倒是小了,但是跑高分辨率游戲又變得不利索了。
事實上,行業內大部分人都覺得GDDR已經不行了到頭了,但還是捏著鼻子繼續用,因為大家的共識是,成熟且落后的技術總比先進但不可靠的技術好,只有AMD徹底改變了思路,畢竟這家公司從誕生起,就不缺乏改變的勇氣。
勇氣是有了,不過AMD能夠在顯存上革新,還是極大程度上受到了大洋彼岸日本的啟發。
1999年,日本超尖端電子技術開發機構(ASET)開始資助采用TSV技術開發的3D IC芯片,該項目名為“高密度電子系統集成技術研發”;2004年,爾必達開始研發TSV技術,同時接受了來自日本政府的新能源與產業技術開發組織(NEDO)的資助;2006年,爾必達與NEC、OKI共同開發出采用TSV技術的堆棧8顆128Mb的DRAM架構……
什么是TSV呢?TSV全稱為Through Silicon Via,是一種新型三維堆疊封裝技術,主要是將多顆芯片(或者晶圓)垂直堆疊在一起,然后在內部打孔、導通并填充金屬,實現多層芯片之間的電連接。相比于傳統的引線連接多芯片封裝方式,TSV能夠大大減少半導體設計中的引線使用量,降低工藝復雜度,從而提升速度、降低功耗、縮小體積。
這項技術不光能運用于DRAM領域,在NAND和CIS上也有廣闊的前景,其最早就是在閃存上得以實踐:東芝在2007 年 4 月推出了具有 8 個堆疊芯片的 NAND 閃存芯片,隨后海力士又在 2007 年 9 月推出了具有 24 個堆疊芯片的 NAND 閃存芯片。
2009年,爾必達宣布已成功開發業內第一款TSV DRAM芯片,其使用8顆1GB DDR3 SDRAM堆疊封裝而來,并在2011年6月開始交付樣品,TSV技術正式走上內存這個大舞臺。
緊隨其后的是韓國與美國廠商,2011年3月,SK海力士宣布采用TSV技術的16GB DDR3內存(40nm級)研發成功, 9月,三星電子推出基于TSV技術的3D堆疊32GB DDR3(30nm級),10月,三星電子和美光科技聯合宣布推出基于 TSV 技術的混合內存立方(HMC) 技術。
AMD在收購ATI后,就已經打起了顯存的主意,但想要從頭研發全新的顯存標準,光靠自己的GPU部門閉門造車顯然是不夠的,于是AMD拉來了幾個至關重要的合作伙伴:有3D 堆疊內存經驗的韓廠海力士,做硅中介層的聯電,以及負責封裝測試的日月光和Amkor。
HBM應運而生,前面提到了GDDR陷入到了內存帶寬和功耗控制的瓶頸,而HBM的思路,就是用TSV技術打造立體堆棧式的顯存顆粒,讓“平房”進化為“樓房”,同時通過硅中介層,讓顯存連接至GPU核心,并封裝在一起,完成顯存位寬和傳輸速度的提升,可謂是一舉兩得。
2013年,經過多年研發后,AMD和SK海力士終于推出了HBM這項全新技術,還被定為了JESD235行業標準,HBM1的工作頻率約為1600 Mbps,漏極電源電壓為1.2V,芯片密度為2Gb(4-hi),其帶寬為4096bit,遠超GDDR5的512bit。
除了帶寬外,HBM對DRAM能耗的影響同樣重要,同時期的 R9 290X在DRAM上花費了其250W額定功耗的15-20%,即大約38-50W的功耗,算下來GDDR5每瓦功耗的帶寬為10.66GB/秒,而HBM每瓦帶寬超過35GB/秒,每瓦能效提高了3倍。
此外,由于GPU核心和顯存封裝在了一起,還能一定程度上減輕散熱的壓力,原本是一大片的散熱區域,濃縮至一小塊,散熱僅需針對這部分區域,原本動輒三風扇的設計,可以精簡為雙風扇甚至是單風扇,變相縮小了顯卡的體積。
反正好處多得數不清楚,不論是AMD和SK海力士,還是媒體和眾多玩家,都認定了這才是未來的顯存,英偉達主導的GDDR已經過時了,要被掃進歷史的垃圾堆了。
壞處嘛,前文中提到的旗艦顯卡僅支持4GB顯存算一個,畢竟高帶寬是用來跑高分辨率的,結果顯存大小縮水直接讓HBM失去了實際應用意義。
而價格更是壓倒AMD的最后一根稻草:HBM1的成本已不可考,但8GB HBM2的成本約150美元,硅中介層成本約25美元,總計175美元,同時期的8GB GDDR5僅需52美元,在沒有考慮封測的情況下,HBM成本已經是GDDR的三倍左右,一張RX Vega 56零售價才400美元,一半的成本都花在了顯存之上,GPU部門本來是要補貼CPU部門的,結果現在情況卻要反過來,誰又能擔待得起呢?
因而AMD火速取消了后續顯卡的HBM顯存搭載計劃,老老實實跟著英偉達的步伐走了,在RX 5000系列上直接改用了GDDR6顯存,HBM在AMD的游戲顯卡上二世而亡。
反觀英偉達,卻是以逸待勞,2016年4月,英偉達發布了Tesla P100顯卡,內置16GB HBM2顯存,帶寬可達720GB/s,具備21 Teraflops的峰值人工智能運算性能。
英偉達在HBM上并未像AMD一樣深耕多年,怎么突然反手就是一張搭載了HBM2的顯卡,對AMD發起了反攻的號角呢?
背后的原因其實還頗有些復雜,Tesla P100顯卡所用的HBM2顯存,并非來自于AMD的合作伙伴SK海力士,而是隔壁的三星電子,同樣是韓廠的它,在基于TSV技術的3D堆疊內存方面的開發并不遜色于海力士多少,在奮起直追的情況下,很快就縮小了差距,而英偉達正有開發HBM相關顯卡之意,二者一拍即合。
至于AMD與聯電、日月光、Amkor等好不容易搞定的硅中介層與2.5D封測,英偉達則是找到了業界的另一個大佬——臺積電,看上了它旗下的先進封裝技術CoWoS(Chip-on-Wafer-on-Substrate),其早在2011年就推出了這項技術,并在2012年首先應用于Xilinx的FPGA上,二者同樣是一拍即合。
此后的故事無需贅言,英偉達從P100到V100,從A100再到H100,連續數張高算力的顯卡幾乎成為了AI訓練中的必備利器,出貨量節節攀升,甚至超越了傳統的游戲顯卡業務,而HBM也在其中大放光彩,成為了鑲嵌著的最耀眼的一顆寶石。
起了個大早,趕了個晚集,是對AMD在HBM上的最好概括,既沒有憑借HBM在游戲顯卡市場中反殺英偉達,反而被英偉達利用HBM鞏固了AI計算領域的地位,白白被別人摘了熟透甜美的桃子。
三家分內存
在AMD和英偉達這兩家GPU廠商爭鋒相對之際,三家領先的內存廠商也沒閑著,開始了在HBM市場的你追我趕的歷程。
2013年,SK海力士宣布成功研發HBM1,定義了這一顯存標準,但它和AMD一樣,好不容易得來的優勢卻沒保持得太久.
2016年1月,三星宣布開始量產4GB HBM2 DRAM,并在同一年內生產8GB HBM2 DRAM,后來者居上,完成了對本國同行的趕超,與HBM1相比,顯存帶寬實現了翻倍。
2017年下半年,SK海力士的HBM2姍姍來遲,終于宣布量產;2018年1月,三星宣布開始量產第二代8GB HBM2“Aquabolt”。
2018年末,JEDEC推出HBM2E規范,以支持增加的帶寬和容量。當傳輸速率上升到每管腳3.6Gbps時,HBM2E可以實現每堆棧461GB/s的內存帶寬。此外,HBM2E支持最多12個DRAM的堆棧,內存容量高達每堆棧24GB。與HBM2相比,HBM2E具有技術更先進、應用范圍更廣泛、速度更快、容量更大等特點。
2019年8月,SK海力士宣布成功研發出新一代“HBM2E”;2020年2月,三星也正式宣布推出其16GB HBM2E產品“Flashbolt”,于2020年上半年開始量產。
2022年1月,JEDEC組織正式發布了新一代高帶寬內存HBM3的標準規范,繼續在存儲密度、帶寬、通道、可靠性、能效等各個層面進行擴充升級,其傳輸數據率在HBM2基礎上再次翻番,每個引腳的傳輸率為6.4Gbps,配合1024-bit位寬,單顆最高帶寬可達819GB/s。
而SK海力士早在2021年10月就發布了全球首款HBM3,并于2022年6月正式量產,供貨英偉達,擊敗了三星,再度于HBM上拿到了技術和市場優勢。
三星自然也不甘示弱,在它發布的路線圖中,2022年HBM3技術已經量產,2023年下半年開始大規模生產,預計2024年實現接口速度高達7.2Gbps的下一代HBM技術——HBM3p,將數據傳輸率進一步提升10%,從而將堆疊的總帶寬提升到5TB/s以上。
講到這里,大家不免會心生疑問,都說了是三家分內存,這三星和海力士加一塊就兩家啊,還都是韓國的,另外一家跑哪去了呢?
身在美國的美光當然沒有忽視顯存市場,作為爾必達的收購者,它對于3D堆疊的TSV技術怎么也不會陌生,甚至在HBM發布之前,還有不少TSV技術方面的優勢。
但是美光卻沒跟著AMD或英偉達去鼓搗HBM技術,而是回頭選擇了英特爾,搞出了HMC(混合內存)技術,雖然也使用了TSV,但它有自己的控制器芯片,并且完全封裝在PCB基板之上,和HBM截然不同,也完全不兼容。
2011年9月,美光正式宣布了第一代HMC,并在2013年9月量產了第二代HMC,但響應者卻寥寥無幾,第一個采用 HMC 內存的處理器是富士通的SPARC64 XIfx,其搭載于2015 年推出的富士通PRIMEHPC FX100 超算,而后就鮮見于各類產品中。
隨著2018年8月,美光宣布正式放棄HMC后,才匆匆忙忙轉向GDDR6和HBM產品的研發,幸好3D堆疊技術的底子還在那里,不至于說完全落后于兩個韓廠。2020年,美光正式表示將開始提供HBM2產品,用于高性能顯卡,服務器處理器等產品,其在財報中預計,將在2024年第一季度量產HBM3產品,最終趕上目前領先的競爭對手。
AI大潮仍然席卷全球,而英偉達H100和A100顯卡依舊火熱,HBM作為內存市場的新蛋糕,卻是最鮮美的一塊。芯片行業咨詢公司 SemiAnalysis 表示,HBM 的價格大約是標準 DRAM 芯片的五倍,為制造商帶來了更大的總利潤。目前,HBM 占全球內存收入的比例不到 5%,但 SemiAnalysis 項目預計到 2026 年將占到總收入的 20% 以上。
這塊鮮美的蛋糕大部分留給了先行者,集邦咨詢調查顯示,2022年三大原廠HBM市占率分別為SK海力士50%、三星約40%、美光約10%,十成里面占一成,美光自認為產品不遜于韓廠,但市場卻從不會為某個自恃技術領先的廠商網開一面。
總結
當初爾必達的坂本幸雄認為日本半導體輸人不輸陣,時任美光CEO莫羅特亞在接受采訪時也表示,AI 領域不光有 HBM,還包含高密度 DDR5、美光定制LP DRAM以及一部分圖形內存,概括來說,就是輸了HBM但還沒在AI上認輸。
倘若讓這倆CEO總結失敗的教訓,恐怕只能發出一句“時也,命也,運也,非吾之所能也”之淚的感慨吧,輸當然是不可能輸的,美光和爾必達即使倒閉也不會說技術不行,把過錯歸咎于市場,落了個一身輕松。
再回過頭來看,AMD 在2015年發布R9 Fury X時的判斷錯了嗎?當然沒錯,內存帶寬的的確確到了瓶頸,從GDDR5到GDDR6X幾乎沒有進步,但在游戲顯卡,可以采用大型緩存作為幀緩沖區,讓成本較低的GDDR接著上路,但數據中心和AI加速卡的帶寬問題卻非HBM不可,成本在這一領域反倒成了最不起眼的問題。
如今AMD調轉船頭,再戰AI領域,希望HBM能讓他們在這個市場騰飛。
-
處理器
+關注
關注
68文章
19259瀏覽量
229653 -
HBM
+關注
關注
0文章
379瀏覽量
14745 -
AI芯片
+關注
關注
17文章
1879瀏覽量
34992
原文標題:HBM的崛起!
文章出處:【微信號:IC學習,微信公眾號:IC學習】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論