電子發燒友網報道(文/周凱揚)作為在TOP500、GREEN500(單機柜)和HPL-AI三榜排名第一的超算系統,Frontier被列為第一完全不是浪得虛名。作為首個公開突破E級的超算,Frontier的通用算力已經達到了1.1 exaflops,能效比為52.23 gigaflops/watt,AI算力更是達到了可怕的6.88 exaflops。但就是這樣一臺冠絕群雄的超算,也在部署上遇到了供應問題。
狂堆硬件的Frontier
實現Frontier強大性能靠的并非只是單個強勁的硬件,還有龐大的系統規模。整個Frontier超算系統用到了74個慧與科技的Cray EX全液冷超算機柜和9408塊AMD EYPC Trento CPU,Trento 是AMD Milan CPU的優化版,同樣是64核128線程的處理器,但在時鐘速度和能效上有所加強。至于為何沒用上引入3D垂直緩存技術的Milanx-X芯片,那是因為這塊處理器今年3月份才正式出貨,如果拿它來打造Frontier的話,這搶發首臺E級超算的機會很可能就失之交臂了。
除了CPU以外,Frontier還集成了37632塊AMD MI250X GPU,37632塊慧與的Cassini NIC,9.2PB的內存(4.6 PB HBM2e+4.6PB DDR4),32PB節點本地存儲和716PB的中心存儲。整個系統共由9408個節點組成,每臺機柜包含128個節點,重量接近400公斤,龐大的系統也將功耗推至恐怖的29MW。除了MW級的液冷引擎外,Frontier還在外部部署了EVAPCO的冷卻塔,確保Frontier能夠保證峰值性能。
供應鏈噩夢Frontier的部署計劃正式始于2018年,為了給Frontier騰出空間,原本屬于Titan超算的數據中心被拆除,改建為Frontier的數據中心,泰坦也于2019年正式退役。同年,慧與的Cray系統成功拿下了美國能源部的訂單,成了Frontier的基礎構成部分。
但事實上,原本Frontier應該在2021年就部署完畢的,然而由于供應鏈上各個方面的影響,直到2021年秋季,才只完成了系統的交付,直到今年五月才完成最終的安裝、優化和一次成功的E級HPL測試。當然了,Frontier最后能夠爭下首發E級超算,還是因為英特爾的7nm工藝也就是如今的Intel 4遇到了問題,被反復推遲,這樣才讓原本打算首發E級的Aurora超算,錯失了這個殊榮。
但對于Frontier超級計算機這種大型集成系統來說,全球供應鏈各個環節上的問題基本也都撞上了。首先遇上問題的就是Frontier的兩大直接供應商,慧與和AMD。2020年末,Frontier的零部件短缺到了最嚴重的地步。整個Frontier系統要用到685個不同料號的零部件,其中167個因為缺貨問題而受到影響,總數達到了200萬個。
慧與表示,當它們開始下單用于機柜和Slingshot互聯系統的部件時,不少供應商都將訂單的交期加上了6個月甚至是一年,這時連離打造好第一個機柜都還缺12種零部件。AMD就更加不用說了,2020年到2021年是全球GPU缺貨最嚴重的一段時間,雖然大部分都認為受影響的只有被挖礦潮波及的消費級GPU,但對于AMD來說,他們在GPU加速卡零部件上的供應也遇到了問題,就拿MI250這張卡來說,且不說GPU芯片的產能供應是否充足,當時打造這一張GPU加速卡就有15種零部件需要補全。
波及的不只是CPU和GPU要知道這些短缺問題影響的不只是CPU和GPU芯片,還有不少零部件當時都處于全球缺貨最糟糕的狀態,比如穩壓器、晶振和功率模塊。為了確保能在2021年交付,慧與不得不每周甚至每天打給次級供應商,詢問交期的問題。慧與和AMD還組了個15人的小團隊,他們唯一的工作就是尋找哪有Frontier所需的零部件,或是可以替代的部件,比如去和經銷商協調,詢問分銷商的庫存,或是找其他同樣由于芯片短缺而無法出貨的公司,詢問他們是否愿意出手現在已有的零部件。
正是因為在這樣的努力下,Frontier終于在去年7月將缺失的167種零部件減少至了1種,而這依然缺失的一種,就是用于打造慧與Slingshot 11互聯交換機刀片的晶振,它們已有的晶振只能滿足63臺機柜的需求,還差8000多個晶振才能完成剩下11臺機柜的交付。而這時候恰好又是東南亞地區疫情肆虐,愛普生等廠商的晶振工廠停工的時期,而這類智能NIC又需要超低噪聲的高性能晶振。接著他們又花了3周時間才找齊這些晶振,這才在10月完成了最后一個機柜的交付。
凌晨滿功耗運轉的Frontier / 美國橡樹嶺國家實驗室
但即便完成了交付,相關的工作并沒有結束,超算并不像大家平日里動手組裝的電腦一樣,一旦安裝完畢就能跑出應有的性能。恰恰相反,超算系統所有部件到位后,還要經歷密集的測試、優化和維護工作,于是Frontier的研究人員白天就在更新軟件優化系統,晚上就讓Frontier跑HPL之類的性能測試,最終趕在TOP500 6月榜單結束測試結果收集前,提交了一次成功的E級跑分。
結語其實完成這么緊湊的部署安排對Frontier并不容易,固然慧與和AMD有應對供應鏈管理方面的經驗,但與此同時,和Frontier幾乎同樣配置只是規模不同的歐洲超算LUMI也面臨著缺貨的困境,所以這兩家公司幾乎是承擔著雙線交付任務。但好在去年下半年供應開始緩解之后,兩臺超算的任務也都最終完成了。
此外,這兩年經歷的供應鏈噩夢想必也影響到了其他的超算部署,就拿國內的兩臺E級超算來說,目前都只是單機柜的測試系統的消息時有傳出,并沒有正式公開完整系統的性能參數,或多或少也是被供應問題拖慢了進度,否則這個風頭不可能不出來搶的。畢竟在硬件迭代如此迅速的背景下,像天河二號過去那樣連續穩坐榜首數年的情況已經很難復現了,但首個E級超算的稱號可是無論多少年后都搶不走的。
-
處理器
+關注
關注
68文章
19259瀏覽量
229653 -
硬件
+關注
關注
11文章
3312瀏覽量
66201 -
AI算力
+關注
關注
0文章
72瀏覽量
8653
原文標題:被供應鏈問題拖慢的超算部署
文章出處:【微信號:elecfans,微信公眾號:電子發燒友網】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論