當前全世界最快的超級計算機是美國田納西州橡樹嶺國家實驗室打造的Frontier,該計算機運算功能強大,運算速度比其他7臺最快的超級計算機的總和還要高,是運算速度排名第二的計算機的2倍多。Frontier不僅是第一臺突破每秒百億億次計算(exaflops)門檻的計算機,還在全球高能效超級計算機中排名第二。現在,協作制造Frontier的超微半導體公司(AMD)和惠普企業揭開了該超級計算機正常運轉的電子訣竅。
Frontier由74個惠普企業Cray EX超級計算機柜組成,這些機柜共容納超過9400個CPU。每個節點都包含1個優化的第三代AMD EPYC 64核2千兆赫Trento處理器,用于一般任務處理,以及4個AMD Instinct MI250X加速器,用于高度并行超級計算和人工智能(AI)運算,此外,還有5太字節閃存,協助向GPU快速輸送數據。Frontier總共包含9408個CPU、37632個GPU和8730112個內核,這些組件由145千米的網絡電纜連接在一起。美國田納西州橡樹嶺國家實驗室表示,這臺全球領先的超級計算機的功耗約為21兆瓦。
2022年5月,在德國漢堡的全球高性能計算大會上,Frontier展示了每秒1.1 exaflops的整體性能,成為全球500強超級計算機的巔峰。它還可能變得更快,理論峰值性能為2 exaflops。
另外,Frontier在最新的全球綠色500強中排名第二,該排名衡量超級計算機的能源效率。(這并不影響它在整體性能上成為全球最快的超級計算機。)不過,日本的MN-3作為先前全球綠色500強的榜首,每瓦能實現39.38 gigaflops(每秒10億浮點運算),而Frontier的測試開發系統為每瓦52.23 gigaflops。
Frontier成功的一個關鍵在于采用AMD的Infinity Fabric互連架構,每個節點內CPU和GPU連接方式有助于增加CPU和GPU的一致性,即它們的共享數據視圖完全相同。
得克薩斯州奧斯汀AMD公司GPU和加速處理數據中心的副總裁布拉德?麥克雷迪(Brad McCredie)說:“一致性對于提升性能非常重要。它能幫助你確保分配合適的處理器運行合適的工作負載。很容易使并行CPU處理小任務和GPU處理大型任務。”
在Frontier的開發中,AMD表示,其面對的最大的挑戰是功率性能。“有很多文獻說,要達到每秒百億億次運算,需要幾十萬個GPU和150兆到500兆瓦功率,而我們想要使用幾萬個GPU和20兆瓦功率來實現。”麥克雷迪說,“因此,開發過程中上上下下每個人都在追求效率。”
例如,Frontier的每個GPU上都緊密結合一個128千兆字節的高帶寬內存。這可以幫助GPU克服計算機性能的一個著名瓶頸:內存和處理之間的數據傳輸。
此外,Frontier的每個GPU還使用了臺積電生產的先進6納米節點芯片。因此,“它們執行雙精度浮點運算的速度與單精度浮點運算相同,這是一項重大創新。”麥克雷迪說。
借助這些進步,Frontier只需幾萬個GPU,而不需要幾十萬個GPU。“它承擔所有的并行管理,將程序員身上的負擔轉移到硬件上。這使得該系統更易于編程。”麥克雷迪說。
一個“計算刀片”上有2個AMD節點,74個機柜中的每個都裝有64個這種刀片。計算刀片通過惠普企業Slingshot連接器互連,每個連接器都有一個專門設計的64端口交換機,可提供每秒12.8太字節的網絡帶寬。各組刀片的連接采用一種被稱為蜻蜓的拓撲結構,數百個機柜和數十萬個節點都可以相互通信,任意兩個節點之間最多可以跳轉3次。
“Slingshot的部署得到了高度優化,根據所需距離合理采用能效最高的電纜,直連銅纜和有源光纜。”惠普企業資深會員和HPC/MCS的首席技術官邁克?伍德克(Mike Woodacre)說。他補充道,去除低效的通用器件“顯著降低了線纜的能耗”。
機柜中計算機刀片的降溫采用了液體冷卻。惠普企業高性能計算和人工智能系統副總裁杰拉爾德?克萊恩(Gerald Kleyn)表示,這臺超級計算機的密度能夠達到傳統風冷結構的5倍。其結果是,這種緊湊的系統反過來大大降低了布線要求和運行費用。
“突破百億億次計算的門檻很重要,同時位列全球綠色500強第二更是非凡。”克萊恩說。此外,他說,在疫情期間和全球性供應鏈問題的環境下,實現這一點“全靠美國橡樹嶺國家實驗室、惠普企業和AMD之間強大的團隊合作”。
Frontier下一步的工作包括繼續測試和驗證該系統。該實驗室表示,2022年后期將繼續進行最后驗收和早期科學應用,計劃于2023年初全面開放應用于科學項目。
已經計劃在Frontier展開的項目包括癌癥研究、藥物研發、核聚變、特殊材料、超高效引擎和恒星爆炸。這臺機器的目標是將完成這類工作所需的時間從幾周縮短到幾個小時,從幾個小時縮短到幾秒。
“Frontier可幫助科學家們開展更多的科學研究,這意味著更接近高效清潔能源,更快發現有效的病毒疫苗。”麥克雷迪說,“Frontier成為首個百億億次級計算機,這是我們整個征途的開始。看到美國橡樹嶺國家實驗室的研究人員致力于解決氣候、能源和疫情方面的問題,以及人類面臨的其他重大挑戰,我們已經從制造一臺強大的計算機走向想要制造一些對每個人都有幫助的東西。”
審核編輯 :李倩
-
amd
+關注
關注
25文章
5470瀏覽量
134233 -
計算機
+關注
關注
19文章
7508瀏覽量
88070 -
超級計算機
+關注
關注
2文章
462瀏覽量
41953
原文標題:首臺百億億次計算機內部的秘密
文章出處:【微信號:bdtdsj,微信公眾號:中科院半導體所】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論