色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Frontier為何在部署上遇到供應問題

lPCU_elecfans ? 來源:電子發燒友網 ? 作者:電子發燒友網 ? 2022-07-27 10:17 ? 次閱讀

電子發燒友網報道(文/周凱揚)作為在TOP500、GREEN500(單機柜)和HPL-AI三榜排名第一的超算系統,Frontier被列為第一完全不是浪得虛名。作為首個公開突破E級的超算,Frontier的通用算力已經達到了1.1 exaflops,能效比為52.23 gigaflops/watt,AI算力更是達到了可怕的6.88 exaflops。但就是這樣一臺冠絕群雄的超算,也在部署上遇到了供應問題。

狂堆硬件的Frontier

實現Frontier強大性能靠的并非只是單個強勁的硬件,還有龐大的系統規模。整個Frontier超算系統用到了74個慧與科技的Cray EX全液冷超算機柜和9408塊AMD EYPC Trento CPU,Trento 是AMD Milan CPU的優化版,同樣是64核128線程的處理器,但在時鐘速度和能效上有所加強。至于為何沒用上引入3D垂直緩存技術的Milanx-X芯片,那是因為這塊處理器今年3月份才正式出貨,如果拿它來打造Frontier的話,這搶發首臺E級超算的機會很可能就失之交臂了。

除了CPU以外,Frontier還集成了37632塊AMD MI250X GPU,37632塊慧與的Cassini NIC,9.2PB的內存(4.6 PB HBM2e+4.6PB DDR4),32PB節點本地存儲和716PB的中心存儲。整個系統共由9408個節點組成,每臺機柜包含128個節點,重量接近400公斤,龐大的系統也將功耗推至恐怖的29MW。除了MW級的液冷引擎外,Frontier還在外部部署了EVAPCO的冷卻塔,確保Frontier能夠保證峰值性能。

供應鏈噩夢Frontier的部署計劃正式始于2018年,為了給Frontier騰出空間,原本屬于Titan超算的數據中心被拆除,改建為Frontier的數據中心,泰坦也于2019年正式退役。同年,慧與的Cray系統成功拿下了美國能源部的訂單,成了Frontier的基礎構成部分。

但事實上,原本Frontier應該在2021年就部署完畢的,然而由于供應鏈上各個方面的影響,直到2021年秋季,才只完成了系統的交付,直到今年五月才完成最終的安裝、優化和一次成功的E級HPL測試。當然了,Frontier最后能夠爭下首發E級超算,還是因為英特爾的7nm工藝也就是如今的Intel 4遇到了問題,被反復推遲,這樣才讓原本打算首發E級的Aurora超算,錯失了這個殊榮。

但對于Frontier超級計算機這種大型集成系統來說,全球供應鏈各個環節上的問題基本也都撞上了。首先遇上問題的就是Frontier的兩大直接供應商,慧與和AMD。2020年末,Frontier的零部件短缺到了最嚴重的地步。整個Frontier系統要用到685個不同料號的零部件,其中167個因為缺貨問題而受到影響,總數達到了200萬個。

慧與表示,當它們開始下單用于機柜和Slingshot互聯系統的部件時,不少供應商都將訂單的交期加上了6個月甚至是一年,這時連離打造好第一個機柜都還缺12種零部件。AMD就更加不用說了,2020年到2021年是全球GPU缺貨最嚴重的一段時間,雖然大部分都認為受影響的只有被挖礦潮波及的消費級GPU,但對于AMD來說,他們在GPU加速卡零部件上的供應也遇到了問題,就拿MI250這張卡來說,且不說GPU芯片的產能供應是否充足,當時打造這一張GPU加速卡就有15種零部件需要補全。

波及的不只是CPU和GPU要知道這些短缺問題影響的不只是CPU和GPU芯片,還有不少零部件當時都處于全球缺貨最糟糕的狀態,比如穩壓器、晶振和功率模塊。為了確保能在2021年交付,慧與不得不每周甚至每天打給次級供應商,詢問交期的問題。慧與和AMD還組了個15人的小團隊,他們唯一的工作就是尋找哪有Frontier所需的零部件,或是可以替代的部件,比如去和經銷商協調,詢問分銷商的庫存,或是找其他同樣由于芯片短缺而無法出貨的公司,詢問他們是否愿意出手現在已有的零部件。

正是因為在這樣的努力下,Frontier終于在去年7月將缺失的167種零部件減少至了1種,而這依然缺失的一種,就是用于打造慧與Slingshot 11互聯交換機刀片的晶振,它們已有的晶振只能滿足63臺機柜的需求,還差8000多個晶振才能完成剩下11臺機柜的交付。而這時候恰好又是東南亞地區疫情肆虐,愛普生等廠商的晶振工廠停工的時期,而這類智能NIC又需要超低噪聲的高性能晶振。接著他們又花了3周時間才找齊這些晶振,這才在10月完成了最后一個機柜的交付。

8df30a68-0d38-11ed-ba43-dac502259ad0.png

凌晨滿功耗運轉的Frontier / 美國橡樹嶺國家實驗室

但即便完成了交付,相關的工作并沒有結束,超算并不像大家平日里動手組裝的電腦一樣,一旦安裝完畢就能跑出應有的性能。恰恰相反,超算系統所有部件到位后,還要經歷密集的測試、優化和維護工作,于是Frontier的研究人員白天就在更新軟件優化系統,晚上就讓Frontier跑HPL之類的性能測試,最終趕在TOP500 6月榜單結束測試結果收集前,提交了一次成功的E級跑分。

結語其實完成這么緊湊的部署安排對Frontier并不容易,固然慧與和AMD有應對供應鏈管理方面的經驗,但與此同時,和Frontier幾乎同樣配置只是規模不同的歐洲超算LUMI也面臨著缺貨的困境,所以這兩家公司幾乎是承擔著雙線交付任務。但好在去年下半年供應開始緩解之后,兩臺超算的任務也都最終完成了。

此外,這兩年經歷的供應鏈噩夢想必也影響到了其他的超算部署,就拿國內的兩臺E級超算來說,目前都只是單機柜的測試系統的消息時有傳出,并沒有正式公開完整系統的性能參數,或多或少也是被供應問題拖慢了進度,否則這個風頭不可能不出來搶的。畢竟在硬件迭代如此迅速的背景下,像天河二號過去那樣連續穩坐榜首數年的情況已經很難復現了,但首個E級超算的稱號可是無論多少年后都搶不走的。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19259

    瀏覽量

    229653
  • 硬件
    +關注

    關注

    11

    文章

    3312

    瀏覽量

    66201
  • AI算力
    +關注

    關注

    0

    文章

    72

    瀏覽量

    8653

原文標題:被供應鏈問題拖慢的超算部署

文章出處:【微信號:elecfans,微信公眾號:電子發燒友網】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    何在TMS320C6727 DSP創建基于延遲的音頻效果

    電子發燒友網站提供《如何在TMS320C6727 DSP創建基于延遲的音頻效果.pdf》資料免費下載
    發表于 10-16 10:35 ?0次下載
    如<b class='flag-5'>何在</b>TMS320C6727 DSP<b class='flag-5'>上</b>創建基于延遲的音頻效果

    何在MSP430?實現內置振蕩器的高精度定時器

    電子發燒友網站提供《如何在MSP430?實現內置振蕩器的高精度定時器.pdf》資料免費下載
    發表于 09-14 11:10 ?0次下載
    如<b class='flag-5'>何在</b>MSP430?<b class='flag-5'>上</b>實現內置振蕩器的高精度定時器

    混合部署 | 在RK3568同時部署RT-Thread和Linux系統-迅為電子

    混合部署 | 在RK3568同時部署RT-Thread和Linux系統-迅為電子
    的頭像 發表于 09-06 15:32 ?411次閱讀
    混合<b class='flag-5'>部署</b> | 在RK3568<b class='flag-5'>上</b>同時<b class='flag-5'>部署</b>RT-Thread和Linux系統-迅為電子

    何在DRA821U使用Linux實現快速引導

    電子發燒友網站提供《如何在DRA821U使用Linux實現快速引導.pdf》資料免費下載
    發表于 09-03 10:11 ?0次下載
    如<b class='flag-5'>何在</b>DRA821U<b class='flag-5'>上</b>使用Linux實現快速引導

    請問opa129輸出為何有直流偏置?

    近來在做opa129的電荷放大器的實驗,想知道為何在沒有輸入的情況下opa129會有直流偏置電壓輸出呢?
    發表于 08-30 07:56

    OPA2626為何在高頻處,出現了一個2db的上升?

    我在讀opa2626的手冊的時候,看官方給的圖標發現一個問題,就是圖1和圖3,應該給的是不同增益下閉環電路的頻率響應(同向或者反向電路)就像畫圈的位置,為何在高頻處,出現了一個2db的上升?這意味著高頻時輸出的電壓比dc情況下還高。是怎么來的 感謝
    發表于 08-06 07:48

    何在Micro SD卡設置寫保護?

    我們了解客戶對Micro SD卡寫保護的疑問。在這篇文章中,拓優星辰將詳細解釋如何在Micro SD卡設置寫保護,以及相關的步驟和注意事項。
    的頭像 發表于 07-11 16:37 ?1741次閱讀
    如<b class='flag-5'>何在</b>Micro SD卡<b class='flag-5'>上</b>設置寫保護?

    何在tx2部署模型

    在本文中,我們將詳細介紹如何在NVIDIA Jetson TX2上部署深度學習模型。NVIDIA Jetson TX2是一款專為邊緣計算和人工智能應用而設計的高性能嵌入式平臺。它具有強大的計算能力
    的頭像 發表于 07-09 10:16 ?549次閱讀

    esp32-s2為何在menuconfig中找不到觸控板選項?

    esp32-s2-kaluga-1 V1.3 idf4.4 touch_audio實例 為何在menuconfig中找不到觸控板選項?如果有也只有V1.2
    發表于 06-19 07:23

    何在ADXL355禁用LPF?

    何在ADXL355禁用 LPF
    發表于 06-04 06:00

    何在測試中使用ChatGPT

    Dimitar Panayotov 在 2023 年 QA Challenge Accepted 大會 分享了他如何在測試中使用 ChatGPT。
    的頭像 發表于 02-20 13:57 ?745次閱讀

    求助,如何在TC399使用FOC?

    我想問一個關于如何在 TC399 使用 FOC 的問題? 謝謝你的回答!
    發表于 01-30 08:30

    何在VDAC使用外部頻閃功能?

    何在 VDAC 使用外部頻閃功能? 它使用上升邊緣嗎? 我看不到具體說明。
    發表于 01-30 08:12

    aduc842在keil中如何利用串口在線仿真,為何遇到斷點后就無法再次運行?

    aduc842在keil中如何利用串口在線仿真,為何遇到斷點后就無法再次運行,報錯,串口等待時間過長
    發表于 01-15 08:30

    何在KW45-EVK使用RTC

    電子發燒友網站提供《如何在KW45-EVK使用RTC.pdf》資料免費下載
    發表于 01-03 09:41 ?0次下載
    如<b class='flag-5'>何在</b>KW45-EVK<b class='flag-5'>上</b>使用RTC
    主站蜘蛛池模板: 污文啊好棒棒啊好了| 国产午夜高潮熟女精品AV| 在线视频网站www色| 亚洲精品国产第一区第二区| 色姐妹久久综合在线av| 日本xxx片免费高清在线| 蜜桃人妻无码AV天堂三区| 久久精品中文闷骚内射| 久久精品美女久久| 九九这里有精品| 久久精品视频在线看99| 九九在线精品亚洲国产| 久久精品嫩草影院免费看| 久久国产精品麻豆AV影视| 久久99免费视频| 久久视频精品38在线播放| 久久精品久精品99热| 久久日本精品国产精品| 妈妈的朋友6未删减版完整在线 | 亚洲综合色婷婷在线影院| 亚洲高清在线mv| 亚洲精品成人无码A片在线| 亚洲国产日韩欧美视频二区| 亚洲天堂久久久| 在线视频免费观看| HEYZO精品无码一区二区三区| 芭乐视频免费资源在线观看| 啊…嗯啊好深男男小黄文| 俄罗斯人xxx| 国产在线AV一区二区香蕉| 九九久久国产精品免费热6| 老妇高潮潮喷到猛进猛出| 欧美 亚洲 中文字幕 高清| 人人射人人插| 无码人妻视频又大又粗欧美| 亚洲精品高清在线| 中国农村妇女真实BBWBBWBBW| 99热这里有精品| 国产成人无码一区AV在线观看 | XXX欧美性兽交| 国产 浪潮AV性色四虎|