中科院高能物理研究所,是國際領(lǐng)先的高能物理研究基地之一,擁有一系列世界領(lǐng)先的大科學(xué)裝置和重要實(shí)驗(yàn)。每時(shí)每刻,都有海量的科研數(shù)據(jù)從全國各地的試驗(yàn)裝置生成,傳輸、匯聚到計(jì)算中心進(jìn)行存儲(chǔ)、管理,并由研究人員利用科學(xué)軟件進(jìn)行深入分析和利用。要承擔(dān)如此重任,底層的網(wǎng)絡(luò)和算力基礎(chǔ)設(shè)施必須滿足極為苛刻的要求。
為了適應(yīng)未來的網(wǎng)絡(luò)和算力需求,高能物理所與華為開展了聯(lián)合創(chuàng)新,利用華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric構(gòu)建起了由近十萬顆CPU核及數(shù)百張GPU卡構(gòu)成的跨地域的高性能計(jì)算系統(tǒng),為研究工作提供了完善的ICT基礎(chǔ)設(shè)施。
科研機(jī)構(gòu)面臨網(wǎng)絡(luò)難題
為滿足科研需求,高能物理所在北京、深圳、江門、稻城、東莞等地部署了由近十萬個(gè)CPU核心構(gòu)成的算力資源,以及百PB級(jí)的數(shù)據(jù)存儲(chǔ)資源。高能物理所的ICT系統(tǒng)有三個(gè)特點(diǎn),即多源異構(gòu)、分布式部署和網(wǎng)絡(luò)環(huán)境復(fù)雜。多源異構(gòu)是因?yàn)橛?jì)算任務(wù)各不相同,使得研究人員使用的服務(wù)器來源、處理器種類及軟件各不相同。分布式部署是因?yàn)楦吣芪锢韺?shí)驗(yàn)設(shè)施分布在全國各地,其算力需要融合來自于國內(nèi)外合作單位的計(jì)算中心。在網(wǎng)絡(luò)架構(gòu)方面,不但要解決計(jì)算中心內(nèi)部高效數(shù)據(jù)訪問及異地?cái)?shù)據(jù)交換問題,還要保障大型實(shí)驗(yàn)裝置與高能物理所之間的實(shí)時(shí)高速連接。
由于高能物理所ICT應(yīng)用系統(tǒng)的特殊性,在規(guī)劃網(wǎng)絡(luò)系統(tǒng)時(shí)面臨兩個(gè)難題:一是科研數(shù)據(jù)失之毫厘差之千里,數(shù)據(jù)傳輸必須滿足零丟包、超低延時(shí);二是網(wǎng)絡(luò)的管理和運(yùn)維需簡單化和智能化,減少人工維護(hù)壓力。借助華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0 解決方案,高能物理所升級(jí)了其底層網(wǎng)絡(luò)通訊系統(tǒng),完全實(shí)現(xiàn)了預(yù)定目標(biāo)。
CloudEngine助力
國家大科學(xué)裝置數(shù)字化升級(jí)
在廣東東莞,坐落著一座國家重大科技基礎(chǔ)設(shè)施——中國散裂中子源(CSNS),這是世界四大脈沖散裂中子源之一。在2018年CSNS建成后,隨著大量研究人員和課題的入駐,實(shí)驗(yàn)過程產(chǎn)生了大量的科學(xué)數(shù)據(jù),為高效支持依托CSNS的科研活動(dòng),高能物理所在東莞部署建設(shè)了大科學(xué)計(jì)算中心。
東莞大科學(xué)計(jì)算中心在網(wǎng)絡(luò)中全面采用了華為CloudEngine系列交換機(jī),確保數(shù)據(jù)無損傳遞;在算力領(lǐng)域,運(yùn)用華為鯤鵬計(jì)算平臺(tái)和超融合以太智能無損數(shù)據(jù)中心網(wǎng)絡(luò)形成了計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)統(tǒng)一架構(gòu)。由于華為CloudEngine交換機(jī)可以對(duì)數(shù)據(jù)進(jìn)行一定整合后再做轉(zhuǎn)發(fā),因此能夠有效減輕服務(wù)器的負(fù)擔(dān),整體運(yùn)行效率比傳統(tǒng)以太網(wǎng)提升31%。
實(shí)測(cè)發(fā)現(xiàn),利用華為超融合以太方案替換原有計(jì)算專用網(wǎng)絡(luò)之后,整體性能基本持平,帶寬增加了一倍,建網(wǎng)和運(yùn)維成本總體減少23%。利用超融合以太方案建設(shè)存儲(chǔ)網(wǎng)絡(luò)系統(tǒng)之后,切實(shí)做到了0丟包,同時(shí)時(shí)延縮小了40%,投資成本節(jié)省了25%。
CloudFabric賦能基礎(chǔ)科學(xué)創(chuàng)新
在北京懷柔科學(xué)城,高能同步輻射光源(HEPS)正在建設(shè)當(dāng)中。該裝置提供了一種更加清晰、準(zhǔn)確地觀察微觀世界的手段,在物理、材料、化工、生命等學(xué)科領(lǐng)域有非常廣泛的應(yīng)用。HEPS實(shí)驗(yàn)過程中會(huì)產(chǎn)生海量的數(shù)據(jù),需要先進(jìn)的高性能計(jì)算集群和存儲(chǔ)集群來處理、保存,同時(shí)還要借助日新月異的AI技術(shù)來輔助分析數(shù)據(jù),因此新的網(wǎng)絡(luò)和算力基礎(chǔ)設(shè)施也必須有能力支撐大規(guī)模AI運(yùn)算。為此高能物理所與華為合作,探索利用華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric方案來建設(shè)網(wǎng)絡(luò)體系和計(jì)算集群。
目前的規(guī)劃是利用CloudEngine系列數(shù)據(jù)中心交換機(jī)來構(gòu)建分布式網(wǎng)絡(luò),后續(xù)將結(jié)合華為AI集群方案推進(jìn)人工智能開放平臺(tái)建設(shè),并探索適合高能物理研究發(fā)展方向的新興高性能網(wǎng)絡(luò)和計(jì)算架構(gòu)。
自從華為數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric解決方案上市以來,已經(jīng)在多個(gè)行業(yè)的21000多個(gè)數(shù)據(jù)中心投入了應(yīng)用。中科院高能物理所與華為的多次合作,讓CloudFabric得以在全球頂尖科研機(jī)構(gòu)中大顯身手,也為中國基礎(chǔ)科學(xué)研究的數(shù)字化、智能化升級(jí)探索出了一條前進(jìn)之路。高能物理所計(jì)算中心主任齊法制表示,中科院高能物理所計(jì)算中心期待能和華為一道,在高性能計(jì)算領(lǐng)域取得更多的成果。
原文標(biāo)題:轉(zhuǎn)載|當(dāng)高能物理遇上數(shù)字技術(shù):華為超融合以太網(wǎng)絡(luò)賦能科學(xué)探索
文章出處:【微信公眾號(hào):華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
華為
+關(guān)注
關(guān)注
216文章
34530瀏覽量
252628
原文標(biāo)題:轉(zhuǎn)載|當(dāng)高能物理遇上數(shù)字技術(shù):華為超融合以太網(wǎng)絡(luò)賦能科學(xué)探索
文章出處:【微信號(hào):Huawei_Fixed,微信公眾號(hào):華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論