“我們以前把彈性計算比喻成‘構筑一個青藏高原’,其實它是一個算力的高原,旨在為全社會提供更好的算力基礎。經過近幾年的發展,我們能夠賦能客戶去構筑自己的一個‘珠穆朗瑪峰’。”近日,在2020年全國高性能計算學術年會(HPC CHINA)期間,阿里巴巴集團研究員、阿里云智能彈性計算負責人張獻濤(花名“旭卿”)在接受環球網報道記者采訪時表示,“當彈性計算遇到高性能計算,阿里云高性能計算平臺滿足了客戶對于算力的要求,利用這個平臺的優勢,客戶就可以把自己的應用搬上‘珠穆朗瑪峰’。”
阿里巴巴集團研究員、阿里云智能彈性計算負責人 張獻濤
高性能計算的“青藏高原”
阿里云宣布推出全新一代異構計算加速平臺,在業界第一次覆蓋了包括AMD、NVidia的GPU和Intel、XILINX的FPGA在內的所有6款主流異構實例。彼時,阿里云高性能計算研發負責人何萬青曾指出,“如果把傳統超算中心比作‘珠穆朗瑪峰’,那么阿里云的E-HPC則是將高性能計算做更普惠的覆蓋,成為高性能計算的‘青藏高原’。 在青藏高原上看,世界之巔珠穆朗瑪,相對而言是4千多米,通過神龍超級計算集群,你隨時可以構筑在阿里云上的珠穆朗瑪。”
2020年阿里云彈性計算產品年度發布會上,阿里云宣布推出第三代神龍云服務器,即第三代彈性裸金屬服務器(ECS Bare Metal Instance),它是基于阿里云完全自主研發的下一代虛擬化技術而打造的新型計算類服務器產品,兼具虛擬機的彈性和物理機的性能及功能特性。與上一代虛擬化技術相比,它不僅保留了普通云服務器的彈性體驗,而且保留了物理機的性能與特性,全面支持嵌套虛擬化技術。
在張獻濤看來,企業用戶需要更強的計算性能、更快的網絡接入、更高的存儲讀寫能力,意味著存儲的IOPS要高、網絡的PPS要高、網絡的帶寬存儲能力要高,而解決這些問題的根本則在于——變革虛擬化技術。“傳統服務器主要依賴堆硬件提升性能,而阿里云自研的神龍架構,基于硬件云原生理念,創新性打破了虛擬化技術與CPU、內存、網卡等硬件的天然鴻溝,可發揮出比傳統物理機更強的性能。”張獻濤說到。
基于第三代神龍云服務器的阿里云第六代增強型實例,全系搭配ESSD系列云盤,存儲轉發能力最多提升四倍;支持10Gbps突發內網帶寬,單卷延時大幅下降;性能等級按需配置,在線無損變配;同時ESSD使用門檻大幅下降50%,性價比大幅提升。此外,阿里云ECS的單實例穩定性從原來的99.95%提升到99.975%,跨AZ多實例穩定性從原來的99.99%提升到99.995%,均為全球最高水準。
依托神龍架構的創新突破,超算中心可以在云上瞬間生成,只需在彈性裸金屬上用高速的ROCE/IB網絡進行互聯,再連接VPC、云盤、以及云上的其他產品,構建整個HPC軟件棧加上連接云端并行文件系統,用戶就可以得到一個能媲美或超越超算中心的云超算中心,具備相當高的并行效率,并且具備云的彈性。
助力行業攀登性能“高峰”
據介紹,《流浪地球》制作方MORE VFX(墨鏡天合)已將算力需求最大的渲染環節遷上阿里云。傳統的后期處理,對計算力的需求會隨項目而變,低谷期利用率不高、高峰期資源無保障,且排隊嚴重。為了解決這一問題,MORE VFX通過專線上云,利用阿里云高性能計算E-HP服務,在云端完成渲染,一天可以處理原本一周的量,大大縮短了渲染等待時間。
采訪中,阿里云智能高性能計算負責人何萬青告訴記者,MORE VFX后期特效量極大,且對于計算力的需求隨項目而變。其自有本地農場數百臺多核服務器在低谷期利用率不高,在高峰期任務排隊又嚴重,這就需要借助外部渲染農場服務器才能完成任務。而農場服務器老舊,性能不高;只能依靠硬盤寄送方式,資產安全性差;同時資源缺乏彈性。這些問題困擾著MORE XFV,最終選擇了渲染上云利用阿里云高性能計算服務(E-HPC)平臺,在云端完成渲染任務。
值得關注的是,在渲染任務上云過程中,結合后期制作公司的業務流程需求,阿里云團隊提供了混合云渲染方案,同時通過為MORE VFX定制文件異步緩存能力,有效降低了超大規模集群渲染時對專線帶寬的壓力。另外,通過阿里云高性能計算緩存層的橫向、縱向擴展能力,能夠平滑分解渲染節點對緩存層的吞吐和IO壓力,從而提供極強的資源彈性。
據報道,通過阿里云高性能計算集成的行業通用軟件deadline、計費和報表功能,渲染集群可以根據任務排隊情況自動伸縮,使得運維極其簡單,大大節省了MORE VFX IT部門的工作量。
目前,阿里云高性能計算已覆蓋工業制造、生命科學、油氣勘探和影視特效等多個行業,除了流浪地球制作方MOREVFX等頂級視效企業之外,還服務了吉利和上汽等知名車企,并在新冠疫情期間公益支持了全球健康藥物研發中心(GHDDI)、中山大學等全球十多家醫療與科研機構進行新冠相關研發工作。
值得一提的是,今年8月份,Gartner發布的最新云廠商產品評估報告顯示,阿里云在計算大類中,以92.3%的高得分率拿下全球第一,并且刷新了該項目的歷史最佳成績;在存儲和IaaS基礎能力大類中,阿里云也位列全球第二。
責任編輯:pj
-
帶寬
+關注
關注
3文章
939瀏覽量
40969 -
服務器
+關注
關注
12文章
9234瀏覽量
85641 -
阿里云
+關注
關注
3文章
967瀏覽量
43117
發布評論請先 登錄
相關推薦
評論