色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

利用AWS Graviton3上的SVE加速NVIDIA HPC軟件

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-10-11 11:48 ? 次閱讀

最新 NVIDIA HPC SDK 更新擴展了可移植性,現在支持基于 Arm 的 AWS Graviton 3 processor 。在本文中,您將學習如何使用 NVIDIA 編譯器啟用可縮放矢量擴展( Scalable Vector Extension , SVE )自動矢量化,以最大限度地提高運行在 AWS Graviton3 CPU 上的 HPC 應用程序的性能。

HPC SDK NVIDIA 軟件包

NVIDIA HPC SDK 包括經過驗證的編譯器、庫和軟件工具,對于最大限度地提高開發人員生產力和為 CPU 、 CPU 或云構建 HPC 應用 至關重要。

NVIDIA HPC compilers 為 NVIDIA GPU 和多核 Arm 、 OpenPOWER 或 x86-64 CPU 啟用跨平臺 C 、 C ++和 Fortran 編程。對于使用 OpenMP 、 OpenACC 和 CUDA 以 C 、 C ++或 Fortran 編寫的 HPC 建模和仿真應用程序,這些都是理想的選擇。

例如,與 GCC 12.1 相比,使用 NVIDIA HPC 編譯器編譯時, AWS Graviton 3 的 SPEC CPU ? 2017 基準分數預計增加 17% 。

編譯器還可以與優化的 NVIDIA math libraries 、通信庫以及性能調優和調試工具完全互操作。這些加速的數學庫最大限度地提高了普通 HPC 算法的性能,而優化的通信庫支持基于標準的可擴展系統編程。

集成的性能分析和調試工具簡化了 HPC 應用程序的移植和優化,而容器化工具可以方便地在本地或云中部署。

臂和 AWS 重力 3

AWS Graviton3 于 2022 年 5 月推出,是 AWS 基于 Arm 的 CPU 。 Arm 體系結構具有傳統的能效和對高內存帶寬的支持,使其成為云和數據中心計算的理想選擇。 Amazon 報導 :

Amazon EC2 C7g 實例由最新一代 AWS Graviton3 處理器提供支持,為計算密集型工作負載提供了 Amazon EC2 中最佳的性價比。 C7g 實例非常適合 HPC 、批處理、電子設計自動化( EDA )、游戲、視頻編碼、科學建模、分布式分析、基于 CPU 的機器學習( ML )推理和廣告服務。與基于第六代 AWS Graviton2 的 C6g 實例相比,它們的性能提高了 25% 。

與 AWS Graviton2 相比, ANSYS 將 AWS Graviton3 的性能提高 35% 作為基準 。一級方程式模擬速度也提高了 40% 。自推出 Arm Neoverse 產品線以來,基于 Arm 的 CPU 一直在提供重大創新和性能增強,當時 Neoverses N1 核心 超過績效預期30% 。

與 Arm 支持新計算技術的歷史保持一致, AWS Graviton3 的特點是 DDR5 內存和 SVE 到 Arm 體系結構。

Amazon EC2 C7g 實例是云中第一個使用 DDR5 內存的實例,與 DDR4 內存相比,它提供了 50% 的內存帶寬,從而實現了對內存中數據的高速訪問。充分利用所有內存帶寬的最佳方法是使用最新的矢量化技術: Arm SVE 。

SVE 架構

除了是第一個提供 DDR5 的云托管 CPU 之外, AWS Graviton3 也是第一個在云中使用 SVE 的。

SVE 首次引入富士通 A64FX CPU ,為 RIKEN Fugaku 超級計算機供電。當 Fugaku 推出時,它打破了所有當代 HPC CPU 基準,并在兩年內自信地名列 TOP500 超級計算機榜首。

SVE 和高帶寬內存是 A64FX 的主要設計特點,是 HPC 的理想之選,而 AWS Graviton3 處理器中也有這兩個特點。

SVE 是 Arm 體系結構的下一代 SIMD 擴展。它可以使用 CPU 實現中的一系列可能值實現靈活的矢量長度。矢量長度可以從最小 128 位到最大 2048 位不等,增量為 128 位。

例如,富士通 A64FX 以 512 位實現 SVE ,而 AWS Graviton3 以 256 位實現。與其他 SIMD 體系結構不同,盡管硬件矢量位寬度不同,但相同的匯編代碼在兩個 CPU 上運行。這稱為矢量長度無關( VLA )編程。

VLA 代碼具有高度的可移植性,可以使編譯器生成更好的匯編代碼。但是,如果編譯器知道目標 CPU 的硬件矢量位寬度,它可以針對特定的體系結構進行進一步優化。這是矢量長度特定( VLS )編程。

SVE 對 VLA 和 VLS 使用相同的匯編語言。唯一的區別是,編譯器在生成代碼時可以自由地對數據布局、循環跳閘計數和其他相關特性進行附加斷言。這會產生高度優化的、特定于目標的代碼,從而充分利用 CPU 。

SVE 還引入了一系列功能強大的高級功能,非常適合 HPC 和 ML 應用:

收集加載和分散存儲指令允許對結構數組和其他非連續數據進行矢量化操作。

推測性矢量化支持對包含控制流的字符串操作函數和循環進行 SIMD 加速。

水平和序列化矢量操作有助于數據縮減,并有助于優化處理大型數據集的循環。

SVE 不是 NEON 指令集的擴展或替代,后者也可在 AWS Gravition3 中使用。 SVE 經過重新設計,以提高 HPC 和 ML 的數據并行性。

使用 NVIDIA HPC 編譯器最大限度地提高 Graviton3 性能

編譯器自動矢量化是利用 SVE 的最簡單方法之一, NVIDIA HPC 編譯器在 22.7 版本中添加了對 SVE 自動矢量化的支持。

為了最大限度地提高性能,編譯器執行分析以確定要生成的 SIMD 指令。 SVE 自動矢量化使用目標特定信息,根據 CPU 核的矢量位寬度生成高度優化的矢量長度特定( VLS )代碼。

要啟用 SVE 自動矢量化,請為目標 CPU 指定適當的 -tp 體系結構標志: -tp = neoverse-v1 。如果不指定 -tp 選項,則假定應用程序將在編譯它的同一系統上執行。

在 Graviton3 上使用 NVIDIA HPC 編譯器編譯的應用程序會自動充分利用 CPU 的 256 位 SVE SIMD 單元。 Graviton3 還向后兼容 -tp = neoverse-n1 選項,但僅在其 128 位 NEON SIMD 單元上運行矢量代碼。

NVIDIA HPC SDK 入門

NVIDIA HPC SDK 提供了一個全面且經驗證的軟件堆棧。它使 HPC 開發人員能夠在 NVIDIA 平臺和 AWS Graviton3 等高性能系統上創建和優化應用程序性能。

通過提供廣泛的編程模型、庫和開發工具,可以針對專用硬件高效開發應用程序,從而在 NVIDIA GPU 和支持 SVE 的處理器(如 AWS Graviton3 )等系統中實現最先進的性能。

關于作者

John Linford 博士是 NVIDIA 的首席技術經理,專注于開發 CPU 軟件生態系統。 John 此前曾擔任 HPC 工程部主任。 John 擁有近二十年的一線 HPC 應用、系統和優化經驗,尤其喜歡與新興技術和極端規模的系統合作。約翰的總部設在德克薩斯州奧斯汀。

Scott Manley 是一名編譯器優化工程師,也是 NVIDIA HPC SDK 的自動矢量化主管。 Scott 的整個職業生涯都致力于矢量化和 HPC 編譯器。他曾在 Cray 編譯環境( CCE )工作,并在都柏林三一學院獲得博士學位,主要致力于優化 SIMD ISAs 的使用。

Graham Lopez 在 NVIDIA 領導高性能計算編譯器的產品管理。此前,他曾與應用程序合作,以在當前和未來的領先級計算設施上大規模運行。除了直接參與 HPC 應用程序之外, Graham 還發表了編程模型、計算科學、異構系統的應用程序加速和基準測試以及低級通信 API 等領域的研究成果。格雷厄姆過去三年一直是 ISO C ++標準委員會的成員。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4978

    瀏覽量

    102987
  • 編譯器
    +關注

    關注

    1

    文章

    1623

    瀏覽量

    49108
收藏 人收藏

    評論

    相關推薦

    強悍的AWS Graviton4處理器及其背后的Arm Neoverse

    電子發燒友網報道(文/吳子鵬)在今年的亞馬遜re:Invent 2024大會上,該公司正式對外發布了旗下第四代自研Arm芯片——Graviton4。作為目前最強大的Graviton處理器
    的頭像 發表于 12-19 00:04 ?1044次閱讀

    Arm與AWS合作深化,AWS Graviton4展現顯著進展

    前所未有的性能潛力,使他們能夠更充分地利用其云工作負載。 AWS Graviton4的進步不僅體現在性能的提升上,更在于其
    的頭像 發表于 12-18 14:17 ?114次閱讀

    云計算HPC軟件關鍵技術

    云計算HPC軟件關鍵技術涉及系統架構、處理器技術、操作系統、計算加速、網絡技術以及軟件優化等多個方面。下面,AI部落小編帶您探討云計算HPC
    的頭像 發表于 12-18 11:23 ?74次閱讀

    NVIDIA通過加速AWS的機器人仿真推進物理AI的發展

    NVIDIA Isaac Sim 現在可在 Amazon EC2 G6e 實例中的 NVIDIA GPU 云實例使用,將機器人仿真的擴展速度提高了 2 倍并加快了 AI 模型的訓練速度
    的頭像 發表于 12-09 11:50 ?281次閱讀

    Matter SVE認證經驗分享

    Spec Validation Event(SVE)活動都能更好地驗證設備是否符合最新的Matter認證測試要求,這篇文章就是參加SVE活動的經驗分享。
    的頭像 發表于 11-13 09:16 ?259次閱讀
    Matter <b class='flag-5'>SVE</b>認證經驗分享

    亞馬遜云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g實例正式可用

    )?R8g實例現已正式可用。Amazon EC2 R8g實例與基于Amazon Graviton3的實例相比性能提升高達30%,非常適用于如數據庫、內存緩存和實時大數據分析等內存密集型工作負載。這些實例均
    的頭像 發表于 07-15 16:09 ?374次閱讀

    亞馬遜網絡服務即將推出第四代Graviton處理器

    7月10日,雅虎財經獨家報道了亞馬遜網絡服務(AWS)即將推出的重大技術進展——其第四代Graviton處理器,即Graviton4芯片。這一重要信息由AWS的計算與人工智能產品管理總
    的頭像 發表于 07-10 15:51 ?614次閱讀

    NVIDIA突破美國禁令,將在中東部署其高性能AI/HPC GPU加速

    Ooredoo達成合作協議,將在中東地區部署其高性能AI/HPC GPU加速卡。這一舉動不僅標志著NVIDIA在中東市場的戰略布局取得了重大突破,也引發了外界對于如何防止這些先進技術流向中國的廣泛討論。
    的頭像 發表于 06-24 14:47 ?843次閱讀

    NVIDIA 通過 Holoscan 為 NVIDIA IGX 提供企業軟件支持

    Enterprise-IGX軟件現已在NVIDIA IGX平臺上正式可用,以滿足工業邊緣對實時 AI 計算日益增長的需求。它們將共同幫助醫療、工業和科學計算領域的解決方案提供商利用企業級軟件
    的頭像 發表于 06-04 10:21 ?497次閱讀

    利用NVIDIA的nvJPEG2000庫分析DICOM醫學影像的解碼功能

    本文將深入分析 DICOM 醫學影像的解碼功能。AWS HealthImaging 利用 NVIDIA 的 nvJPEG2000 庫來實現此功能。
    的頭像 發表于 05-28 14:27 ?786次閱讀
    <b class='flag-5'>利用</b><b class='flag-5'>NVIDIA</b>的nvJPEG2000庫分析DICOM醫學影像的解碼功能

    助力科學發展,NVIDIA AI加速HPC研究

    科學家和研究人員正在利用 NVIDIA 技術將生成式 AI 應用于代碼生成、天氣預報、遺傳學和材料科學領域的 HPC 工作。
    的頭像 發表于 05-14 09:17 ?408次閱讀
    助力科學發展,<b class='flag-5'>NVIDIA</b> AI<b class='flag-5'>加速</b><b class='flag-5'>HPC</b>研究

    NVIDIA AI微服務現已與AWS集成,加速藥物研發和數字醫療

    NVIDIA NIM 使數千家使用 AWS 的醫療和生命科學公司能夠快速、輕松開發和部署生成式 AI。
    的頭像 發表于 05-09 09:21 ?1549次閱讀

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優化從 PC 到云端的
    的頭像 發表于 04-28 10:36 ?547次閱讀

    Cadence與NVIDIA聯合推出利用加速計算和生成式AI重塑設計

    中國上海,2024 年 3 月 25 日——楷登電子(美國 Cadence 公司,NASDAQ:CDNS)近日宣布,公司將深化與 NVIDIA 在 EDA、系統設計與分析、數字生物學和人工智能領域的多年合作,推出兩款變革性解決方案,利用
    的頭像 發表于 03-25 14:36 ?605次閱讀

    Nvidia 正在利用迄今為止最強大的芯片 H200 推動人工智能革命

    ABSTRACT摘要Nvidia表示,H200TensorCoreGPU具有更大的內存容量和帶寬,可加快生成AI和HPC工作負載的速度。NvidiaH200是首款提供HBM3e的GPU,HBM
    的頭像 發表于 01-17 08:25 ?758次閱讀
    <b class='flag-5'>Nvidia</b> 正在<b class='flag-5'>利用</b>迄今為止最強大的芯片 H200 推動人工智能革命
    主站蜘蛛池模板: 捆绑调教网站| 4455永久在线毛片观看| 亚洲国产果果在线播放在线| 无码人妻少妇色欲AV一区二区| 亚洲欧洲日产国码久在线| 99爱在线观看精品视频| 在线看片福利无码网址| 久久亚洲精品AV成人无码| 秋霞影院福利电影| 亚洲男人天堂网| 被老头下药玩好爽| 久久66热在线视频精品| 日本无码欧美激情在线视频| 亚洲天堂一区二区三区| 成人免费网址在线| 久久久无码精品一区二区三区| 色婷婷综合激情中文在线| 原神美女被超污app| 国产精品久久久久AV麻豆| 伦理片在线线手机版韩国免费观看| 桃花在线观看播放| 98色精品视频在线| 国产品无码一区二区三区在线| 欧美黑人巨大xxxxx| 亚洲偷自拍精品视频在线观看 | 亚洲AV无码乱码国产麻豆P| 叔叔 电影完整版免费观看韩国| 婷婷亚洲五月色综合久久| 在线视频 日韩视频二区| 中文字幕99香蕉在线| 俄罗斯兽交XXXXX在线| 国产亚洲精品久久久久久禁果TV | 好男人好资源在线观看免费视频| 男人天堂999| 亚洲中文字幕无码一去台湾| 动漫成人片| 嫩草电影网嫩草影院| 一本色道久久综合一区| 国产强奷糟蹋漂亮邻居在线观看| 琪琪色原网站ying| 68日本xxxxxxxx79|