PyTorrch 2. 0 是PyTorrch機器學習框架向前邁出的重要一步。 PyTorrch 2. 0 的穩定釋放帶來了新的功能,這些功能可以釋放出更高的性能,同時保持與先前的釋放相容的后向,并保留了Pythonic 焦點,這幫助PyTorrch如此熱情地被AI/ML社區采納。 AMD長期以來一直是PyTorch的堅定支持者,我們感到高興的是,PyTorrch 2.0 的穩定釋放包括支持AMD InstinctTM和得到ROCTM軟件平臺支持的RadeonTM GPUs。
PyTorrch 2. 0 發布后, PyTorrch 2. 0 引入了火炬,作為火炬導管支持的一種貝塔特征,通過 OpenAI Triton 深層學習編譯器支持AMD Instinct 和 Radeon GPUs 。 通過火炬導導管,開發者現在可以生成低層內核,使用Triton的便攜和性能,在本地硬件中心內核編程模型上生成手寫內核。
OpenAI Triton是被屏蔽的算法的語言和編譯者,旨在提供CUDA/HIP和火炬之間的抽象層,讓開發者能夠更有成效地寫出高效的內核。 我們已經寫了一個新的后端,將特里頓自定義的 MLIR 方言與我們的 ROCm 編譯器堆疊連接起來。
Triton 能夠通過利用AMD CDNATM GPU 架構的硬件特性,自動優化諸如TirchIngentor等機器學習編譯器生成的包括AMD Instinct GPU加速器在內的多種AI加速器的內核。 這樣,開發者和用戶就很容易從任何 HW 向 AMD Intinct GPU 加速器無縫地轉換, 并且從框的性能中獲得巨大效果 。
此外,像Triton這樣的編譯者還可以使開發者能夠使用像Python這樣的高級編程語言來編寫機器學習代碼,這些代碼可以用專門硬件高效地編譯和操作。 這有助于大大提高機器學習開發者的生產力,因為他們可以專注于模型的算法方面,依靠編程者生成高效代碼。
按設計,PyTorrch 2. 0 與早先的PyTorrch 釋放量相容。 PyTorrch 2. 0 的 ROCm 建筑也是如此。 使用 AMD GPUs 的 PyTorrch 開發商可以遷移到 PyTorrch 2. 0 , 因為他們確信他們現有的代碼會繼續工作而無需作任何修改, 因此獲取釋放量帶來的改進不會受到任何處罰。 另一方面, 使用 PyTorrch 2.0 和 TochInginor 能夠大大改進默認的熱量模式的性能, 如下所示 。
使用AMD Instinct MI250 GPUs的初步結果表明,與默認熱量模式相比,火炬導管的性能明顯改善,優化程度極小,與默認熱量模式相比。 我們看到,在卡美貝特、提stillGPT2 和 T5SMall 的45個拖車臉基準套件45個模型中,44個模型的性能平均提高至1.54X。 我們期待繼續與梅塔的PyTorch小組成員接觸,以便進一步優化ROCm軟件堆,并為今后的PyTurch 發布工作做出進一步的性能改進。
PyTorch 2. 0 PyTorrch 2. 0 遵循與以前相同的安裝選項,以建造和安裝支持 AMD GPP 的 AMD GPU 。 其中包括一個可安裝的 Python 軟件包 。當然還有使用上游 PyTorch 倉庫從源頭建造的選項。 與為其他平臺建造 PyTorch 一樣, PyTarch 配置器為Pip 安裝提供具體命令線。
由ROCm軟件平臺支持的GPU 構成支持AMD GPU的PyTorch支持基礎的ROCm軟件平臺記錄在文件上。
PyTorrch 2. 0 代表著繼續擴大對ML開發者支持的一個重大步驟, 通過提高性能, 維護一個簡單、 Pythonic 的界面, 從而繼續擴大對 ML 開發者的支持。 這一提高性能在很大程度上是由新的TirchIngingor 基礎設施所促成的, 后者又利用了 Tritton ML 編程語言和即時編程器。 AMD對這些技術的支持使用戶能夠實現新的PyToch 架構的全部承諾。 我們在 PyTorch 2.0 中的 GPU 支持只是圍繞AI 和 機器學習的更大視野的體現之一。 AI/ ML 在多種AMD 產品行中扮演著重要角色, 包括 Instenct 和 Radeon GPUS 、 AlveoTM 數據中心加速器以及 RizenTM 和 EPYC 處理器。 這些硬件和軟件倡議都是AMD 滲透性AI 愿景的一部分, 我們期待應對這個動態空間的許多新挑戰和機遇。
MI200-89 - PyTorch Ingentor Mod Hugging Face 變形器培訓速度加快,運行標準的 PyTorch 2. 0 測試套,超過 PyTurch 熱量模式比較,基于對截至2023年3月10日單一GCD的AMD內部測試,使用 2P AMD EPYCTM 7763 生產服務器,使用 4x AMD IntinctTM MI250 (128GB HBM2e) 560W GPUS, 具有無限性 FabricTM 技術; 主機 ROCmTM 5.3, 客人 ROCmTM 5.4.4, PyTorch 2.0.0, Triton 2.0。 服務器制造商可能會改變配置,產生不同的結果。 績效可能因使用最新驅動器和優化等因素而不同。
2023年 先進微量設備有限公司保留所有權利。AMD、AMD箭標、AMD CDNA、AMD Instinct、EPYC、Radeon、ROCm、Ryzen及其組合是先進微量設備公司的商標。 本出版物使用的其他產品名稱僅用于鑒定目的,可能也是其各自所有者的商標。
審核編輯:彭菁
-
amd
+關注
關注
25文章
5466瀏覽量
134087 -
gpu
+關注
關注
28文章
4729瀏覽量
128890 -
代碼
+關注
關注
30文章
4779瀏覽量
68521 -
編譯器
+關注
關注
1文章
1623瀏覽量
49108 -
pytorch
+關注
關注
2文章
807瀏覽量
13198
發布評論請先 登錄
相關推薦
評論