在 2020 年度的 re:Invent 大會上,亞馬遜云服務(AWS)推出了全新的機器學習定制訓練芯片 Trainium 。通過對 TensorFlow、PyTorch 和 MXNet 提供支持,該公司希望帶來比任何競爭對手都更高的性能表現。此外 Trainium 還可作為一個 EC2 實例,在 AWS 的 SageMaker 機器學習平臺上使用,基于這些定制芯片的新實例將于 2021 上半年推出。
Trainium 具有相當顯著的速度和成本優勢,與標準的 AWS GPU 實例相比,AWS 承諾可帶來 30% 的吞吐量提升、以及降低 45% 的單次引用成本。
此外 AWS 正與英特爾合作啟動基于 Habana Gaudi 的 EC2 機器學習訓練實例。與定于 2021 年推出的版本相比,未來版本有望帶來高達 40% 的性價比提升。
需要指出的是,兩款新產品都是去年 re:Invent 大會上推出的 AWS Inferentia 定制芯片方案的補充,且 Trainium 使用了與 Inferentia 相同的軟件開發套件(SDK)。
據悉,在機器學習基礎架構中,90% 的開銷都用于解決推理成本。盡管 Inferentia 有著成本方面的優勢,但開發團隊也受到了固定 ML 訓練的預算限制。
為了突破訓練范圍和頻度的限制,AWS Trainium 通過以云為中心的 ML 訓練,帶來了最高性能和最低成本。結合兩者,客戶能夠切實擴展 ML 訓練的工作量、同時加速端到端的部署。
責編AJX
-
芯片
+關注
關注
455文章
50725瀏覽量
423177 -
機器學習
+關注
關注
66文章
8408瀏覽量
132569 -
AWS
+關注
關注
0文章
431瀏覽量
24355
發布評論請先 登錄
相關推薦
評論