cuBLAS 庫可提供基本線性代數子程序(BLAS)的 GPU 加速實現。cuBLAS 利用針對 NVIDIA GPU 高度優化的插入式行業標準 BLAS API,加速 AI 和 HPC 應用。cuBLAS 庫包含用于批量運算、跨多個 GPU 的執行以及混合精度和低精度執行的擴展程序。通過使用 cuBLAS,應用將能自動從定期性能提升及新的 GPU 體系架構中受益。cuBLAS 庫包含在 NVIDIA HPC SDK 和 CUDA 工具包中。
cuBLAS 多 GPU 擴展
cuBLASMg 提供了先進的多 GPU 矩陣間乘法,您可在多臺設備間以 2D 塊循環方式分發每個矩陣。cuBLASMg 目前已加入 CUDA 數學庫搶先體驗計劃。
cuBLAS 性能
cuBLAS 庫針對 NVIDIAGPU 上的性能進行了高度優化,并利用 Tensor Core 對低精度和混合精度矩陣乘法進行加速。
cuBLAS 的主要特性
全面支持 152 個標準 BLAS 例程
支持半精度和整數矩陣乘法
GEMM 和 GEMM 擴展程序針對 Volta 及 Turing Tensor Core 進行了優化
針對各種深度學習模型中使用的規模調整 GEMM 性能
支持用于并發操作的 CUDA 流
您將能夠使用最基本的 CUDA 工具和技術,加速和優化僅適用于 CPU 的 C/C++ 應用程序。您將了解 CUDA 開發的迭代風格,這將幫助您快速發布加速應用程序。
加速計算基礎——CUDA Python
您將了解使用 CUDA 和 Numba 編譯器在大規模并行 GPU 上加速運行 Python 應用程序的基本工具和技能。
通過 CUDA C++ 在多個 GPU 之間擴展工作負載
您將學習如何在單個節點上使用多個 GPU,構建強大高效的 CUDA C++ 應用程序。
通過并發流加速 CUDA C++ 應用程序
您將在 CUDA C++ 應用程序中,學習利用 CUDA Streams 進行復制/計算重疊。
審核編輯:劉清
-
gpu
+關注
關注
28文章
4743瀏覽量
128987 -
矩陣
+關注
關注
0文章
423瀏覽量
34563 -
HPC
+關注
關注
0文章
316瀏覽量
23801
原文標題:DevZone | NVIDIA cuBLAS庫
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論