近日,墨芯人工智能攜Antoum?芯片亮相芯片行業的國際頂級大會Hot Chips 2023,墨芯首席架構師肖志斌博士在大會Tutorials上發表對行業趨勢的分享,并在Conference Day介紹Antoum?的創新架構。
一年一度的Hot Chips是全球芯片產業界影響力最大的活動,被譽為“芯片產業的風向標”,每年都有來自業界前沿的眾多頭部企業,發布最新產品與創新技術。
今年Hot Chips云集了NVIDIA、高通、英特爾、AMD等芯片巨頭,與墨芯等代表性初創企業,介紹前沿技術與企業最新成果。
肖志斌博士進行《Moffett Antoum?: A Deep-Sparse AI Inference System-on-Chip for Vision and Large Language Models》主題分享,介紹了的Antoum?芯片的創新架構,及Antoum?在大語言模型、計算機視覺等任務上的優勢與特點。
由于深度學習模型復雜性的提升及模型的廣泛應用,AI計算需求呈指數級增長。尤其是ChatGPT掀起大模型浪潮后,算力供需不平衡的問題日益突出。針對算力難題,墨芯推出全球首顆高倍率稀疏芯片Antoum?,實現了更高的推理效率與能效比。
Antoum?獨特的稀疏計算單元SPU(Sparse Processing Unit),可以在負載均衡的情況下進行并行計算,并且只計算非零值,即忽略零元素的存儲、搬移、計算,大大提高了計算單元的利用率,進而減少功耗與延時,同時增加吞吐率。SPU載有Deep Sparse Tensor Core(深度稀疏張量核心),實現稀疏神經網絡的高模型精度和高硬件利用效率。
除了利用稀疏處理單元(SPU)支持深度稀疏性之外,Antoum?還采用了特定領域架構,將各種特殊功能加速器以及內部設計的矢量處理單元與可擴展的片上網絡連接起來。
Antoum?共有 32 個 SPU,支持 BF16 和 INT8 數據精度,密集吞吐量為 14.7 TFLOPS 和 29.5 TOPS,在 32 倍稀疏性條件下可實現相當于 471.8 TFLOPS 和 943.6 TOPS 的性能。
此外,Antoum?芯片還具有多個亮點:
存儲器層次結構包含總計 82 MB 的片上 SRAM,由 SPU、VPU 和特殊功能加速器共享。
特殊功能加速器包括激活功能、TOPK、Transpose、嵌入式查找以及圖像預處理和后處理功能。
高帶寬環形互連連接四個 NNCore 子系統,支持模型并行化和張量并行化。
專用硬件視頻編解碼引擎和 JPEG 解碼引擎。四個視頻解碼器引擎和一個視頻編碼引擎可處理多通道視頻流(高達 4K),并可輕松將可擴展的深度學習集成到視頻處理中。集成的 8 個硬件 JPEG 解碼器可載 CPU 密集型 JPEG 解碼任務,并能以超過 2000 FPS 的速度解碼 1080p JPEG 圖像。
PCIe Gen3 x 16 和 20 GB LPDDR4x 內存,理論峰值內存帶寬高達 84 GB/s,功耗僅為 70 W。
在軟件方面,Antoum?由墨芯 SparseRT 軟件開發環境支持,為加速開發提供了一個完整的、可擴展的平臺,并增強了稀疏計算的能力。現有的機器學習(ML)框架,如 TensorFlow、PyTorch、ONNX 和 MXNet,都能得到SparseRT 全面高效的支持。獨特的 SparseOPT 模型壓縮工具可為AI模型提供4倍到32倍的稀疏壓縮。這樣就可以輕松集成到現有的模型交付中,釋放大模型的潛力。
Antoum?芯片的優異性能,已在連續兩屆權威測評MLPerf中得到驗證。同時,基于Antoum?的墨芯第一代AI計算卡產品已實現量產,并已在互聯網、生命科學、智慧交通等領域落地,產業化接連取得重要進展。墨芯將持續為客戶帶來高效的大模型算力方案,賦能大模型在各行各業的落地。
審核編輯:彭菁
-
芯片
+關注
關注
455文章
50714瀏覽量
423147 -
軟件開發
+關注
關注
0文章
612瀏覽量
27353 -
墨芯
+關注
關注
0文章
8瀏覽量
1054 -
大模型
+關注
關注
2文章
2423瀏覽量
2641
原文標題:墨芯攜Antoum芯片 亮相行業國際頂會Hot Chips 2023
文章出處:【微信號:墨芯人工智能,微信公眾號:墨芯人工智能】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論