(文章來源:EEWORLD)
大規模部署、管理和編排計算加速芯片并不容易。相反,云提供商的經濟權衡更傾向于加速器產品提供的非性能方面,比如操作系統驅動程序。LiftrInsights在過去一年中一直在跟蹤四大基礎設施即服務(IaaS)云提供商提供的實例類型和大小:阿里云、亞馬遜云服務(AWS)、谷歌云平臺(GCP)和微軟Azure。
在最近的Linley會議上,KevinKrewell在他的演講中提到了編譯器專業知識的重要性。然而,應用程序對加速器硬件的高效使用只是跨云地理管理和編排加速器芯片所需的整個軟件解決方案的一部分。
數據中心日益膨脹,運營商正在尋找新方法來加速大量數據驅動的工作負載,從深度學習到自然語言處理。在我們即將到來的數據中心特別項目中,我們將深入研究加速AI模型訓練和推斷、數據分析和其他分布式應用的敏捷和超聚合數據中心架構。
在排名前四的云服務商中,所有的加速器芯片(無論類型或制造商)在過去的一年里都只連接到英特爾的Xeon處理器上,除了最近在微軟Azure上安裝了AMD的EPYC。Azure在今年2月率先打破了這一格局,首次生產部署了帶有AMD EPYC v2 Rome處理器的AMD Radeon Instinct MI25GPU。
超大規模的挑戰是對對不同處理器模型的軟件驅動程序支持,所述不同處理器模型運行不同的操作系統發行版本,且版本是針對每個加速器芯片的多個版本。阿里云平臺的ecs服務器大多使用intel 至強處理器,而且大多是定制版,包括Platinum(鉑金) 8163、Gold(金牌) 6150、Gold(金牌) 6149、E5-2682v4、E5-2680v3、E5-2667v4以及E3-1240v6等CPU。
阿里云正式發布云服務器ECS企業級產品家族,目前已推出面向173種企業應用場景的19款實例。該系列適合在復雜的企業計算環境下,滿足對于高性能、高可靠的計算需求。同時阿里云也新發布了該系列產品中采用25G網絡與Skylake處理器的全新一代實例,性能持續領先。這是阿里云首次將云服務器產品線細分出企業級產品家族,與入門級產品家族相比,這一新家族實例具備更強的計算性能與可靠性,適合于核心生產業務需求的計算。
目前ECS企業級產品家族包含19款實例族,分為通用型(General Purpose Type)、計算性(Compute Type)、內存型(Memory Type)、高主頻(High Frequency Compute Type)、本地SSD型(Local SSD Type)、大數據型(Big Data Network Enhancement Type)、GPU計算(GPU Compute Type)、FPGA計算(FPGA Compute Type)等類型,分別適用于包括AI、醫療、視頻直播、金融、電商、IoT在內的173個應用場景。
雖然編譯器和加速api必須是高性能,但是加速驅動程序必須是穩定可靠才行。超大規模的客戶希望看到bug修復、防彈質量保證以及最重要的過程控制方面的快速轉變。在處理器市場中,可靠性、可用性和可服務性(RAS)一直是采用Arm處理器的最大障礙之一。加速器也不例外。確保驅動程序RAS處于超大規模是一個與設計性能編譯器截然不同的技能集。它需要時間來發展技能和過程控制來展示一個穩定的行為的歷史。
英偉達的86%的實例類型由前四個云服務商提供。這一份額與FPGA(英特爾和Xilinx)、GPU(AMD部分產品和最近的Radeon Instinct)以及云自身的內部設計(谷歌云張量處理單元[TPU]和AWSInferentia)等高度分散的競爭領域形成了鮮明對比。在這里,僅僅在加速器的開發工具后面使用性能編譯器是不夠的。我們假設每個加速器芯片開發團隊都有機會接觸到相當優秀的編譯器開發人員和普通的開發人員工具設計人員。
開發工具必須能夠被大量的潛在客戶使用,并且必須按照開發人員所期望的那樣工作。Nvidia的CUDA為工具開發者提供了一個靈活的基礎,使他們能夠跨Nvidia的GPU產品線支持各種各樣的開發工具。英偉達在加速器市場的份額在過去一年中略有增長,在前四大云計算中,基于加速器的整體部署增加了近70%。
Azure支持AMD的Radeon Instinct MI25在一個類型家族(NVasv4)中,但只在Windows上,類型家族的每個實例的部分GPU配置是典型的虛擬桌面環境。AMD已經展示了對實際企業桌面環境的強大支持,其先進的GPU虛擬化特性使其GPU在虛擬桌面方面具有競爭力。
只有通過深度學習框架,才能使用內部設計的深度學習加速器。谷歌允許開發人員通過TensorFlow和PyTorch訪問其云TPU。AWS允許開發人員通過自己的AWS神經元軟件開發工具包(SDK)訪問它的“下一層”芯片,AWS已經集成了TensorFlow、PyTorch和MXNet。
Azure提供了一個基于IntelArria10FPGA實例類型(PB)。但是Azure只允許通過一組預先開發的深度學習推斷模型來訪問這一類型:ResNet50、ResNet152、DenseNet-121、VGG-16和SSD-VGG。Azure在2019年11月將其FPGA實例類型部署到生產中。
阿里云和AWS提供通用FPGA實例類型,并與第三方合作,在應用市場上提供FPGA開發工具和預先開發的應用程序。有兩個挑戰。首先,FPGA開發技能很少,不像GPU開發工具和深度學習建模框架。其次,FPGA市場應用程序必須比基于GPU的應用程序顯示出明顯的優勢。
芯片產業的摩爾定律想必大家都不陌生,通俗版的解釋是每18個月同等價格的芯片計算能力會翻倍。最近幾年在PC和移動等個人芯片已滿足大多數計算需求時,關于摩爾定律不再生效的論調也遍地都是。
實際上,傳統計算硬件還在發展,只是速率慢了。隨著大數據、人工智能的崛起,需要AI運算處理的數據,差不多每24個月就至少增長一倍,建構模型的復雜度是原來的五倍,與之相關,就需要計算能力強大十倍芯片能及時跟上,這一計算能力的提升,需要算法、軟件和硬件工藝相互配合共同來完成。
為了應對量級增長的算力需求,百度發布了昆侖AI芯片,參數如下:14nm工藝;260Tops性能;512GB/s內存帶寬;100+瓦特功耗。昆侖AI芯片具有高效、低成本和易用三大特征,其針對語音、NLP、圖像等專門優化,同等性能下成本降低10倍,支持paddle等多個深度學習框架、編程靈活度高、靈活支持訓練和預測。
在IaaS方面,在軟件即服務的云中,Facebook正在與開放計算平臺(OCP)加速器模塊工作組(OAM)合作,開發標準化的培訓和推理平臺。OAM培訓平臺被設計用來容納大范圍的高瓦數、商業深度學習加速器,使用一個可互換的模塊,集成了加速器芯片和散熱器,包括AMD、Intel/HabanaGraphcore和Nvidia加速器。同樣地,OAM推斷平臺被設計成在一個標準的M.2物理載體中容納各種各樣的小的低功率推斷加速器。
Facebook已經設計了自己的Glow編譯器,以優化在標準框架(如PyTorch)中開發的推斷模型,使之適用于每個特定的基于m2的推斷加速器。開放式基礎設施,如OCP的OAM,將使低層云能夠更好地與AWS、Azure、GCP和阿里云等巨頭正在激烈競爭。
(責任編輯:fqj)
-
云服務
+關注
關注
0文章
826瀏覽量
38943 -
云技術
+關注
關注
1文章
189瀏覽量
18840
發布評論請先 登錄
相關推薦
評論