作為 AI 市場中的重要組成,以 GPU、FPGA 等為主的 AI 加速器市場發展也隨之水漲船高。GPU 資源池化技術從初期的簡單虛擬化,到資源池化,經歷了四個技術演進階段。
?簡單虛擬化。將物理 GPU 按照 2 的 N 次方,切分成多個固定大小的 vGPU(Virtual GPU,虛擬 GPU),每個 vGPU 的算力和顯存相等。實踐證明,不同的 AI 模型對于算力、顯存資源的需求是不同的。所以,這樣的切分方式,并不能滿足 AI 模型多樣化的需求。
?任意虛擬化。將物理 GPU 按照算力和顯存兩個維度,自定義切分,獲得滿足 AI 應用個性化需求的 vGPU。
?遠程調用。AI 應用與物理 GPU 服務器分離部署,允許通過高性能網絡遠程調用 GPU資源。這樣可以實現 AI 應用與物理 GPU 資源剝離,AI 應用可以部署在私有云的任意位置,只需要網絡可達,即可調用 GPU 資源。
?資源池化。形成 GPU 資源池后,需要統一的管理面來實現管理、監控、資源調度和資源回收等功能。同時,也需要提供北向 API,與數據中心級的資源調度平臺對接,讓用戶在單一界面,就可以調度包括 vGPU 在內的數據中心內的各類資源。
OrionX 通過軟件定義 AI 算力,顛覆了原有的 AI 應用直接調用物理 GPU 的架構,增加軟件層,將 AI 應用與物理 GPU 解耦合。AI 應用調用邏輯的 vGPU,再由 OrionX 將 vGPU需求匹配到具體的物理 GPU。OrionX 架構實現了 GPU 資源池化,讓用戶高效、智能、靈活地使用 GPU 資源,達到了降本增效的目的。
一個典型的 OrionX GPU 資源池的邏輯架構中包含了 OrionX Controller(OC)、OrionX Server Service(OSS)、OrionX Client Runtime(OCRT)、和 OrionX GUI(OG)等功能組件。
OrionX 的各功能組件可以根據用戶環境需求被部署在單服務器上,也可以被分布式地部署在數據中心的多個物理機、虛擬機或者容器環境中。在分布式的部署環境中,各功能組件可以通過多種類型的網絡建立連接,從而把數據中心的 GPU 資源管理起來,形成一種可以被全局共享的計算資源,對 AI 應用提供可遠程訪問的、可靈活切分的、可聚合的彈性 GPU算力。OrionX 的邏輯架構如下圖所示。
CUDA是由 Nvidia 公司定義且公開推廣、維護的一種 GPU 編程接口。從 2007 年推出之后,經過十幾年生態培育,已經成為 GPU 編程的一個事實標準。大部分流行的 AI 框架,例如 TensorFlow、PyTorch、MXNet 和 PaddlePaddle都是基于 CUDA 編程接口開發。
OrionX 在管理物理 GPU 之后,通過模擬 CUDA 標準接口,為各種 AI 應用提供一個與 Nvidia CUDA SDK 接口功能一致的運行環境,從而使得 AI 應用透明無感知地運行在 OrionX GPU資源池之上。OrionX 不僅在單服務器上模擬了 CUDA 標準接口,并且通過分布式部署各功能組件,能夠提供分布式的 CUDA 運行環境。
OrionX 的各個功能組件通過管理平面網絡和數據平面網絡進行通信,共同完成 GPU 資源池的管理以及 GPU 資源的調度等功能。
在部署 OrionX 時,使用基于 TCP/IP 網絡的管理平面,來承載整個系統的管理工作。通過管理網絡,分布在各個節點的功能組件都保持和 OrionX Controller 同步。管理平面邏輯結構如下圖所示。
在應用運行的過程中,應用所在環境和 GPU 物理節點之間的數據傳輸使用的是 OrionX 的數據面。該數據面支持多種后端數據傳輸載體,包括 TCP/IP 以太網絡、RoCE RDMA、Infiniband RDMA、Share Memory 等。具備高帶寬、低延遲。同時支持多種傳輸協議,根據優先級自動使用高性能的傳輸方式。支持虛擬機、容器和宿主機之間的 TCP/IP 網絡隔離。
OrionX 的各個組件,支持直接部署在裸金屬服務器上,即安裝操作系統后,直接以 Binary形式部署,也支持容器化部署。OrionX 具備適配多種 Linux 操作系統和云平臺的能力,因此,OrionX 具有多樣化的部署形式。
OrionX 支持 CentOS、Ubuntu、Debian 等 Linux 發行版本,同時支持基于 KVM 的虛擬機云平臺和基于 Docker 的容器云平臺。尤其是支持原生容器,并實現了和 Kubernetes 的平滑對接。
-
FPGA
+關注
關注
1629文章
21754瀏覽量
604233 -
服務器
+關注
關注
12文章
9231瀏覽量
85625 -
AI芯片
+關注
關注
17文章
1890瀏覽量
35097
原文標題:OrionX AI芯片計算資源池化技術
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論