越來越多的企業(yè)開始采用加速計算,從而滿足生成式 AI、5G 電信和主權(quán)云的需求。NVIDIA 推出了DOCA 平臺框架(DPF),該框架提供了基礎(chǔ)構(gòu)建模塊來釋放NVIDIA BlueField DPU的強(qiáng)大功能,并優(yōu)化 GPU 加速計算平臺。作為一種編排框架和實施藍(lán)圖,DPF 使開發(fā)者、服務(wù)提供商和企業(yè)能夠無縫構(gòu)建 BlueField 加速的云原生軟件平臺。
通過簡化 DPU 配置、生命周期管理和服務(wù)編排,DPF 使 BlueField DPU 可在 Kubernetes 環(huán)境中廣泛使用,以加速 AI 和其他現(xiàn)代工作負(fù)載。此外,DPF 還增強(qiáng)了 BlueField 加速應(yīng)用程序和服務(wù)的活躍生態(tài)系統(tǒng),推動了可擴(kuò)展云平臺的發(fā)展。
解決云基礎(chǔ)設(shè)施中的一個關(guān)鍵差距
隨著 DPF 的推出,NVIDIA 正在 DPU 上實現(xiàn)大膽的飛躍。DPF 標(biāo)志著向更現(xiàn)代化的云基礎(chǔ)設(shè)施邁出了重要的一步,有助于重新定義如何將 BlueField DPU 集成到數(shù)據(jù)中心,以應(yīng)對性能、效率和安全性方面的關(guān)鍵挑戰(zhàn)。
NVIDIA BlueField DPU 已經(jīng)提供了一種高性能、可擴(kuò)展的解決方案,從而替代傳統(tǒng)以 CPU 為中心的基礎(chǔ)設(shè)施,它可從主機(jī) CPU 卸載關(guān)鍵的網(wǎng)絡(luò)、存儲和安全功能,以加速數(shù)據(jù)中心運營。然而,到目前為止,在數(shù)據(jù)中心規(guī)模管理 DPU 驅(qū)動的服務(wù)一直是一個散碎且繁瑣的過程。
這就是 DPF 的作用所在:一個專用框架,可簡化 BlueField 加速云基礎(chǔ)設(shè)施的部署、編排和擴(kuò)展。DPF 將 Kubernetes 控制平面功能擴(kuò)展到 DPU,使管理員能夠直接在 BlueField DPU 上部署和編排 NVIDIA DOCA 服務(wù)和基于 DOCA 的第三方服務(wù)。
DPF 配備了用于無縫集成的專用 SDK,可為開發(fā)者提供一致的模塊化工具包,以便在 BlueField DPU 集群中輕松管理軟件。這縮短了時間并降低了復(fù)雜性,使開發(fā)者能夠?qū)W⒂跇?gòu)建強(qiáng)大的軟件平臺和具有高影響力的應(yīng)用程序,而不是管理 DPU 的軟件編排。
此外,DPF 在生態(tài)系統(tǒng)中發(fā)揮著至關(guān)重要的作用,使基礎(chǔ)設(shè)施獨立軟件供應(yīng)商(ISV)能夠滿懷信心地構(gòu)建和集成 BlueField 應(yīng)用程序。通過提供標(biāo)準(zhǔn)化的 API 和工具,DPF 可確保這些應(yīng)用程序在 BlueField 加速的基礎(chǔ)設(shè)施上無縫運行。這也使服務(wù)提供商和企業(yè)受益,使他們能夠利用強(qiáng)大的加速服務(wù)組合來構(gòu)建高性能、安全且高效的云平臺。
為了簡化和優(yōu)化云原生環(huán)境的 DPU 管理,DPF 解決了兩個主要工作流程:
DPU 配置和生命周期管理:涵蓋部署 BlueField DPU 的初始步驟,包括固件和軟件的安裝和配置,以及持續(xù)的維護(hù)任務(wù)。
DPU 服務(wù)管理和編排:涉及部署和管理基礎(chǔ)設(shè)施服務(wù),如 SDN 控制器軟件、存儲目標(biāo)軟件、防火墻、負(fù)載均衡器等,包括服務(wù)功能鏈。
高效的 DPU 配置和生命周期管理
DPF 為 BlueField DPU 配置和生命周期管理提供端到端支持,自動執(zhí)行固件更新、刷寫和配置等流程,以簡化設(shè)置并減少停機(jī)時間。BlueField DPU 的配置、設(shè)置、監(jiān)測和故障排除等關(guān)鍵任務(wù)均已得到簡化,從而更輕松地大規(guī)模集成和運行 BlueField DPU。
DPF 為整個數(shù)據(jù)中心內(nèi)的每個 BlueField 維護(hù)更新狀態(tài),從而實現(xiàn)對 DPU 運行狀況做出動態(tài)響應(yīng)。當(dāng) DPU 需要維護(hù)時,DPF 可以主動以受控方式刪除節(jié)點,從而最大限度地減少或消除對活動生產(chǎn)工作負(fù)載的影響。通過滾動更新功能,管理員可以通過指定一次要更新的 BlueField DPU 百分比來控制批量更新,從而避免可能影響系統(tǒng)穩(wěn)定性的大規(guī)模更新。實時運行狀況監(jiān)測和警報使管理員能夠快速識別和解決問題,這對于電信和 AI 驅(qū)動的數(shù)據(jù)中心等高可靠性環(huán)境至關(guān)重要。
通過公開的 API 和自定義資源定義(CRD),DPF 可實現(xiàn) BlueField DPU 生命周期的自動化,使云運營商能夠從其標(biāo)準(zhǔn) K8s 控制平面管理與 BlueField 綁定的服務(wù),從而為 K8s 工作節(jié)點和 DPU 提供統(tǒng)一的“單一界面”視圖和控制。
DPF 實施藍(lán)圖基于上游 Kubernetes,其允許技術(shù)合作伙伴根據(jù)不同的基礎(chǔ)設(shè)施需求和企業(yè)產(chǎn)品來調(diào)整和擴(kuò)展框架。
全面的 DPU 服務(wù)管理和編排
DPF 將 BlueField DPU 無縫集成到基于 Kubernetes 的工作流程中,從而將云原生環(huán)境的復(fù)雜性提升到新的水平。通過引入專用的輔助 Kubernetes 控制平面,DPF 使管理員能夠高效管理部署在 BlueField DPU 上的 NVIDIA DOCA 服務(wù)和基于 DOCA 的第三方應(yīng)用程序。DPF Operator 自主管理此輔助 DPU Kubernetes 控制平面,監(jiān)督服務(wù)部署、監(jiān)測和生命周期管理的各個方面。
DPF 旨在將 DPU 管理的復(fù)雜性抽象化,使管理員僅使用熟悉的 Kubernetes 結(jié)構(gòu)與主 Kubernetes 控制平面進(jìn)行交互,從而無需直接管理 DPU 控制層。DPF 還為 ISV 提供了靈活性,使他們能夠?qū)崿F(xiàn)自己的 Kubernetes 控制平面,以實現(xiàn)自定義的 BlueField 服務(wù)管理和編排。
通過優(yōu)化 BlueField DPU 集群中的服務(wù)編排,DPF 簡化了復(fù)雜分布式工作負(fù)載的部署和管理。憑借強(qiáng)大的生命周期管理功能,DPF 支持無縫的服務(wù)更新、擴(kuò)展和回滾,確保管理員可以高效地管理更改,而不會中斷正在進(jìn)行的操作。結(jié)合 DOCA 服務(wù)功能鏈(SFC),DPF 可促進(jìn)安全、高效的服務(wù)鏈(例如加速網(wǎng)絡(luò)(CNIs)、高性能數(shù)據(jù)服務(wù)(CSIs)和防火墻功能),以處理復(fù)雜的多步驟任務(wù)。
為確保順利部署,DPF 提供了部署前驗證,確認(rèn) DPU 可以托管所需的服務(wù),并在未滿足要求時返回有意義的錯誤消息。此外,DPF 還提供監(jiān)測和調(diào)試功能,幫助管理員實時管理和排除故障服務(wù),從而更輕松地實現(xiàn)高可靠性和透明度。
通過 DPF,管理員可以獲得直觀的云原生工具,用于在 BlueField DPU 上配置、管理和編排服務(wù)。這種與現(xiàn)有 Kubernetes 工作流程的無縫集成加快了高級 BlueField 加速應(yīng)用程序在電信、云和企業(yè)環(huán)境等領(lǐng)域的部署速度。
模塊化架構(gòu)有助于簡化集成
DPF 采用模塊化架構(gòu)設(shè)計,可簡化集成并為 BlueField 加速基礎(chǔ)設(shè)施提供定制功能。這種靈活的設(shè)計基于一系列核心組件和工具,為開發(fā)者、服務(wù)提供商和企業(yè)提供了一種在云原生環(huán)境中配置和管理 BlueField DPU 的簡化方法。
圖 1 展示了 DPF 軟件堆棧,突出顯示了在主機(jī)和 BlueField DPU 上運行的 DPF 功能。它還包括用于網(wǎng)絡(luò)、存儲和安全的各種基礎(chǔ)設(shè)施軟件服務(wù),其中一些服務(wù)通過 Kubernetes 插件(CNI 和 CSI)將向容器化工作負(fù)載公開加速 IO 接口。
圖 1:NVIDIA DPF 堆棧
這些通過容器、Helm 圖表和實施藍(lán)圖提供的工具和服務(wù),為開發(fā)者提供了集成和構(gòu)建 DPF 所需的一切。
DPF Operator
DPF 編排層的核心是DPF Operator,它可以自動執(zhí)行 DPU 配置、生命周期管理和服務(wù)編排。它為 Kubernetes 用戶提供了一個熟悉的云原生接口,簡化了復(fù)雜的配置,并使 BlueField DPU 能夠像其他集群資源一樣進(jìn)行部署和管理。DPF Operator 內(nèi)置對自動更新和資源管理的支持,可讓您在生產(chǎn)環(huán)境中輕松部署和維護(hù) BlueField DPU。
DOCA for Host
DOCA for Host軟件提供了一套全面的配置工具,可簡化 BlueField DPU 的部署和配置。DOCA for Host 可處理 DPU 與主機(jī)環(huán)境集成所需的固件、BIOS 和系統(tǒng)配置,從而確保在各種部署中實現(xiàn)一致且可靠的設(shè)置。
OVS-DOCA
OVS-DOCA是 DPF 中的核心網(wǎng)絡(luò)堆棧,為 BlueField 加速應(yīng)用程序提供安全、高性能的網(wǎng)絡(luò)連接。它在 Kubernetes 環(huán)境中提供高級網(wǎng)絡(luò)功能和高效的流量路由,確保在不影響性能或安全性的情況下充分利用 BlueField 資源。這一基礎(chǔ)使開發(fā)者能夠輕松構(gòu)建高吞吐量、延遲敏感的應(yīng)用程序。
DOCA 服務(wù)
NVIDIA NGC上托管的精選DOCA 服務(wù)集增強(qiáng)了 BlueField DPU 的功能,DPF 提供了直接在 BlueField 上獲取和部署這些服務(wù)的工具,并作為 Kubernetes 集群的一部分。這些即用型服務(wù)涵蓋高級監(jiān)測、網(wǎng)絡(luò)、存儲、安全等,可擴(kuò)展 BlueField 的功能,從而實現(xiàn)關(guān)鍵服務(wù)的快速部署。通過 NVIDIA NGC,用戶可以無縫訪問不斷擴(kuò)展的 NVIDIA 認(rèn)證服務(wù)和應(yīng)用程序庫,這些服務(wù)和應(yīng)用程序與 DPF 完全集成。
DPF 的初始版本包括 HBN、OVN-Kubernetes、Telemetry 和 BlueMan 作為第一套 DOCA 服務(wù)集,后續(xù)版本將引入對其他服務(wù)的支持,以進(jìn)一步增強(qiáng)功能并擴(kuò)展集成功能。
除了 NVIDIA 服務(wù)之外,DPF 還編排了第三方 DOCA 服務(wù),為 BlueField 環(huán)境引入了專用功能。從網(wǎng)絡(luò)安全解決方案到負(fù)載均衡和防火墻應(yīng)用程序,第三方服務(wù)使用戶能夠根據(jù)其特定需求打造強(qiáng)大的生態(tài)系統(tǒng)。DPF 采用開放式模塊化架構(gòu),可促進(jìn)與服務(wù)供應(yīng)商的合作,為用戶提供更廣泛的功能和靈活性。
DPF 為開發(fā)者提供所需的工具和服務(wù)(打包在容器、Helm 圖表和實施藍(lán)圖中),以輕松與 DPF 集成,并構(gòu)建、定制和部署先進(jìn)的 BlueField 加速軟件平臺。
利用 DPF 引領(lǐng) DPU 加速云計算的未來
NVIDIA DOCA 平臺框架(DPF)重新定義了 BlueField 加速環(huán)境的云基礎(chǔ)設(shè)施,徹底改變了云服務(wù)的配置和管理方式。此外,NVIDIA DPF 路線圖也預(yù)示著即將推出激動人心的功能。即將推出的功能將為裸機(jī) BlueField 加速的基礎(chǔ)設(shè)施帶來零信任功能,從硬件層上保護(hù)環(huán)境。
我們鼓勵開發(fā)者、電信公司和企業(yè)探索 DPF 的功能,下載藍(lán)圖,并嘗試構(gòu)建針對高性能和可擴(kuò)展基礎(chǔ)設(shè)施優(yōu)化的應(yīng)用程序。立即開始使用 DPF,引領(lǐng) BlueField 加速的云基礎(chǔ)設(shè)施的未來。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5247瀏覽量
105799 -
AI
+關(guān)注
關(guān)注
87文章
34324瀏覽量
275506 -
DPU
+關(guān)注
關(guān)注
0文章
390瀏覽量
24712
原文標(biāo)題:利用 NVIDIA DOCA 平臺框架助力新一代 DPU 加速的云基礎(chǔ)設(shè)施
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
第三屆NVIDIA DPU黑客松開啟報名
NVIDIA助力解決量子計算領(lǐng)域重大挑戰(zhàn)
Cadence 利用 NVIDIA Grace Blackwell 加速AI驅(qū)動的工程設(shè)計和科學(xué)應(yīng)用
在NVIDIA BlueField-3 DPU上運行WEKA客戶端的實際優(yōu)勢

《CST Studio Suite 2024 GPU加速計算指南》
NVIDIA亮相2024亞馬遜云科技re:Invent全球大會
NVIDIA將亮相亞馬遜云科技re:Invent 2024
NVIDIA加速全球大多數(shù)超級計算機(jī)推動科技進(jìn)步

NVIDIA加速計算如何推動醫(yī)療健康
未來智慧城市發(fā)展的四大引領(lǐng)方向
利用NVIDIA RAPIDS加速DolphinDB Shark平臺提升計算性能

評論