WEKA是可擴(kuò)展軟件定義數(shù)據(jù)平臺的先驅(qū),NVIDIA 正在與其合作,將 WEKA 先進(jìn)的數(shù)據(jù)平臺解決方案與功能強(qiáng)大的NVIDIA BlueField DPU相結(jié)合。
WEKA 數(shù)據(jù)平臺的高級存儲軟件可充分發(fā)揮 AI 和性能密集型工作負(fù)載的潛力,而 NVIDIA BlueField DPU 則徹底改變了數(shù)據(jù)的訪問、移動(dòng)和安全性。這些前沿技術(shù)的集成將開創(chuàng)前所未有的數(shù)據(jù)管理效率和速度的新時(shí)代,并有望重塑高性能數(shù)據(jù)訪問的格局。
解決高效的 AI 工作流程
AI 的迅速崛起推動(dòng)了計(jì)算能力和網(wǎng)絡(luò)速度的指數(shù)級增長,對存儲資源提出了非常高的需求。雖然 NVIDIA GPU 提供了令人驚嘆的可擴(kuò)展、高效的計(jì)算能力,但是它們還需要高速的數(shù)據(jù)訪問。
WEKA 與 NVIDIA 的合作解決了這一挑戰(zhàn)。它們共同滿足了模型訓(xùn)練和推理任務(wù)(包括檢索增強(qiáng)生成,RAG)對 PB 級數(shù)據(jù)進(jìn)行高帶寬網(wǎng)絡(luò)訪問的關(guān)鍵需求。
關(guān)于 RAG 的用例,可閱讀以下文章:
借助加速以太網(wǎng)網(wǎng)絡(luò)和網(wǎng)絡(luò)存儲擴(kuò)展企業(yè) RAG
該聯(lián)合解決方案專為處理豐富的圖像和視頻數(shù)據(jù)、向量數(shù)據(jù)庫以及大量元數(shù)據(jù)保存的復(fù)雜性而設(shè)計(jì)。這確保了無縫且高效的 AI 工作流程,使集成變得及時(shí),并成為未來數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新的關(guān)鍵。
提高吞吐量和安全性 降低延遲
此次合作的核心是集成 WEKA 客戶端,并通過使用Virtio-FS 代碼來完成。它直接在 BlueField DPU 上運(yùn)行,而不是在主機(jī)服務(wù)器的 CPU 上運(yùn)行。這種創(chuàng)新方法具有以下關(guān)鍵優(yōu)勢:
提高吞吐量:BlueField 硬件加速功能可實(shí)現(xiàn)更快的數(shù)據(jù)傳輸速率。
降低延遲:通過在 BlueField DPU 上運(yùn)行 WEKA 客戶端,數(shù)據(jù)訪問操作可以繞過主機(jī) CPU,從而顯著降低延遲。
CPU 卸載:通過將 WEKA 客戶端遷移到 DPU,可以釋放寶貴的主機(jī) CPU 資源用于應(yīng)用程序處理,從而有可能提高整體系統(tǒng)性能和效率。
增強(qiáng)安全性:將存儲操作卸載到 DPU 可創(chuàng)建額外的隔離層,從而增強(qiáng)整體系統(tǒng)安全性。
Virtio-FS 代碼的實(shí)現(xiàn)有助于主機(jī)系統(tǒng)與網(wǎng)絡(luò)數(shù)據(jù)之間的無縫通信,在不犧牲性能的情況下實(shí)現(xiàn)高效的文件系統(tǒng)操作。通過在 BlueField DPU 上運(yùn)行 WEKA 客戶端,可以從 CPU 卸載文件系統(tǒng)任務(wù),從而減少開銷,并釋放高達(dá) 20% 的 CPU 資源以用于應(yīng)用程序。
這種方法還可確保虛擬化環(huán)境中的本地文件系統(tǒng)效率和跨平臺兼容性。此外,Virtio-FS 旨在適應(yīng)不斷發(fā)展的 DPU 技術(shù),采用NVIDIA DOCA 軟件框架來簡化未來的開發(fā)流程,并兼容新一代 NVIDIA BlueField DPU。
將 Virtio-FS 與 NVIDIA BlueField DPU 結(jié)合使用,可將高效、直接的文件共享與強(qiáng)大的卸載和加速功能的優(yōu)勢結(jié)合起來。這種協(xié)同作用可提高性能、降低系統(tǒng)復(fù)雜性,并支持適合 AI 工作負(fù)載的現(xiàn)代可擴(kuò)展架構(gòu)。
圖 1:在 NVIDIA BlueField-3 DPU 上運(yùn)行 WEKA 客戶端可提高吞吐量、延遲和安全
硬件加速數(shù)據(jù)處理
AI 訓(xùn)練和推理對存儲提出了獨(dú)特的挑戰(zhàn),每個(gè)挑戰(zhàn)都有不同的要求。訓(xùn)練需要高吞吐量來處理大型數(shù)據(jù)集和寫入密集型操作,而推理需要出色的讀取性能和低延遲來實(shí)現(xiàn)實(shí)時(shí)響應(yīng)。這兩種情況通常都依賴于共享文件系統(tǒng)。NVIDIA BlueField DPU 通過提供硬件加速數(shù)據(jù)處理來優(yōu)化訓(xùn)練和推理工作負(fù)載。
優(yōu)化 AI 模型訓(xùn)練
AI 模型訓(xùn)練對存儲提出了很高的要求,需要快速訪問龐大的數(shù)據(jù)池來支持 GPU 的生產(chǎn)力。訓(xùn)練過程包括定期讀取大型數(shù)據(jù)池,以及頻繁的持續(xù)寫入操作,例如記錄日志、保存檢查點(diǎn)和記錄指標(biāo)。BlueField DPU 提供強(qiáng)大的寫入性能和優(yōu)化的讀/寫平衡,并有效提供高 IOPS。
適用于推理的低延遲和高讀取性能
AI 推理具有不同的存儲需求,需要快速訪問來自多個(gè)來源的少量數(shù)據(jù),以保持較低的用戶響應(yīng)時(shí)間。低延遲對于實(shí)時(shí)或近乎實(shí)時(shí)的處理至關(guān)重要,因?yàn)檠舆t會影響應(yīng)用程序的響應(yīng)能力和有效性。推理通常需要使用多個(gè)經(jīng)過訓(xùn)練的模型和其他數(shù)據(jù)源來快速做出預(yù)測或決策。BlueField DPU 提供快速讀取性能,這對于保持?jǐn)?shù)據(jù)流暢運(yùn)行至關(guān)重要,從而為時(shí)間敏感型 AI 應(yīng)用程序提供準(zhǔn)確的輸出。
平衡訓(xùn)練和推理以提高 AI 性能和效率
訓(xùn)練和推理之間的特定壓力略有不同。平衡這些需求對于構(gòu)建高效且富有彈性的 AI 存儲架構(gòu)至關(guān)重要,對于創(chuàng)建有效且強(qiáng)大的 AI 存儲解決方案也至關(guān)重要。將 WEKA 數(shù)據(jù)平臺客戶端與 NVIDIA BlueField DPU 集成,可提高訓(xùn)練和推理工作負(fù)載的存儲性能,并提高解決方案的效率和安全性。
總結(jié)
在 NVIDIA BlueField DPU 上運(yùn)行 WEKA 客戶端有助于從 WEKA 文件系統(tǒng)訪問文件,從而充分發(fā)揮性能密集型工作負(fù)載的潛力,并有利于數(shù)據(jù)訪問、移動(dòng)和安全性。
在 SC 2024 大會上,WEKA 和 NVIDIA 通過現(xiàn)場演示展示了集成解決方案的實(shí)際優(yōu)勢。與會者見證了通過提高數(shù)據(jù)訪問速度和高效工作負(fù)載處理來加速 AI 數(shù)據(jù)處理。我們的專家團(tuán)隊(duì)隨時(shí)可為您解答問題,并就此解決方案如何改變您的數(shù)據(jù)中心運(yùn)營提供見解。
-
以太網(wǎng)
+關(guān)注
關(guān)注
40文章
5439瀏覽量
171965 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5010瀏覽量
103238 -
AI
+關(guān)注
關(guān)注
87文章
31079瀏覽量
269413 -
DPU
+關(guān)注
關(guān)注
0文章
365瀏覽量
24211
原文標(biāo)題:NVIDIA BlueField DPU 與 WEKA 客戶端的集成提高了 AI 工作負(fù)載的效率
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論