CCF Chip 2024,精彩不能停!7月21日下午,中科馭數在第二屆中國計算機學會(CCF)芯片大會的“馭數專屬時刻”仍在繼續,馭數組織承辦“DPU技術趨勢和應用——DPU在云原生與智算網絡中的探索與實踐”專題論壇,業內DPU專家們將討論焦點鎖定在了DPU在云原生網絡與智算網絡中的實際應用,深入探討了如何利用DPU技術解決計算系統級問題,進一步推動了DPU技術與產業應用的深度融合。
論壇主席中科院計算所研究員李曉維在開場致辭中表示,DPU在網絡、計算、安全、數據中心智能化等方面展現了關鍵作用,可以滿足國家建設新質生產力的需求。李老師指出,在國家戰略和產業發展雙重需求的驅動下,DPU正迎來發展的黃金時期,需深化產學研合作,共同把握機遇,應對挑戰,加速推進DPU產業化進程。
論壇主席、中科馭數高級副總裁、CTO盧文巖表示,中科馭數長期致力于推動DPU技術的創新與發展,過去四年來,我們已連續舉辦了五屆DPU技術論壇,從最初的底層芯片技術探討,到軟件生態的構建,再到上層應用的拓展,論壇主題層層遞進,穩扎穩打,希望推動產業界構建探討一套全面、堅實、領先的DPU技術體系。今天,我們對DPU在云和智算場景的系統級解決方案展開探討,相信DPU會在未來的算力網絡中發揮越來越大的作用!
中國聯通網絡通信首席專家曹暢在《DPU賦能算網融合》演講中闡述,算、存、運一體協同的算力基礎設施才能發揮算力最大價值,更好應對AI發展需求。從NIC發展而來的DPU,作為新型主力芯片,正在以“專有芯片做專有任務”的加速,從更加底層的數據處理及應用部署方式滿足智算等互聯業務對“算存網管效安”的需求,提升數據流轉的性能和安全,賦能算網融合的千場萬景。
比如在通信云場景中,DPU作為一種新型計算技術,可支持網絡、存儲、安全、管理等基礎設施層功能卸載,提升通信云的資源利用率和安全性等。在算力服務場景中,算力服務網關調用DPU資源實現算力能力卸載與數據高效轉發,提高算力服務的效率、使用體驗與安全性。而針對智算網絡中的RDMA RoCE問題,DPU也能提供優化解決方案,克服TCP/IP協議限制,促進數據高效傳輸。
最后,曹老師也提到,DPU的關鍵創新在于其以數據為中心的新型計算理念,并可以此為契機拉動產業鏈上下游形成對算網架構、標準等技術體系的共識。
中科馭數應用研發部總經理陳巖在《高性能網絡技術創新的基座——數據網絡應用開發平臺 DNDP》分享中表示,“算中有網, 網中有算”的算網融合是算力架構的演進趨勢。中科馭數針對當前數據網絡開發的痛點,如平臺封閉性、基礎組件缺乏及復雜場景驗證難題,創新研發了“開物”數據網絡應用開發平臺。
該平臺集可編程性與豐富組件于一體,支持軟硬件二次開發,配備充足硬件資源與調試工具鏈,實現即插即用,簡化復雜場景搭建。開物平臺的軟硬結合架構,包含可定制的DPU核心組件與HADOS軟件平臺,大幅縮短算法至系統部署周期,賦能存儲網絡、網絡安全、在網計算、基礎網絡、云原生網絡、智算網絡等多領域創新,共同推進網絡技術與算法研究的前沿發展。
中國移動研究院基礎網絡所數據中心網絡研究室主任王瑞雪在《基于DPU的全調度以太網技術思考與實踐》演講中指出,AI大模型以GPU集群分布式訓練為基礎,帶來大量節點間通信消耗,網絡成為AI算力“瓶頸”,以網強算對我國更加重要。網絡設備能力決定GPU集群組網規模、網絡性能決定GPU集群算力加速比、網絡可用性決定GPU集群穩定性。因此,智算中心以太網技術路線基本形成產業共識,技術生態和產業規模是核心競爭力。
中國移動原創性提出全調度以太網(GSE)技術體系,革新以太網轉發機制,基于三大核心機制轉變,實現高精度負載均衡、網絡層原生無損及低延遲。GSE為適應不同場景的需求,分為純網絡方案和端網協同兩條技術路線。端網協同方案是高性能智算中心網絡技術趨勢。在這個場景中,DPU作為網絡中GSP節點,需具備高效亂序報文處理與主動擁塞控制能力,進一步優化網絡規模與性能表現。
天翼云資深研發專家鄒明在《創新算力架構——天翼云紫金DPU推動算力普惠》演講中指出,隨著互聯網和AI業務的發展,傳統以CPU為核心的算力架構,面臨著虛擬化組件消耗服務器資源多,虛擬化業務性能差,新的算力平臺適配推廣困難的諸多挑戰。為了應對這些挑戰,天翼云作為云服務國家隊,積極應對算力挑戰,自研紫金DPU,通過虛擬化組件卸載、多種業務硬件加速以及自研三棧合一高性能網絡協議,使得天翼云紫金DPU具備高性能、高可靠性、低成本、簡單易用的特點,在天翼云公有云、混合云和集團各項業務上云環境中大規模部署,業務場景涵蓋通算、超算、智算等各項場景。
特別是在智能計算場景中,引入紫金DPU后,不僅簡化了VPC(虛擬私有云)和對象存儲的VxLAN接入過程,還提供了RoCE并行文件存儲的直接接入能力,極大減少了網絡層面的冗余,降低了整體網絡架構的復雜性,進而提高了數據中心的效率和響應速度。在傳統通算場景中,通過紫金DPU的卸載以及軟硬融合的硬件加速技術,實實現虛擬化“零”損耗,業務性能大幅提升,并且支持一云多芯,加速了國產化算力的推廣。
北京郵電大學汪碩在《可編程網絡探索與實踐》演講中表示,為應對人工智能和高性能計算給網絡來的挑戰,構建新質生產力所需的大帶寬、低延遲、高可靠網絡,定制化協議與可編程設備已成為未來網絡重要的演進趨勢,并初步形成覆蓋芯片、硬件、軟件的完整生態。網絡通信與安全紫金山實驗室聯合北京郵電大學通過發布全球首個骨干網可編程操作系統UniNOS,支持運營商級骨干網絡功能,成功適配主流異構交換芯片,已在長三角區域骨干網白盒平面與紫金山無損數據中心應用,支撐PB級算力數據中心的大規模落地驗證。新型可編程的確定性網絡可解決網絡利用效率、丟包等問題,推動互聯網從“盡力而為”到“確保所需”技術體系變革,能夠滿足數據傳輸、算力互聯等典型場景的網絡需求。
中科馭數產品運營部副總經理李冬在《基于DPU的高性能云底座探索與實踐》演講中表示,云計算技術體系中,DPU是串聯網絡、存儲、安全、虛擬化、裸金屬、容器等各個業務系統的核心要素。也是基于這一理解,IaaS on DPU(IoD)技術的核心思想,即將云計算基礎設施組件下沉至DPU。
中科馭數基于IoD技術打造的解決方案統一管理計算和裸金屬節點,確保99%的服務器資源直接服務于客戶業務,大幅提升基礎設施的業務處理能力,單機吞吐量提升4倍,存儲IOPS性能提升1.5倍。針對券商低時延服務,中科馭數通過DPU卸載代理流量,采用用戶態協議棧繞過內核,自主研發服務網格快路徑,將業務訪問時延降至130微秒,降低70%,并減少服務器CPU消耗達20%。在公有云裸金屬服務中,中科馭數的解決方案實現了分鐘級交付,無需PXE或操作系統安裝,通過集中式代理模式替代邊車模式,減少了資源消耗,提升了配置的簡易性和靈活性。
展望未來,IoD技術將持續演進,涵蓋可觀測性、輕量級虛擬化、軟硬協同擁塞控制等多個領域,引領DPU技術在云計算領域的廣泛應用。
在圓桌論壇環節,主持人盧文巖、天翼云鄒明、北京郵電大學汪碩、中科馭數陳巖、李冬五位嘉賓深入探討了DPU技術在云和智算領域的革新與挑戰。專家們也一致認為,DPU的本質在于性能加速,通過算力卸載提升效率,從產業來看,當前DPU技術路線和產業應用趨勢也正逐漸清晰,在智算場景和云原生場景中將大有可為。
專家們也提到,標準化、生態建設與人才培養,仍是DPU技術廣泛應用前必須跨越的障礙。DPU的標準化有助于降低使用門檻,促進技術的廣泛接受;生態系統的健全則能吸引更多的開發者與合作伙伴,加速技術迭代與創新;而高校與產業界的深度融合,則能培養出更多具備實戰經驗的人才,為DPU技術的長遠發展奠定堅實基礎。開物K-Machine的發布,正是中科馭數邁向教育領域的第一步,旨在培養DPU專業人才,讓開發者能夠以低的成本、更短的開發周期進行網絡研究與算法開發。
DPU技術已逐步走向成熟、邁向應用大規模推廣的階段,行業同仁們更多地開始討論DPU在數據中心和云計算環境中解決系統層面的“大問題”。中科馭數非常榮幸成為這一進程的參與者和推動者,我們將繼續致力于底層技術的創新與生態建設,推動DPU技術在算力基礎設施中的普及和深化應用。邀您共同見證DPU在云計算和智算領域的深遠影響。
-
DPU
+關注
關注
0文章
357瀏覽量
24169 -
云原生
+關注
關注
0文章
248瀏覽量
7947 -
中科馭數
+關注
關注
0文章
118瀏覽量
3985
原文標題:DPU技術趨勢和應用——DPU在云原生與智算網絡中的探索與實踐 | CCF Chip 2024
文章出處:【微信號:yusurtech,微信公眾號:馭數科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論