一家成功的大算力芯片公司,其核心壁壘必須是軟硬兼?zhèn)涞模纫行酒軜?gòu)的強(qiáng)大技術(shù)壁壘,更要有持久投入的、生態(tài)兼容完備的軟件護(hù)城河。HADOS,就是中科馭數(shù)的軟件護(hù)城河。
——中科馭數(shù)高級(jí)副總裁 張宇
近日,在DPU基礎(chǔ)軟件開(kāi)發(fā)上,中科馭數(shù)迎來(lái)了一項(xiàng)重要的突破成果——HADOS 正式來(lái)到3.0版本。
HADOS 3.0是國(guó)內(nèi)DPU軟件研發(fā)平臺(tái)的一個(gè)里程碑版本,集結(jié)了中科馭數(shù)6年全部軟件研發(fā)投入與DPU在各行業(yè)廣泛落地經(jīng)驗(yàn)的整合和沉淀,體現(xiàn)了中科馭數(shù)全面擁抱敏捷開(kāi)發(fā)的理念和方法,以及對(duì)高效、靈活、安全、易用的極致追求。
目前,HADOS 3.0核心代碼量已經(jīng)超過(guò)126萬(wàn)行,包含網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)、安全等多層次API數(shù)量高達(dá)2765個(gè),并且提供大量的開(kāi)箱即用的組件和服務(wù)。相較于英特爾的IPDK和英偉達(dá)的DOCA,起步更早的HADOS在不少方面都有獨(dú)特的沉淀和優(yōu)勢(shì),包括云原生網(wǎng)絡(luò)、微服務(wù)治理、全卸載能力、DPU全仿真技術(shù)、生態(tài)兼容性、運(yùn)營(yíng)管控、國(guó)內(nèi)安全加解密,以及最重要的人工智能場(chǎng)景下國(guó)產(chǎn)AI芯片和GPU芯片網(wǎng)絡(luò)方案等等方面。可以這么說(shuō),HADOS 3.0已經(jīng)站在了業(yè)界最前沿,成為與國(guó)際巨頭英偉達(dá)和英特爾并駕齊驅(qū)的本土解決方案。
HADOS 3.0 沿用馭數(shù)經(jīng)典軟件棧架構(gòu)
為用戶(hù)提供全方位、多層次的開(kāi)發(fā)體驗(yàn)
從架構(gòu)來(lái)看,HADOS3.0延續(xù)了此前兩個(gè)大版本的三個(gè)邏輯功能分區(qū)架構(gòu),分別是超高性能的設(shè)備驅(qū)動(dòng)層(DDL),兼容性完備的應(yīng)用驅(qū)動(dòng)層(ADL),以及功能強(qiáng)大且好用的應(yīng)用開(kāi)發(fā)平臺(tái)層(ADP)。這也是中科馭數(shù)的經(jīng)典軟件棧架構(gòu)模型設(shè)計(jì),旨在為用戶(hù)提供全方位、多層次的開(kāi)發(fā)體驗(yàn)。
設(shè)備驅(qū)動(dòng)層(DDL),作為性能與靈活性兼?zhèn)涞摹安欢x”,集成了DPU開(kāi)發(fā)所需的全套驅(qū)動(dòng)模塊與豐富的API接口,涵蓋超低延遲LDMA、RDMA、虛擬化、存儲(chǔ)加密等功能模塊,并且支持NP的網(wǎng)絡(luò)可編程,特別適用于追求極致性能與定制化的用戶(hù)。
應(yīng)用驅(qū)動(dòng)層(ADL),聚焦于“三U一體”高性能算力中心,通過(guò)優(yōu)化的DPDK、SPDK、OVS、OVN,以及云原生和服務(wù)網(wǎng)格等技術(shù)組件,為網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)提供全面加速服務(wù),助力用戶(hù)輕松構(gòu)建高性能算力底座,開(kāi)箱即用,即刻享受DPU帶來(lái)的性能飛躍。
而應(yīng)用開(kāi)發(fā)平臺(tái)層(ADP),是HADOS的“敏捷”核心,配備了編譯、仿真、調(diào)試、部署的全棧工具包,其中HADEP——業(yè)界首款DPU Emulator,更是歷經(jīng)三年精心打磨,實(shí)現(xiàn)了中科馭數(shù)DPU的全功能仿真,支持云化部署,讓客戶(hù)能夠在云端一鍵部署DPU設(shè)備集群,大幅縮短開(kāi)發(fā)周期,加速項(xiàng)目落地。此外,HADEP還支持與真實(shí)DPU的混合部署,進(jìn)一步提升研發(fā)效率。
在內(nèi)部,中科馭數(shù)本身就是HADEP的“重度用戶(hù)”,基于云化部署的HADEP,搭建了自動(dòng)化研發(fā)測(cè)試平臺(tái),大大節(jié)省了硬件資源協(xié)調(diào)和占用開(kāi)銷(xiāo),提升了開(kāi)發(fā)效率。這一舉措不僅是HADOS敏捷異構(gòu)開(kāi)發(fā)理念的生動(dòng)實(shí)踐,也體現(xiàn)了馭數(shù)對(duì)研發(fā)效率與質(zhì)量的不懈追求。
面對(duì)DPU開(kāi)發(fā)平臺(tái)的復(fù)雜性,中科馭數(shù)構(gòu)建了ADIP——一套多流水線自動(dòng)化DevOps與自動(dòng)化測(cè)試平臺(tái),支持敏捷開(kāi)發(fā)、持續(xù)集成、部署、安裝、測(cè)試、迭代,確保HADOS的構(gòu)建與自動(dòng)化測(cè)試,成為推動(dòng)HADOS成功的“幕后英雄”。
HADOS 3.0四大架構(gòu)革新
全面擁抱敏捷開(kāi)發(fā),引領(lǐng)DPU應(yīng)用生態(tài)
架構(gòu)革新之一:為云原生而“原生”
云原生技術(shù),既承載了當(dāng)前通用數(shù)據(jù)中心中主流方式,更是在當(dāng)下以AIGC和大模型為代表的人工智能浪潮中,承擔(dān)核心算力操作系統(tǒng)角色,海量數(shù)據(jù)訓(xùn)練以及大模型訓(xùn)練、大模型推理都離不開(kāi)云原生技術(shù)。
HADOS 3.0全面深度支持和擁抱原生網(wǎng)絡(luò)集群,提供云原生網(wǎng)絡(luò)加速、服務(wù)網(wǎng)格全卸載、裸金屬共池管理和網(wǎng)絡(luò)安全增強(qiáng),為用戶(hù)打造了一個(gè)高效率、低成本、安全可靠的開(kāi)發(fā)與運(yùn)行平臺(tái),提供了全面、高效的云原生解決方案。
架構(gòu)革新之二:簡(jiǎn)約而不簡(jiǎn)單
深知客戶(hù)在運(yùn)維過(guò)程中面臨的挑戰(zhàn)與需求,HADOS 3.0通過(guò)一系列智能化的管理工具與服務(wù),提供強(qiáng)大的智能化運(yùn)維支撐。HADOS 3.0引入了完善的運(yùn)維管控遙測(cè)接口,與服務(wù)組件無(wú)縫集成,確保了對(duì)DPU集群的全面監(jiān)控與高效管理。更值得一提的是,HADOS靈活地提供了普羅米修斯等系統(tǒng)服務(wù),滿(mǎn)足客戶(hù)多樣化的運(yùn)維需求。在此基礎(chǔ)上,HADOS傾力打造的DPU UMS統(tǒng)一管理系統(tǒng),不僅能實(shí)時(shí)監(jiān)測(cè)DPU設(shè)備的狀態(tài),還能進(jìn)行精細(xì)化的配置管理,確保集群的穩(wěn)定運(yùn)行與資源的高效利用。
通過(guò)這一平臺(tái),用戶(hù)可以輕松實(shí)現(xiàn)設(shè)備的遠(yuǎn)程控制、故障預(yù)警、性能優(yōu)化等功能,極大降低了運(yùn)維的復(fù)雜度與成本,釋放了更多精力專(zhuān)注于核心業(yè)務(wù)的創(chuàng)新與發(fā)展。
架構(gòu)革新之三:層次化服務(wù)API,支持不同層次的二次開(kāi)發(fā)
針對(duì)客戶(hù)對(duì)于DPU開(kāi)發(fā)使用門(mén)檻高的痛點(diǎn),HADOS 3.0提供從基礎(chǔ)到高級(jí)各個(gè)層次的服務(wù)API,更以直觀清晰的文檔,如全量、豐富的說(shuō)明文檔、用戶(hù)手冊(cè)、最佳編程實(shí)踐與調(diào)優(yōu)實(shí)踐指導(dǎo),助力開(kāi)發(fā)者快速打開(kāi)DPU應(yīng)用的大門(mén),大幅縮短項(xiàng)目啟動(dòng)周期,有效控制開(kāi)發(fā)成本。
架構(gòu)革新之四:一云多芯
“一云多芯”是當(dāng)前業(yè)界整個(gè)高性能數(shù)據(jù)中心繞不過(guò)去的主流趨勢(shì)。為了順應(yīng)這一多元化需求,HADOS 3.0支持“一云多芯”策略,讓DPU能夠與不同CPU、操作系統(tǒng)、GPU及IAAS層軟件系統(tǒng)無(wú)縫對(duì)接,做到全適配、全兼容承諾,讓客戶(hù)輕松構(gòu)建“三U一體”高性能算力底座,一鍵部署,即刻體驗(yàn)敏捷異構(gòu)的效益。HADOS 3.0目前已成為業(yè)內(nèi)唯一一款生態(tài)全兼容的DPU應(yīng)用開(kāi)發(fā)平臺(tái),兼容了8款主流國(guó)產(chǎn)CPU平臺(tái)和10大國(guó)產(chǎn)操作系統(tǒng)。
六年磨一劍,HADOS已經(jīng)成為業(yè)內(nèi)適配最完全、競(jìng)爭(zhēng)力最強(qiáng)、國(guó)內(nèi)實(shí)際落地部署最多的DPU軟件開(kāi)發(fā)平臺(tái),累計(jì)部署量已經(jīng)超過(guò)了萬(wàn)卡級(jí)別。
HADOS 3.0每一行代碼,每一個(gè)功能模塊,都是基于中科馭數(shù)對(duì)用戶(hù)需求的深刻理解,為用戶(hù)提供了從底層硬件到上層應(yīng)用的全方位加速,有效解決DPU開(kāi)發(fā)與部署過(guò)程中的復(fù)雜性與挑戰(zhàn),是對(duì)高性能計(jì)算與DPU規(guī)模化應(yīng)用落地挑戰(zhàn)的有力回應(yīng)。中科馭數(shù)將一如既往地站在DPU軟硬件技術(shù)探索前沿,與廣大用戶(hù)一道,共筑高性能計(jì)算的堅(jiān)實(shí)基石。所有的這些努力,也都代表著一個(gè)信念——把敏捷易用送給客戶(hù),把復(fù)雜挑戰(zhàn)留給馭數(shù)。
審核編輯 黃宇
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4761瀏覽量
72034 -
DPU
+關(guān)注
關(guān)注
0文章
357瀏覽量
24169
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論