日耳曼神話中,有一種名叫戈蘭林(Gremlin)的小精靈。傳說這種精靈熟悉各種工具和機械,可以幫助能工巧匠完成種種工作,還可以提升工匠的技術,啟迪他們的發明精神。很多時候,工匠們的傳統方式方法到達一定瓶頸,就會祈禱小精靈出現,能夠幫助他們解決難題。 ? 在我們這個時代,數據中心就是偉大的工匠,肩負著為千行百業打造計算、智能基礎設施的重任。當數據重心遇到了工作瓶頸,可能也需要精靈加入到他們的工作中。 ? 近日,英特爾攜手百度智能云,發布了《為基礎設施提供加速引擎 助力塑造未來數據中心》英特爾IPU平臺解決方案白皮書,主要解析了英特爾IPU架構的功能和應用,以及如何與百度智能云通力合作打造其全新DPU架構,幫助云數據中心充分釋放算力,全面賦能云服務創新。 ? ?
? AI與大數據時代,云數據中心走向計算架構變革成為當務之急。英特爾IPU的發布與實踐,可以保持基礎設施高性能、高利用率的同時,實現更靈活地資源調配,并使云服務提供商能更快地轉向完全虛擬化存儲和網絡架構,從而極大滿足云數據中心的升級需求。 ? 在白皮書當中,我們可以通過云計算中心的發展與挑戰-IPU的架構與技術優勢解析-英特爾與百度智能云攜手進行的實踐,三個維度來審視IPU的發展藍圖與價值期待。 ? 數據中心里,小精靈正待起舞。 ?
云數智變革:數據中心的壓力與瓶頸
云時代正在蓬勃發展,全新的技術與產業變革正醞釀在云計算產業中。對于云服務商來說,企業創新應用對云數據中心既有能力提出更高需求。隨著 5G、AI、邊緣計算等前沿技術在更多行業獲得落地應用,企業級云服務出現了許多新的變化與趨勢。比如說: ? 更呈分布式的云服務部署:邊緣計算等技術的發展推動著云服務由傳統的中心云逐漸向“云邊端”協同演進,更多云服務被部署在貼近應用的邊緣端; ? 更為廣泛的云服務應用場景:云服務正成為更多行業的 IT 基礎設施之一,在智能制造、智慧零售、云游戲等新業態中作為主力,支撐企業的數字化、智能化創新。
在這些變化的推動,云數據中心服務器在管理與應用上面臨更多挑戰。 ? 例如更多虛擬機(Virtual Machine,VM)的部署使虛擬機管理等管理任務變得更加復雜。同時,其能力輸出也逐漸從傳統單體式應用向微服務化發展,這也進一步提高了云數據中心管理任務的復雜程度,進而占用大量處理器資源。 ? 既要對虛擬機、微服務等開展高效管理,又要對相關的云數據中心的網絡、存儲等基礎設施實現加速,其中的復雜性和資源開銷水平不斷增加,傳統基礎架構已經很難滿足未來數據中心要求。 ? 隨著微服務模型越來越多地用于云數據中心的應用、存儲和網絡工作負載。可以預測的是,未來數據中心需要進行以下方面的轉型和升級: ? 1、云原生應用的出現和快速增長推高了對專用基礎設施的需求,并大幅提高云服務的敏捷性以及云數據中心的效率。
2、云服務的微服務化,推動了分布式異構計算環境的發展,而每個微服務都應在更適合其的加速節點上運行。
3、微服務模型的廣泛采用也催生出數據中心編排系統,使各異構計算服務器之間實現微服務分發的自動化及管理。
4、使用微服務、虛擬機、容器以及容器編排的場景不斷增加,推動了服務網格的開發。服務網格能夠簡化微服務到微服務的通信,并使其更加高效。服務網格已經成為云原生堆棧的標準組成部分。 ? 因此,未來數據中心的架構將更多地面向于微服務且日益分散的應用環境而設計,以此來更好利用異構計算帶來的加速處理能力。整體而言,未來數據中心架構需要面向微服務與分散應用環境設計,通過異構計算的方式來使數據中心算力設施各司其職,適應分布式部署的特點和需求,以此來應對云時代的產業升級壓力。 ? 這種情況下,IPU的誕生與發展就成為了順理成章的事情。 ?
精靈起舞:IPU為數據中心獻上時代之變
數據中心在目前階段必須要完成新的升級與演變,尤其要有新的計算機構出現。未來的數據中心,需要實現大規模分布式異構計算協同工作、無縫連接。尤其是處理基礎設施加速的計算單元可以有效負載分擔CPU的工作,對于數據中心效率提升至關重要。 ? 2021年,英特爾推出了基礎設施處理器(IPU)。作為一種可編程網絡設備,英特爾IPU能夠助力云和通信服務提供商以及企業提高安全性、節約開銷并充分釋放中央處理器(CPU)的性能。借助英特爾IPU平臺,數據中心可以通過安全、穩定、可編程的解決方案更好地釋放計算資源,并實現更高的安全性和隔離性。IPU這個幫助數據中心釋放算力的小精靈,可以為云數據中心的微服務創新帶來多項優勢。
圖示:英特爾IPU架構 ? 作為全新的產品形態。英特爾IPU在涵蓋智能網卡功能的同時,更能為未來云數據中心帶來更高級別的安全性和控制力。其優勢包括: ? 1、減少了主機側處理器中虛擬機管理程序和基礎設施堆棧的開銷,使更多的處理器資源可用于應用和租戶工作負載。
2、從主機側處理器中卸載了存儲堆棧,從而為應用和租戶工作負載釋放更多處理器資源。
3、卸載了高密集的基礎設施任務,如加密和解密以及數據包處理。
4、在極端情況下,英特爾IPU可以卸載整個虛擬機管理程序,釋放 處理器所有內核為應用和微服務提供支持,這對于裸金屬服務產品來說至關重要。
5、為裸金屬和云主機統一云管控創造了可能。 ? 從技術架構角度思考, 英特爾IPU能夠為云數據中心帶來一系列發展優勢,是因為數據中心能夠有效地將網絡、存儲、安全以及基礎設施管理等多種能力從處理器卸載到 英特爾IPU,從而實現算力釋放,并加速多種基礎設施能力。這些能力包括: ? 1、網絡加速:將承載網絡 I/O、數據轉發等功能的虛擬交換機軟件,如 OVS 等從主機側處理器卸載到 IPU,提升網絡吞吐量,減少網絡處理時延。
2、存儲加速:將 virtio-blk、NVMe-oF 等存儲接口、協議棧從主機側處理器轉移到 IPU,提高存儲彈性和靈活性,并降低系統復雜性和開銷。
3、安全加速:從主機側處理器卸載大量加密/解密、壓縮和其他安全功能。
4、基礎設施處理:將云服務管理功能從主機側處理器卸載到英特爾 IPU,使虛擬機、容器或裸金屬服務的分配和管理更為高效。 ?
圖示:英特爾IPU面向不同基礎功能卸載的場景 ? 除了引入性能更強、且具備靈活可編程特性的硬件來面向特定功能進行優化加速,釋放更多寶貴算力之外,英特爾也賦予了 IPU 產品豐富的軟件生態。目前,英特爾正以加速開發平臺(Acceleration Development Platform,ADP)為抓手,通過更優生態系統的構建,助力合作伙伴實現云數據中心性能加速解決方案的快速開發和部署。在規劃中,ADP 平臺將為用戶提供通過英特爾開放式 FPGA 堆棧(英特爾OFS)實現的板卡硬件設計、軟件、驅動程序以及技術設計支持。用戶可以利用這些軟件工具與技術支持,加速 IPU 相關產品的開發,并迅速將產品推向市場。 ? 此外,需要注意的是處理器是數據中心的心臟。將英特爾IPU納入云數據中心架構,可以有效發揮其與處理器之間的系統能力與平臺化價值。通過對接英特爾至強可擴展處理器,英特爾IPU能夠有效提升云數據中心算力,充分釋放異構算力。 ? 在英特爾為用戶提供的高效能云數據中心生態方案中,不僅可以通過 IPU 開展能力卸載,對基礎設施進行性能加速,也可以引入英特爾至強可擴展處理器來進一步加強算力。通過對算力的“開源節流”,實現更快的數據處理速度、更大的帶寬接入能力以及更低的網絡時延。 ? 第三代英特爾至強可擴展處理器能夠為服務器帶來的性能增強包括:
1、更多的內核、更優的架構帶來算力性能的大幅提升,可有效應對高密度計算所需。
2、支持更多內存,支持 PCIe-Gen4,可實現更高的每核 I/O 帶寬。
3、多項內置加速技術,如英特爾深度學習加速技術(英特爾DL Boost)等可在人工智能等場景提供強大加速能力。 ? 在算力架構中引入英特爾至強可擴展處理器的另一個優勢是能夠有效提升能力卸載的效率和平滑性。由于主機側和 IPU 都采用基于英特爾架構的處理器,就能夠非常方便地將主機側運行應用遷移到 IPU ,甚至無需編譯即可遷移,大幅提升開發、部署和測試的效率。 ? 在基于IPU帶來的一系列價值之下,云數據中心可以持續邁向微服務創新時代,打通未來數據中心之路。 ?
助力巧匠:百度智能云的先驅探索
在白皮書中,我們可以看到英特爾IPU與百度智能云的合作案例與行業示范價值。從雙方合作中可以看出,百度智能云成功實現了提升服務器效率,提升安全水平,降低算力綜合成本等價值。 ? 在云與AI帶來的數智化大潮中,云服務持續向各個領域延伸,并承載越來越多核心業務能力。這也導致云計算服務商正面臨著需要更強算力資源、更大帶寬接入和更低網絡時延的挑戰。與此同時,云服務品牌也需要從計算架構革新中獲得價值,來確保自身的競爭優勢。為此,百度智能云提出云智一體戰略,大力發展AI云業務。而AI云服務帶來的算力需求指數級提升。面向未來的元宇宙等需求,算力釋放還將面臨更多挑戰。 ? 在這一進程中,百度智能云借助英特爾FPGA 與英特爾至強D處理器帶來的高效軟硬件可編程的加速,首次推出了自研 DPU 設備——百度太行 DPU1.0。其支持太行彈性裸金屬服務,包括網絡卸載、PCIe 設備熱插拔等功能,讓云計算的虛擬化開銷很大程度沉淀在網卡上,使云產品的性能大大提升。目前,太行 DPU1.0 產品已在太行彈性裸金屬等多種云服務場景中開展應用,并獲得了用戶的良好評價。實踐證明,百度自主研發的百度太行 DPU1.0 可以有效解決云數據中心管理及虛擬化的局限性。 ? 百度太行 DPU1.0 產品配備了 2 個 25G 帶寬的光口,并引入英特爾的FPGA 與英特爾至強D處理器作為算力核心,來實現了各項虛擬化功能的卸載,在為用戶提供彈性網卡、彈性存儲能力之余,還支持 1024 個設備的熱插拔。同時,通過將云管控平面卸載到百度太行 DPU1.0 中,實現虛擬云主機和裸金屬共池,即裸金屬可與虛擬云主機被統一靈活調度。來自百度智能云的測試驗證表明,百度太行DPU1.0 產品能夠為用戶提供 1000 萬 PPS 的轉發率以及 20 萬 IOPS 的存儲性能。 ?
? 面向未來,DPU 產品也將成為智能云服務的核心組件,助力IaaS資源的統一彈性底座,進而為用戶依托百度智能云開展各類業務創新、實施產業智能化轉型提供可靠保證。 ? IPU帶來的架構革新,可以從基座層確保算力最大化釋放,釋放數據中心的核心競爭優勢。從2016年開始,“互聯網下半場”開始成為被廣泛討論的命題。如今,在規模化競爭進入收尾階段,技術創新與精細化服務成為主要競爭點的階段,“云計算下半場”似乎也已經到來。 ? 在這一產業周期,云計算服務商的競爭力不僅在于基礎設施性價比,而是要面向客戶提供服務創新、技術創新以及綜合價值。這種情況下,云計算數據中心的基礎架構創新變得至關重要。它既是算力集約化的保障,也是業務創新的基石。 ? 隨著英特爾 IPU 以及基于其參考設計研發的相關產品,在云數據中心的基礎架構革新中展現出顯著性能優勢和市場價值,并逐步形成可持續發展的生態鏈,英特爾與百度智能云等深度合作伙伴也正圍繞云服務的未來發展方向,從軟硬件層面開拓更多優化方案。
例如通過新的英特爾IPU 平臺提供更大網絡吞吐量,實現對硬件資源的全面解耦,以及以極低時延實現端到端的加速等。 ? 面向未來,英特爾計劃在 IPU 產品體系上持續發力。英特爾在 2022 年推出兩款第二代 200 G 的可編程 IPU, 代號分別為“Oak Springs Canyon”和“Mount Evans”。其中Oak Springs Canyon 搭載了英特爾至強D 處理器與英特爾Agilex FPGA 芯片。而Mount Evans 則是英特爾首款基于ASIC 芯片的IPU產品。這兩款產品都將具有卸載 200 G工作負載所需的基礎設施加速能力,且都可與英特爾至強可擴展處理器協同工作。未來兩到三年內,英特爾將推出支持 400 G的 IPU產品,并且再2025年或晚些時候,推出新一代基于 FPGA 芯片和 ASIC 芯片的 800G IPU 產品。 ? 與此同時,英特爾也正進一步背靠豐富的開源軟件(如基礎架構編程人員開發套件(International Package and Development Kit ,IPDK)、SPDK、DPDK 等),致力于通過開放的生態系統、多方位的行業協作以及積極的社區互動,讓百度等云服務提供商、云服務最終用戶以及其它合作伙伴能加速 IPU 相關解決方案的構建,從云數據中心基礎架構的持續革新中擷取更大價值。 ? 未來數據中心正在加速到來,而IPU正在成為其中翩然起舞的精靈。
編輯:黃飛
評論
查看更多