隨著“東數西算”政策的落地,高性能計算、深度學習、人工智能、量子力學、生物醫藥、智能芯片、大數據和冷凍電鏡等領域得到快速發展。那么“東數西算”下如何解決算力面臨的問題與挑戰呢?數據中心如何更好的節能減排呢?AI芯片如何在“東數西算”下改革發展呢?
以“東數西算”做契機解決算力面臨的問題
“東數西算”的目的是構建更綠色、更平衡、更高效的國家算力網絡體系,以滿足各行各業數字化轉型和新時代數字技術與生活場景加速融合帶來的海量計算、傳輸和存儲需求,最大限度地實現數據中心產業的綠色集約發展,促進資源統籌利用和數字經濟建設。可以預見,“東算西算”工程將發揮類似于眾所周知的“南水北調”(建設國家高品質水網)、“西電東送”(建設國家高品質電網)的重要作用和價值,與當前國家重大政策如西部發展、生態文明建設、雙碳戰略等緊密聯系,同步發展。
從整體上,“東數西算”將圍繞“五個一體化”的工程目標建設:
一、網絡一體化
圍繞集群建設數據中心直聯網,建立合理網絡結算機制,增加網絡帶寬,提高傳輸速度,降低傳輸成本。圍繞集群安全有序推進新型互聯網交換中心和互聯網骨干直聯點建設。
二、能源一體化
從國家雙碳戰略總體規劃出發,充分挖掘西部豐富的風、光等可再生資源,應對可再生能源波動,擴大清潔能源市場化交易范圍,推動建立清潔能源消費市場化機制。從整體規劃層面統一分配數據中心集群能耗指標。
三、算力一體化
在集群和城區內部兩級算力布局下,推動各行業數據中心加強一體化聯通調度,促進多云之間、云和數據中心之間、云和網絡之間的資源聯動,構建算力服務資源池。
四、數據一體化
搭建開放數據共享、政企數據融合應用等公共數據流通設施平臺。嘗試多方安全計算、區塊鏈、隱私計算、數據沙箱等技術模式,構建可信數據流通環境。
五、應用一體化
開展一體化城市數據大腦建設,選擇公共衛生、自然災害、市場監管等應急場景。試行“數據靶場”建設,探索不同應急情況下的數據利用規律和協調機制。
回顧過去,中國在建設國家超級計算中心和基礎服務環境方面已經積累了十幾年經驗,取得了舉世矚目的成就。在超大型數據中心和云計算平臺建設方面,一些基礎電信運營商和云服務提供商積累了大量經驗,在該領域已經進入國際先進行列。然而,與預設的“東數西算”的目標相比,面對更廣區域、更多方參與、更高質量要求的數據和應用流動場景,現有的技術儲備、工程建設水平和市場化程度仍面臨諸多挑戰。
在小藍看來,“東數西算”工程能夠從以下三個方面發力,解決遇到的問題和挑戰。
一、通過“東數西算”解決算力分布式使用面臨的挑戰
“東算西算”項目最顯著的特點是提出了算力聯接網絡,異地算力與網絡協同的實現思路。這種思路希望突破傳統計算和數據中心算力提供服務的局限,在目前已經取得廣泛成功的大數據中心和云計算平臺上實現廣域擴展和頂層優化。然而,算力資源傳統上來自計算和數據中心的內部資源,并且被集中部署和管理。
要滿足算力整合的需求,需要算力的無縫分布式使用,目前業界還沒有成熟可靠的解決方案。計算的實施是以數據為基礎的,算力的流動要完成高效的數據流動,這就需要更加完善和先進的數據平臺、服務和相關制度。在技術層面,可以借鑒數據網格、數據中心網絡、廣域和分布式文件系統的技術經驗,整合新型存儲介質和架構,推動新一代分布式數據訪問協議、存儲系統和基礎軟件(分布式數據庫和分布式文件系統)的演進。在政策層面,應進一步加快數據要素市場體系建設,推動數據市場交易模式落地。
二、通過“東數西算”解決算力交付方式面臨的困境
在云服務中,算力作為IaaS資源使用和管理。但是,單一的云平臺的調度范圍是有限的,過大的管理調度范圍會導致云服務交付無法保證服務質量。無論是采用資源交付或者云服務交付都面臨困難。前者需要一體化的資源管理平臺,實現起來相對簡單,對用戶要求高;后者需要統一的云服務平臺,實現起來將引入更多的服務因素,難度更大。
在這方面,超算互聯網正在做一些初期工作。“十四五”前期啟動“國家高性能計算環境領域應用平臺及服務體系”項目,建設高速網絡連接無錫、廣州、北京、天津、深圳、長沙、青島多個國家超算中心,整合開發超算資源管理環境、通用應用函數庫和工具軟件,建立復雜機械系統與量子物理體系、生物與材料、環境治理與災害防治三個重點領域的應用資源。跨不同計算架構的應用程序的有效部署仍然是這個項目面臨的挑戰和技術突破。
同時,算力本身具有位置分散、能力各異和動態變化的特點,導致算力難以計量,從而影響算力使用結算系統的建設,進一步損害產業運營。因此,迫切需要做好算力感知、算力建模和算力評估工作。面向全網的算力資源(計算、存儲和網絡),對各類算力資源的狀態、動態和分布進行分析、測量和建模,實現基于干擾分析的算力資源評估,這是算力資源發現、交易和調度的基礎。
三、通過“東數西算”解決算力使用面臨的安全問題
數據信息傳輸過程中,物理設施、網絡安全、應用安全、數據安全和信息安全等方面面臨多重風險。而“東數西算”工程實現的算力資源開放使用則面臨更多的信息安全問題,算力資源從申請到使用再到結算清退過程中至少跨越使用方和供給方的邊界,一旦有風險,不僅導致算力使用方出現漏洞,也會引發算力供給方的隱患,從而給整個算網資源體系帶來風險。
如何在數據開放共享、大范圍多方融合應用的需求和場景下實現端到端的安全,需要技術突破和政策制定等多方面努力,例如:采用和部署內安全的基礎設施,合理規劃網絡的安全區域以及不同區域之間的訪問權限,試驗多方安全計算、區塊鏈、隱私計算、數據沙箱等技術模式,做好網絡安全態勢監測。
算力設施是數字經濟健康發展的底座,對推動數字經濟健康發展作用巨大。有數據顯示,算力指數平均每提高1個百分點,數字經濟和GDP將分別增長0.33%和0.18%。算力網絡的技術理念已逐步在行業中達成共識。
可以預見,“東數西算”工程將為我國以數據為中心的產業發展帶來新的契機,并持續提升數據資產對于經濟發展的貢獻度,帶動廣大西部地區參與智能化引導的數字經濟浪潮當中。
盡管面臨上述一系列挑戰,隨著“東數西算”工程的逐步建設,大數據、云計算、高性能計算技術、新一代網絡技術、端到端安全技術,以及其相關產業和政策法規的快速進步與完善,創新開放的業態和場景不斷涌現,未來將逐步實現網絡與計算的一體融合,有效賦能數字經濟。
“東數西算”下芯片如何改革發展
多年來,移動處理器廠商一直致力于優化設計,以在有限的功率預算、存儲空間和帶寬內獲得最佳性能。在過去,顯然這些考量因素在數據中心或個人電腦(PC)和其他市場中沒有得到重視。如今,傳統數據中心和PC市場的變革正在悄然發生——改變處理器的設計規則,讓開發人員重新考慮其芯片架構,以獲得更高的性能功耗比。
一、移動處理器設計原則運用于PC和數據中心
越來越多的云游戲、數據挖掘、人工智能、數據分析、高性能計算都在云端實現。雖然這些應用的要求不同,但在不斷增加計算量方面是相同的。
數據中心無法通過擴大物理占地面積來滿足這一需求。為了將運營費用(OpEx)控制在可接受的范圍內,實現凈零目標,企業需要在有限的空間內增加計算密度,從而獲得更高的計算性能。圖形處理器(GPU)、中央處理器(CPU)和人工智能(AI)加速器等處理元件必須在最小的功耗、散熱和面積預算內實現最高的性能。因此,根據移動設計原則設計處理器是一個理想的起點。
分析PC市場的走勢也可以得出類似的結論。在傳統的PC模式下,大部分功能被集成到獨立的模塊組中。然而,隨著大多數組織希望擴展混合辦公模式,人們逐漸用筆記本電腦取代臺式機。集成了越來越多的功能(包括圖形處理、神經網絡加速、安全、I/O等。)集成到具有統一存儲器架構的單個系統芯片(SoC)中,不僅可以提高性能,還可以將功耗保持在最低水平。因此,下一代PC處理器看起來越來越像智能手機處理器。
隨著摩爾定律的終結,行業已經不可能每兩年提升一次業績。在此背景下,企業紛紛加入這場設計“競賽”,用最好的芯片創造最好的用戶體驗。
大型全球科技公司早已深諳此道,并已做好準備。它們正著力自主設計定制芯片,以用于消費類產品、PC或數據中心等。這些公司從現成的芯片轉向定制芯片,希望更好地控制設計,獲得優勢。所以我們看到亞馬遜投資于Graviton CPU設計,谷歌推出了以TPU為中心的Tensor CPU。蘋果的M1處理器將為Mac電腦帶來一款根據移動設計原則優化的芯片,提供更高的集成度和卓越的性能。
三、OEM替代方案
對于沒有內部軟硬件設計團隊,尚未著手開發定制芯片的OEM來說,面臨的挑戰是如何讓自己的設計脫穎而出,與高度優化的架構競爭。OEM廠商使用的芯片大多都是現成的,這可能會讓他們處于劣勢。許多為PC和數據中心設計的芯片是“暴力”解決方案。雖然可以提供所需的性能,但是通常過于耗電,占用太多的內存/帶寬,缺乏競爭力。此外,這些芯片受限于可用的特定軟件和操作系統。
部分移動市場的SoC供應商已經開始進入數據中心和PC市場,希望瓜分現有玩家的部分市場份額,但其數量少之又少,難以幫助OEM廠商實現創新和成本控制的差異化。因此,一些行業替代方案正在應運而生。我們看到很多廠商都在考慮基于RISC-V架構的CPU解決方案。但是,單一的CPU設計并不能完全解決OEM面臨的激烈競爭困境。OEM廠商需要著眼于整個數據中心的架構來提高整體方案的創新性,從而增加自己的競爭力。
四、可擴展的異構架構是關鍵
通過異構計算,靈活使用CPU、GPU等計算單元,實現硬件的最大利用率以達到計算性能的優化,同時滿足效率和功耗比的優化。異構計算架構為數據中心不斷增長的計算需求提供了靈活的陣列工作方案。目前,許多半導體制造商正在研究相關產品和應用,以增強OEM市場競爭力。傳統GPU IP公司Imagination在去年推出了CPU產品線,并加強了異構計算的研發,意圖通過優化產品組合,為客戶提供更加完善的異構計算解決方案,從而更好地服務于客戶,滿足未來高性能計算的需求。
五、移動GPU奠定基礎
移動GPU是創建高效異構設計的理想起點。相比試圖將高端GPU強行納入移動功耗預算,將移動GPU升級應用于數據中心和PC領域將更有意義。因為移動GPU天生就是“小而美”。移動GPU廠商開發擁有很多專利技術,最大程度的實現了GPU的高性能低功耗。在數據中心和PC廣泛追求高性能GPU的背景下,這些技術優勢可以讓移動GPU廠商更具競爭力,為OEM提供更多的管理附加值。
提到移動GPU的專利技術,就不得不再次提及Imagination(專注于GPU設計的老牌企業)。和對手相比,Imagination多年來專注于GPU領域的研究,尤其是在更復雜的GPU渲染領域。Imagination是許多技術的先驅開發者,如GPU硬件虛擬化、分塊式延遲渲染(TBDR)、實時硬件光線追蹤(Ray Tracing)等。分塊式延遲渲染(TBDR)技術將幾何數據劃分為小區域(圖塊),統一處理。由于每個圖塊都經過光柵化和單獨處理,所以渲染的尺寸非常小,因此所有數據都可以保存在快速運行的存儲器中。這項技術為M1的圖形處理奠定了基礎。
對于諸如安卓云游戲等應用場景,數據中心需要靈活處理多個用戶的不同游戲消費場景。在多個小型GPU上處理多個小型并發工作負載的方法比使用傳統桌面GPU更高效。云游戲產業鏈都在強化GPU硬件虛擬化技術的開發應用以降低成本。移動GPU通過向上擴展分散式多核移動GPU架構,使每個GPU既可支持更多用戶,同時為云端的許多用戶提供更高的能效。
六、設計專用芯片——不僅服務于大型科技公司
SoC制造商需要通過基于移動設計原則設計的可擴展IP內核,以創造高能效、高帶寬和高性能的設計。借助這種專為異構架構設計的處理器,可以創建專用、高效的新型解決方案。這可以幫助OEM提供極具競爭力和差異化的產品,牢牢把握企業的未來發展方向。
數據中心節能改造應因地制宜
數據中心節能改造是必然趨勢,推動了技術的進步和相關解決方案的發展。從實際情況來看,目前對應的方案主要集中在制冷方式的優化、新能源的利用、運維管理的提升以及余熱回收的探討。
一、制冷模式的優化
據統計,在一個PUE約為2的傳統數據中心的總能耗中,IT設備的能耗約占50%;制冷系統的能耗,約占35%。降低制冷能耗已經成為數據中心節能降碳的主要考慮因素,如何選擇最佳方案需要因地制宜。
以風冷、蒸發冷卻、間接蒸發冷卻為例。從冷源的角度來看,風冷和冷源都是室外干球溫度;蒸發冷卻,冷源接近室外濕球溫度;冷源接近室外露點溫度的間接蒸發冷卻塔。雖然露點溫度最低,但冷卻方式取決于三個冷源的溫差。
以秦嶺、淮河、青藏高原為界,該線以北氣候相對干燥,濕球溫度低,水冷冷源能效優勢大。該線以南空氣濕度大,蒸發冷卻的應用潛力不高,風冷冷源可能具有能效優勢。
因此,在優化制冷模式時,不能盲目相信某項技術的能耗更低,還需要結合具體的環境和自然冷源。
二、新能源利用方面
數據中心是一個耗能行業,要實現綠色發展,除了提高能源效率,還必須使用新能源來減少碳排放。
數據中心對此也已經有了相應的探索。張家口懷來大數據產業基地進行了“源網荷儲”的超大規模實踐,充分利用其豐富的風能、太陽能等優勢資源,為數據中心提供新能源用電;近期完工的東岳廟數據中心一期每年將消耗超過2億千瓦,耗能巨大。然而其供電全部來自于水電,有效地降低了數據中心的碳排放。同時,BIPV(光伏建筑一體化)等太陽能方面的應用也在逐步增加,“東算西算”工程的全面啟動也將極大地促進西部新能源的利用。
雖然目前規模較小,但是新能源的探索已經逐漸發展起來。不過,新能源的利用也存在成本問題。在未來的數據中心行業,綠電和綠證的應用比例肯定會大幅增加。目前一些IDC服務提供商正在通過各種方式使用綠電。然而,如何分擔新能源在產業鏈中的應用成本將是影響新能源使用一個需要解決的主要問題。
三、運維管理方面
低能耗數據中心的智能運維已經成為討論的熱點。相應的智能運維系統也已經問世,通過核心配置數據庫實現數據共享和流程之間的關聯,減少數據誤導的發生,實現對人、物、服務的管理,從而提高效率,降低成本,促進數據中心的綠色化發展。但智能運維體系的實施還有待進一步完善。
智能運維不僅僅是對數據中心的監控,還包括與運維人員的交互。運維人員可以使用該系統,并可以根據該系統改進運維。一個理想的運維情況是系統發揮70%的作用,剩下的30%由運維人員優化。
四、余熱回收
數據中心的運維會產生大量的熱量,能夠被利用和回收,具有巨大的能源價值和經濟價值,因此受到了廣泛的關注。
北京《關于進一步加強數據中心項目節能審查的若干規定》指出,鼓勵數據中心充分利用機柜余熱等技術。目前,國內已有多家數據中心企業開展相關實踐。
同時,余熱回收的探索也為數據中心和不同行業之間的跨行業合作提供了可能。在農業生產中,作物生長需要大量的熱量和二氧化碳,而數據中心產生的余熱正好可以滿足這些發展需求。理論上,數據中心工業和農業并行發展是可能的。
中國農業大學水利與土木工程學院副教授、碩士研究生導師袁小艷表示,數據中心耗能巨大,無論采取哪種冷卻手段,都可能排出20-40℃廢熱。呼吁將此廢熱用于溫室冬季供暖;夏季物料干燥如大豆、小麥、玉米、水稻等干燥用能,可設計通過管路切換至干燥室,或送至木材預干窯等以實現相關作用。如果將農業設施溫室規劃進“東數西算”的建設過程中,在工業CO2排放者與CO2消納者(設施溫室)之間架起科技橋梁,使排放的垃圾成為寶貴的資源。
綜合來看,數據中心節能改造涉及政策合規、企業效益成本具有復雜性,需要從制冷、新能源利用、運維、余熱回收等方面進行因地制宜的發展,不能盲目迷信新技術,要進行綜合考量才能落地相關改造方案。同時,數據中心的節能改造也提供了跨行業合作等多種可能性。
藍海大腦液冷散熱技術
藍海大腦液冷散熱服務器可搭建NVIDIA 4 × A100 / 3090 / P6000 / RTX6000,并將液冷冷板固定在服務器的主要發熱器件上,依靠流經冷板的液體將熱量帶走達到散熱目的。冷板液冷解決了服務器里發熱量大的器件的散熱,其他散熱器件還得依靠風冷。所以采用冷板式液冷的服務器也稱為氣液雙通道服務器。冷板的液體不接觸被冷卻器件,中間采用導熱板傳熱,安全性高。
藍海大腦擁有完全自主研發和靈活定制能力,是國內最早從事液冷GPU服務器的廠商之一,并且在獨到的加固、保密和安全等產品技術領域有深厚的積累。藍海大腦端到端的解決方案,賦能AI、云計算、大數據、5G、區塊鏈、元宇宙等新興技術創新和應用,積極為中國新基建、信創、東數西算、社會經濟的數字化和智能化轉型升級提供堅實的算力保證。同時重視全球合作共贏,與英特爾、英偉達、希捷、華為、飛騰等國內外產業鏈伙伴保持緊密的戰略合作關系,加速產品方案的適配和應用場景拓展,更好地服務各行業用戶。
審核編輯:湯梓紅
評論
查看更多