如今,對人工智能的需求巨大。法國施耐德電氣公司估計,2023年人工智能工作負載的功耗總計約為4.3吉瓦(GW),略低于塞浦路斯國家2021年的功耗( 4.7吉瓦)。該公司預計,人工智能工作負載的功耗將以26%至36%的復合年增長率(CAGR)增長,這意味著到2028年,人工智能工作負載的功耗將從13.5吉瓦增至20吉瓦,這比冰島2021年消費的電力消耗還要多。
巨大的電力需求
據施耐德電氣稱,到 2023 年,所有數據中心的總功耗預計將達到 54 GW,其中人工智能工作負載將占到 4.3 GW。在這些人工智能工作負載中,訓練和推理之間的分配特點是 20% 的功耗用于訓練目的,80% 分配給推理任務。這意味著人工智能工作負載將占今年數據中心總功耗的約8%。
展望 2028 年,施耐德預計數據中心的總能耗將增至 90 吉瓦,其中人工智能工作負載的能耗將達到 13.5 吉瓦至 20 吉瓦。這表明,到 2028 年,人工智能可能消耗數據中心總用電量的 15% 至 20% 左右,這表明數據中心人工智能工作負載的功耗比例在五年內顯著增加。根據施耐德電氣的估計,訓練和推理之間的分布預計將略有變化,訓練消耗 15% 的電力,推理則占 85%。
人工智能數據中心功耗不斷上升的主要原因是人工智能工作負載的加劇、人工智能GPU和人工智能處理器的進步以及其他數據中心硬件的要求不斷增加。例如,Nvidia 2020 年的 A100 功耗高達 400W,而 2022 年的 H100 功耗高達 700W。除了 GPU 之外,AI 服務器還運行耗電的 CPU 和網卡。
AI 工作負載,尤其是與訓練相關的工作負載,需要大量計算資源,包括配備 AI GPU、專用 ASIC 或 CPU 的專用服務器。人工智能集群的規模受人工智能模型的復雜性和規模的影響,是功耗的主要決定因素。更大的人工智能模型需要更多數量的 GPU,從而增加總體能源需求。例如,擁有 22,000 個 H100 GPU 的集群使用大約 700 個機架?;?H100 的機架在安裝八臺 HPE Cray XD670 GPU 加速服務器時,機架總密度為 80 kW。施耐德電氣指出,因此,整個集群需要大約 31 兆瓦的電力,這還不包括冷卻等額外基礎設施需求所需的能源。
這些集群和 GPU 在整個訓練過程中通常幾乎滿負荷運行,確保平均能耗幾乎與峰值功耗相同。該文件指出,大量AI集群的機架密度在30kW到100kW之間,具體取決于GPU的數量和型號。
網絡延遲在人工智能數據中心的功耗中也起著至關重要的作用。復雜的網絡基礎設施對于支持分布式訓練過程中強大的 GPU 所需的高速數據通信至關重要。對高速網絡電纜和基礎設施(例如能夠支持高達 800 Gb/s 速度的電纜和基礎設施)的需求進一步增加了總體能耗。
鑒于人工智能工作負載需要高耗電的 ASIC、GPU、CPU、網卡和 SSD,冷卻構成了重大挑戰。鑒于高機架密度和計算過程中產生的巨大熱量,有效的冷卻解決方案對于保持最佳性能并防止硬件故障或失效至關重要。與此同時,空氣和液體冷卻方法在功耗方面也“昂貴”,這就是為什么它們也對用于人工智能工作負載的數據中心的功耗造成很大影響。
一些建議
施耐德電氣預計AI硬件的功耗不會很快降低,公司充分預計AI機架的功耗將達到100kW或更高。因此,施耐德電氣對專門處理人工智能工作負載的數據中心提出了一些建議。
施耐德電氣特別建議從傳統的120/208V過渡到240/415V配電,以更好地適應人工智能工作負載的高功率密度。對于冷卻,建議從空氣冷卻轉向液體冷卻,以提高處理器的可靠性和能源效率,盡管沉浸式冷卻可能會產生更好的效果。使用的貨架應更寬敞,其規格例如寬度至少為 750 毫米,靜態承重能力大于 1,800 公斤。
審核編輯:劉清
-
asic
+關注
關注
34文章
1199瀏覽量
120436 -
SSD
+關注
關注
21文章
2857瀏覽量
117370 -
人工智能
+關注
關注
1791文章
47183瀏覽量
238259 -
GPU芯片
+關注
關注
1文章
303瀏覽量
5804 -
AI芯片
+關注
關注
17文章
1879瀏覽量
34992
原文標題:AI芯片成為耗電大戶,負載功耗接近一個小國家
文章出處:【微信號:Mobile-Info,微信公眾號:手機技術資訊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論