01
芯片散熱概覽
▌芯片散熱起源:電子設備發熱的本質是工作能量轉成熱能
電子設備發熱的本質原因就是工作能量轉化為熱能的過程。芯片作為電子設備的核心部件,其基本工作原理是將電信號轉化為各種功能信號,實現數據處理、存儲和傳輸等功能。而芯片在完成這些功能的過程中,會產生大量熱量,這是因為電子信號的傳輸會伴隨電阻、電容、電感等能量損耗,這些損耗會被轉化為熱能。
溫度過高會影響電子設備工作性能,甚至導致電子設備損壞。據《電子芯片散熱技術的研究現狀及發展前景》,如對于穩定持續工作的電子芯片,最高溫度不能超過85 ℃,溫度過高會導致芯片損壞。
散熱技術需要持續升級,來控制電子設備的運行溫度。芯片性能持續發展,這提升了芯片功耗,也對散熱技術提出了更高的要求。此外,AI大模型的訓練與推理需求,要求AI芯片的單卡算力提升,有望進一步打開先進散熱技術的成長空間。
▌散熱技術原理:電子設備發熱的本質是工作能量轉成熱能
散熱是為解決高性能計算設備中的熱管理問題而設計的, 它們通過直接在芯片或處理器表面移除熱量來優化設備 性能并延長使用壽命。隨著芯片功耗的提升,從一維熱管的線式均溫,到二維 VC的平面均溫,發展到三維的一體式均溫,即3D VC 技術路徑,最后發展到液冷技術。
▌芯片散熱革新:浸沒式散熱效果好,冷板式更為成熟
根據ODCC《冷板液冷服務器設計白皮書》,綜合考量初始投資成本、可維護性、PUE 效果以及產業成熟度等因素,冷板式和單相浸沒式相較其他液冷技術更有優勢,是當前業界的主流解決方案。
02
主要散熱技術
▌熱管:高效傳熱器件,適用大功率和空間小場景
熱管,也稱為Heat Pipe,是一種高效的傳熱器件。它能夠通過內部工作流體 的相變過程,快速地將熱量從一端傳遞到另一端,其結構簡單,由密閉容器、 毛細結構、工作流體組成。熱管具有高導熱性能、溫度均勻與等溫性等特點。用于大功率芯片及散熱空 間小的產品,如筆記本、服務器、游戲機、VR/AR、通信設備等。
▌VC:相比熱管,具備更高的導熱效率與靈活性
VC均溫板,全稱為Vapor Chamber,即真空腔均熱板散熱技術,是一種比熱管更先進、更高效的導熱元件,尤其在處理高密度電子設備的熱管理問題時表現出色。相比熱管,VC的導熱效率與靈活度更強。銅的導熱系數為401W/m.k,熱管可以達到5000~8000 W/m?k,而均熱板則可以達到20000~10000W/m?k,甚至更高。熱管是一維導熱,受其形狀顯示。而均熱板形狀則不受限制,可以根據芯片的布局,設計任意形狀,甚至可以兼容處于不同高度的多個熱源的散熱。
▌機房空調:水冷空調相對風冷系統制冷效果好
風冷直膨式系統:是一種空調系統,主要用于中小型建筑或單獨房間的制冷和制熱。制冷劑一般為氟里昂,單機制冷量10-120KW。水冷冷水系統:一種中央空調系統,通過使用水作為冷卻介質來傳遞熱量。這種系 統一般由冷水機組、冷卻塔、水泵和管道等組成,廣泛應用于大型建筑。
▌液冷:冷板式與浸沒式液冷為主
服務器液冷分為直接冷卻和間接冷卻,直接冷卻以浸沒式為主,間接冷卻以冷板式為主。冷板式液冷的冷卻液不與服務器元器件直接接觸,而是通過冷板進行換熱,所以稱之為間接液冷。依據冷卻液在冷板中是否發生相變,分為單相冷板式液冷及兩相冷板式液冷。浸沒式液冷是將整個服務器或其組件直接浸入液體冷卻劑中的冷卻方式。
▌冷板式液冷:需改造服務器,滲透率逐漸提升
冷板式服務器需要對服務器進行管路、結構等改造:如浪潮信息基于2U四節點高密計算 服務器i24,新增多塊冷板與CPU、I/0、內存等發熱單元接觸,也設置多條管路在內與冷 板連通、在外連接機柜級別的分歧管道,實現系統中95%左右熱量通過冷板接觸熱源由液 體直接帶走,剩余5%左右熱量經由PSU電源后置的風液式換熱器里面的冷卻水帶走。
冷板式液冷服務器對原有服務器結構進行改造,考慮到職責歸屬、組裝方式等因素,主要 玩家認為原有服務器廠商;服務器廠商采取采購冷板、管道等原材料,隨后自行組裝等方 式進行生產加工。冷板式液冷服務器平均價格或高于風冷服務器,隨著其滲透率提升, 服務器廠商有望實現量價齊升與盈利水平的增長。
▌浸沒式液冷:液體浸泡服務器整體,技術要求高
浸沒式液冷是將整個服務器或其組件直接浸入液體冷卻劑中的冷卻方式。液 體完全包圍服務器元件,從而更加高效地吸收和散發熱量。按照工程液體散熱 過程中是否發生相變,可以分為單相浸沒式液冷及兩相浸沒式液冷。浸沒式液冷服務器對服務器進行了外殼設計、主板改造、散熱系統升級、密 封性等多重改造設計,對技術要求較高,主要由服務器廠商進行生產。
03
市場空間
▌驅動1:芯片防護安全性,溫度控制有利于發揮芯片極致性能
芯片溫度過高會影響設備工作性能,甚至導致電子設備損壞。據《Cabont e ch Maga z ine》,當電子設備溫度過高時,工作性能會大幅度衰減,當芯片的工作溫度靠近70-80℃ 時,溫度每升高10℃,芯片的性能會降低約50%,有超過55%的電子設備失效形式都是溫度過高引起的。我們認為,隨著AI大模型發展、芯片性能提升,芯片功耗及運行溫度呈增長趨勢,或影響處理器等的工作效率。這對芯片級散熱等技術提出更高的要求,芯片級散熱有望打開成長空間、實現量價齊升。
▌驅動2:AI大模型發展+芯片性能增長,芯片功耗持續提升
服務器中CPU、GPU芯片功耗占比較高。根據《數據中心服務器功耗模型研究進展》,通用服務器內CPU、內存、存儲等器件功耗占比為32%、14%、5%。AI服務器具備“CPU+GPU”等異構結構,GPU高功耗帶動服務器功耗提升,如英偉達H100GPU功耗高達700W,DGX H100服務器最大功耗10.2kW,GPU功耗預計占服務器總功耗的55%左右。芯片功耗持續提升:如Int e l的I c e Lake CPU功耗最高270W,2024年預期推出的Gr anit e Rapids CPU預期功耗預期更高。2024年英偉達推出的B200 GPU,功耗達到1000W。未來隨著芯片性能提升與AI大模型逐漸發展,推動CPU\GPU等芯片功耗不斷提升,帶來廣闊的先進散熱器件需求。
▌驅動 3:“雙碳”與東數西算等政策要求降低數據中心PUE
PUE = 數據中心總能耗/IT設備能耗。PUE是評價數據中心能源效率的核心指標,其數值越接近1,表示數據中心能效越高。空調系統在數據中心能耗占比僅次于IT設備,在無法升級IT系統時,降低空調系統能耗是重要環節。當空調系統能耗占比從38%下降到18%時,數據中心的PUE也從1.92下降到1.3.
“雙碳”與東數西算等政策要求降低數據中心PUE。據Uptime Institut e,截至2022年全球中大型數據中心平均PUE為1.55,根據《中國數據中心產業(寧夏)發展白皮書(2022年)》,2021年全國IDC平均PUE為1.49。“雙碳”和“東數西算”雙重政策下,全國新建大型、超大型數據中心平均PUE降到1.3以下,集群內PUE要求東部≤1.25、西部≤1.2,先進示范工程≤1.15。
根據CDCC與浪潮信息,風冷方案數據中心PUE一般在1.4-1.5左右,而液冷數據中心PUE可降低至1.2以下,滿足相關的政策要求。我們認為,采用更加節能、效率較高的散熱技術是大勢所趨,液冷技術或將進一步打開成長空間。
▌芯片散熱市場:高端處理器出貨高增+功耗提升,驅動量價齊升
隨著AI芯片及AI服務器的市場規模擴大,且芯片功耗增長提高散熱要求,我們認為芯片級散熱市場規模增速有望提升。AI芯片及AI服務器市場快速增長,英偉達營收連續三季度同比翻倍增長。據Precedence,預期2026年全球AI芯片市場規模477億美元,2024-2026年CAGR為29.72%;FY2024 Q4,英偉達收入達221億美元,環比+22%、同比+265%,實現營收連續三季度同比翻倍增長。據S tati s ti c s,預期2026年全球A I服務器出貨量達到2 36.9萬臺,2024-2026年預期CAGR為25.50%。AI芯片功耗能力提升,散熱市場規模增速有望提升。2024年,英偉達發布B200,采用N4P制程,封裝2080億晶體管,而H100晶體管為800億、采用N4制程,這帶來B200封裝密度提升、功耗達1000W,對散熱技術提出更高要求。
▌電信運營商:預期2 0 2 5年液冷或將達到50%滲透率
電信運營商或推動液冷技術逐步開展技術驗證、規模實驗。2023年,三大運營商聯合發布液冷技術白皮書,提出“三年愿景”:1)2023年:液冷產業開展技術驗證,充分驗證液冷技術性能,降低 PUE,儲備規劃、建設與維護等技術能力;2)2024年:開展規模測試,新建數據中心項目10%規模試點應用液冷技術,推進產業生態成熟。推進液冷機柜與服務器解耦,促進競爭,推進產業生態成熟,降低全生命周期成本;3)2025年:開展規模應用,50%以上數據中心項目應用液冷技術,共同推進形成標準統一、生態完善、成本最優、規模應用的高質量發展格局。
報告節選:
-end-本文由“壹伴編輯器”提供技術支持以上部分資料轉載“熱管理行家”網絡平臺,文章僅僅用于交流學習版權歸原作者。如有侵權請告知立刪。
-
電子設備
+關注
關注
2文章
2752瀏覽量
53727 -
芯片散熱
+關注
關注
0文章
9瀏覽量
7526 -
液冷
+關注
關注
4文章
101瀏覽量
5032
發布評論請先 登錄
相關推薦
評論