不斷增加的計算工作復雜性和負載多樣性需要巨大的處理能力。無論是用于云計算數據中心還是本地應用,新一代處理器都能提高吞吐量、降低時延。然而處理器的發展需要供電的發展。因此,電源往往限制了獲得最高處理器性能的能力。
數據中心需求旺盛
近期疫情使網上購物、流媒體和居家辦公激增,超大型服務及零售供應商擴大了其產能。但為了更全面地了解數據中心的增長,應該將其置于其它幾個推動因素的背景下。過去 10 年出現的主要技術發展推動趨勢包括物聯網 (IoT)、人工智能 (AI)、邊緣機器學習 (Ml),以及運營技術 (OT) 工作量的指數增長等。工業 4.0 等工業運營性能改善舉措導致 OT 部署大幅度增加。這些因素需要更高的計算功能,但它們也導致了更多樣化、更高要求的工作負載。
對數據中心提供靈活、可擴展的計算基礎架構的需求日益增多,這些基礎架構能夠支持高動態工作負載,從而可提供云計算服務或本地服務。最近趨勢要求的一些計算任務的性質包括低時延、峰值神經網絡算法和搜索加速。如現場可編程門陣列 (FPGA)、圖形處理單元 (GPU) 和神經處理單元 (NPU) 等,曾經很少在數據中心使用的、高度優化的專業處理器件,現已變得非常普遍。此外,集群 AI 神經網絡推斷引擎等新一代專用集成電路 (ASIC) 也需要完成高性能計算任務。
處理器技術的進步幫助高性能計算推動了任務吞吐量的發展,從而可提供靈活性以適應更多的工作負載多樣性。然而,技術的增益通常取決于同步發展的系統的其它方面。
技術趨勢提高計算性能
加劇散熱挑戰
在半導體行業,變化是不可避免的。一種更小的全新硅芯片工藝節點投入生產,下一次迭代也就不遠了。更小幾何尺寸允許在給定空間中構造更多單獨的半導體門。雖然 65nm 和 55nm 工藝節點仍然和往常一樣,主要用于許多集成電路 (IC),但 ASIC、FPGA、GPU 和 NPU 等高性能計算器件一般基于 12nm 以下的工藝節點,因此 7nm 和 5nm 工藝節點越來越受歡迎??蛻粢呀浽谂抨犢徺I使用 3nm 工藝節點的先進高性能處理器。
通過縮小單個門的尺寸來增加其密度,凸顯了管理新處理器熱特征的限制。降低柵極工作電壓時,一個被稱為電壓縮放的過程有助于減少每個晶體管的散熱,但整個封裝的熱管理仍然至關重要。
高性能處理器一般會在其最大時鐘速率下運行,直到熱限制需要將其限制回來為止。電壓縮放顯示,最復雜的 5nm 工藝節點器件的核心電壓降至 0.75V ,預計 3nm 工藝節點的核心電壓將進一步降至 0.23V。讓供電挑戰更加嚴峻的是,許多器件需要多個不同電壓并精心排序,以避免永久性損壞。
前沿 GPU 通常有幾千億顆晶體管,因此電流需求已變得很大,達到了數百安培。對于集群 AI 處理器而言,1000A 的需求并不罕見。目前的趨勢是處理器的功耗每兩年翻一番(圖 1)。
向這種高功耗器件供電的另一個方面是:其工作負載可在一微秒內發生變化,這可能會在整個供電網絡 (PDN) 中產生巨大的瞬態。
圖 1:在大型計算系統中,供電和電源效率已成為最受關注的問題。隨著處理復雜 AI 功能的 ASIC 和 GPU 的出現,整個行業的處理器功耗已大幅提升。隨著 AI 性能用于大規模學習及推斷應用部署,機架功耗也隨之增加。在大多數情況下,由于新 CPU 需要消耗的電流越來越多,供電現已成了計算性能的限制因素。供電不僅涉及配電,而且還涉及效率、規模、成本和散熱性能。
供電挑戰
我們強調過,半導體工藝技術的進步,為 PDN 帶來了幾個具有挑戰性的條件。但并不是所有這些都是技術性的。例如,這些前沿處理器件的物理尺寸將占用相當大比例的可用電路板空間。復雜的是,電路板空間通常受限于行業標準外形。
隨著電路板尺寸的限制的加劇,高性能計算器件的本質要求支持各種 IC,例如靠近處理器布置的存儲器和光信號收發器等。此外,由于流耗的劇增以及核心電壓的降低,這種方法也適用于負載點 (PoL) 電源穩壓器。大電流 PCB 布線電路的影響會產生 I2R 損耗,清晰可辨的壓降完全能對處理器性能產生影響,甚至更糟糕的是:會帶來不穩定的行為。此外,PoL 穩壓器也需要高功率效率,才能進一步防止熱管理并發癥(圖 2)。
圖 2:VPD 進一步消除了配電損耗和 VR PCB 電路板面積的消耗。VPD 與 Vicor LPD 解決方案設計類似,在電流倍增器或 GCM 模塊中增加了對旁路電容的集成。
電路板空間有限加上將穩壓器靠近處理器安裝的需求,帶來了架構網絡 PDN 的全新創新方法。
為處理器供電
PDN 成為限制因素
隨著處理器技術的不斷發展,架構高效 PDN 將為電源系統工程師帶來三項相互關聯的重要挑戰。
▼ 增加電流密度
領先的高性能處理器可消耗數百安培的電流。為處理器提供足夠的電源容量不僅涉及布置負載點轉換器的位置的物理約束,而且還涉及將電源從邊緣連接器導入轉換器的 PCB 布線的復雜抉擇。由極為動態的工作負載引起的高電壓瞬態,可能會干擾其它系統組件。
▼ 提高功效
影響電源效率的因素有兩個:I2R 損耗和轉換效率。PCB 路徑對低壓信號和數字邏輯走線連接是理想選擇,,但對于大電流而言,無論多短,它們可能都代表顯著的電阻損耗。這些 I2R 損耗會降低提供給處理器的電壓,并引起局部發熱。處理器卡上有數百個其它組件,所以電源走線的大小是有限制的,因此盡量靠近處理器布置轉換器是唯一可行的替代方案。
轉換器的功效是其設計的一個屬性。開發高效 PoL 轉換器是一項專業技能,涉及一種迭代方法,以了解從無源器件到半導體每個組件)的損耗。我們之前已經強調過,損耗表現為需要消散的熱量。PoL 轉換器模塊設計人員運用他們的設計專業技術和專業知識優化模塊的內部設計,以實現等溫封裝。
▼?讓 PDN 保持簡潔
面對 PDN 的挑戰,一些電源架構師可能會選擇為處理器創建一個分立式 PoL 轉換器,以便精心定制 PDN。然而,盡管這可能是一種可行的解決方案,但它實際上增加了復雜性。分立式設計會增加物料清單 (BOM),帶來采購更多組件的需求以及相關物流成本和供應鏈成本。此外,這種方法還需要更多的工程設計工作,增加無法收回的支出 (NRE),并延長開發和測試時間。相反,模塊化方法經過精心設計,可優化高性能處理器的電源。散熱良好的集成型電源模塊可顯著簡化電源設計,從而可減少 BOM,增加修改的靈活性,并可促進開發。電源模塊緊湊、功率密集并可輕松縮放。
應對高性能計算供電挑戰的結構化方法
為了應對當前常見的 PDN 挑戰,Vicor 提供了兩種符合今天最常見情況的方案。
▼ 橋接原有系統
將 12V 系統連接至 48V 系統。對于需要更高效率以及更多電源的原有系統,Vicor 提供了一種使用雙向 NBM 非隔離母線轉換器的簡單選項。NBM 可在 48V 與 12V 之間實現高效轉換,因此既可將原有電路板整合在 48V 基礎架構中,也可將最新 GPU 整合在原有 12V 機架中(圖 3)。
圖 3:將 12V 系統連接至 48V 系統。對于需要更高效率以及更多電源的原有系統,Vicor 提供了一種使用雙向 NBM 非隔離母線轉換器的簡單選項。NBM 可在 48V 與 12V 之間實現高效轉換,因此既可將原有電路板整合在 48V 基礎架構中,也可將最新 GPU 整合在原有 12V 中。
▼?48V 至 PoL 供電
48V 至負載點。Vicor 合封電源 (PoP) 解決方案可將主板電阻降低至 1/50,將處理電源引腳減少至1/ 10。利用分比式電源架構 (FPA),Vicor 可通過兩種專利解決方案,即橫向供電 (LPD) 和垂直供電 (VPD),最大限度減少“最后一英寸”電阻。這兩種解決方案可幫助處理器實現以前無法實現的性能,為當前呈指數級增長的 HPC 處理需求提供支持。
對數據中心、邊緣計算以及物聯網的需求并沒有減弱。大數據需要的處理速度是前所未有的。當前的最高處理速度在 9 個月后將變得太慢,供電將再次成為焦點。尋找提高吞吐量并縮短時延的新方法是一項長期挑戰。確定一個高度靈活的可擴展解決方案,是完成這道難題的最后一步。這將最大限度減少重新設計的次數,并簡化未來的修改。模塊化方法適應了當前及未來高性能計算的所有方面。
本文最初由 ?Power Semiconductors?發表
以上為中譯
Doug Ping
Vicor 高級首席應用工程師
Doug Ping 在電源行業擁有超過 26 年的豐富設計及應用工作經驗,在 Vicor 已工作 21 年。自 2007 年以來,他一直專注于數據中心和自動駕駛汽車應用的電源解決方案。??
編輯:黃飛
?
評論
查看更多