在一般人的眼中,多核性能肯定比單核強,處理器核心越多越好,但果真如此嗎?
許多人認為CPU 內核越多越好。然而,情況并非總是如此。這就是為什么更多內核并非在所有情況下都是好的選擇,這不僅僅是因為在芯片上放置更多內核的問題,還因為性能原因。
處理器有多少個內核更好?
許多人的想法是,內核越多越好。然而,它并不總是那樣。例如,有些軟件并不足以利用所有內核,因此考慮更多內核是荒謬的,而且在許多視頻游戲中都會出現這種情況,其中單核性能優于多核。像這樣的情況還有很多。
至于HPC領域,Top500數據似乎證明了更多 CPU 核心更好的錯誤想法。但是如果你和這個領域,比如聯想HPC部門的、歐洲Atos的、HPE的,或者IBM的專家交談你就會發現,情況并不總是這樣。
事實上,如果您詢問他們,他們會告訴您,他們的許多客戶都在尋求更高的帶寬、更快的 I/O 和更高的時鐘速率。那么為什么像 AMD、Intel、Ampere、Annapurna、IBM、Fujitsu 等公司不斷制造具有越來越多 CPU 內核的單元?
這些提供商在尋找 HPC 客戶之前,需要考慮到計算能力,這越來越需要高性能的 GPGPU,而且他們還考慮到云提供商的業務,它們是超大規模企業,需要尋找更多核心。
這些云業務尋求更多的核心,因為這意味著每個節點有更多的客戶端。在 VPS(虛擬專用服務器)服務器的情況下可以很好地看到這一點,其中那些物理內核變成 vCPU 以交付給平臺客戶端。這就是核心數量不斷增加的原因。
但是,這并不是說在HPC中內核不重要,它們很重要。核心數越多,超級計算機支持的工作量就越大。此外,機器將具有更高的處理或計算能力(FLOPS),這意味著更高的性能。然而,對于 HPC,帶寬也很重要。
帶寬的重要性
許多 HPC 客戶更關心內存帶寬而不是 CPU 核心數量,但這并不意味著他們忽略了其他問題。但是,對于使用這些機器的任務或應用程序,最好具有良好的帶寬和更高的 I/O 敏捷性。事實上,EPYC 和 Xeon 等也經過優化以提供此功能。
例如,我們一直在說DDR4 和 DDR5之間的差異對用戶來說并不重要,沒有那么多的性能提升,而且 DDR5 更貴。然而,對于 HPC,DDR5 提供了一個很好的機會,與 DDR4 相比,帶寬增加了大約 50%。
一方面,在為某些軟件或操作系統許可證付費時,更多的內核可能是一個劣勢,因為它們是根據內核或插槽的數量收費的。當我們談論像 SUSE Linux 或 Red Hat 這樣的操作系統時,也會發生類似的情況,因為如果您需要技術服務,您還必須根據機器的內核付費。換句話說,更多的核心也將意味著更多的軟件方面的支出。
對于 HPC 處理器,許多人選擇使用高帶寬或HBM 內存,以及 CPU 內核來提高帶寬。比如Intel Xeon Max“Sapphire Rapids”就是這樣,它在CPU周圍有HBM2E內存芯片,可以實現64GB/s的內存帶寬。當然,必須考慮到數據在這個 HBM 和伴隨它的 DDR 之間的移動,擴展 HBM 的容量限制,將在很大程度上取決于芯片的固件和 ISV(Independent軟件供應商)。
另一方面,雖然 AMD 也一直在尋求 HBM,但他們選擇在他們的 EPYC(霄龍)中添加更多的內存通道以獲得帶寬,盡管這有一些缺點,例如需要占用主板空間和稍高的延遲。此外,使用像 Genoa 這樣的 12 通道在帶寬方面不會接近 Xeon Max,但這是另一種有趣的方法。正是這讓他們可以使用普通的 DDR5,而不依賴于 ISV,這可能是一個主要障礙。
例如,對于研究天氣、空氣動力學、流體等的流體動力學或 CFD 等工作負載來說,這是必不可少的,因為它們是帶寬敏感的應用程序,在處理過程中必須使用內存中的大量數據。因此,在這些情況下增加帶寬會帶來顯著的改進。
此外,由于 CPU-RAM 帶寬問題,許多客戶選擇使用 GPGPU而不是 CPU 來處理某些工作負載,但這可能會隨著 HBM 集成到 CPU 中而改變。
平衡
您肯定聽說過很多有關服務器和 HPC 方面的負載平衡的信息。這意味著以平衡和高效的方式在不同處理器之間分配必須處理的任務的方式。為此,在平衡處理核心方面,擁有更多帶寬具有優勢。因此,我們在行業中看到更多的 HBM,尤其是在 AI 工作負載方面,也就不足為奇了。此外,Ampere、Fujitsu A64FX 等一些 CPU 也選擇了 HBM。
此外,AMD在其X系列EPYC中也做了一些有趣的事情。雖然它沒有在單獨的芯片上使用 HBM,但它在其處理芯片之上使用了高速、高帶寬的 SRAM 內存芯片來支持 L3 緩存,也就是3D V-Cache。
這些3D 封裝顯示出巨大的優勢,因為這種存儲器的延遲低于 RAM,并且直接通過 TSV 鏈接。因此,它不會像其他情況那樣依賴于主 RAM 內存的延遲和帶寬。
事實上,AMD 在其Milan-X中證明,由于其卓越的 L3,它可以增加工作負載,從而提高需要高帶寬的密集型工作負載的性能。例如,使用 Synopsys VCS 進行的測試顯示出 66.4% 的改進。然而,這些類型的封裝具有較高的性價比,因此并非都是優勢。
因此,HBM 似乎有望在工作負載(例如 CFD 等)方面提供更大的靈活性和收益。這意味著也許將來我們會看到更多帶有 HBM 的單元。盡管我們將看看最終是否可以將這兩種技術混合起來作為解決方案,即使用 3D 封裝將 HBM堆疊在計算單元上。
更高的頻率與更多的 CPU 內核
正如可以驗證的那樣,CPU基本時鐘頻率在過去十年中一直停滯不前。目前,我們的 CPU 在大多數情況下的時鐘頻率在 2 到 3 Ghz 之間,但有一些例外情況可能會超過這些數字,而且我們不是在談論 Turbo 模式。
但這不僅與制造技術有關,還與 CPU 核心數量的擴展有關。您在單個硅芯片上封裝的內核越多,您可以使用的功率就越少,因此需要管理時鐘速度。如果找不到解決方案,3D 封裝甚至可能會惡化這種情況,因為我們已經看到,3D 封裝也需要通過將芯片堆疊在一起來降低功耗。
APU領域
GPU也已成為提高性能的關鍵部分,因為這些單元可以比 CPU 更快、更高效地處理某些工作負載,因為它們的內核數量更多。這就是為什么它們近年來被用作某些工作負載的加速器。
在服務器和HPC領域,GPU已經扮演了非常重要的角色,因此,只需看看幾年前的Top500榜單和現在的榜單。
因此,AMD 想在其 Fusion中看到未來,將 CPU 和 GPU 結合起來也就不足為奇了。然而,這些 APU 已經出現在低功耗臺式機或筆記本電腦中,但并未在其他領域占據主導地位,例如 HPC。但這種情況也在改變。
就是這樣,最近AMD展示了其新產品 Instinct MI300。它不是傳統的圖形卡,不像我們過去看到的用于加速 HPC 和 AI 的其他 Instincts。在這種情況下,它是一個APU(加速處理單元)。這個單元結合了 Zen 4 內核和 GPU 內核。
Instinct MI300 是用于數據中心的 CPU+GPU 混合體。它采用 1460 億個晶體管,采用小芯片設計和 3D 封裝。它使用兩種制造工藝,一些是 6nm 芯片,另一些是 5nm,都是使用臺積電的工藝。里面有:
24 個 Zen 4 CPU 核心(它不會取代 CPU,事實上,它將與 AMD EPYC 4th Gen Genoa 一起出現在主板上)。
具有 CDNA3 架構的 GPU。
HBM3 芯片,內存為 128 GB,總線寬度為 8192 位。
與 Instinct MI250 相比,這可以將 AI 工作負載加速 8 倍,并提供高達 5 倍的每瓦特 TFLOPS 性能。
就其本身而言,英特爾已經對其名為 Falcon Shores 的 CPU-GPU 架構做了類似的事情。這將具有 Xe 圖形,這是 Ponte Vecchio GPU 和即將推出的 Rialto Bridge 的核心。此外,它還將包括 CPU 內核和 HBM3 內存池。而不是像 AMD 那樣的 APU,Intel 一直想稱它為 XPU。
與此同時,英偉達也做了類似的事情,盡管它看起來更像 AMD Instinct MI300 而不是英特爾的 Falcon Shores。這是 Grace-Hopper,它包括一個帶有 512 GB LPDDR5X 內存的 Grace CPU 裸片(基于 ARM),以及一個帶有 80 GB HBM 并通過 NVLink 互連的 Hopper GPU 裸片。
然而,這些新型混合動力驅動器也對高性能設備制造商提出了挑戰,因為它們意味著數百瓦的非常高的消耗,甚至可能很快達到1 kW 以上的 TDP。這在家用電腦上是個問題,但當涉及擁有成百上千個此類驅動器的電腦時,問題就更糟了,因為它涉及散熱和提供足夠電力的挑戰。
此外,不僅如此,軟件生態系統也是一個問題,必須進行調整才能利用這些新單元。然而,隨著這些問題的解決,HPC、服務器和數據中心中的許多現有瓶頸將得到解決。
編輯:黃飛
?
評論
查看更多