2019年5月,AMD迎來了自己的50歲生日。在X86這個行業,她只比老大哥Intel小一歲,后者去年迎來了自己的50周歲紀念日。50年來,這兩家企業幾乎主宰了全球半導體市場的風云變化,基本上Intel占主導地位,而AMD扮演挑戰逆襲者的角色。
AMD的最近一次逆襲,還得從5年前更換CEO說起。2014年10月份,即將發布Q2季度財報的AMD公司宣布CEO羅瑞德退位,這個職務將由時任COO的蘇姿豐博士(Lisa Su)接任。那時候的她,剛剛加入AMD公司2年而已。
彼時的AMD仍然處于蟄伏階段。在CPU及GPU領域,AMD的兩大對手Intel、NVIDIA已是如日中天,而當時的AMD并沒有能足夠與之博弈的處理器和顯卡產品——如今給AMD帶來巨大轉機的Zen處理器當時還在開發當中。不過,CEO蘇姿豐是標準的女強人,AMD不服輸的血性是刻在骨子里的。
剛剛接任CEO沒多久,蘇姿豐就在接受媒體采訪時表態——“我們不會活在Intel陰影下”,這句話不是蘇姿豐擔任CEO之后AMD才做的,多年來AMD實際上一直在這樣做。AMD希望尋求一條不同于Intel的發展之路。
太遠的不說,從X86處理器進入64位時代開始,AMD首次在64位指令集上做到了胳膊擰過大腿——大家津津樂道的K8大錘處理器最關鍵的成功不是架構,而是搶先了64位指令集,如今我們在用的X86_64指令集的名字是AMD64,Intel后來也遵從了這一指令集。
在這之后,AMD在X86處理器發展上一直在走自己的路。2011年,AMD推出了推土機Bulldozer架構,這款處理器的設計思路非常先進,2個整數單元+1個彈性浮點單元的設計迎合了AMD收購ATI之后意圖打造的CPU+GPU協同發展的理念,這種模塊化設計是X86發展的一個里程碑。
推土機首發桌面8核處理器
再后來,AMD推出了我們今天討論的主角Zen核心,這一代的處理器架構設計可謂具有突破性的改進,也同時延續了AMD自己的特色。它的問世不但讓AMD實現了逆襲,也給AMD打下了未來十年的基礎,目前發展到了Zen2,從路線圖上看,Zen4架構已經在研發了。
Zen架構實現52% IPC性能提升 模塊化設計重出江湖
十年磨一劍,終成大器!2017年3月2日,AMD終于拿出了Zen核心的銳龍處理器,重返高性能處理器市場。Zen架構的到來,給了AMD扭轉局勢的機會。在K10、推土機兩代架構之后,這是AMD再一次沖擊X86市場,AMD也多次表態要再現輝煌,奪回失地。
關于第一代Zen架構的改進細節,這里就不一一贅述了。兩年前發布的產品在網上已經有大量評測和解析了,我們只提AMD在重新設計了內核、SMT多線程、緩存、Infinity Fabric總線等單元之后,Zen架構實現的目標吧。
AMD之前宣稱Zen架構實現了40%以上的IPC提升,不過最終發布時,AMD表示其實際IPC性能提升了52%,遠超預期。相比以往的K10、推土機架構有了質的改變,比對手擠牙膏式的架構升級也是天翻地覆的變化。
在上述架構改變中,AMD重新設計的CCX(CPU Complex)架構是最重要的。每個CCX單元有4個CPU核心,每個核心各自有64KB L1 I-Cache(指令緩存)、32KB L1 D-Cache(數據緩存)、512KB L2緩存,L3緩存高達8MB,但是4個核心共享的。
這樣4核CPU組合的CCX算是AMD Zen架構的一個模塊,在第一代中桌面處理器最多8核16線程,里面是2個CCX單元,二者之間使用Infinity Fabric總線(簡稱IF總線)連接,而IF總線又是Zen架構的另一個僅次于CCX的創舉。
桌面處理器銳龍7 1800X的物理核心如下圖所示:
桌面版銳龍7 1800X處理器開蓋后的核心
用于服務器版的Naples處理器最多32核64線程,也就是8組CCX單元,分配在4組CCD(Core Chiplet Die)單元中。不過這時候AMD還沒有正式用CCD這個命名,直到現在的Zen2架構中才出現這個命名。
服務器版EPYC 32核(Naples)處理器開蓋后的核心
桌面版因為最多8核,所以只有1個CCD單元,外面看起來跟原生8核沒什么區別,而服務器版是32核,有4組CCD單元,可以更清晰地顯示出AMD在Zen(改進型Zen+是一樣的架構)的設計思路——那就是模塊化。不過,這個模塊化跟推土機的模塊化不一樣,屬于創新模塊,不是將內核模塊,而是將CCD模塊化,需要多少核心就配置相應的CCX/CCD核心即可。
摩爾定律放緩 AMD另辟蹊徑:Zen2走向混合小芯片設計
在14nm Zen及改進型的12nm Zen+這兩個系列的產品中,AMD解決了高性能處理器的有無問題,52%的IPC性能提升徹底改變了AMD處理器的處境,不過Zen第一代的產品依然談不上完美,AMD要在新一代的Zen2架構上解決兩個問題。
一個問題是繼續提升Zen的IPC性能,另一方面則是要繼續擴展Zen處理器的并行性,也就是更多的CPU核心。盡管AMD在Zen一代上已經實現了桌面8核、服務器32核,核心數上繼續領先,但這還沒有達到AMD的目標,要大幅超出才行。
前一個問題要靠繼續挖掘Zen架構的潛力,后一個問題就不只是架構設計的問題了。工程實現上難度更大,因為AMD在Zen2架構上要做64核128線程,并首發7nm工藝,將打造迄今為止最強大的X86處理器。
在友商也只能做到28核的情況下,AMD做64核處理器最挑戰的地方是什么?答案很簡單,那就是成本,因為摩爾定律在最近幾年中已經放緩了,AMD如果繼續按照原有的思路做下去,那64核EPYC處理器的成本是難以想象的。
對于這一點,AMD有著清醒的認識,此前AMD CEO蘇姿豐在2017年的一次會議中就對比過先進工藝對成本的影響。統一以250mm2的核心來算,45nm節點的成本算作1,32、28nm節點開始提升,20nm節點就變成2倍成本了,到了7nm成本躍升為4倍,未來的5nm更夸張,成本將是之前的5倍。
很顯然,在Zen2架構確定要上7nm的時候,如果按照之前的路線走,后果就只有兩種——要么造不出來,要么造出來成本極高,因為按照AMD之前估算的那樣,如果是原生64核,那么核心面積接近800mm2了, 這幾乎是現有193nm ArF光刻機的處理極限,制造難度太大了。
當然,我們現在都知道了Zen2架構不會采用這樣的原始方式,因為AMD在這一代X86處理器上用了升級的Chiplets混合小芯片設計,這也是未來處理器的發展方向。它比第一代Zen的小芯片更為高明,讓Zen2有了脫胎換骨的變化,以一種更巧妙的方式實現了首款64核128線程X86處理器。
Zen2小芯片架構分析:CPU核心面積大降 IO搭配更靈活
什么是chiplets小芯片設計?業界并沒有統一的定義,簡單來說這是一種新興的芯片設計思路,將大芯片化為多個小芯片,每個芯片的功能則比較單一,而且可以搭配不同的工藝,以實現提高性能、增加良率、降低成本的目的。
在7nm Zen2處理器上,AMD實現混合小芯片設計的方式就是將CPU與IO單元分離,分別稱為CCD(Core Chiplet Die)、IOD(IO Die),在一代Zen架構中每個CCD單元都是一樣的,每顆CCD都包含IO部分,1-4組CCD單元實現了8-32核的并行;而在Zen 2架構中,IO核心被分離了出來,1個IO核心連接所有CPU核心。
而且這個IO核心不需要使用7nm工藝,而是14nm(EPYC霄龍)或者12nm(Ryzen銳龍)工藝,核心面積分別是416mm2、125mm2,里面根據需要集成了不同數量的DDR主控、PCIe主控、IF總線等IO單元。
Zen2架構的CPU剝離了IO單元,變成了純粹的CPU微內核,再加上7nm工藝相比14nm工藝帶來了一倍左右的晶體管密度提升,所以在核心面積上7nm Zen2大幅縮小,單個小芯片面積只有74mm2,整合的L3緩存高達16MB,而Zen一代上一個芯片的面積是213mm2,其中核心部分只占120mm2,其余的都是IO單元的面積,由此可見Zen2架構采用小芯片設計帶來的優勢極其明顯。
那么AMD采用小芯片設計到底有多大的收益呢?我們可以確定的是這種設計的良率會很高。到底有多高?AMD官方沒有公布過具體數據,不過第三方分析稱8核Zen2的良率達到了93.5%,在臺積電7nm 12英寸晶圓上可以生產出749個8核處理器,生產32核心也有187個,成本優勢明顯。
當然,這樣的算法只是用于評估Zen2采用小芯片設計帶來的成本優勢,真實成本要比純代工成本高很多,還得算上研發、封裝測試成本。但怎么來算,這種設計都賦予AMD在成本控制上極高的靈活性,遠非原生大核心可比的。
最后還有一個問題值得關注,那就是延遲,雖然CPU、IO核心分離解決了超多核心的并行問題,但是IO、CPU分離開來也會導致延遲增加,這跟原生多核相比是個劣勢。不過AMD在Zen2架構也針對此做了改進,包括IF2總線及緩存上的改進。
作為Zen2處理器CPU、IO及CPU核心之間的總線,IF2代采用了總線頻率、內存頻率分離式設計,保證可以達到更高頻率和盡可能低的延遲,總線速率從前代的10.7GT/s提升到了18GT/s,數據傳輸更快。
而且每個CCD單元有各自的Infinity Fabric PHY物理層,通過它和I/O Die芯片內的數據總線(Data Fabric)進行高速互連通信——注意,兩顆CPU芯片之間沒有直接通信,都要經過I/O Die,這樣可以保證不同核心、緩存之間的延遲是一致的。
此外,緩存方面也做了改進,一方面Zen2架構的L3緩存翻倍,每個CCX單元配備的L3緩存從8MB翻倍到了16MB,8核處理器是32MB L3緩存,64核的EPYC處理器最多擁有256MB L3緩存,遠高于前代及對手產品。
另一方面,Zen2的內存頻率也大幅提升,前代EPYC支持的內存頻率不過2666MHz(桌面Ryzen為2933MHz),這一代官方數據是服務器和桌面都可以支持3200MHz,但這個數據可能比較保守,據稱桌面端可以一鍵超頻到4200MHz,高者可達DDR4-5133Mhz。
還有一點需要強調的是,Zen2率先支持了PCIe 4.0標準,在IO的帶寬上也有了長足的提升和保障。
64核EPYC處理器性能碾壓式勝利 打破140多項世界紀錄
得益于Zen2架構的性能改進及64核128線程的超多核心,第二代霄龍EPYC 處理器一經問世就打破了多項性能世界紀錄,官方最新統計顯示有140多項記錄被64核128線程的EPYC刷新。
AMD打破性能記錄的領域設計HPC、浮點運算、整數運算、Java、DB/ERP、能耗、大數據、云計算及渲染等,幾乎囊括了每一個需要高性能計算的市場。
64核EPYC處理器的性能不只是AMD官方自吹自擂,許多第三方評測網站也證明了AMD所言不虛——InsideHPC、Serverthehome、TheNextPlatform等專業網站也做了大量EPYC處理器性能測試,結果也顯示64核128線程的EPYC處理器在性能上有非常明顯的優勢,大幅領先對手的28核56線程至強。
AMD不只是在性能上有優勢,同時價格上也要比對手便宜——64核128線程的EPYC 7742處理器只要6950美元,而對手的28核至強8280處理器售價超過1萬美元,頂配版要1.3萬美元,是AMD 64核的2倍左右。
上面價格對比不僅顯示了AMD EPYC霄龍處理器的高性價比,實際上也反映了與友商的成本差距——AMD采用的小芯片設計大幅降低了成本,而友商原生28核的設計使得制造難度極高,成本很難降低。
AMD對核心永遠不滿足 引爆X86核戰
2019年是AMD成立50周年,X86處理問世41年。在過去幾十年的歷史中,X86處理器的舞臺上主要留下了AMD及Intel兩家公司,期間雖然大部分時間都是Intel在主導X86發展,但AMD也屢次實現了技術創新上的反超,像64位,成就AMD曾經輝煌的超傳輸總線技術等等,如今,在多核X86上,AMD再次占了上風。
為了盡可能提升多核性能,AMD在第一代Zen處理器上首次使用了chiplets技術。而在最新的Zen2處理器上,AMD又首創了Hybrid Multi-die架構的混合小芯片Chiplets設計,計算die和IO die采用不同的制程,賦予X86多核處理器極高的靈活性,使得AMD解決了7nm等先進工藝制造成本高、難度高、良率低的問題,可以更靈活地擴展CPU核心。這種堆積木的混合式組合使得桌面處理器達成達成了16核,服務器處理器輕松達到64核128線程。
最后的結果也證明,AMD這次賭對了。它不僅在桌面處理器上創造了世界首款12核、16核游戲處理器銳龍9系列,在服務器市場上更是憑借64核128線程大殺四方,性能及售價雙重優勢明顯。
AMD引爆了X86處理器的“核戰”,而且是主動出擊,這也給對手Intel出了一個難題。后者目前最強的至強處理器也只有28核56線程,核心數方面與EPYC二代差距甚大,在性能上已經無法與之競爭,而且成本上更無還手之力——AMD EPYC 64核在核心數翻倍的情況下售價只有一半左右,這樣的吸引力對云計算、數據中心等客戶是無法抵抗的。
更可怕的是,似乎AMD未來也不會停止這樣的核戰。AMD CTO Mark Papermaster在接受采訪時表示,市場對處理器核心數沒有天花板限制,軟件正在快速針對多核CPU進行優化,可以充分發揮多核多線程的優勢。AMD在核心數方面不會停止進步。
根據AMD官方發布的路線圖,現在7nm Zen2架構之后的兩代處理器已經確定,Zen3已經完成研發,Zen3之后,Zen4架構也在按計劃研發設計中。雖然具體規格現在還沒有確切消息,不過可以確定的是——AMD在X86處理器上已經重回領導者地位了。
責任編輯:wv
-
amd
+關注
關注
25文章
5466瀏覽量
134101 -
x86處理器
+關注
關注
0文章
29瀏覽量
11583
發布評論請先 登錄
相關推薦
評論