AMD的Phoenix SoC在移動(dòng)和小型化領(lǐng)域取得了重要突破,這將改變很多東西。
●AMD的Ryzen?7040
AMD的移動(dòng)和小型化之路曾一度艱辛。早在2010年代初期,英特爾在能效方面取得了巨大的進(jìn)步,而AMD的基于Bulldozer的CPU核心在這方面沒(méi)有機(jī)會(huì)。Zen架構(gòu)縮小了差距,但AMD仍然需要付出大量努力。空閑功耗仍然不及英特爾。GPU方面,由于AMD收購(gòu)了ATI,所以它在這方面更強(qiáng)大,但AMD的集成GPU常常使用過(guò)時(shí)的圖形架構(gòu)。即使在獨(dú)立的GCN GPU上市后,APU上仍然使用Terascale 3架構(gòu)。2021年,AMD推出了搭載Vega(改進(jìn)的GCN)顯卡的Ryzen 7 5800H,但當(dāng)時(shí)桌面GPU已經(jīng)過(guò)渡到使用RDNA 2。
AMD的產(chǎn)品已經(jīng)扭轉(zhuǎn)了這一局面。Van Gogh(Steam Deck APU)和Rembrandt終于將RDNA 2引入了集成GPU中。而Phoenix則邁出了正確方向的又一步,將當(dāng)前一代的Zen 4核心和RDNA 3顯卡整合到了一個(gè)強(qiáng)大的芯片中。除了使用最新架構(gòu)的重要CPU和GPU之外,Phoenix還集成了各種加速器,以提高特定應(yīng)用程序的能效。英特爾早已整合了像GNA AI加速器這樣的加速器,而AMD則希望迎頭趕上。XDNA加速器有助于機(jī)器學(xué)習(xí)推理,音頻控制器則可以卸載CPU的信號(hào)處理。對(duì)于移動(dòng)SoC來(lái)說(shuō),Phoenix還配備了強(qiáng)大的視頻引擎。
Phoenix采用了TSMC的N4工藝制造,占據(jù)了178平方毫米的面積。芯片擁有254億個(gè)晶體管,將Zen 4核心與RDNA 3圖形整合在一起。除了重要的CPU和GPU之外,AMD還添加了一些支持性的IP塊,用于加速機(jī)器學(xué)習(xí)推理和信號(hào)處理。Phoenix的芯片尺寸比AMD之前的Rembrandt要小,可以容納在相同的25x35毫米BGA封裝中。
●CPU方面
Phoenix擁有8個(gè)Zen 4核心的集群,Phoenix采用了不同的高速緩存設(shè)置,只有16MB的L3緩存(而不是通常的32MB)。AMD可能將L3切片縮小到每個(gè)核心2MB,以減少芯片面積的使用。
根據(jù)測(cè)試,延遲與臺(tái)式機(jī)上的Zen 4相同。實(shí)際的延遲可能會(huì)稍微差一些,因?yàn)榕_(tái)式機(jī)上的Zen 4頻率更高。例如,Ryzen 9 7950X3D的非VCache芯片在16MB的測(cè)試大小下延遲為8.85納秒。而Ryzen 7 7840HS在10MB的測(cè)試大小下延遲為10.92納秒。部分差距是因?yàn)镠P堅(jiān)持將時(shí)鐘速度限制在4.5 GHz,盡管7840HS應(yīng)該能夠提升至5.1 GHz。
Phoenix的內(nèi)存控制器支持DDR5和LPDDR5。對(duì)于功耗至關(guān)重要的手持設(shè)備來(lái)說(shuō),LPDDR5尤其有用。與LPDDR5一起的內(nèi)存延遲更高,為119.81納秒。然而,與Van Gogh相比,AMD已經(jīng)大幅改進(jìn)了LPDDR5的延遲,Van Gogh在CPU核心訪問(wèn)DRAM時(shí)延遲很高。
Infinity Fabric 帶寬
CPU集群通過(guò)每個(gè)時(shí)鐘周期32字節(jié)的Infinity Fabric鏈路與系統(tǒng)的其余部分進(jìn)行通信。與臺(tái)式機(jī)設(shè)計(jì)不同,其中寫路徑是寬度的一半,CPU到Fabric的寫路徑也可以處理每個(gè)周期32字節(jié)。這在實(shí)際工作負(fù)載中幾乎不太可能影響性能,因?yàn)槲覜](méi)有看到任何單個(gè)核心需要超過(guò)30 GB/s的寫入帶寬的工作負(fù)載。多線程的工作負(fù)載可能需要更多的帶寬,但也可以分配到不同的CCX。
AMD已經(jīng)實(shí)現(xiàn)了寫入優(yōu)化,以減少Infinity Fabric的流量。通過(guò)使用CLZERO清零緩存行時(shí),單個(gè)7950X3D CCD的寫入帶寬可以超過(guò)68 GB/s。清零內(nèi)存是相當(dāng)常見(jiàn)的,因?yàn)槌绦驅(qū)⒊跏蓟瘍?nèi)存以確保新分配的內(nèi)存處于已知狀態(tài)。操作系統(tǒng)通常也會(huì)這樣做。如果應(yīng)用程序使用已識(shí)別的方法清零內(nèi)存,可以看到比通用測(cè)試所建議的更高的有效寫入帶寬。
Infinity Fabric 優(yōu)化
Infinity Fabric是AMD的一種一致性互連。在功耗方面,它至關(guān)重要,因?yàn)榛ミB功耗可能占芯片功耗的相當(dāng)大一部分,特別是在不是完全推動(dòng)計(jì)算的工作負(fù)載中。AMD對(duì)各種工作負(fù)載進(jìn)行了分析,并根據(jù)工作負(fù)載是否受到計(jì)算限制、IO限制或具有非常特定的特征(如視頻會(huì)議)來(lái)設(shè)置Phoenix的Infinity Fabric,使其進(jìn)入不同的操作模式。
這些優(yōu)化避免了Van Gogh的問(wèn)題,因?yàn)樗贑PU側(cè)帶寬上限制在約25 GB/s,這要?dú)w功于一個(gè)在有限的功耗預(yù)算內(nèi)高度優(yōu)化用于游戲的Infinity Fabric實(shí)現(xiàn)。在Cheese的HP筆記本上,根據(jù)工作負(fù)載不同,Infinity Fabric時(shí)鐘也會(huì)有所變化:
AMD在GPU拉取大量帶寬時(shí)使用低速Fabric時(shí)鐘以提高能效。GPU具有四個(gè)32B/周期的端口與Fabric相連,即使在低速Fabric時(shí)鐘下,也可以獲得足夠的內(nèi)存帶寬。由于客戶程序通常對(duì)延遲比帶寬更敏感,因此CPU工作負(fù)載獲得了更高的Fabric時(shí)鐘,從而改善了延遲。與Renoir不同,Phoenix的可變Infinity Fabric時(shí)鐘與生成內(nèi)存流量的組件無(wú)關(guān)時(shí)都會(huì)降至1.6 GHz。
為了進(jìn)一步節(jié)省功耗,AMD積極追求功耗和時(shí)鐘門控的機(jī)會(huì)。新的Z8睡眠狀態(tài)允許在短暫的閑置期間進(jìn)行功耗和時(shí)鐘門控,例如在按鍵之間,而不會(huì)感知到喚醒時(shí)間。在視頻播放期間,Phoenix可以實(shí)現(xiàn)較高的Z8狀態(tài)停留,這表明媒體引擎的緩沖區(qū)和高速緩存足夠大,可以允許它進(jìn)行短暫的內(nèi)存訪問(wèn)。
來(lái)自優(yōu)化各種物理接口也帶來(lái)了額外的節(jié)能。內(nèi)存控制器可以根據(jù)需要?jiǎng)討B(tài)更改時(shí)鐘和電壓狀態(tài)。多年來(lái)一直在使用的USB 2.0接口竟然具有許多功耗優(yōu)化機(jī)會(huì),因此AMD也進(jìn)行了調(diào)整。
GPU方面
Phoenix的GPU基于AMD當(dāng)前一代的RDNA 3架構(gòu),獲得了合適的“Radeon 780M”名稱,而不僅僅是被稱為Vega或gfx90c。它具有六個(gè)WGPs,總共有768個(gè)SIMD單元,每個(gè)周期能夠執(zhí)行1536個(gè)FP32操作。這些單元分為兩個(gè)著色器數(shù)組,每個(gè)著色器數(shù)組具有256KB的中級(jí)高速緩存。2MB的L2高速緩存有助于隔離iGPU與DRAM,對(duì)iGPU的性能非常重要。與Van Gogh相比,Phoenix的L2高速緩存多一倍,內(nèi)存帶寬稍多,并且具有50%更多的SIMD單元。
與RX 7600相比,L0、L1和L2的延遲與RX 7600相比相當(dāng)相似,盡管由于更高的時(shí)鐘速度,獨(dú)立顯卡稍微快一些。DDR5使iGPU的每個(gè)SIMD操作的帶寬比臺(tái)式機(jī)GPU更高,因此無(wú)法證明將區(qū)域分配給另一級(jí)緩存。 DDR5的帶寬確實(shí)不容忽視。使用DDR5-5600或LPDDR5-5600,Phoenix可以實(shí)現(xiàn)比幾年前的Nvidia GDDR5配備的GTX 1050 3 GB更高的GPU端DRAM帶寬。每個(gè)引腳的5.6千兆位也比早期的GDDR5實(shí)現(xiàn)更快。
視頻引擎
RDNA 3配備了一個(gè)支持AV1的視頻引擎,這使得Phoenix更加具備未來(lái)的可擴(kuò)展性,因?yàn)橄乱淮曨l編解碼器開始獲得廣泛應(yīng)用。雖然該引擎并不是新的,但AMD透露它使用了一種“競(jìng)爭(zhēng)至空閑”的方案來(lái)節(jié)省電能。它還具有足夠的吞吐量,可以處理多個(gè)同時(shí)的視頻流,這對(duì)于視頻會(huì)議非常重要。
XDNA AI引擎
機(jī)器學(xué)習(xí)已經(jīng)取得了很大的進(jìn)展,AMD在Phoenix上加入了一個(gè)AI引擎(XDNA)來(lái)加速推斷。XDNA是使用Xilinx開發(fā)的架構(gòu)構(gòu)建的AIE-ML瓦片構(gòu)建而成。Phoenix的XDNA實(shí)現(xiàn)具有16個(gè)AIE-ML瓦片,并且可以在空間上分區(qū),以讓多個(gè)應(yīng)用程序共享AI引擎。
XDNA的目標(biāo)是實(shí)現(xiàn)足夠的吞吐量,以處理小型ML負(fù)載,同時(shí)實(shí)現(xiàn)非常高的能效。它以非常低的時(shí)鐘頻率運(yùn)行,并使用非常寬的矢量執(zhí)行。文檔表明,它的時(shí)鐘頻率為1 GHz,但Phoenix的XDNA可能以1.25 GHz運(yùn)行,因?yàn)锳MD表示支持BF16,具有5 TFLOPS的吞吐量。為了驅(qū)動(dòng)非常寬的矢量單元,XDNA具有兩個(gè)矢量寄存器文件。
一個(gè)6KB的寄存器文件集提供乘法器輸入。單獨(dú)的8KB寄存器文件保存累加器值,并在乘加流水線的較后階段訪問(wèn)。兩個(gè)寄存器文件可以以1024位、512位或256位的模式尋址,連續(xù)的256位寄存器形成512位或1024位的寄存器。
BF16 FMA的6級(jí)流水線。比整數(shù)FMA流水線多一個(gè)周期,因?yàn)槎嗔艘粋€(gè)階段用于FP規(guī)范化。乘加操作似乎具有5-6個(gè)周期的延遲,具體取決于是否需要FP規(guī)范化。對(duì)于以大約1 GHz運(yùn)行的東西來(lái)說(shuō),這有點(diǎn)長(zhǎng),但XDNA會(huì)在其中提供排列。較簡(jiǎn)單的512位加法和洗牌享有更快的3個(gè)周期延遲。
每個(gè)XDNA瓦片使用64 KB的直接尋址數(shù)據(jù)存儲(chǔ)器為其龐大的矢量單元提供數(shù)據(jù)存儲(chǔ)器。數(shù)據(jù)存儲(chǔ)器不是高速緩存,因此無(wú)需標(biāo)簽檢查,可以節(jié)省功率。使用20位尋址進(jìn)一步節(jié)省了電源,這對(duì)任何人來(lái)說(shuō)都應(yīng)該足夠。地址由三個(gè)AGU生成,它們?cè)?0位指針和修飾符寄存器上運(yùn)行。在地址上使用單獨(dú)的寄存器并不是什么新鮮事(6502具有兩個(gè)索引寄存器),并且避免了主要標(biāo)量寄存器文件上的六個(gè)額外端口。
整數(shù)矢量流水線,顯示處理稀疏性的解碼器步驟,64KB數(shù)據(jù)存儲(chǔ)器,指針寄存器,大數(shù)據(jù)運(yùn)算單元Ryzen 7 7840HS以65W TDP運(yùn)行,不過(guò)Phoenix設(shè)計(jì)的TDP范圍可能從35W到60W不等。默認(rèn)配置下,Phoenix的XDNA瓦片可以實(shí)現(xiàn)4 TFLOPS的吞吐量,功耗僅為13W。如果整個(gè)芯片被配置為65W,則XDNA可以實(shí)現(xiàn)10 TFLOPS的吞吐量。
通過(guò)減小核心計(jì)數(shù)并提高XDNA時(shí)鐘,TDP可以進(jìn)一步減少到35W。這將限制XDNA到2 TFLOPS,但在大多數(shù)筆記本中,可能不會(huì)發(fā)生這種情況。
Phoenix還有多個(gè)標(biāo)量ALU,每個(gè)瓦片的流水線中有兩個(gè)整數(shù)算術(shù)單元,以及單個(gè)浮點(diǎn)乘法器和浮點(diǎn)加法器。流水線提供多達(dá)256位的寬度,并且為低延遲而優(yōu)化。盡管AMD沒(méi)有詳細(xì)介紹流水線的結(jié)構(gòu),但它們似乎包括大量的特化邏輯,以加速整數(shù)算術(shù)。例如,一個(gè)6級(jí)流水線的int->int復(fù)制將會(huì)非常快。XDNA流水線還支持超標(biāo)量整數(shù)操作,可以在多個(gè)流水線中同時(shí)執(zhí)行。
除了標(biāo)量整數(shù),XDNA流水線還可以執(zhí)行標(biāo)量邏輯和標(biāo)量訪存。整數(shù)指令和邏輯指令可以同時(shí)執(zhí)行,從而實(shí)現(xiàn)更高的吞吐量。 Phoenix的XDNA實(shí)現(xiàn)似乎沒(méi)有指令級(jí)并行性問(wèn)題,可以以每個(gè)周期4條指令的吞吐量運(yùn)行。這是因?yàn)槌思雍瓦壿媶卧窍嗷オ?dú)立的。
XDNA可以從LPDDR5內(nèi)存訪問(wèn)數(shù)據(jù),與GPU一樣,它可以從完全不同的內(nèi)存訪問(wèn)。但是,GPU和XDNA之間的內(nèi)存訪問(wèn)共享是不太可能的,因?yàn)樗鼈兪褂貌煌牡刂房臻g。必須通過(guò)主機(jī)來(lái)傳輸數(shù)據(jù)。但是,由于LPDDR5具有足夠的帶寬,可以將數(shù)據(jù)傳輸?shù)絏DNA或GPU,而不必禁用著色器或ALU。 Phoenix的內(nèi)存子系統(tǒng)可以實(shí)現(xiàn)與Van Gogh相同的DRAM帶寬,同時(shí)仍然具有內(nèi)存訪問(wèn)(可能會(huì)增加DRAM的帶寬要求)。
音頻
Phoenix的音頻控制器在一定程度上類似于AMD的CPU核心,它具有8個(gè)SIMD單元,可以通過(guò)VLIW進(jìn)行調(diào)度。
可以高效地運(yùn)行不同的聲音效果,并具有低時(shí)延。AMD還為Phoenix的音頻引擎提供了一個(gè)編程接口,使它能夠輕松支持不同的音頻引擎。這使得它可以與不同的操作系統(tǒng)和音頻處理軟件一起工作,而不必為不同的音頻引擎重新編寫代碼。
音頻引擎還支持高質(zhì)量的音頻解碼,包括解碼壓縮的音頻格式,如MP3和AAC,還可以支持音頻編碼,允許用戶創(chuàng)建高質(zhì)量的音頻內(nèi)容。
總結(jié)
AMD的Phoenix SoC是一款非常令人印象深刻的移動(dòng)芯片,將Zen 4 CPU核心和RDNA 3 GPU整合到一個(gè)緊湊的封裝中,還具有一系列加速器,包括XDNA AI引擎、視頻引擎和音頻控制器,為多種應(yīng)用程序提供了高效的處理能力。Phoenix的CPU性能在移動(dòng)領(lǐng)域應(yīng)該是一流的,而GPU性能也足以運(yùn)行現(xiàn)代游戲和圖形密集型應(yīng)用程序。Phoenix的LPDDR5內(nèi)存支持和高速緩存配置應(yīng)該進(jìn)一步提高系統(tǒng)的整體性能。
編輯:黃飛
?
評(píng)論
查看更多