華為Mate 40系列手機中國區的發布會今天剛剛在上海舉辦,其中最引人注目的部分自然就是在這個特殊歷史時期出現的海思麒麟(Kirin)9000 SoC了。華為照例在手機發布會前,小規模召開了一次麒麟芯片媒體溝通會。
有關Mate 40系列手機本身,我將另外撰文,與本文同期發布。本文主要探討麒麟9000這顆芯片——雖然電子工程專輯此前已經在這款手機的全球發布會期間,對這顆芯片做了簡單的探討,我還是希望能夠更全面地來呈現這顆,未來回看可能具有歷史意義的SoC。
本文篇幅較長,主體上分成5個部分。各位可按照自己感興趣的話題,選擇性閱讀:
(1)配置總覽
(2)CPU
(3)GPU
(4)NPU(與ISP)
(5)5G
153億個晶體管,配置一覽
麒麟9000系列SoC主要包含兩個型號,分別是麒麟9000和麒麟9000E。這兩者的主要區別是9000E的GPU少兩個核心,以及NPU少一個大核。猜測這可能會是個更經濟的做法,因為153億個晶體管實在是很大的規模:蘋果A14也“不過”118億晶體管(當然A14不帶modem)。其中這次的Mali G78 GPU鋪滿24個核心的實施方案,算是巨大規模了。又還是初代5nm工藝,考慮到良率問題——通過binning的方式,在產線上劃分出一個9000E,顯然會更經濟。
首先當然還是看一看麒麟9000的主要配置情況:
CPU:1x Cortex-A77 3.13GHz,3x Cortex-A77 2.56GHz,4x Cortex-A55 2.05GHz
GPU:Mali G78MP24(9000E為MP22)
NPU:Da Vinci,2x Big-Core,1x Tiny-Core(9000E的Big-Core是1個)
內存:LPDDR4X-2133/LPDDR5-2750
Modem:Balong 5000(Sub-6G,下行雙載波4.6Gbps,上行雙載波2.5Gbps)
ISP:6.0,Quad pipeline,3A(AE/AWB/AF)處理能力提升100%,處理管線速度提升50%
其他:HiFi Audio,4K HDR Video,Mobile Secure Processor
工藝:臺積電5nm(N5?)
這其中比較令人在意的有幾點,其一是CPU部分用的是Cortex-A77。已經上市半年多的驍龍865用的就是A77。Arm實則已經發布了Cortex-A78和X1。傳言未來的高通驍龍875和Exynos 1080都會采用Cortex-A78。起碼在新IP的采用上,麒麟芯片晚了一步。另外GPU部分,華為直接跳過了Mali G77,轉而采用Mali G78。這些都會在下文做探討。
除此之外,今年華為似乎格外在意AI的應用——雖然現在看來Android NN生態(以及華為HiAI)建設仍然比較初級,華為也仍然期望在拍照之外,讓算力在行業內領先的NPU有更多的用武之地。
尤為值得一提的是,華為今年公布相關麒麟SoC與競品的對比數據,華為Fellow艾偉在臺上呈現的內容,都更多的出現了“效率”和“能效”,而不再只是單純的性能。這一點實則也是麒麟SoC已經完全步入成熟的依據:電子工程專輯的微信服務號很快會發布一篇海思手機SoC從K3V2時期開始,至麒麟9000這8年來的發展歷程總結文章。這8年是非常典型的由青澀走向成熟,從差強人意邁向一流的過程。
CPU:一次常規升級
麒麟9000 CPU部分是1+3+4組合結構,這種組合方法原本也是DynamIQ靈活性的體現。今年年初的麒麟820 5G用的也是這種組合方式,高通也已經沿用了兩代。最大的那顆Cortex-A77核心3.13GHz主頻是比驍龍865+(3.1GHz)還要略高一點點的,比去年Kirin 990大核A76的2.86GHz也高了9.4%。Cache分配情況未知。
在提升方面,華為這次并未與前代產品比較,而是說CPU性能比驍龍865+領先10%,能效則領先25%——基于Geekbench 5的跑分。從Geekbench 5數據庫來看,驍龍865+相比麒麟990的CPU多核性能領先了大約14-18%。這樣算來,麒麟9000比上一代麒麟990,CPU性能提升大約在25-30%左右。
當然這個對比是不嚴謹的,Geekbench 5用于反映CPU的絕對性能可能會有偏差。不過Arm官方早前發布A77的時候就提到,Cortex-A77相比A76有著20-25%的IPC提升,加上麒麟9000的頻率提升,麒麟9000 CPU整體上25-30%的性能提升是在情理之中的。能效部分與前代很難直接比較,而且驍龍865+作為865的提頻版本,在效率上本來就會妥協——麒麟9000 CPU效率必然是提升的,其中還需考慮到5nm工藝帶來的紅利,與上代產品相較的提升幅度值得做進一步觀察。
需要指出的是,華為從麒麟980開始越來越關注存儲子系統的提升——980配上了DSU 4MB L3大緩存;到了麒麟990,雖然CPU的整體架構和內存支持都沒變,但開始采用新的LLC:system cache(下圖中間部分,系統級別的cache),并降低存儲子系統的整體延遲,令麒麟990的性能表現仍然比980有提升,而且功耗還更低——這一點在當時還是非常驚艷的。
Kirin 990 Die shot source: TechInsights - Labelling & Custom contrast: AnandTech
今年麒麟9000似乎將system cache提升到了8MB(艾偉在說NPU環節的Smart Cache 2.0時提到了這一點,“相對直接訪問內存來說,帶寬提升了一倍,能效提升15%”,但不確定是否就是指整個系統LLC的system cache),這應該是相比上代容量的翻番了。實際上高通和蘋果此前也已經開始注重這個層級的cache布局。這部分理論上可以在SoC上服務于多個IP,不僅用于提升性能,而且也提升了能效。
此外,LPDDR5支持實則也會對手機的整體系統性能有提升幫助,驍龍865機型已經享受了這部分紅利。相比麒麟990,麒麟9000在CPU方面的確是一次比較大的提升。不過也需要在意,今年年中發布的Cortex-A78能做到與A77相同功耗情況下持續性能20%的提升;預計晚些時間發布的驍龍875還是可以超過麒麟9000的——當然這是一個常態,尤其隨著華為的手機SoC步入成熟,每年不同SoC廠商的迭代,都是在不同時間點此消彼長的。
GPU:秒殺高通Adreno?
麒麟9000的GPU部分是非常值得一說的。去年麒麟990并未按照我們的預期,采用Arm Mali G77,而是繼續采用麒麟980時期的G76。此前我曾撰文提到過,高通如今正逐漸在GPU部分丟失往常的優勢:如果Mali G77能夠按照Arm預期的那樣,那么Mali GPU很可能實現對Adreno GPU性能和效率的同時追平。
悲劇的是,華為并未采用G77。而實施G77的三星Exynos 990(Mali G77MP11)與聯發科天璣1000(MP9),在規模上都不夠大——前者多方面的問題還相當一言難盡。這就讓我們無從了解,G77到底是個什么水平。加上驍龍865的Adreno 640小小發揮了一下,在不少測試中的效率表現都和蘋果相差不大了(性能仍有差距),Arm Mali陣營這邊就急需一款產品來證明GPU的實際水準。
麒麟9000直接跳過G77,用上了Mali G78。華為給出的數據是,相比驍龍865+,麒麟9000的GPU性能領先52%,能效領先50%。從華為的PPT來看,對比的是GFXbench 5.0 Aztec Ruins Vulkan項目(不過極有可能,性能提升和效率提升的測試條件是不同的)。無論如何,這兩個分數都是相當巨大的領先,這使得今年Mate 40系列手機的游戲表現非常令人期待。
單純從這個跑分來看,可能已經達到了蘋果A13或者A14的水平——余承東在手機發布會現場列出了iPhone 12 Pro與Mate 40 Pro+的GPU跑分性能,兩者似乎的確已經是相近水平:雖然目前還不清楚這是峰值性能還是持續性能,以及并未有能效比較的數據。
華為自己的實際游戲性能測試是,“某國內TOP MOBA類游戲”滿幀狀態的能效,平均比“友商”(也就是驍龍865 Plus,三星Galaxy Note 20 Ultra)優秀20%;包括《王者榮耀》《和平精英》《明日之后》等在內的多款主流游戲,系統能效比都優于驍龍865+——這似乎還是華為首次在反復提GPU的“能效”,而不單純是性能:表明這次的底氣比以往都更充足。
事實上,Mali G78相比G77并沒有發生太大的變化。但G77是首次換用了Valhall架構——算是一次大變動,G78則是個改款。仍然建議有興趣的同學閱讀此前有關Mali G77的文章《Arm新版Mali GPU簡析:這次終于趕超高通和蘋果?》。G77相比G76,性能密度提升30%,能效提升30%;主要是G77的shader核心換用新的執行引擎,16-wide warp執行模型,合并為一個執行引擎,提升ALU利用率。
因為此前G76已經有了一次Arm Mali陣營的大躍進,所以G77就紙面數字來看還是比較優秀的。而G78,Arm的數字是結合微架構與制造工藝的雙重改進,相較G77有25%的性能提升。相同工藝情況下,性能密度提升15%(相同面積下,獲得15%性能提升);能效提升10%。
Mali G78支持的最大核心數目提升到了24個核心,不知該說Arm Mali這種增多核心的路線是種進步還是退步——麒麟9000顯然拉滿了這個數字,算是G78的頂配了(9000E則為22個核心),從去年開始似乎華為已經不再走過去那種高頻少核的路線了。
G78的執行核心與前代相比沒什么變化,就是延續了Valhall架構的特色(16-wide,合并為一個引擎);shader核心整體上也沒什么變化。其最大的變化在于從整個GPU的全局頻域(frequency domain)變為兩級結構,最頂級的共享GPU模塊為一個頻域,shader核心為一個頻域——也就是GPU內部不同步的時鐘域,shader核心可以跑在不同的頻率下。只是不知道麒麟9000是否實施了這個方案。
這事實上解決了Mali GPU一個很大的問題:要在屏幕上推更多數量的多邊形時,以前只能全面推高運行頻率。如今市面上出現的新游戲普遍是幾何處理工作偏重的,將tiler和幾何引擎運行頻率解耦,就能夠解決吞吐不平衡的問題。另外就是,理論上能效也能得到改進——只不過要增加額外的電壓域實施,也就增加了系統的成本。除此之外,G78的FMA引擎做了翻新,主要是乘法器結構變化,以及FP32和FP16路徑做了隔離,據說是以面積來換取30%的節能。
大概也是因為GPU性能和效率水平真的上來了,艾偉今年談了不少游戲畫質相關的東西。而且事實上,在《原神》這類游戲開始出現在手機之上,更多原本屬于PC和主機的游戲體驗、特效,都開始向移動平臺遷移。
包括SSR屏幕空間反射、MSAA/TAA抗鋸齒,以及動態模糊、體積光+實時陰影等更好的游戲畫質實現上,華為宣傳的是麒麟9000在更好地實現這些特效的基礎上,同時做到高幀率,以及更高的效率——如上圖所示,是對比某尚未發布的游戲,在開啟HDR、MSAA抗鋸齒等特性后,穩定60fps運行,以及實現比“友商芯片平臺”(這個對比對象未知)高了一倍的效率(圖中中間mW/frame數值)。這其中應該也有AI的輔助:早年Kirin 970時期起,通過機器學習來達成針對特定游戲、特定設備的最優化DVFS調度。
所以Mate 40的GPU實際表現,的確令人十分期待。驍龍875的GPU恐怕會面臨比較大的壓力。
NPU:現在有什么用?
麒麟9000的NPU升級到達芬奇架構2.0,“NPU算力翻倍”。當然我們不清楚達芬奇架構2.0相比1.0,到底改了些什么。比較抽象的形容是“MAC規模翻倍,卷積網絡性能翻倍,核間通訊帶寬翻番”。所以AI Benchmark(ETH AI Benchmark V4.0)之類的拿“全球第一”也并不奇怪。另外華為這次特別提到了Int8數據類型的性能與能效。
艾偉說AI普及后,手機終端越來越多地需要做8位整型數據計算,而不是浮點FP16。用ResNet50網絡來跑,麒麟9000的Int8性能較驍龍865+高出60%,能效則高了150%——這應該和高通的AI Engine始終不上專核,而主要靠強化DSP與異構計算有關。
SoC層面另外值得一提的就是前文已經提到過的system cache。由于這個末端cache容量增大,很多情況下各IP模塊就不需要再去調用DRAM。由于帶寬的成倍增加,以及能效的提升,NPU與其他處理器工作的實時性才有更好的保障。
往年的NPU介紹,大致上也就停留在這個程度了。今年華為似乎急著想要證明,NPU究竟能用來做什么。事實上,Android陣營的AI生態發展得并沒有那么高速,即便華為始終在說HiAI支持的人工智能網絡算子是業界最多。但華為在這個生態上的建設,真可謂不遺余力。這次艾偉主要列舉了NPU的三個用處:AI視頻處理、AI拍視頻、AI AR。
視頻逐幀卡通化處理
首先是AI視頻處理。2017年的麒麟970時代,華為演示2000張照片智能識圖需要60秒,而到了麒麟9000同樣的識圖過程只需要1秒鐘。這一點帶來的價值放到視頻之上,就是AI實時處理復雜網絡。過去針對視頻中的每一幀畫面,都只能執行圖像分類、目標檢測、語義分割、實例分割、圖像編輯等其中的一種操作;但現在針對每一幀,都能執行以上的所有操作。
到實際應用里,華為現場演示的是視頻的實時卡通化:針對一段視頻,每一幀都能做輪廓提取、紋理優化和區域分割,并實現每一幀的卡通化。我在現場演示中看到,這個過程的確是完全實時的:通過攝像頭拍攝的取景畫面就實時呈現出了畫面的卡通化——而不是延后處理——以前我們也見過將畫面卡通化的app,但那些要么只能處理照片,要么就是對視頻有延后處理的長時間等待過程。
另外,除了這種娛樂向的應用,AI視頻增強特性中的一個很有意義的應用是將低分辨率的視頻upscale成高分辨率——整個過程實現的是每幀畫面的去噪、銳化、超分、色彩增強。其中超分,是能夠將原畫面實現2-3倍的分辨率提升的,比如480p分辨率的視頻可以upscale至1080p。起碼華為現場演示的效果很不錯。
針對一些片源本身就不清楚,或者由于網絡環境關系無法觀看高分辨率視頻的情況,這種在本地將視頻“超分”為高分辨率的解決方案是的確能夠提升觀看體驗的。不過這個方案仍然需要第三方播放器做出支持,華為提到后續會在HMS中通過AV Pipeline開放——HMS此前我在介紹HarmonyOS系統時已經提過多次,HMS是可為開發者提供各種Kit和API的一個中間層。
上面談的是AI視頻處理,接著是AI拍視頻。這部分華為宣傳的是“業界首次實現ISP+NPU融合架構”。在拍視頻時,從攝像頭的CIS獲取到畫面數據,隨后進入ISP+NPU的融合結構里,其管線如上圖所示。具體數據是如何在NPU與ISP兩個硬件之間流動的,就不得而知了——但這兩者間一定是有分工的,比如常規的3A(自動白平衡、自動曝光、自動對焦)肯定由ISP執行,而去噪之類的操作可以交給NPU。此前靜態照片拍攝,AI如何介入ISP的流程,甚至包括自動白平衡這類傳統項亦可由AI單元去完成,谷歌AI Blog就分享過很多這方面的技術細節。
但“首次”實現ISP+NPU的融合,細算起來或許還有其他競爭對手。除了iPhone在照片拍攝時如今也應當有這樣的流程;比較具有代表性的是谷歌Pixel手機。
Pixel從二代起加入Pixel Visual Core(或Visual Neural Core),這是個專門用作圖像處理的AI硬件——只不過谷歌并不是手機SoC制造商,自己沒有能力給手機的主SoC融合一個這樣的單元,所以Pixel Visual Core是以獨立的形式存在的。理論上它也與ISP做協同,實現Pixel拍照的過程。只不過猜測其時延會比較高(畢竟是芯片間通訊),所以谷歌做畫面的AI加強,似乎始終都不曾涉及視頻(最多好像也只有動態照片的AI防抖等特性)。
華為提到,麒麟9000的ISP+NPU處理時間<33ms,就相當于過去單獨ISP處理攝像頭拍攝的數據一樣,這的確算是個性能跨越。值得一提的是,今年麒麟9000的ISP為“Kirin ISP 6.0”,包括3A處理能力的100%提升,以及Quad Pipeline擴張做到處理管線速度50%的提升——這應該也是實現AI視頻拍攝整體處理時間<33ms的重要原因。所以ISP與NPU的算力堆砌在此都非常重要,iPhone 12似乎都仍然做不到AI視頻拍攝的實時處理。
這一點,華為也專門在演示中做了對比。即iPhone 12 Pro相較Mate 40 Pro,暗光視頻拍攝能力,在畫面的細節呈現上有差距——這是后者用NPU+ISP協同工作達成的。
另外由于算力的彪悍(與包括system cache在內的通訊的高效),Mate 40也做到了視頻的實時4K HDR——這里的實現層級是在SoC之上的ISP與NPU(而非CIS及堆棧的ISP,不過想必索尼CIS的高速讀出技術在此也是不可或缺的)。華為宣稱是“逆光HDR視頻超越人眼”,達到108dB動態范圍。
最后是AI+AR
實際上華為宣傳的AI+AR的,本質就是做計算視覺,將手機攝像頭看到的世界,通過SLAM(同步定位與地圖構建)+語義理解,令AR能夠識別周邊的東西是什么,并且對對象距離、尺寸做測量——那么無論針對人臉做識別建模,還是對周圍環境做識別建模,都能做到實時的感知;感知測量也能達到更高的精度。
艾偉說,“這個功能以前我們用軟件來實現,比較耗電,花的時間也比較長。這一次,我們提供專門AR硬化的加速器模塊”,“同樣一個AR識別,時延降低40ms,功耗降低36mA”。
AI+AR的特性究竟能用來做什么呢?華為設想的是,手機作為信息入口,通過AI+AR,不管是人、物體,還是結構化文字,都能做到實時的識別。且在識別、測量之后,將脫敏的數據傳輸到云端;云端有海量數據庫與知識圖譜。于是“它就變成了一個新的陪伴”,“陪伴我們的一個超智慧的感知體驗”。未來的一切,從單點對象到整個世界,都可將其實時數字化、識別,并與云端組合到一起。
而此間的傳輸過程又與5G有著不可分割的關聯。
5G:合在一起,打開新世界的大門
在本文最后上價值之前,還是先來看看麒麟9000的5G modem部分。由于麒麟985 5G就已經用上了Balong 5000 modem,所以似乎這次Mate 40系列手機支持5G已經不是新鮮事了。
但華為還是展示了Mate 40一些更為細致的5G數據。包括在sub-6GHz頻段下,5G SA下行雙載波速率4.6GHz,上行雙載波速率2.5GHz,相比驍龍865與A14+X55 modem的方案,理論峰值速率是其2倍(iPhone 12為5G單載波)。不過X55 modem實際上是支持毫米波的,但毫米波的基礎設施建設或許就現在看來還沒有那么及時:iPhone 12美國版支持毫米波。而實測數據,從華為自己的數據來看,Mate 40與iPhone 12還有更大的差距——這部分還是可以等一等更多評測機構的數據。
時延部分,上面這張圖是在杭州一塊區域內的室外測試,綠色部分是指<< span="">30ms終端到服務器的時延。這塊區域的實測數據是,Mate 40 Pro有84%的在網概率是<< span="">30ms時延的,16%的概率時延在30-100ms。而從華為的數據來看,iPhone 12是剛好相反的。實際上,在4G網絡之下,100-150ms時延就已經有相對流暢的游戲體驗了。因此這也是5G帶來的便利。
不過上面這些數據實則并不只是5G modem的問題,可能涉及到了整個RF系統以及天線,乃至手機制造商的系統設計。而且其復雜性之甚,大約還有更多的維度可以探討。
在5G的問題上,現有5G手機用戶普遍的反饋是,沒有對應的使用場景,不需要那么高的吞吐與那么低的時延。延續前一個AI+AR的段落,艾偉對此的看法是:以上麒麟9000改進的每一點都有用。
當它們合在一起的時候,是打開新世界大門的時候。“以今天5G手機的發展速度,經過一個正常的換機周期,兩年以后,整個存量市場超過一半會是5G手機——這還是偏保守的數據。那么應用環境變化會自然跟隨發生變化。”
“就像4G時,有了3G沒有的移動支付、共享經濟。到5G時,我們會擁有4G所沒有的實時虛擬世界,數字世界與真實世界的結合。”艾偉說,“而且這并不需要太長時間,一定是在兩年以內。”看來麒麟9000是為此打下了一個基礎。
原文標題:全面剖析麒麟9000:華為Mate 40碾壓了誰?
文章出處:【微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
智能手機
+關注
關注
66文章
18506瀏覽量
180489 -
華為
+關注
關注
216文章
34479瀏覽量
252169 -
5G
+關注
關注
1355文章
48479瀏覽量
564851
原文標題:全面剖析麒麟9000:華為Mate 40碾壓了誰?
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論