英偉達(dá)在2019年12月推出Orin后沉寂一年半推出新一代自動駕駛SoC,即Atlan,從命名來看,Nvidia 還在使用《海王》(Aquaman)系列中的名字。在2019年開始,Nvidia宣布的Orin SoC,就是以亞特蘭蒂斯的第一統(tǒng)治者命名的。而最近 Nvidia 宣布了以 Orin 之父命名的 Atlan SoC。相對Orin,Atlan可謂顛覆性的,與Orin遠(yuǎn)非一個(gè)系列的產(chǎn)品,與其說它是一個(gè)車載芯片,不如說它是一個(gè)大型數(shù)據(jù)中心服務(wù)器芯片,不太考慮成本,不太考慮功耗。
英偉達(dá)從未公開Orin芯片的內(nèi)部布局圖,但Atlan一開始就公布了,或許是對Atlan信心更足。
英偉達(dá)在2019年11月發(fā)布的Orin芯片官方圖片。不過在網(wǎng)上可以找到Orin的大致布局圖。
Atlan不再沿用使用了近10年ARMv8的指令集,改為ARM Neoverse V1指令集。開發(fā)人員可能需要花大量精力來熟悉這種從未出現(xiàn)過的指令集。最大的改動是CPU使用了ARM針對服務(wù)器領(lǐng)域的Zeus架構(gòu),增加了Bluefield即DPU部分,增加了針對功能安全的安全島設(shè)計(jì)。 先來看CPU部分。
ARM在2019年3月針對服務(wù)器市場推出Neoverse平臺,按照計(jì)劃最初是Ares,即希臘神話里的戰(zhàn)神;2020年是Zeus,即希臘神話里二代天神中的最高神的宙斯;2021年是Poseidon,即希臘神話里的海神波塞冬。或許不會有Hades,冥王哈迪斯。至少這個(gè)系列代號可以用11代。
Neoverse平臺再分3個(gè)系列,分別是V、N、E三個(gè)系列,分別對應(yīng)高性能、高效率、低功耗三大應(yīng)用場景。V系列中第一個(gè)產(chǎn)品,順便說一下,N2平臺代號是Perseus,即希臘神話里的宙斯之子,砍下美杜莎腦袋的希臘英雄珀?duì)栃匏埂Sミ_(dá)破天荒推出的CPU即是以宙斯為平臺的CPU。
V1可以看作ARM剛剛發(fā)布的ARM v9指令集的SVE強(qiáng)化版,ARM v9指令集中最大變化就是增加了SVE,SVE(Scalable Vector Extension)是ARM AArch64架構(gòu)下的下一代SIMD指令集,旨在加速高性能計(jì)算。 ARM v7的高級SIMD (即ARMNEON 或“MPE” 多媒體處理引擎) 指令集自2005年發(fā)布,已經(jīng)面世十幾年了。ARM v7 NEON的主要特性如下:
支持8/16/32位整數(shù)操作,支持非IEEE兼容單精度浮點(diǎn)操作,支持指令條件執(zhí)行
32個(gè)64位矢量寄存器,也可視為16個(gè)128位矢量寄存器
旨在CPU端加速多媒體處理任務(wù)
在升級到ARMv8架構(gòu)時(shí),AArch64 NEON指令集做出了許多改進(jìn),比如:
支持IEEE兼容單精度和雙精度浮點(diǎn)操作和64位整數(shù)矢量操作
2個(gè)128位矢量寄存器
這些改進(jìn)使NEON指令集更適用于通用計(jì)算,而不僅僅是多媒體計(jì)算
但是到了現(xiàn)在,ARMv8的新市場需要更徹底的SIMD指令改進(jìn)。需要能夠并行處理非常規(guī)數(shù)據(jù)和復(fù)雜數(shù)據(jù)結(jié)構(gòu),也需要更長的矢量,SVE因此而生,SVE旨在加速高性能計(jì)算。
128位的整數(shù)倍。 最高可支持2048位
不同的實(shí)現(xiàn)可以適應(yīng)不同的應(yīng)用場景,不用更改指令集
每通道預(yù)測
支持復(fù)雜嵌套循環(huán)和if/then/else條件跳轉(zhuǎn), 沒有循環(huán)尾數(shù)。
聚集加載和分散存儲支持復(fù)雜數(shù)據(jù)結(jié)構(gòu),如步長數(shù)據(jù)存取、數(shù)組索引,鏈表等。
橫向操作
支持基本的reduction操作,降低循環(huán)依賴性
SVE2于2019年4月和V1一起發(fā)布,SVE和SVE2的優(yōu)勢還在于其可變的向量大小,范圍從128b到2048b,從而允許向量的可變粒度為128b,無論實(shí)際運(yùn)行的硬件是什么。純粹從向量處理和編程的角度來看,這意味著軟件開發(fā)人員將只需要編譯一次其代碼,并且如果將來某個(gè)CPU帶有本機(jī)512b SIMD執(zhí)行管道,該代碼將能夠已經(jīng)充分利用了單元的整個(gè)寬度。
SVE2是針對機(jī)器學(xué)習(xí)設(shè)計(jì)的,通用矩陣乘法GEMM指令是其最突出特色。我們都知道AI加速器就是乘和累加MAC的堆砌,其特色就是一次可以執(zhí)行乘和加兩個(gè)指令。實(shí)際是一種矩陣乘法累加器,在ARM v8.6中也加入了GEMM指令,乘法累加器中,乘法要遍歷每一個(gè)矩陣中的數(shù)值(通常是像素),這是最費(fèi)時(shí)間的地方,加法器則要快的多,ARM的CPU不能像AI那樣堆砌MAC,但是可以加速矩陣乘法,讓后端的多核處理器部分工作量大大減輕。這近似于一個(gè)超高速DSP,頻率不高,但帶寬很高。
V1的突出特色還有CCIX和CXL,也就是大名鼎鼎的小芯片chiplet,chiplet的概念其實(shí)很簡單,就是die級別的重用。設(shè)計(jì)一個(gè)系統(tǒng)級芯片,以前的方法是從不同的IP供應(yīng)商購買一些IP,軟核(代碼)或硬核(版圖),結(jié)合自研的模塊,集成為一個(gè)SoC,然后在某個(gè)芯片工藝節(jié)點(diǎn)上完成芯片設(shè)計(jì)和生產(chǎn)的完整流程。 未來,對于某些IP,你可能不需要自己做設(shè)計(jì)和生產(chǎn)了,而只需要買別人實(shí)現(xiàn)好的die片,然后在一個(gè)封裝里集成起來,很像SiP( System in Package),但兩者有很大不同,chiplet是晶圓級的,晶圓制造的中段mid-end封裝,只有晶圓廠Foundry才能做,封裝之間是超高速的bump連線,SiP是芯片級的封裝,是專業(yè)封裝廠的業(yè)務(wù)范疇,是錫球級別的。 小芯片的另一個(gè)名字叫MCM,Multi-Chip-Module。 2017年英偉達(dá)、德州大學(xué)、亞利桑那州立大學(xué)、巴塞羅那超算中心、加泰羅尼亞理工大學(xué)聯(lián)合出品一篇研究論文:MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability,對此有詳細(xì)的研究,在2017年加拿大多倫多ISCA上發(fā)表。
簡單地說就是用4個(gè)小芯片合成一個(gè)大芯片,英偉達(dá)稱為MCM技術(shù)。
上圖為英偉達(dá)采用MCM-GPU和多GPU性能對比。英偉達(dá)在2019年VLSI大會上提出RC-18概念,采用36個(gè)小芯片。
不僅GPU或者說AI芯片可以這樣做,CPU也可以,這就是AMD在服務(wù)器領(lǐng)域崛起的關(guān)鍵,最典型的是AMD的32核(應(yīng)該是32小芯片)EPYC,這種方式最大優(yōu)點(diǎn)是成本低,如果將32核封裝到一塊芯片中成本是1,那它們的MCM方式只有0.59,換言之,節(jié)省了41%的成本。
把小芯片合成一個(gè)大芯片,貌似就是一個(gè)“膠水”大法,但實(shí)際門檻是很高的,能支持的只有臺積電CoWos和英特爾的EMIB工藝,英偉達(dá)一向不喜歡臺積電,更喜歡三星。和高通一樣,英偉達(dá)知道不能過分依賴臺積電,否則容易出現(xiàn)供應(yīng)鏈問題,也就是后來英偉達(dá)基本放棄MCM路線。
回到Atlan,Atlan可能用了ARM V1提供的CXL小芯片,即內(nèi)存擴(kuò)展,減少內(nèi)存于處理器間的物理距離是解決AI處理器內(nèi)存瓶頸的最有效方式。CCIX比較復(fù)雜,可能下一代會用。
再來看Bluefield即DPU部分,2020年4月英偉達(dá)花70億美元收購了以色列芯片公司Mellanox Technologies, Ltd.(邁絡(luò)思科技有限公司),通過融合Mellanox的技術(shù),新的NVIDIA將擁有從人工智能計(jì)算到網(wǎng)絡(luò)的端到端技術(shù),以及從處理器到軟件的全堆棧產(chǎn)品,擁有足夠的規(guī)模去推進(jìn)下一代的數(shù)據(jù)中心技術(shù)。
Mellanox的主要產(chǎn)品就是名為Bluefield的芯片,英偉達(dá)將其改名為DPU。其實(shí)際上是一個(gè)高級的網(wǎng)卡。DPU專門執(zhí)行原本需要CPU處理的網(wǎng)絡(luò)、存儲和安全等任務(wù)。這就意味著如果在數(shù)據(jù)中心中采用了DPU,那么CPU的不少運(yùn)算能力可以被釋放出來,按照英偉達(dá)的說法,一個(gè)DPU頂125個(gè)CPU的網(wǎng)絡(luò)處理能力。
英偉達(dá)計(jì)劃在2022年推出3代Bluefield。復(fù)雜一點(diǎn)的說法是DPU是一個(gè)可編程的電子部件,其處理數(shù)據(jù)流,數(shù)據(jù)可作為信息的復(fù)用包與組件傳輸。DPU具有中央處理單元(CPU)的通用性和可編程性,但專用于處理網(wǎng)絡(luò)數(shù)據(jù)包、存儲請求或分析請求上高效運(yùn)行。DPU通過更大程度的并行性(可同時(shí)處理更多的數(shù)據(jù)),因而對比起CPU更勝一籌。
同時(shí),DPU的MIMD架構(gòu)相比圖形處理單元(GPU)的SIMD架構(gòu)更為優(yōu)秀,其每個(gè)請求都需要做出不同的決定并遵循不同的路徑通過芯片,從而使其區(qū)別于GPU 。也就是英偉達(dá)說的軟件定義網(wǎng)絡(luò),Mellanox NVMe SNAP (軟件定義的網(wǎng)絡(luò)加速處理)技術(shù)可以為遠(yuǎn)程存儲提供2.5M + IOPS讀/寫訪問,這是4KB塊大小時(shí)100Gb / s的線速性能。相比之下,入門級NVMe SSD可以提供帶有4 KB塊的300K IOPS。此外,BlueField-2 DPU毫不費(fèi)力地以100 Gb / s的速度添加了IPSec加密和解密功能。
上圖為二代Bluefield,內(nèi)含8個(gè)ARMA72,Atlan里的要處理數(shù)據(jù)帶寬遠(yuǎn)小于傳統(tǒng)服務(wù)器,兩個(gè)A72足夠。Atlan里的DPU主要針對車載骨干以太網(wǎng)和外接的PCIe網(wǎng)絡(luò),內(nèi)置網(wǎng)絡(luò)控制器和PCIe交換,以太網(wǎng)可輕易支持到100G,PCIe則支持到第四代,也可以做數(shù)據(jù)采集車的網(wǎng)絡(luò)接口芯片,與超高速固態(tài)硬盤連接。不過物理層芯片還是繞不開Marvell、德州儀器和博通。
最后是功能安全隔離島,應(yīng)該就是ARM發(fā)布的Cortex-R52。英偉達(dá)所說的功能安全島與ARM所說的安全島的宣傳詞都基本一致。R系列是ARM專門為實(shí)時(shí)性要求高的場合開發(fā)的內(nèi)核,R52是R系列旗艦產(chǎn)品,之前英偉達(dá)芯片從未采用過R內(nèi)核。
R52是ARM在2016年發(fā)布的專為自動駕駛安全市場供應(yīng)的內(nèi)核,Cortex-R52最高支持4核心鎖步技術(shù),相比Cortex-R5,有35%的性能提升,上下文切換(亂序)提高14倍,入口搶占提高2倍,支持硬件虛擬化技術(shù)。 按照ARM的說法,簡單的中控系統(tǒng)可直接用Cortex-R52,但是像工業(yè)機(jī)器人和ADAS(先進(jìn)輔助駕駛)系統(tǒng)則建議配合Cortex-A、MaliGPU等提升整體運(yùn)算。另外,ARM Cortex-R52通過多項(xiàng)安全標(biāo)準(zhǔn)認(rèn)證,包括有IEC 61508(工業(yè))、ISO 26262(車用)、IEC60601(醫(yī)療)、EN 50129(車用)以及RTCA DO-254(工業(yè))等。2021年3月還推出了R52+架構(gòu)。可以最高支持8個(gè)核心鎖步。 R52包括三大功能,軟件隔離:通過硬件實(shí)現(xiàn)的軟件隔離,意味著軟件功能互不干擾。對于安全相關(guān)的任務(wù),這也意味著需要認(rèn)證的代碼更少,從而節(jié)省了時(shí)間、成本和工作量。
支持多個(gè)操作系統(tǒng):借助虛擬化功能,開發(fā)人員能夠在單個(gè)CPU內(nèi),使用多個(gè)操作系統(tǒng)來整合應(yīng)用。這樣可以簡化功能的添加,而無需增加電子控制單元的數(shù)量。
實(shí)時(shí)性能:Cortex-R52+的高性能多核集群可為確定性系統(tǒng)提供實(shí)時(shí)響應(yīng)能力,且在所有Cortex-R產(chǎn)品中產(chǎn)生的延遲最低。
Atlan擁有多達(dá)1000TOPS的算力,是Orin的4倍,看其內(nèi)部布局,仍然是12個(gè)安培GPU模塊,與Orin差不多,面積似乎也差不多,似乎還略微小了點(diǎn),只不過Atlan的CPU die 面積遠(yuǎn)比Orin的要大,Atlan能取得1000TOPS的成績,主要功勞應(yīng)該是CPU、DPU和存儲的功勞,單Ampere架構(gòu)的改進(jìn)不大可能取得如此高的提升。 Atlan是針對服務(wù)器超大規(guī)模模型而設(shè)計(jì)的,而自動駕駛車載模型的趨勢是越來越小,精度越來越低,已經(jīng)有人喊出1比特精度。Atlan反其道行之,特別支持服務(wù)器領(lǐng)域常見而自動駕駛領(lǐng)域少見的BFloat16精度。 顯然英特爾對車載領(lǐng)域的興趣度在逐漸下降,無論是CPU還是DPU,都是借服務(wù)器領(lǐng)域的,而非專為車載領(lǐng)域開發(fā)。
而在ARM服務(wù)器這個(gè)領(lǐng)域,依靠與ARM的深度合作與深厚的技術(shù)積累,英偉達(dá)能像英特爾筆記本電腦那樣每兩年就產(chǎn)品換代一次,不過一款車的生命周期至少是7-8年,車廠可不會認(rèn)同這樣的更新頻率。但英偉達(dá)不在意,英偉達(dá)核心業(yè)務(wù)還是顯卡和數(shù)據(jù)中心處理器,車載只是順手做的,發(fā)揮CPUGPUDPU的余熱。 而Orin的ARM A78內(nèi)核是專為自動駕駛引進(jìn)的新內(nèi)核,在英偉達(dá)其他產(chǎn)品見不到A78的身影,足見對A78的重視,而Atlan只能見到對數(shù)據(jù)中心的重視。英偉達(dá)的另一個(gè)用意是拉上對手做算力軍備競賽,在宣傳上大造聲勢,壓迫對手必須跟進(jìn)算力游戲,直到拖垮對手。其他廠家恐怕不會跟進(jìn)這種算力數(shù)字游戲,這脫離了實(shí)際需求。Orin恐怕將是英偉達(dá)未來數(shù)年的主力產(chǎn)品。
原文標(biāo)題:詳解英偉達(dá)最新自動駕駛芯片-Atlan
文章出處:【微信公眾號:佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
芯片
+關(guān)注
關(guān)注
456文章
50892瀏覽量
424325 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3780瀏覽量
91219 -
自動駕駛
+關(guān)注
關(guān)注
784文章
13839瀏覽量
166552
原文標(biāo)題:詳解英偉達(dá)最新自動駕駛芯片-Atlan
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論