六、ARM Cortex-A76AE對決MIPS I6500-F
ARM在2018年9月推出了特別為自動駕駛汽車設(shè)計的A76AE內(nèi)核。
A76AE采用7納米16核設(shè)計,據(jù)說最高可達64核,超過25萬DMIPS,幾乎是英偉達Xavier 13.7萬的兩倍。不過16核設(shè)計,良率恐怕不高,成本要有所上升。GPU方面使用Mali G76,Arm為Mali G76添加了新的專用8位點積指令,使其機器學(xué)習(xí)推理性能相對G72提高了2.7倍。Arm將Mali G76從有序回寫機制轉(zhuǎn)變?yōu)闊o序回寫機制,允許通過繞過那些回寫延遲來更靈活地回寫多邊形。華為的麒麟980就使用Mali G76。
同時A76AE目標是ISO26262中ASIL最高的D級,英偉達的Xavier最多則是C級。
A76AE采用Split-Lock模式為硬件增加冗余。A76AE有兩種運行模式,Split模式和Lockstep模式,Split模式下,所有核獨立運行,取得超高性能。Lockstep模式下,一對核內(nèi)運行相同的代碼,并檢測是否出現(xiàn)分歧,一旦出現(xiàn)分歧就認為系統(tǒng)出現(xiàn)錯誤,失效恢復(fù)機制啟動,或者對乘客報告錯誤,靠邊停車。A76AE對AutoWare, Deepscale, Linaro, Linux, QNX都會支持。也會對自適應(yīng)Autosar、TSN以太網(wǎng)全面支持。其他安全措施還有內(nèi)存保護,Single Error Correction, Double Error Detection (SECDED) ECC和分區(qū)保護。
此外A76AE自然少不了DynamIQ(DSU)。在華為麒麟980上,華為充分發(fā)揮了DynamIQ的靈活性優(yōu)勢,在一個大型CPU叢集里使用了2顆Cortex A76@2.6GHz + 2顆Cortex A76@1.92GHz + 4顆Cortex A55@1.8GHz的搭配,根據(jù)不同使用場景靈活呼叫,極大地提升麒麟980的能耗比。
毫無疑問,華為會第一個推出使用A76AE的自動駕駛芯片,因為麒麟980可看做簡化版自動駕駛芯片。麒麟980或者說ARM的優(yōu)勢在于芯片的裸晶面積很小,性價比會很高。麒麟980的裸晶僅74.13平方毫米,而英偉達的Xavier是驚人的350平方毫米,即便改用16核設(shè)計,華為的裸晶也不會超過175平方毫米。加上上億的手機出貨量可以分攤大部分成本,華為的自動駕駛芯片性價比將會很高。
ARM的老對手則領(lǐng)先ARM一步設(shè)計除了Warrior I-Class I6500-F 處理器架構(gòu),并用在Mobileye EyeQ5上。在2017年6月,MIPS 處理器架構(gòu)及 IP 核提供商 MIPS NetSpeed Systems, Inc. 進行戰(zhàn)略合作,將行業(yè)唯一實現(xiàn)由ISO 26262 認證的ASIL D Ready 緩存一致性互連IP NetSpeed Gemini植入Warrior I-Class I6500-F ,NetSpeed Gemini確保多個 MIPS 處理器集群與片上系統(tǒng)的其余部分保持一致性(Coherency)。I6500-F中的CPU與視覺加速器間的完整緩存一致性(cache coherency),使其成為異構(gòu)運算的理想平臺,并為即時功能增加了線程間通信(inter-thread communication)的獨特功能。
上圖為Warrior I-Class I6500-F設(shè)計流程圖。I6500-F是專為符合ASIL B(D)等級的需求所設(shè)計,使得I6500-F可鎖定上到 ASIL D等級的嚴格要求的汽車應(yīng)用。此IP是以Safety Element out of Context (SEooC) 的安全生命周期來開發(fā)的,并與主要的合作伙伴緊密合作,再加上獨立的安全性評估機構(gòu)ResilTech S.r.l。I6500-F的設(shè)計安全生命周期與元件供應(yīng)商的安全性生命周期密切配合,是以ISO 26262的2011 1st 版標準為基礎(chǔ),但已經(jīng)考慮了 Part 11中針對IP的最佳實踐,此部分將于ISO 26262 第二版中納入,并已公布于公開的DIS版本中。I6500-F可提供完整的安全工作產(chǎn)品內(nèi)容,包括ResilTech撰寫的獨立FMEDA安全分析報告等安全案例,以協(xié)助客戶符合ISO 26262安全遵循性。Imagination還將提供安全性咨詢支持服務(wù),協(xié)助客戶進行SoC層級的整合與安全性分析準備,以達成ISO 26262遵循性的目標。有I6500-F在,基本上EyeQ5至少也可以達ASIL A或B級。
I6500-F有幾大特色,首先是異構(gòu)。
內(nèi)部異構(gòu),在單一集群中,設(shè)計人員能夠通過不同的線程組合、不同緩存容量、不同頻率甚至電壓來配置每個CPU,實現(xiàn)最優(yōu)化的功耗。外部異構(gòu),通過ACE可以將諸如PowerVR系列GPU也加入芯片。
實時多線程,Simultaneous Multi-Threading (SMT),每個CPU支持4個多線程。即使采用無序執(zhí)行,通常的工作負載使得CPU將大多數(shù)時間花在等待內(nèi)存系統(tǒng)的訪問上。 即每個線程作為單獨的處理器出現(xiàn)在軟件中。根據(jù)不同的應(yīng)用程序,添加第二個線程至CPU中時,通常10%的面積需要總體性能提升40%。MIPS I6500-F可以容納8個CPU,每個都有4個線程,這樣就不必在單個集群中運行32個線程。
硬件虛擬化(VZ):I6500具有MIPS I6400核率先支持的實時硬件虛擬化技術(shù)。通過將以前多個CPU核的應(yīng)用安全地整合在一個核中,設(shè)計人員能夠節(jié)省成本、降低多核的功耗,并能根據(jù)每個應(yīng)用有針對性地動態(tài)配置CPU帶寬。SMT與VZ相結(jié)合: 結(jié)合SMT與VZ,可為要求實時響應(yīng)的應(yīng)用提供“零上下文切換”(zero context switching)的特性。該特性再加上提供緊耦合便簽式存儲器(scratchpad memory),使得I6500成為需要確定性代碼執(zhí)行的應(yīng)用的理想選擇。
不過 I6500-F的運算性能參數(shù)未知,估計大約是介于ARM Cortex A72到A73之間的水準。EyeQ5使用了8核I6500-F。
七、英偉達的Xavier
Xavier是目前性能最強的自動駕駛單芯片,擁有90億個晶體管,350平方毫米的裸晶面積,臺積電12納米FFN工藝,其512核的Volta GPU在FP8精度下是20TOPS Tensor Core計算能力,F(xiàn)P16 CUDA下是2.6TOPS計算能力,F(xiàn)P32精度下是1.3TOPS計算能力,與上一代的Parker本質(zhì)上并無不同,只是增強了性能而已,最大差別是增加了針對雙目的硬核設(shè)計 。
上圖為PX2 Xavier內(nèi)部框架圖
上圖為Xavier裸晶透視圖,最上邊是接口電路,包括能夠能夠接入16個攝像頭的GMSL,支持5G V2X的10Gbps以太網(wǎng)接口??値捀哌_109Gbps。然后是DLA加速器,即深度學(xué)習(xí)加速器,沒錯,Xavier里面依然另置了一個DLA,可能是應(yīng)對LSTM、強化學(xué)習(xí)或RNN的加速器,所占硅片面積是21.75平方毫米。再下來是視頻處理,包括視頻的編解碼,高達每秒1.2G的編碼和每秒1.8G的解碼。再下邊是PVA和針對雙目的硬核。PVA是Programmable VisionAccelerator的縮寫,主要針對傳統(tǒng)圖像算法的加速,如Harris corner和FFT快速傅里葉變換。
上圖為PVA內(nèi)部框架圖,這是一個VLIW的系統(tǒng),指令為7個,包含兩個標量,兩個向量,三個存儲器運作。管線寬度為256比特。可以定制向量運算的查找表。PVA包含兩個完全相同的架構(gòu),有一個ARM Cortex R5內(nèi)核來保證實時性。這個PVA具備1.7TOPS的運算能力。
上圖為Volta GPU的內(nèi)部框架。這部分所占硅片面積也最大,大約89.2平方毫米,大約1/4的成本都在此。
上圖為8核CPU內(nèi)部框架圖,所占硅片面積大約62.25平方毫米,每核最大功耗大約1.5瓦,最低大約0.5瓦。CPU是英偉達自己研發(fā)的Carmel架構(gòu),也就是第二代丹佛架構(gòu),同樣采用了ARM 64比特V8.2指令集。L2級緩存達2 MiB,跟第一代的Parker比特別增加了L3級緩存,達4MiB。效能提升大約一倍。
英偉達在2011年的CES上宣布丹佛計劃,就是一種全新的CPU架構(gòu)。2011年12月,第一片丹佛架構(gòu)處理器流片成功。丹佛架構(gòu)就是采用ARM V8的指令集,但是架構(gòu)是沿用Transmeta全美達的VLIW架構(gòu),全美達在2000年發(fā)起對巨人英特爾的挑戰(zhàn),2004年挑戰(zhàn)失敗退出CPU領(lǐng)域,2008年英偉達延攬了全美達的核心技術(shù)人員,開始開發(fā)丹佛架構(gòu)。不過當時定位的是PC用。2014年1月6日,NVIDIA宣布了丹佛計劃的首個成果——64位版Tegra K1。之后是Parker,再之后就是Xavier。
上圖為第一代丹佛架構(gòu),超標量寬度為7位,第二代丹佛增加到10位。
上圖為英偉達Xavier硬件與軟件的API。可以看出雙目還是與PVA分離的,所以推測雙目是硬核。Xavier的缺點是功耗略高,峰值大約能達到20瓦甚至25瓦,這對一個車載元件來說是很高的,同時其350平方毫米的硅片面積注定其價格不會低,個人推測大概500-700美元,目前Jeston Xavier的開發(fā)者套件是20166人民幣,模塊價格是1299美元。除了戰(zhàn)略合作伙伴,英偉達不會向其他人出售芯片,只會出售模塊。要想成為英偉達的戰(zhàn)略合作伙伴,至少要付出數(shù)千萬美元的入門費,國內(nèi)目前僅德賽西威一家。
八、瑞薩R-CAR H3與V3H
英偉達Xavier一切都好,就是價格與功耗偏高,不過相對數(shù)千美元的FPGA,價格還沒高到離譜。除了英偉達Xavier之外還有一個低價選擇,那就是瑞薩R-CAR H3與V3H。
R-CARH3于2015年12月推出,是汽車領(lǐng)域最早使用16納米工藝的芯片,最初目標市場為汽車座艙系統(tǒng),后發(fā)覺自動駕駛也可以應(yīng)用。R-CAR H3采用4核A53@1.2GHz和4核A57@1.5GHz設(shè)計,還有一顆Cortex-R7@0.8GHz內(nèi)核,支持雙重鎖步,所以R-CAR H3能夠達到ASIL B級別。還內(nèi)含GX6650 GPU。硅片面積為111.36平方毫米。R-CAR H3特別之處采用SiP封裝,包含了8GB LPDDR4@1.6GHz和128MB的Hyperflash。雖然SiP封裝不如PoP封裝,但內(nèi)存訪問速度還是比一般封裝的要快不少。代價是成本也增加不少。
R-CAR V3H推出于2018年2月,預(yù)計2019年3季度量產(chǎn)。內(nèi)涵4個A53內(nèi)核,一個Cortex-R7@0.8GHz內(nèi)核,也達到了ASIL B級別。
瑞薩使用三種加速器,一種是基于管線引擎的IMP-X5加速器,它擁有用于固定功能的流水線計算。也有電腦視覺引擎CVE,采用可編程的電腦視覺引擎將浮點運算降至最低??傆嬘写蠹s4TOPS的運算能力。另一種是硬核加速器,包括針對雙目的立體視差和光流。還有一個聚類器。最后是一種類似多核DSP的CNN加速器,性能達到426GMAC。也就是每秒4260億次乘積累加,功耗僅為0.3瓦。
-
芯片
+關(guān)注
關(guān)注
456文章
50950瀏覽量
424724 -
ARM
+關(guān)注
關(guān)注
134文章
9107瀏覽量
367985 -
自動駕駛
+關(guān)注
關(guān)注
784文章
13867瀏覽量
166597
原文標題:自動駕駛芯片之爭(三)
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論