摘要:在后摩爾時代,集成電路設計理念正向Chiplet架構轉變。本文從D2D接口IP設計,D2D封裝和D2D測試三個方面介紹了Chiplet D2D的解決方案,并給出了采用此解決方案的XSR 112G D2D的測試結果。
1.后摩爾時代向Chiplet的戰略轉變
當前摩爾定律逐步趨向物理極限,半導體行業正在發生重大的戰略轉變。基于Chiplet架構的芯片設計理念逐漸成為行業主流。這一戰略轉變的驅動因素主要有以下幾種:
1)單芯片的尺寸變得太大,無法制造;
2)充分利用已有KGD(Known Good Die)芯片實現復雜功能芯片,可以減少設計周期和成本,并提高良率。
在這些驅動因素下,整個Chiplet行業在2031年有望達到471.9億美元[1],如圖1所示,Chiplet市場在2021~2031十年期年復合增長率保持36.4%;其中實現Die to Die(D2D)互連的接口IP市場在2026達到3.24億美元[2],D2D IP市場在2021~2026五年期年復合增長率高達50%,如下圖2所示。
圖1 Chiplet市場
圖2 D2D IP市場趨勢
Chiplet應用場景主要分兩種,第一種是將同工藝大芯片分割成多個小芯片,然后通過接口IP互連在一起實現算力堆疊;第二種是將不同工藝不同功能的芯片通過接口IP互連并封裝在一起實現異構集成,如圖3所示。算力堆疊主要應用于CPU、TPU和AI芯片等,對接口IP的要求是低延遲和低誤碼率,通常采用并行接口IP。異構集成,主要應用于CPU、FPGA和通信芯片等,對接口IP的要求是標準化,兼容性,可移植性和生態系統等,通常采用串行接口IP。
圖3 典型應用場景
為了便于組裝不同供應商開發的芯粒,需要標準化的芯粒間互連標準,行業聯盟已共同定義出多種芯粒互連標準,如XSR,BoW,OpenHBI,UCIe等。它們的主要性能指標如圖4所示。其中,XSR采用差分串行結構,目前最高速率達112Gbps,可用于異構集成連接IO die;后3種采用單端并行結構,目前最高速率是UCIe的32Gbps, 同時它還定義了完整的協議層,繼承了CXL和PCIe的生態優勢,可用于算力堆疊中計算IP間的互連。
圖4 主流D2D的關鍵指標
完整的D2D解決方案包括:D2D接口IP設計、D2D封裝設計和D2D測試,下面分別做詳細介紹。
2.D2D接口IP設計解決方案
D2D接口IP由物理層(PHY)和控制器組成,如下圖5所示。物理層PHY是封裝介質的電氣接口。從分層結構上分為模擬PHY和數字PHY,模擬PHY包括電氣AFE(發射器、接收器)以及邊帶信道,可實現兩個晶粒之間的參數交換和協商。數字PHY包括鏈路初始化、訓練和校準算法以及測試和修復功能。從接口類型上分并行接口和串行接口。
控制器由鏈路層(Link layer)和邏輯物理層(Physical Layer Logical)。鏈路層負責上層協議接口適配,協議仲裁和協商,以及基于 CRC,可選的FEC(Forward Error Correction)和重傳機制來確保鏈路可靠地傳輸數據;邏輯物理層負責鏈路訓練和管理功能以及具體的PHY適配(比如加擾,解擾,塊對齊,OS插入和提取等)。在鏈路初始化時,邏輯物理層會等待 PHY 完成鏈路初始化,通過鏈路狀態機進入工作模式。鏈路層會通過協商確定使用哪個協議(如果實施了多個協議)。控制器向上支持CXS、AXI、FDI(Filt aware D2D interface)接口來支持PCIe、CXL、UCIe以及SOC和RAW協議層;向下兼容RDI(Raw D2D interface)和PIPE接口來適配不同的物理電氣層[3][4][5]。
下面分別介紹一下并口和串口的D2D PHY架構。
圖5 D2D分層架構
2.1 并口D2D PHY架構
為了滿足低延遲,高能效,低誤碼率要求,物理層接口采用單端并口傳輸,使用2.5D封裝形式。并口D2D物理層結構如圖6所示:
圖6 并口D2D PHY系統框架
并口物理層模擬部分包括4個LM(Lane module),每個LM數據位寬為單向16bit,共64bit。可以根據所需帶寬靈活配置LM數目。每個LM還可以配置1~2個Slicer用于Filt Header或CRC校驗。每Lane具備高精度和高解析度自校準延遲線,RX線性連續時間均衡器(CTLE)和DFE均衡器以實現高速性能,并根據走線長度可關閉DFE均衡器,以降低功耗。
并口物理層數字部分包括的功能塊有RDI_TX/RX_MAP實現RDI接口到LM的映射;SPU(Sideband Process Unit)/TFSM(Train FSM)/LSM(Link SM)實現PHY啟動,Lane修復/反轉,TX/RX訓練,VREF訓練,眼圖訓練,自適應,鏈路狀態管理,鏈路雙方配置等功能。
芯耀輝實現的并口物理層采用DDR模式傳輸數據,數據率為16Gbps,符合UCIe和CCITA發布的《小芯片接口總線技術要求》標準;使用Forward clock模式簡化接收端設計,可以減小延遲,降低功耗;延遲時間從本端FDI到對端FDI小于2ns;能效0.5~1pJ/bit。
2.2串口D2D PHY架構
為了滿足高帶寬,較長距傳輸,較低封裝成本的要求,物理層接口采用差分串口傳輸,使用2D substrate封裝形式。串口D2D物理層結構如下圖7所示:
圖7 串口D2D PHY架構
串口物理層模擬部分包括8通道Analog Lane,每通道由TX和RX組成,可實現雙向8通道全雙工差分信號傳輸,兼容NRZ和PAM4信令,數據率覆蓋2.5~112Gbps[6]。為適應較差的信道,TX采用3 Taps FFE均衡器,RX采用線性均衡器。為了優化延遲,時鐘架構可采用Forward clock架構。為了優化功耗,每個通道可獨立開關,獨立運行。
串口物理層數字部分包括PMA Digital Control和PHY處理單元(PPU)。主要實現PHY上下電時序控制;上電時TX/RX校準、自適應算法及順序控制;正常運行時,實時自適應校準;內建測試邏輯控制等功能。
芯耀輝實現的串口物理層兼容CEI-112G-XSR協議,最高速率達112Gbps,可均衡通道損耗達-10dB,帶寬線密度約1Tbps/mm,能效1.5pJ/bit,延遲時間小于6ns,誤碼率小于1e-15。
3.D2D封裝方案
適合D2D的封裝類型包括傳統的2D有機基板(Substrate),先進2.5D封裝(RDL Fanout和Silicon Interposer)及3D封裝(Hybrid Bonding)。具體選用那種封裝類型,需綜合考慮IO數量,IO密度,數據率,成本,復雜度和接口類型等因素,如圖8所示[7]。通常對于高速串行接口,數據率越高,IO數量越少,IO密度越低,復雜度和成本也越低,建議采用2D或者RDL Fanout 2.5D封裝類型。對于高密度并行接口,數據率越低,IO數量越多,IO密度越高,復雜度和成本也越高,建議采用2.5D或者3D封裝類型。
圖8 D2D封裝類型選擇
考慮到出Pin密度,電源Drop,信號完整性,減小基板層數,降低成本等因素。Bump map和互連走線采用如圖9所示結構[2]。圖中TX信號bump和RX信號bump分開單獨放一起,可以方便對端Die的互連,減小走線間Cross talk;兩個Die之間bump采用相隔近的與相隔近的互連,相隔遠的與相隔遠的互連,可以減少基板疊層,減小信號走線間交疊,從而減少成本,提高信號完整性。但這樣會造成線與線間延遲時間的輕微差別,可以通過Die內Deskew功能去除。從信號完整性角度來看,還需要考慮Bump阻抗不連續,Via阻抗不連續,走線阻抗不連續和噪聲耦合等問題。
圖9 Bump map方案
封裝設計好后,需要抽取S參數,并利用IBIS-AMI模型驗證信號質量。能建模IBIS-AMI并驗證走線S參數的工具有很多,它們中大部分都提供了自動化IBIS-AMI建模流程,可以基于圖形界面設計[8]。如圖10和圖11所示,用戶可以使用軟件內建的常用算法模型,來快速對TX的FFE去加重預加重均衡和模擬輸出(AnalogOut)以及RX的模擬輸入(AnalogIn),CTLE連續時間線性均衡,AGC自動增益放大, DFE自適應判決反饋均衡和CDR時鐘恢復等進行建模,既可設置為NRZ模式也可設置為PAM4模式,而且內建的Channel模型可以很方便調用Touchstone格式的通道S參數。
圖10中,Channel調用的通道S參數為-10dB@28GHz;TX設置為NRZ模式,數據率為56Gbps,擺幅為500mV,輸入信號為PRBS31,FFE均衡不使能;RX 設置CTLE gain-boost從0dB到-10dB,AGC增益設置為1,DFE不使能,CDR使能。仿真得到的眼高175mV,眼寬15.76ps,COM為15.7dB。圖11中,將設置改為PAM4模式,數據率為112Gbps,輸入信號為QPRBS13,其它不變的情況下。仿真得到的眼圖的三個眼高基本一致為40mV,眼的線性度RLM為99.8%。
圖10
用IBIS-AMI模型進行NRZ信號通道分析
圖11
用IBIS-AMI模型進行PAM4信號通道分析
4.D2D測試方案
以串口D2D為例。為了全面測試和debug數據鏈路,D2D接口IP在設計時,需考慮全面的環回測試路徑,如圖12所示。數據通路測試路徑包括:數字側近端環回路徑A:本端數字部分內環測試;模擬側近端環回路徑B:本端模擬部分內環測試;模擬側遠端環回路徑C:對端模擬部分外環測試;數字側遠端環回路徑D:對端數字部分外環測試。時鐘通路測試路徑包括:時鐘近端環回路徑E:本端發送時鐘至接收時鐘的環回測試;時鐘遠端環回路徑F:對端接收時鐘至發送時鐘的環回測試。
圖12 環回測試模式
由于D2D高速引腳一般封裝在Package內,不引出。這樣對D2D IP的測試造成了一定的不方便。因此,測試方案和Package設計都需要特殊考慮。如圖13所示[9][10],測試需要2個Die(Octal Macro)實現TX到RX的環回測試。為了驗證D2D IP能過不同的通道損耗,通道損耗設計為1dB~10dB@28GHz。為了真實測試出D2D IP的性能,需要對從PCB連接器處到封裝基板的走線做去嵌處理。
圖13
D2D test setup and package view
采用以上測試方案,通道損耗為-10dB@28GHz時,芯耀輝設計的112G 串口D2D 樣片TX輸出的測試結果如圖14所示。圖中56G-NRZ測試采用PRBS31碼型,眼高為363mV,Rj為345fs(rms);56G-PAM4測試采用QPRBS13碼型,三個眼高從上到下分別為224.6mV,235.6mV,229.0mV,RLM=97.7%;112G-PAM4測試采用QPRBS13碼型,三個眼高從上到下分別為為99mV,109.2mV,97mV,RLM=95.3%。測試結果滿足CEI-112G-XSR協議要求。
圖14XSR D2D TX測試結果
5.結束語
多晶粒Chiplet已成為芯片設計行業主流系統方案,D2D接口規范為設計人員帶來了極具競爭力的性能優勢,包括高能效 (pJ/b),高帶寬線密度 (Tbps/mm) 和低延遲 (ns),支持主流IO協議以及任何用戶定義的協議,支持多種封裝類型。本文從接口IP設計到封裝設計再到測試方案,詳細介紹了Chiplet D2D解決方案。參照此方案可輕松實現多晶粒系統互連。
2022年4月,芯耀輝作為首批會員加入了UCIe組織,推出支持UCIe協議且兼容多樣化D2D和C2C場景的“并口D2D PHY IP”以及高能效比和高寬帶利用率的“串口112G D2D SerDes PHY IP”的完整D2D解決方案,如圖15所示。同年10月,芯耀輝承接了國家科技部重點研發專項,作為國家隊成員著力推動國內Chiplet標準CCITA的產業化落地。公司一直專注于高速接口IP領域,積累了豐富的經驗和技術能力,已經為客戶提供了5G、數據中心、網絡交換機等相關芯片IP產品,率先實現了市場客戶的量產。隨著產業進一步的發展,以及相關的下游的封裝等一些技術的成熟,Chiplet在國內的發展前景可期。
圖15 芯耀輝完整IP解決方案
-
封裝
+關注
關注
126文章
7874瀏覽量
142897 -
IP
+關注
關注
5文章
1703瀏覽量
149510 -
chiplet
+關注
關注
6文章
431瀏覽量
12585
原文標題:特刊收錄丨后摩爾時代的Chiplet D2D解決方案
文章出處:【微信號:AkroStar-Tech,微信公眾號:芯耀輝科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論