背景
近年來,隨著AIGC的發展,生產力的生成方式、產品形態都在發生重大的變化。計算規模和模型規模的不斷增大,尤其是大模型的出現和廣泛應用對算力的需求呈現出爆發式的增長。這一系列的變化對計算架構提出了新的挑戰,首先是系統規模越來越大,系統結構越來越復雜;其次計算形態的變革,傳統的計算形態,主要是基于CPU或GPU的同構計算越來越難以滿足算力的持續增長。
在這一背景下,Chiplet成為非常有潛力的設計方法和解決方案。Chiplet架構可以將SoC進行拆分重組,將主要功能單元如計算、存儲、傳感等轉變成芯粒的形式,從而支持復雜系統的異構集成。而將各種芯粒重構成為一個完整的系統則需要依賴D2D接口對其進行互聯,尤其是當設計人員需要構建一個包含多種第三方芯粒的復雜系統時,一個統一的D2D互聯接口成為不可或缺的組件。在此背景下,UCIe、BoW、OpenHBI等D2D互聯接口協議應運而生,旨在構建一個統一的D2D互聯框架。盡管協議不盡相同,D2D互聯接口的底層技術存在著較多的共性,而這些共性技術是D2D接口設計人員非常重要的研究內容。
本文將從D2D接口的信道特點、D2D接口的技術指標,D2D接口的設計思考和D2D接口的設計流程革新等方面來淺談D2D互聯接口的共性技術。
?
D2D接口的信道特點
信道條件通常是接口研究的起點,接口電路的架構搭建、微結構選取到具體電路的實現無不以信道特性作為出發點,D2D接口的設計也不例外。相比傳統高速接口,D2D接口的信道表現了較多新的特點,這主要是由D2D接口的應用環境和封裝形式所帶來的。眾所周知,D2D接口主要用于芯粒間的高帶寬數據互聯,這一應用場景決定了D2D接口信道的兩個主要特點:一、信道長度較短,一般局限在封裝內部;二、信道數量大,布線密集。同時,這一應用場景也決定了D2D接口往往面對較為先進的封裝形式,其布線通道通常是基板(substrate)甚至是硅中介層(silicon interposer),我們分別稱之為D2D接口的標準封裝(standard package)和先進封裝(advanced package)
。
相比以PCB走線為主的傳統互聯方式,D2D標準封裝和先進封裝的顯著特點是節距(pitch)的減小。在標準封裝中,芯片凸點(bump)的節距從傳統封裝的0.5~1mm減小到100~200um,而在先進封裝中,這一物理尺寸進一步微縮到30~60um。這一變化首先帶來了一系列信道物理尺寸的同步微縮,包括互聯走線的線寬、線距和金屬厚度等。而這些物理尺寸的微縮進一步引起了信道電學特性的改變。概括而言,從傳統封裝到先進封裝,信道的單位長度電阻顯著增大,而其單位長度的等效電感和電容基本保持不變。考慮到在D2D標準封裝和先進封裝下其信道長度顯著縮短,信道整體的等效電感和電容顯著縮小。具體而言,先進封裝下的D2D信道的電學特性變化主要表現在如下方面:
插入損耗(insertion loss)
得益于D2D互聯間距較短,相比傳統的高速互聯接口,D2D接口信道的損耗較低。我們考察了多種D2D互聯協議的參考信道,在其最高工作頻率下的信道損耗均小于-6dB,在實際設計信道的過程中,這一指標通常可以控制得更加優越(-2~-3dB)。較低的信道損耗使得高階均衡不再是一個必須項,同時,簡單的調制方式(如NRZ)就能實現較高數據率的傳輸,這些特點均為高能效數據傳輸提供了有利條件。
反射(reflection)
得益于D2D信道電學特性的變化趨勢(較高的阻抗,較小的等效電感和電容),相比傳統信號,D2D信道的反射特性得到了較大程度的優化,尤其是在先進封裝下,信道對反射敏感的頻率范圍進一步推高,這一特點為D2D接口的端接方案提供了更大的空間。在D2D信道條件下,發射端的源阻抗和接收端的端接阻抗可以不要求完全匹配,設計人員可以選取更小的源阻抗和更大的端接阻抗以獲取更大的信號擺幅和更小的功耗。在互聯非常短的極端情況下,設計人員甚至可以選擇舍棄端接電阻。
?
串擾(crosstalk)
串擾是D2D信道設計所面臨的主要問題。由于D2D接口通常具有龐大的引腳數量,因此布線面積會非常受限,這將導致一些傳統的結論在D2D互聯場景下不再適用。通常而言,設計人員克服串擾的常用方法包括采用差分信號線以及引入屏蔽線等,而研究表明,在面積受限的情況下,單端非屏蔽方案相比差分屏蔽線方案具有更好的串擾特性,這是D2D信道顯著區別于傳統信道的一個重要特點。鑒于此,D2D信道的串擾特性更多地需要從返回路徑上進行優化,比如采用帶狀線而非微帶線結構,采用更薄的介質層,更完整的參考平面等。
?
D2D接口的技術指標
對D2D接口的技術指標的考察揭示了D2D高速接口的技術趨勢。我們整理了國內外多個較為常見的D2D接口協議的技術指標,從中可以看到D2D高速接口的一些共性技術要求。基本的技術指標如封裝形式(凸點節距)、信道長度、數據位寬、最高速率等本質上相當于設計參數,也可以認為是D2D接口的功能指標。
?
我們看到,多數D2D接口協議均支持標準封裝和先進封裝,少數協議僅支持先進封裝。在標準封裝下,典型的信道長度通常在50mm以下,數據位寬多為16線;而在先進封裝下,信道長度僅為數個mm,而數據位寬通常會比標準封裝大很多,典型值在32~64線之間。通常來說,D2D接口的最高數據率對標準封裝和先進封裝而言沒有明顯區分,一般在16~32Gbps之間。
真正考驗D2D接口設計能力的是以下兩個性能指標:時延(latency)和能效(power efficiency)。D2D接口的時延指標通常在幾個ns,該指標決定數據傳輸的實際吞吐率,是直接影響系統性能的重要因素。D2D接口的能效指標一般在1pJ/b以下,先進封裝下的這一數值還會進一步降低。由于D2D接口傳輸的數據率非常龐大,其功耗十分可觀,甚至在整個系統功耗中也往往占據了相當大的一部分,因此能效對于D2D接口而言同樣是一個至關重要的指標。
出于對系統性能的考量(換言之對D2D接口時延和能效性能的考量),我們將進一步審視D2D接口設計參數的選取。首先,為確保系統所需要的帶寬,我們通常認為更高的數據率是更好的選擇,但是更高的數據率通常意味著更低的能效,甚至在特定情況下還會導致更大的時延。因此,在某些情況下,適當降低數據率,同時配合更大的數據位寬可能是一個更好的方案。當然,更大的數據位寬需要占據更大的芯片面積,此時設計者可能需要考慮采用更小的凸點節距,甚至采用先進封裝等更為復雜的方案來縮小接口電路的面積。從上述分析中可以看到,D2D接口電路的設計參數選取本質上仍是性能與成本的折中,如何實現有限成本(芯片面積,研發周期等)下的時延、能效最優化是D2D接口設計者始終思考的問題。
在上述考量下,總結來說,對于標準封裝的D2D接口,較優的設計選擇是采用最大的數據率和較小的數據位寬來實現帶寬和面積的平衡;而對于先進封裝的D2D接口,較優的設計選擇是采用適中的數據率和較大的數據位寬,從而在確保帶寬需求的情況下爭取更好的能效性能。
上述分析雖然針對D2D標準封裝和先進封裝,對更為先進的3D封裝也同樣適用。在最近發布的UCIe 2.0中,協議定義了UCIe 3D接口的設計指標。在該指標中,接口的數據率進一步降低到4Gbps,以接近系統中邏輯電路的工作頻率,從而實現極致的時延和能效性能;同時,協議通過指定較大的位寬和極小的節距以確保該接口的數據帶寬和帶寬密度。
?
奇異摩爾作為AI網絡全棧式互聯架構產品及解決方案提供商,核心產品不僅覆蓋基于提升單個芯片算力的UCIe V1.1 Die2Die IP(32Tg/s帶寬),Chiplet互聯芯粒2.5D/3D IO Die,還為AI智算中心提供面向北向Scale out網絡的AI原生智能網卡,面向南向Scale up網絡的片間加速芯粒RDMA G2G等全鏈路產品解決方案。
奇異摩爾以創新為核心驅動、以技術探索新場景、以生態構建新的半導體格局、為高性能AI計算奠定穩固的基石。
?
D2D接口的設計思考
D2D接口的設計是一項系統而又細致的工作,其中最為困難從而也是最有價值的部分正是那些可以提升D2D接口性能的設計方法。如上所述,時延和能效是D2D接口最為重要的性能指標,下面我們就從這兩個方面淺談D2D接口設計的一些思考。
時延
以設計方法和流程而言,D2D接口電路通常都可以分為數字電路和模擬電路兩部分。在D2D接口設計中,這兩部分通常由不同的設計者來承擔。自然地,設計者通常會從這兩個部分去分別優化D2D接口的時延。比如,在數字電路設計中,嘗試采用更高的工作頻率和更精簡的流水線結構等;同樣,在模擬電路設計中也可以通過采用合理的串并轉換電路結構來縮小時延。
然而,一個可能對時延影響更為顯著卻往往容易被忽視的環節是模擬電路和數字電路的接口部分。這是因為數字電路和模擬電路往往處在不同的時鐘域中,而數據的跨時鐘域傳輸需要經過同步。通常來說,設計人員一般會采用FIFO來對數據進行跨時鐘域同步,這一過程將會帶來數個時鐘周期的時延。這一開銷在大多數場景下無足輕重,但是對于D2D接口而言卻可能是無法承受的。因此,如何處理數模接口上的數據同步問題是優化D2D接口延時的重要課題。
優化數模接口上的時延的中心思想是在完成數據同步的基礎上縮小甚至取消FIFO所帶來的時延開銷。對此,我們提供了兩種可行的方案:邊沿調整技術和FIFO重置技術。邊沿調整技術將數據的跨時鐘域操作視為一次數據采樣,其核心思想是通過調整算法搜索到最優的采樣窗口對數據進行采樣,從而完成跨時鐘域操作,該方案可以將時延開銷由數個時鐘周期減小到半個時鐘周期。FIFO重置技術是將FIFO從數模接口轉移到模擬電路內部的串行時鐘域上,假設模擬電路中的串并轉換比為N,該方法可以將時延開銷減小到原始方案的N分之一。
能效
能效優化所涉及內容則更為廣泛,大到整個D2D接口架構的選取,小到某個具體電路的實現,都可能與最終的能效特性有密不可分的聯系。這里我們將選取兩個典型的例子來討論基于能效優化的一些設計實現方法。
D2D接口的時鐘方案是D2D接口架構設計的一個重要內容。通常對于16~32Gbps數據率的接口設計而言,半速率架構是一個較為常用的選擇,因其結構簡明且性能魯棒。但是對于D2D接口,尤其是工作在較高數據率的D2D接口,半速率架構對于能效性能而言可能不是一個最優方案。因為D2D接口的數據位寬通常較大,這意味著D2D接口的片上時鐘分布網絡較傳統的高速接口電路遠為龐大,較高的時鐘頻率帶來的時鐘分布網絡的功耗開銷將變得十分可觀。因此,對于工作在較高數據率的D2D接口來說,采用四分之一時鐘速率架構或是一個對能效性能更加友好的方案。
?
從具體的電路設計角度,去偏斜(de-skew)電路是D2D接口中一個非常重要的模塊,同時也是與整個接口的能效特性關系非常緊密的模塊。去偏斜電路的作用是調節D2D接口中每個通道的時延,從而將所有通道輸出信號的時間偏差限制在極小的范圍內。對于去偏斜電路的設計,延時鏈結構是一個常用的選擇。但是當該模塊需要覆蓋較大的偏斜時,延時鏈結構需要引入較大的延時,這同時也會帶來較大的功耗。因此,出于能效的考量,基于相位內插器(PI)的電路結構可能是更適合D2D接口的電路實現方案。
?
D2D接口的設計流程革新
D2D接口作為一種新興的高速接口,表現出很多不同于傳統高速接口的技術特點,而這些新的特點也對傳統的IC設計流程提出了挑戰。由上面討論可以看到,D2D接口是少數對數字電路、模擬電路和封裝都有極高設計要求的系統,而D2D接口設計對設計方法和流程的挑戰則主要集中在數字電路與模擬電路、芯片與封裝的界面銜接上。
對于數字電路和模擬電路界面,傳統的設計方法在設計流程上通常只對數字電路進行時序約束和分析,在模擬電路側,一般僅通過仿真確保數模接口界面的時序。對傳統的高速接口而言,這樣的流程通常就可以滿足設計需求,而對于D2D高速接口,由于其大帶寬和低延時特性,其數模接口工作在更高的頻率,傳統的設計流程已然難以滿足數模接口界面的時序要求。因此,在D2D接口設計的過程中,設計人員還需要在模擬電路側應用時序約束和分析流程,包括刻畫模擬電路邊界處器件的時序特性、對其編寫約束條件,并整合到數字電路的時序分析流程中進行統一的時序優化和收斂。
對于芯片和封裝的界面的處理則主要集中在信道建模問題上。在傳統的高速接口電路設計流程中,封裝設計人員通常對信道進行單獨建模,通過電磁場仿真,提取信道的仿真模型(如S參數模型),并提供給電路設計者進行仿真驗證。在D2D接口設計中,尤其是先進封裝甚至是3D封裝下的D2D接口,較傳統的高速接口有兩個顯著的區別:一是端口數量顯著增加,二是信道條件更加規則,各端口往往面對較為簡單且一致的信道條件。在第一個變化下,傳統的設計流程將消耗大量的設計資源,使設計工作變得低效;而第二個變化則為信道的統一建模提供了機會。在先進封裝尤其是3D封裝下,對信道建立集總器件的簡單模型,并轉化為線延時融合到電路時序分析的流程中實現全鏈路的時序優化將成為一種高效的主流設計方法。
?
評論
查看更多