作者:韓佳巍??光啟智能研究院
摘要
GPU加速的計算系統可為諸多科學應用提供強大的計算能力支撐,亦是業界推動人工智能革命的重要手段。為了滿足大規模數據中心和高性能計算場景的帶寬拓展需求,光通信和光互連技術正在迅速而廣泛地滲入此類系統的各個網絡或鏈路層級。作為系列文章的第二篇,本文試圖對GPU網絡中光互連的光通信技術選項和長期技術需求做出簡要分析。
在前篇“面向GPU網絡的光互連(1):房間里有兩頭大象?”中,我們對GPU網絡中光互連的歷史趨勢、短期的需求和權衡做出了簡要梳理。在本篇中,讀者不妨以一個隨意涉獵者的身份、興之所至地由筆者繼續引導,將GPU網絡中光互連的光通信技術、長期的技術需求等方面瀏覽一番。
01光通信的群星閃耀時
面對多GPU互連的高性能計算(High-Performance Computing, HPC)系統,本節嘗試將具有高度適用性的若干種光通信技術選項做出“點到為止”的概要性描述。這樣做,雖說是緣于筆者自身學養和全文篇幅的限制,但同時也有不妨礙讀者自己去進一步深入閱讀相關文獻資料的好處。
1.1垂直腔面發射激光器光纖鏈路技術
從歷史上來看,應用于數據通信或計算機通信的低成本光互連是建立在垂直腔面發射激光器(Vertical-Cavity Surface-Emitting Laser, VCSEL)和多模光纖的技術基礎之上的[1]。VCSEL采用布拉格反射鏡作為激光腔的腔鏡,其橫向結構通常為圓形對稱,輸出光束也為圓形對稱,可與多模光纖實現高效耦合。尤為值得一提的是,機架到機架的集群互連結構便是廣泛采用了基于上述技術的并行光模塊。區別于電信場景中被廣泛使用的單模技術,多模技術具有相對更為寬松的對準公差。相較于邊發射單模激光器,多模VCSEL為人們測試光源提供了一個更為簡單且便宜的方案;同時,多模VCSEL容易實現二維陣列集成,亦在功率效率方面具備明顯優勢。因此,雖然多模光纖的傳輸距離(通常在100米至數百米范圍內,且隨著數據速率的增大而減小)受限于不同模式之間的路徑差異,但它依然是短距離數據通信和計算機通信的重要媒介。
圖1. ?工作于25 Gbit/s和40 Gbit/s的高速原型VCSEL發射眼圖
(來源于參考資料[2])
盡管VCSEL光纖鏈路技術占據著最為龐大的互連市場份額,且已經具備了低成本的制造基礎設施,但是其改進空間仍然十分廣闊。當前,許多中國大陸的VCSEL供應商已可高標準地實現適用于100 Gbit/s以太網的25 Gbit/s非歸零碼VCSEL光纖鏈路技術(4×25 Gbit/s并行光路)。圖1為實驗室實例演示中工作于25 Gbit/s和40 Gbit/s的VCSEL發射眼圖[2]。為了充分滿足數據中心或HPC系統中的光互連對于VCSEL鏈路的大量需求,人們正對高速率VCSEL的大規模制造方案做出廣泛討論和嘗試。
圖2. ?高密度光互連收發器制作原型
(來源于參考資料[3])
VCSEL光纖鏈路技術也正在向著更高速率、更低成本、更小功耗和更緊湊模塊的方向繼續演進。圖2展示了一種高度緊湊的光模塊制作原型。該模塊采用倒裝芯片方式,將VCSEL陣列和光電二極管陣列附著在一個具有“光通孔”(硅基底中的孔洞)的CMOS芯片上,從而實現與一組多模光纖陣列的耦合。該光模塊在實現300 Gbit/s(24×12.5 Gbit/s)的同時,可以達到的功耗和帶寬密度分別是8.2 pJ/bit和1 Tbps/cm2。
雖然VCSEL光纖鏈路長期以來(自1998年1 GbE被采用開始)是以850 nm作為標準波長的,但是人們對最佳波長的爭論卻一直在持續[4]。近幾年,在使用鋁鎵砷和銦鎵砷合金的基礎上,處于900-1100 nm波段范圍的長波長再次引起了學界和業界的廣泛興趣。該現象的促進因素包括:潛在的速率、效能和可靠性的提升,背發射VCSEL的制作(砷化鎵基底在長波段范圍內有著高度無損透明性,更適用于新型封裝)更加簡便,低成本粗波分復用收發器的使用,光電探測器在長波段范圍內的響應度略有優勢(每單位光功率可生成較大電流),以及長波長對人眼更為安全等[5]。然而,由于損耗在長波段范圍內相對較大,這類長波長在搭配塑料光纖使用時卻反倒具有一些劣勢(如下文1.2部分所述)。
上述長波長VCSEL光纖鏈路在功率變換效率和可靠性方面均取得了長足進步。然而,人們又繼而發現,在給定VCSEL結構的條件下,VCSEL的失效機制在整個780-910 nm波段范圍內并無顯著差別[6]。與此同時,學界和業界對于850 nm光器件的研發也有著不俗表現:僅以25-50 Gbit/s VCSEL為例,其功率損耗已經能夠小于100 fJ/bit [7]。
圖3. ?采用多芯多模光纖的光收發器原型
(來源于參考資料[8])
為了進一步降低VCSEL光纖鏈路的總體成本,人們在考慮如何減小光電收發器成本的同時,也有必要采取措施來降低諸如光纖連接器、光纜、光纖管理等組件的成本。雖然更高的數據速率可在一定程度上降低鏈路成本,但是這還不足以應對當前的帶寬密度挑戰。一種方法是在一根光纖中擯棄使用單個多模纖芯、而是使用多個多模纖芯,從而實現更為顯著的數據速率提升[8]。如圖3所示,近期,日本國家情報通信研究機構(NICT)在一根37芯光纖中采用了16芯作為空間信道與VCSEL陣列相匹配;而在使用800-1100 nm范圍內多個波長的基礎上,粗波分復用收發器更是可以進一步增加單根光纖的帶寬。最為關鍵的是,雖然上述方法或將受限于封裝集成的異質性特征和迅猛增加的光纖管理成本,但是目前以IBM、Nokia Bell Labs為代表的許多業界機構都認為它有著非常廣闊的探索和改進空間[9, 10]。
1.2垂直腔面發射激光器光學印刷電路板技術
為了在封裝集成的程度和成本方面獲得更多收效,并在板卡距離互連場景中與銅線開展充分競爭,人們還將目光投向了基于塑料波導和VCSEL集成的光學印刷電路板(Printed Circuit Board, PCB)技術[11],認為它可將低成本制造、模塊密度、可定制化集成等多個優點匯集于一身。
圖4. ?(a) PCB基底之上的塑料波導,
適用于16個發射機、16個接收機信道的狀況;
(b)柔性基底之上的塑料波導,適用于24個發射機、
24個接收機信道的狀況;(c)無源混洗電纜;
(d)四層波導連接器;(e)光模塊結構和組裝的示意圖
(來源于參考資料[12])
VCSEL光學PCB技術的各個組成部分如圖4所示,具體包括:(a)在PCB上直接制作而成的塑料波導,(b)柔性基底上的塑料波導,(c)無源混洗電纜,(d)連接器。圖4(e)展示了于圖4(b)中所使用的光模塊結構。VCSEL/光電二極管陣列和硅基驅動/接收端電路被焊接于一體,并附著在一個硅基載板之上。硅基載板上的孔洞使得光束可以通過,而光路則是通過一個雙透鏡系統耦合入波導的。對于將光模塊附著在PCB這一步驟來說,雖然每個透鏡陣列需要在各自的對應邊緣以更小容差(約為5 μm)附著在光組件上,但是上述雙透鏡系統仍可具備較大的偏調容差(1 dB損耗時大于20 μm)。
VCSEL光學PCB技術不僅為光互連輔以一種嶄新的光學手段,而且兼備電學PCB的技術特點。事實上,電學PCB仍舊基于低成本大批量制造方法,尚不具備面向特定用戶需求的可定制化特征。而光學PCB可將板卡之內的光纖管理問題消弭于無形,并有利于實現物理接近GPU等處理芯片的高密度光收發器集成。為了進一步推動VCSEL光學PCB技術的應用,人們一直嘗試去實現柔性基底組裝件之上的可替換波導,并將該組裝件安裝在板上(與光纖并帶類似)。然而,隨著該項技術的不斷成熟,塑料波導將會被合并于PCB上方或內部。盡管該項技術前景廣闊,但是人們仍需克服諸多挑戰,如進一步改進波導損耗和連接器損耗、實際實現相關的基礎制作設備等。
1.3硅基光子技術
自上世紀80年代中期開始,硅基光子便被廣泛認為是光通信領域中最具前景的技術之一[13]。該技術將單模光纖、未經調制的激光器、硅基調制器、硅基探測器等結合在一起使用;通過借助完善的CMOS制造來生產高度集成的裝配組件。硅基光子技術能以較低成本在CMOS中直接制造大部分原件,或可為光電集成能力提供最佳解決方案[14]。此外,通過大幅降低相關波分復用系統(即在同一光纖中傳輸多個波長)的成本,光纜和連接器的成本便可由更高的單光纖帶寬來分攤。
圖5. ?(a)波長不敏感的馬赫曾德爾調制器;
(b)雙微環諧振腔調制器;(c)集成的鍺光探測器和硅波導;
(d)基于埃謝勒光柵的光復用/解復用器及其關聯的傳輸光譜
(來源于參考資料[12])
圖5(a)-(d)展示了硅基光子技術所需要的幾種技術元素:硅波導、集成的鍺探測器、基于馬赫曾德爾干涉儀的調制器、基于微環諧振腔的調制器、波分復用/解復用原件。自2014年起,硅基光子技術的產業化得以明顯完善,其商業產品的主要形式為有源纜線[15]。因為該技術需使用長波長(通常為1300 nm窗口或1500 nm窗口,以充分利用成熟的電信場景連續波單模激光器)和單模光纖,所以基于硅光子的各類收發器件和基于VCSEL的短波長/多模光纖技術并不相容。有源光纜對于數據中心或HPC系統具有良好的互用性,這使得硅基光子技術已經開始在商用市場中展露鋒芒。此外,長距離光通信在大規模裝置的互連場景中很具吸引力,而這卻是多模光纖鏈路的短板;而硅基光子鏈路中的單模光纖在長波長范圍內具有很低的信號失真和本征損耗,可有效增大高數據速率光鏈路的通信距離。
表1. 兩種不同的硅基光子調制器設計之比較
高度集成光電器件中的寄生效應并不明顯,非常有利于降低高數據速率條件下的系統功耗。硅材料屬間接帶隙半導體材料,需要借助混合集成技術解決片上光源和光放大等難題。在設計調制器時,硅基光子技術需充分利用硅材料中的光子、電子及光電子器件的工作機理和光電特性。調制器設計需在光帶寬、溫度靈敏度及控制、功耗、光損耗之間尋求平衡。我們在這里試舉一例:表1對馬赫曾德爾和微環諧振腔兩種調制器設計作了性能比較。可以看出,前者具有相對較大的光帶寬、相對較小的溫度靈敏度,卻占用著相對較大的面積和較高的功耗。值得慶辛的是,未來GPU加速的大規模HPC機器或將普遍采用水冷方案,可將其工作溫度范圍大幅降低至幾十攝氏度。然而,為了追尋更大的市場影響力,硅基光子技術必須在更為典型的溫度范圍內(如0-70 ℃)有所作為。
激光器光源可以封裝在芯片之上、或是芯片之外一個較為方便的位置,并通過光纖與芯片耦合[16]。雖然芯片之上的位置選項有利于實現更為集成化和低成本的封裝,但是它卻面臨著更為嚴峻的熱環境挑戰。相較而言,芯片之外的位置選項則能夠為激光器提供一個獨立的空間環境,從而可以更加精確地控制溫度和波長;同時,較低的環境溫度則更加有利于提升激光器的可靠性。進一步地講,人們已開始考慮使用高功率的芯片外激光器:這類激光器可在不同的收發器之間實現分隔化使用,從而有效分攤多路光信道方案中激光器、激光器封裝、冷卻系統等各項成本。
封裝是硅基光子技術探討中常被忽視的另一重要領域。盡管硅基光子芯片自身有著較低的成本,但是芯片和光纖的耦合、連續波激光器的使用等卻又無形中大幅增加了通信系統的成本。事實上,與滿足多模工作條件的封裝(約為10 μm)相比,滿足單模工作條件的封裝(通常小于1 μm)是非常昂貴的。另一方面,相較于多模VCSEL,單模邊發射激光器對反射光更為敏感。因此,人們還需在硅基光子通信中使用光隔離器,且將光反饋的數量保持在較低水平(約-30-40 dB)。
最后,人們還需考慮硅基光子鏈路的總體功耗情況。盡管低功率光鏈路具有極大潛力(例如具有100 fJ/bit的調制器[17]),但是試圖均衡考量性能、溫度、所有功耗源(包括溫度控制、連續波激光器、時鐘邏輯電路控制)等因素的鏈路設計方案仍十分受限。值得一提的是,對于硅基光子技術在光互連方面的應用而言,學界和業界在近期普遍認為其終極形式將會是基于高密度2.5D或3D芯片堆疊的光收發器集成 [18]。而這又為其他匹配技術的發展和成熟提出了新的挑戰。
1.4無源光連接器和線纜
除去上文所討論的幾種有源光收發器技術之外,人們還需借助無源光連接器和線纜將所有卡、板、機架上的光收發器連接起來。在VCSEL光纖鏈路中,這依賴于并行光纖并帶和連接器(如已在多模光纖鏈路中得以長期使用的多路并行光路)。在考慮未對準容差的基礎上,連接器損耗通常不得大于0.5 dB。
而對于基于塑料波導的光鏈路來說,具備低損耗特征的長距離連接(如1 m的板到板距離)便成為一種迫切需求。人們也可在這類鏈路中使用低損耗光纖(如圖4(d)所示)。而由于圓形光纖纖芯或方形波導纖芯(根據尺寸選擇,或為非對稱結構)之間幾何結構的不匹配,這些連接器會有大約0.5 dB的附加損耗。
硅基光子技術會對單模工作的光纖和連接器有所需求。基于更為嚴格的對準公差需求,這類連接器通常有著0.25 dB的附加損耗(事實上,人們亦可使用具有更高成本的低損耗器件)。此外,因為灰塵可較為容易地阻塞單模光纖纖芯(約為9 μm,而多模光纖纖芯通常為50 μm或62.5 μm),在連接器組裝過程中還需重點關注環境顆粒對單模光纖連接器的污染問題。
02長期的技術需求
2.1從光互連到光交換
在光互連技術之外,光學技術的另一個重要角色則在于交換[19]。當前,對于網絡功率預算而言,其大部分份額須分配給傳統的電分組交換。這意味著光交換或才是真正需要業界去付諸實踐、實現突破的領域。
面對光互連網絡的交換需求,人們需要對超級計算機內的流量模式有著深入理解。事實上,能夠和任意流量模式相匹配的單個最佳拓撲結構是不存在的。盡管在超級計算機中部署光電路交換的實際價值尚未被人們完全理解,但是近幾年學界和業界對HPC應用的研究卻已經對光/電通信模式結構的進一步演進指明了方向。
由光交叉互連而引入的信號損耗須在系統中得以修復。基于此,業界部分人士對采用光交換來應對百億億次計算挑戰的實際效用仍持有懷疑態度。此外,較低的平均鏈路利用率也會對光交換的效能產生限制。因此,人們需要在改進利用率和最小化數據隊列之間尋求技術均衡。在一個嚴格意義上的光交換網絡中,比特在電路進行重構時是無法流動的,而存貯這些比特的光緩存技術還尚未實現。這就意味著,若數據包長度在若干個納秒范圍之內,則重構時間必須極短(在1納秒之內)且光交換必須在納秒級別的時間尺度內具有高度靈活性。
上述光交換能力的缺失使得人們對全光分組交換網絡的實際應用有所疑問。既然光子還被限定在電路交換范圍之內,將光路交換和電路交換融合在一起的解決方案便成為了必然選項。在這種方案中,數據緩存和數據包交換均在電域實現,且人們需要將光電轉換的次數降至最低。基于微機電系統的光交換或可實現足夠的端口密度。目前,由于微機電系統交換機的端口成本仍舊較高(約為每端口數百美元),所以它在市場中并未得到廣泛使用。盡管HPC的市場規模并不足以大幅降低端口成本,但是微機電系統交換機在數據中心的使用或將增大其在HPC市場中的吸引力。
2.2協同設計
總體看來,光互連和光交換必將在GPU加速的HPC系統中扮演重要角色。然而,這在很大程度上依賴于一些新光學技術和新工作方式的采用。從工業應用角度出發,硬件、軟件和應用工程師需要通力合作、協同開發一類可在集成環境中得以實施的新型架構和代碼庫。這種軟硬件協同設計已然成為當前大規模HPC系統開發的關鍵。
為了促進協同設計,人們需減小系統集成商、設備供應商和光學產品供應商的市場區隔,并加速不同產業或技術實體之間的流通。事實上,當前這種市場區隔依然十分頑固。光學供應商在追尋更高的技術參數指標時,并未意識到新型設計或可推進整體系統性能的突破。于是,系統集成商反而將注意力放在了具有漸進式性能改進和小幅降低成本特征的產品路線圖上。當前,人們已經對協同設計的必要性和重要性有了更為明晰的認識,讀者不妨對此持謹慎樂觀的態度。
03小結
GPU加速的HPC系統對光通信網絡的信息傳輸、接收和處理能力提出了更高要求。對VCSEL光纖鏈路技術、VCSEL光學PCB技術、硅基光子技術三類光通信選項來說,未來的趨勢主要在于:進一步提升系統的數據處理容量和效率,由單個器件向大規模、高速率的集成芯片發展,從單一的收發功能向完整的可重構系統發展,以及實現有源或無源器件的單片集成。
在本系列文章的第三篇,筆者將會對GPU網絡光互連的市場和產業趨勢、新興的工作負荷、策略和計劃做出介紹。
參考資料
[1] Anjin Liu et al., "Vertical-cavity surface-emitting lasers for data communication and sensing," Photonics Research?7, 121-136 (2019)
[2] N. Ledentsov Jr. et al., "Energy efficient 850-nm VCSEL based optical transmitter and receiver link capable of 56 Gbit/s NRZ operation," in 2019 SPIE 10938, Vertical-Cavity Surface-Emitting Lasers XXIII, 109380J
[3] F. Doany et al., "Dense 24 TX + 24 RX fiber-coupled optical module based on a holey CMOS transceiver IC," in 2010 60th Electronic Components and Technology Conference, 247-255
[4] M. V. Ramana Murty et al., "Development and characterization of 100 Gb/s data communication VCSELs," IEEE Photonics Technology Letters 33, 812-815 (2021)
[5] B. Wang et al., "4×112 Gbps/fiber CWDM VCSEL arrays for co-packaged interconnects," Journal of Lightwave Technology?38, 3439-3444 (2020)
[6] 劉安金, "單模直調垂直腔面發射激光器研究進展," 中國激光 47, 0701005 (2020)
[7] E. Haglund et al., "30 GHz bandwidth 850 nm VCSEL with sub-100 fJ/bit energy dissipation at 25-50 Gbit/s," Electronics Letters, 51, 1096-1098 (2015)
[8] F. Koyama, "Recent progress of VCSEL photonics and their applications," in 2021 European Conference on Optical Communication, paper We1D.1
[9] P. Maniotis et al., "Toward lower-diameter large-scale HPC and data center networks with co-packaged optics," Journal of Optical Communications and Networking 13, A67-A77 (2021)
[10] C. Li et al., "Co-packaged optics with multimode fiber interface employing 2-D VCSEL matrix," Journal of Lightwave Technology?40, 3325-3330 (2022)
[11] F. Doany et al., "Terabit/sec-class board-level optical interconnects through polymer waveguides using 24-channel bidirectional transceiver modules," in 2011 IEEE Electronic Components and Technology Conference, 790-797
[12] M. A. Taubenblatt, "Optical interconnects for high-performance computing," Journal of Lightwave Technology 30, 448-457 (2012)
[13] R. Soref, "The past, present, and future of silicon photonics," IEEE Journal of Selected Topics in Quantum Electronics, 12, 1678-1687 (2006)
[14] D. Mahgerefteh et al., "Techno-economic comparison of silicon photonics and multimode VCSELs," Journal of Lightwave Technology?34, 233-242 (2016)
[15] S. Y. Siew et al., "Review of silicon photonics technology and platform development," Journal of Lightwave Technology?39, 4374-4389 (2021)
[16] D. Guckenberger et al., "Advantages of CMOS photonics for future transceiver applications," in 2010 36th European Conference on Optical Communication, 1-6
[17] H. Thacker et al., "Hybrid integration of silicon nanophotonics with 40 nm-COMS VLSI drivers and receivers," in 2011 IEEE Electronic Components and Technology Conference, 829-835
[18] R. Mahajan et al., "Co-packaged photonics for high performance computing: status, challenges and opportunities," Journal of Lightwave Technology?40, 379-392 (2022)
[19] S. J. Ben Yoo, "Prospects and challenges of photonic switching in data centers and computing systems," Journal of Lightwave Technology?40, 2214-2243 (2022)
編輯:黃飛
?
評論
查看更多