中文国产成人精品久久96,亚洲精品自拍视频,亚洲精品在线观看视频

計算機網絡通信中兩個重要的衡量指標是帶寬和延遲，AI 網絡也是如此。在向百億級及以上規模的發展過程中，影響AI計算集群性能的關鍵并不只在于單個芯片的處理速度，每個芯片之間的通信速度也尤為重要。

目前GPU卡間互聯的主要協議是PCIe和NVlink，服務器間互聯則是RDMA和以太網。之前我們有談過IB和RoCE（IB和RoCE，誰更適合AI數據中心網絡?），本文將主要介紹PCIe和NVLink兩種互聯技術。

01PCIe ：高帶寬擴展總線

總線是服務器主板上不同硬件互相進行數據通信的管道，可以簡單理解為生活中的各種交通道路。總線對硬件間數據傳輸速度起著決定性的作用，目前最流行的總線協議為PCIe（PCI-Express），最早由Intel于2001年提出。

PCle主要用于連接CPU與各類高速外圍設備，如GPU、SSD、網卡、顯卡等。與傳統的PCI總線相比，PCIe采用點對點連接方式，具有更高的性能和可擴展性。伴隨著AI、自動駕駛、AR/VR等應用快速發展，計算要求愈來愈高，處理器I/O帶寬的需求每三年實現翻番，PCIe也大致按照3年一代的速度更新演進，每一代升級幾乎能夠實現傳輸速率的翻倍，并有著良好的向后兼容性。

2003 年PCIe 1.0 正式發布，可支持每通道傳輸速率為 250MB/s，總傳輸速率為 2.5 GT/s。

2007 年推出PCIe 2.0 規范。在 PCIe 1.0 的基礎上將總傳輸速率提高了一倍，達到 5 GT/s，每通道傳輸速率從 250 MB/s 上升至 500 MB/s。

2022 年 PCIe 6.0 規范正式發布，總帶寬提高至 64 GT/s。

2022年6月，PCI-SIG聯盟宣布PCIe 7.0版規范，單條通道（x1）單向可實現128GT/s傳輸速率，計劃于2025年推出最終版本。

PCIe 1.0 到 6.0 不同 Lane 下的帶寬變化

Retimer

在PCIe標準的迭代過程中，隨著通信速率的逐步提高，信號質量也會受到影響，為應對愈演愈烈的信號衰減問題，PCIe從4.0時期開始引入信號調理芯片：

PCIe Retimer

Retimer是一種數模信號混合芯片，功能主要為重新生成信號。Retimer 先恢復抖動的時鐘信號，再生成新信號并重新發送，從而有效解決信號衰減問題，為服務器、存儲設備及硬件加速器等應用場景提供可擴展的高性能PCIe互聯解決方案。

PCIe Redriver

Redriver是一種信號放大器，通過發射端的驅動器和接收端的濾波器提升信號強度，從而實現對信號損耗的補償。

從工作原理來看，Redriver通過放大信號來恢復數據，而Retimer 則重新建立一個傳輸信號的新副本。與 Redriver 相比，Retimer 恢復信號的效果更好，能夠實現比Redriver更優的降低信道損耗效果，但由于增加了數據處理過程，時延有所增加。

PCIe Switch

PCIe 的鏈路通信是一種端對端的數據傳輸，每一條PCIe鏈路兩端只能各連接一個設備，在需要高速數據傳輸和大量設備連接的場景中連接數量和速度受限。因此需要PCIe Switch提供擴展或聚合能力，從而允許更多的設備連接到一個 PCle 端口，以解決 PCIe 通道數量不夠的問題。

PCIe Switch連接多條PCIe總線

PCIe Switch兼具連接、交換功能，具有低功耗、低延遲、高可靠性、高靈活性等優勢，能夠將多條PCIe總線連接在一起，形成一個高速的PCIe互聯網絡，從而實現多設備通信。從PCIe Switch內部結構看，其由多個PCI-PCI橋接構成，實現從單條線到多條線的發散。PCIe Switch 芯片與其設備的通信協議都是 PCIe。

02NVLink：高速 GPU 互連

算力的提升不僅依靠單張GPU卡的性能提升，往往還需要多GPU卡組合。在多GPU系統內部，GPU間通信的帶寬通常在數百GB/s以上，PCIe總線的數據傳輸速率容易成為瓶頸，且PCIe鏈路接口的串并轉換會產生較大延時，影響GPU并行計算的效率和性能。

GPU發出的信號需要先傳遞到PCIe Switch, PCIe Switch中涉及到數據的處理，CPU會對數據進行分發調度，這些都會引入額外的網絡延遲，限制了系統性能。

為此，NVIDIA推出了能夠提升GPU通信性能的技術——GPUDirect P2P技術，使GPU可以通過PCI Express直接訪問目標GPU的顯存，避免了通過拷貝到CPU host memory作為中轉，大大降低了數據交換的延遲，但受限于PCI Express總線協議以及拓撲結構的一些限制，無法做到更高的帶寬。此后，NVIDIA提出了NVLink總線協議。

NVLink的演進

NVLink 是一種高速互連技術，旨在加快 CPU 與 GPU、GPU 與 GPU 之間的數據傳輸速度，提高系統性能。NVLink通過GPU之間的直接互聯，可擴展服務器內的多GPU I/O，相較于傳統PCIe總線可提供更高效、低延遲的互聯解決方案。

NVLink的首個版本于2014年發布，首次引入了高速GPU互連。2016年發布的P100搭載了第一代NVLink，提供 160GB/s 的帶寬，相當于當時 PCIe 3.0 x16 帶寬的 5 倍。V100搭載的NVLink2將帶寬提升到300GB/s ，A100搭載了NVLink3帶寬為600GB/s。目前NVLink已迭代至第四代，可為多GPU系統配置提供高于以往1.5倍的帶寬以及更強的可擴展性，H100中包含18條第四代NVLink鏈路，總帶寬達到900 GB/s，是PCIe 5.0帶寬的7倍。

四代 NVLink 對比

目前已知的NVLink分兩種，一種是橋接器的形式實現NVLink高速互聯技術，另一種是在主板上集成了NVLink接口。

NVSwitch

為了解決GPU之間通訊不均衡問題，NVIDIA引入NVSwitch。NVSwitch芯片是一種類似交換機 ASIC的物理芯片，通過NVLink接口可以將多個GPU高速互聯到一起，可創建無縫、高帶寬的多節點GPU集群，實現所有GPU在一個具有全帶寬連接的集群中協同工作，從而提升服務器內部多個GPU之間的通訊效率和帶寬。NVLink和NVSwitch的結合使NVIDIA得以高效地將AI性能擴展到多個GPU。

NVSwitch 拓撲圖

第一代 NVSwitch于2018年發布，采用臺積電 12nmFinFET 工藝制造，共有 18 個 NVLink 2.0 接口。目前 NVSwitch 已經迭代至第三代。第三代 NVSwitch 采用 TSMC 4N 工藝構建，每個 NVSwitch 芯片上擁有 64 個 NVLink 4.0 端口，GPU 間通信速率可達 900GB/s。

三代 NVSwitch 性能對比

2023 年 5 月 29 日，NVIDIA推出的DGX GH200 AI超級計算機，采用NVLink以及 NVLink Switch System 將256個GH200 超級芯片相連，把所有GPU作為一個整體協同運行。DGX GH200 是第一臺突破 NVLink 上 GPU 可訪問內存 100 TB 障礙的超級計算機。

03AI時代下的網絡互聯

在逐步邁向AI時代網絡互聯的過程中，該選擇PCIe還是NVLink？我們可以先看下NVIDIA 的NVLink版（SXM版）與PCIe版GPU的區別。

SXM架構是一種高帶寬插座式解決方案，用于將 GPU連接到NVIDIA 專有的 DGX 和 HGX 系統。SXM 版GPU通過 NVSwitch 芯片互聯，GPU 之間交換數據采用NVLink，未閹割的A100是600GB/s、H100是900GB/s，閹割過的A800、H800為400GB/s。PCIe版只有成對的 GPU 通過 NVLink Bridge 連接，通過 PCIe 通道進行數據通信。最新的PCIe只有128GB/s。

AI /HPC的計算需求不斷增長，因此越來越需要在 GPU 之間提供更大的互聯帶寬。總的來說，NVLink的傳輸速度與時延都要優于PCIe，PCIe的帶寬已逐漸無法滿足AI時代數據互聯的需求。但PCIe作為通用標準的互聯技術，可廣泛應用于各種場景，而NVLink為NVIDIA專有，是NVIDIA AI帝國的護城河，其他企業只能采用PCIe或者別的互聯協議。

像谷歌是通過自研的OCS（Optical Circuit Switch）技術實現TPU之間的互聯，解決TPU的擴展性問題。谷歌還自研了一款光路開關芯片Palomar，通過該芯片可實現光互聯拓撲的靈活配置。也就是說，TPU芯片之間的互聯拓撲并非一成不變，可以根據機器學習的具體模型來改變拓撲，提升計算性能及可靠性。借助OCS技術，可以將4096個TPU v4組成一臺超級計算機。

據稱，目前國外AI芯片初創公司Enfabrica和國內某些企業正沿著PCIe/CXL Switch方向在努力，結合CXL協議規范和PCIe接口的通用性，打造CPU-CPU直連交換芯片和系統方案。近期，NVIDIA還對Enfabrica進行了投資。有分析師表示，Enfabrica完全具備作為NVIDIA競爭對手的潛力，未來NVIDIA可能會考慮收購這家初創公司。

市場發展瞬息萬變，未來具體將如何演變不僅取決于技術創新，也取決于市場需求和行業合作。在這個不斷演變的AI網絡互聯時代，企業如何抉擇將取決于自身對性能、成本、應用場景和未來發展趨勢等多重因素的考量。

審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴