在過去的一個月中,FPGA市場蓬勃發展。在本文中,我們將簡要研究Xilinx,Intel和Lattice的三款最新發布的FPGA。
這些FPGA中的每一個都專注于提高性能的不同方面:Xilinx VU57P試圖繞過要求苛刻的應用程序中的存儲器帶寬挑戰。英特爾Stratix 10 NX FPGA集成了AI優化的DSP模塊,可幫助以低延遲實現大型AI模型。而且,萊迪思Nexus FPGA試圖重新定義低功耗,小尺寸的FPGA。?
Xilinx VU57P FPGA —高帶寬存儲器
在過去的十年中,許多應用領域的計算帶寬呈指數增長。例如,賽靈思FPGA為機器學習應用提供的DSP切片的數量已從最大的Virtex 6 FPGA的約2,000個切片增加到現代Virtex UltraScale +器件的約12,000個切片。如下所示,在其他應用領域(如網絡技術和視頻應用)中也觀察到了類似的趨勢。?
對內存帶寬的要求
上圖顯示,在過去十年中,DDR技術的內存帶寬僅略有增加-從DDR3到DDR4大約增加了2倍。(值得注意的是,從DDR4到DDR5的飛躍可能更具影響力。)
圖中的帶寬差距意味著FPGA和存儲器之間有限的數據傳輸速率是這些應用中的瓶頸。為了解決這個問題,設計人員通常會并行使用多個DDR芯片來增加內存帶寬(不一定是內存容量)。但是,由于功耗高,外形尺寸和成本問題以及PCB設計挑戰,這種方法在內存帶寬大于約85GB/s時變得無法使用。?
另外,內存帶寬問題的有效解決方案是一種基于DRAM的內存類型,稱為高帶寬內存(簡稱HBM)。在這種情況下,可以利用硅堆疊技術在同一封裝中同時實現DRAM存儲器和FPGA,如下圖所示。
硅堆疊有助于并行實現DRAM存儲器和FPGA
HBM技術使我們能夠消除將DDR芯片連接到FPGA的相對較長的PCB走線。使用帶有大量引腳的集成HBM接口可以顯著提高存儲帶寬,其延遲類似于基于DDR的技術。
Xilinx 最近發布了VU57P FPGA(來自Virtex UltraScale +系列),該FPGA集成了16 G HBM和高達460GB/s的存儲器帶寬。該設備采用了集成的AXI端口交換機,使我們能夠從任何內存端口訪問任何HBM內存位置。
除了上面討論的節能計算功能和大內存帶寬外,VU57P還提供了高速接口,例如帶有RS-FEC的100G以太網,150G Interlaken和PCIe Gen4。新設備的58G PAM4收發器支持與最新光學標準的連接。這在不同的應用程序中很有用,例如下一代防火墻以及具有QoS的交換機和路由器。??
英特爾Stratix 10 NX FPGA — AI優化的DSP模塊
數字信號處理(DSP)的許多常規應用都需要高精度算術。這就是FPGA通常具有帶高精度乘法器和加法器的DSP模塊的原因。例如,XC7A50T(Xilinx)和5CGXC4(Intel)分別具有120和140個18×18的乘法器。
事實證明,可以使用較少的位數來實現許多深度學習應用,而不會顯著犧牲準確性。較低精度的近似值會減少計算資源的數量以及所需的內存帶寬。
降低位寬的另一個優點是,由于精度較低的計算和每個內存事務需要傳輸的位數較少,因此可以節省功耗。實際上,根據UC Davis研究人員的說法,在許多深度學習應用中,INT8甚至更低的精度計算都可以得出可接受的結果。
在英特爾的Stratix 10 NX的FPGA是從英特爾首款AI優化的FPGA。這些器件集成了稱為AI Tensor Blocks的算術塊,其中包含密集的低精度乘法器陣列。這些塊的基本精度是INT8和INT4,盡管它們通過共享指數支持硬件支持FP16和FP12數值格式。
與標準Intel Stratix 10 FPGA的DSP模塊相比,AI Tensor模塊(在Stratix 10 NX FPGA中使用)可以將INT8吞吐量提高15倍。AI Tensor Block的高層框圖如下所示。
AI Tensor Block的框圖
英特爾Stratix 10 NX FPGA最顯著的特點是由AI優化的計算塊提供的高計算密度。然而,新器件還集成了另外兩個功能,進一步幫助設計人員以低延遲的方式實現它的大型AI模型:它支持豐富的近似計算內存(集成HBM)和高帶寬網絡(高達57.8 G的PAM4收發器)。? ??
Lattice Nexus — 低功耗,小尺寸FPGA
萊迪思半導體最近發布了其?Certus-NX FPGA系列,該系列使用28nm的全耗盡型絕緣體上硅(FD-SOI)工藝技術。FD-SOI最初由三星公司開發,與傳統的CMOS工藝有點相似。但是,如下圖所示,它可為大部分晶體管提供可編程偏置。
萊迪思半導體公司最近發布了其Certus-NX FPGA系列,該系列采用了28納米完全耗盡絕緣體上硅(FD-SOI)工藝技術。FD-SOI最初是由三星開發的,有點類似于傳統的CMOS工藝;然而,它可以為大部分晶體管提供可編程的偏置,概念性說明如下。
Lattice Nexus平臺的電路架構
可編程的buck電壓使芯片面積和功耗大大降低。與具有類似邏輯單元數量的其他FPGA相比,Certus-NX的功耗最多降低了四倍。
由于采用了FD-SOI技術,因此新器件的尺寸可小至6mm x 6mm,與類似的FPGA相比,每mm2的 I/O多達兩倍。下表將Certus-NX-40與Intel和Xilinx的類似產品進行了比較。?
三種用于PCIe設計的流行FPGA的比較
需要注意的是,新設備支持用于批量加密的AES和用于身份驗證的橢圓曲線(ECDSA)。因此,它可以為聯網設備提供更高的安全性。此外,它還具有較高的抗軟誤差能力,這使得該裝置適合于航空航天應用。
FPGA發展趨勢
通過研究Xilinx,Intel和Lattice Semiconductors的這些最新發布的FPGA,我們可以更清楚地了解FPGA的發展方式-集中于更高的存儲器帶寬、AI優化、低功耗和小尺寸。?
編輯:黃飛
?
評論
查看更多