繼年初發布新一代FPGA框架后,FPGA巨頭賽靈思在Hot Chips大會揭露了最新一代深度神經網絡推理裝置xDNN的部分規格參數。隨著更多定制芯片的發展,現如今AI芯片的戰火已經蔓延到推理領域。賽靈思的xDNN可配置、可復寫,進行多任務處理,還配有Tensor內存。
目前來看,FPGA可能沒有像一些人預期的那樣在深度學習的訓練空間中占據一席之地,但AI推理的低功耗、高頻率需求非常適合可重復編程硬件的性能曲線。
然而,現在人們越來越專注于推理與訓練的新體系架構,FPGA也在努力在定制化硬件領域保持領先,而這要靠一些高級編程工具來降低編程的復雜度。
目前,要判斷通用CPU、GPU、FPGA及定制芯片如何才能吸引最廣泛的用戶群還為時尚早,但基于云的FPGA以及不斷發展的高級FPGA集,越來越多地作為實驗工具使用,讓FPGA在面向推理的任務中占據了一席之地。
考慮到所有這些因素,FPGA制造商Xilinx近日在Hot Chips大會上發布了Xilinx深度神經網絡推理(xDNN)設備的一些參數細節,公司將在接下來10月1日舉行的開發者大會上發布更多信息和性能基準。
就在幾年前,神經網絡訓練處理器還是架構展上的耀眼明星,但最近,GPU已經在與定制化、專門化的ASIC芯片和其他通用硬件展開激烈競爭,眼下戰火又蔓延到了推理任務領域。
Xilinx的數據中心和IP總監Rahul Nimaiyar上周在Hot Chips大會上表示,用FPGA執行推理任務具備堅實的硬件基礎。FPGA的數據處理并行的,并且支持數據重用、數據壓縮,能夠應對數據稀疏。
xDNN處理器的2D二維MAC陣列,靈活的高帶寬片載存儲器,支持多種方式訪問,讓數據的傳輸和轉移更加高效。此外,xDNN還支持靈活的數據類型(FP32 / FP16及INT 16/8/4/2等)。
xDNN是一個可配置、可復寫的處理器,可以映射到FPGA上而無需重新編程。Xilinx還提供了深度神經網絡特定指令集(如卷積,最大池化等),可適用于任何網絡和任何大小的圖像,還可以編譯和運行新網絡。也就是說,xDNN可以與TensorFlow一起使用,無需重新編程或更改FPGA。
Virtex硬件可以用于幾種類型的存儲器;從位于DSP模塊旁邊的分布式基礎RAM到UltraRAM,再到高帶寬內存和外部DDR4內存都可以,從而實現計算效率的優化和性能提升。
上圖是一個通道并行脈動陣列(channel parallel systolic arrays)的放大示意圖,圖中所示為分布式加權緩沖區。處理元件被加權映射到DSP塊上,具體權重保存在處理旁邊分布式RAM中,該RAM容量很小,速度很快。換句話說,這些分布式RAM就是權重緩存。
xDNN的“Tensor內存”位于脈動陣列的旁邊,并存儲輸入和輸出的特征映射。該部分也是并行通道,因此該陣列中的每個行都與一行內存相關聯。也就是說,xDNN可以進行多任務處理,在陣列上進行計算,同時還可以根據需要引入新的網絡層。
與其他面向推理任務的芯片一樣,xDNN也在芯片內壓縮了盡量多的內置存儲器,以保持芯片的活性。這是一種比較艱難的平衡做法,目的是為了保證計算效率,從下面的基準測試結果來看,Xilinx的配置似乎是有效的。
除了硬件之外,提升易用性也是關鍵問題,無論是對于那些使用F1進行深度學習的人,還是用FPGA編程實現更精細的點的人來說,編譯器和運行時間都是關鍵指標。
上圖是關于Xilinx為用戶開發的機器學習工具套件的更多信息,實際上,這是一個允許用戶連接至框架的API,可以更容易地在Tensorflow中獲得經過訓練的模型和權重,例如,將其轉換為一個Xilinx圖,在它到達編譯器之前通過一些優化,生成所有必要的指令集,以便在xDNN上運行該網絡。
Xilinx還提供了一個量化器,可以將經過訓練的權重數據輸入到一些校準集中,以找到范圍并快速獲得這些權重的量化結果。
Nimaiyar表示,Xilinx已經抽取出了產生有效推理的其他元素,包括操作的融合(一旦訪問被激活,這些操作直接作為流程運算符執行,而不再返回Tensor Memory),當特征映射大小超過片載存儲器空間時,會進行指令級的并行化處理,和自動將映射在層內平鋪,這意味著xDNN可以處理任何規模的特征映射。
上圖的稀疏基準測試是Xilinx在其開發者論壇上發布的結果,到目前為止,60-80%的跨框架高效數據表現已經足夠令人期待。
-
神經網絡
+關注
關注
42文章
4772瀏覽量
100857 -
AI芯片
+關注
關注
17文章
1889瀏覽量
35079
原文標題:【AI芯展開推理戰】賽靈思最新深度神經網絡推理器xDNN參數曝光
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論