如何確定一個硬件加速應用

本文來自 XILINX 產(chǎn)品應用工程師 Yang Chen

在開發(fā)一個加速程序的之前，有一個很重要的步驟：正確設計程序架構。開發(fā)人員需要明確軟件應用程序中哪一部分是需要硬件加速的，并且它多少的并行量，以保證硬件加速器件（FPGA）能完美發(fā)揮其作用。

本文將分為5個步驟來介紹：

1. 基準和建立目標

2. 確定加速部分

3. 確定FPGA硬件加速并行量

4. 確定軟件部分并行量

5. 微調架構細節(jié)。

1. 基準和建立目標

首先要測試應用程序的運行時間和吞吐量，來確定當前應用程序在現(xiàn)有平臺的的基準性能。這些數(shù)據(jù)應涵蓋整個應用程序（起始到結束）的性能和各個主要函數(shù)的性能。通常使用valgrind，callgrind和GNU gprof這些測試軟件來獲得應用程序的性能數(shù)據(jù)，它們會顯示應用程序中所有的函數(shù)數(shù)量以及各個函數(shù)的執(zhí)行時間。通過這些數(shù)據(jù)，我們可以找到耗時最長的部分，然后放到FPGA上進行加速。

評估運行時間

測試運行時間是軟件開發(fā)的基本流程，可以使用一些常用的測試軟件，或者插入計時器和性能計數(shù)器來完成此項操作。以gprof為例，可以得到類似如下圖結果，具體gprof的用法可以參考：http://sourceware.org/binutils/docs-2.17/gprof/index.html

評估吞吐量

這里的吞吐量是指數(shù)據(jù)被處理的速率。對于計算給定函數(shù)的吞吐量，具體公式為函數(shù)處理的數(shù)據(jù)除以函數(shù)處理的時間，如下：

TSW= max (VINPUT, VOUTPUT) / Running Time

如果是處理固定的數(shù)據(jù)量，只要簡單的檢查代碼就能知道吞吐量的大小。但在一些情況下，數(shù)據(jù)是可變的，那么插入計數(shù)器來測量吞吐量的大小是比較實用的。

確定最大可實現(xiàn)的吞吐量

在大多數(shù)加速系統(tǒng)中，最大可實現(xiàn)吞吐量受PCIe總線的限制。PCIe總線受很多因素的影響，例如母板，驅動，目標板卡和發(fā)送數(shù)據(jù)大小等等。運行DMA測試能夠測試PCIe發(fā)送的有效吞吐量，從而確定加速性能潛力的上限。在安裝Alveo板卡后，我們可以使用xbutil dmatest命令來測試板卡的PCIe性能。

建立總體加速目標

在開發(fā)過程中盡早確定加速目標是非常有必要的，基于基準性能的加速目標會決定分析和決策的走向。加速目標可以是硬性的也可以是軟性的。例如，實時視頻應用程序有每秒處理60幀的嚴格硬性目標，而數(shù)據(jù)科學應用程序的軟性目標是比其他可代替實現(xiàn)方法快10倍。所以無論哪種方式，領域專業(yè)知識對于設置可實現(xiàn)的加速目標都很重要。

2. 確定加速部分

評估基準性能后，下一步就是確定哪一個函數(shù)需要在FPGA上加速。當選擇哪個函數(shù)用于加速時，有兩個方面需要考慮到：

性能瓶頸：應用程序中有哪些函數(shù)需要著重關注

加速潛力：這些函數(shù)是否有加速的潛力

確定性能瓶頸

在一個純粹的順序進行的應用程序中，可以通過解析報告很容易甄別到性能瓶頸。然而，大多數(shù)現(xiàn)實中的應用程序都是多進程，因此在尋找性能瓶頸的時候考慮并行性很重要。一個很簡單的例子：

如上圖中是一個應用程序中兩條并行的路徑，長度表示它們運行消耗時間。從這里我們看出，僅僅加速A，B進程的某一個并不能提高應用程序的整體性能。即使你將A2加速100倍，該應用程序的性能還是被A1和B進程鉗制。所以考慮加速對象時，要考慮整個應用程序的性能，而不是單個函數(shù)的性能。

確定加速潛力

作為軟件程序中的瓶頸函數(shù)不一定具有加速的潛力，通常需要進行詳細分析才能準確判斷給定函數(shù)的實際加速潛力。但是，有時候一些簡單的指導方法也能確定一個函數(shù)是否有加速潛力：

1. 選擇運算復雜度比較大的，相比于順序計算來說，它可以在FPGA上可以使用并行，流水線來提高效率。

2. 相對于輸入輸出來說的，選擇運算強度比較大的，因為這樣數(shù)據(jù)搬移時間開銷占用整個加速時間比率來說會低一些。

3. 選擇那些能夠數(shù)據(jù)重用，對內存訪問比較少的，因為這可以是數(shù)據(jù)更容易在加速器中緩存，減少對全局內存的訪問。

4. 對比函數(shù)吞吐量和FPGA吞吐量的比值，以確定最大可加速的倍數(shù)。

3. 確定FPGA硬件加速并行量

在前面的步驟中確定哪個函數(shù)用于加速之后，接下來就要確定使用多少的并行量來達到這一目標。內核（kernel）的并行性可以分為大致兩種，一種是流水線形式，即是輸入和處理數(shù)據(jù)同時進行；另一種是同時處理多個任務，即是擁有多個輸入，多個任務并行處理。

評估硬件吞吐量（非并行）

沒有進行并行化的內核（kernel）吞吐量可以近似為：

THW = Frequency（頻率） / Computational Intensity（計算強度） = Frequency * max(VINPUT,VOUTPUT) / VOPS

頻率就是kernel的時鐘頻率。這個值是由特定的平臺決定，比如，Alveo U200的最大kernel時鐘是300Mhz。VINPUT，VOUTPUT是輸入輸出數(shù)據(jù)，VOPS是操作總數(shù)。由此可以看出，大量的操作數(shù)和少量的數(shù)據(jù)的函數(shù)更適合加速。

確定所需的并行量

經(jīng)過上述計算后，可以估算出初始的HW/SW性能比：

Speed-up = THW/TSW = Fmax * Running Time /VOPS

沒有使用并行運算，則初始的加速（speed-up）通常會小于1。

接下來就要計算多少并行量可以滿足性能目標：

Parallelism Needed = TGoal / THW = TGoal * Vops / (Fmax * max(VINPUT, VOUTPUT))

并行方式可以通過多種方式實現(xiàn)：拓展數(shù)據(jù)路徑，使用多個計算引擎，使用多個kernel實例，開發(fā)人員應根據(jù)他們的需求和應用程序的特點確定最佳組合方式。

確定數(shù)據(jù)路徑應并行處理多少個樣本

一種可能性是通過創(chuàng)建更寬的數(shù)據(jù)路徑（數(shù)據(jù)的輸入和輸出的過程）然后并行處理更多數(shù)據(jù)以便加快計算速度。有些算法很適合這種方法，而有些則不適用。重要的是要了解這個算法的本質，確定這種方法是否可運用。如果可運用，那么并行處理多少數(shù)據(jù)才能滿足性能目標也是需要考慮的。

運用更寬的數(shù)據(jù)路徑、并行處理更多數(shù)據(jù)這些方法，本質是通過減少加速函數(shù)等待時間（運行時間）來實現(xiàn)提高性能的。

確定在FPGA中可以（應該）實例化多少個kernel

如果數(shù)據(jù)路徑無法并行化（或不夠充分），則請考慮添加更多kernel實例，這通常被稱為使用多個計算單元（CU）。添加更多的kernel實例的本質是允許加速函數(shù)更多的調用，從而提高應用程序的性能，如下所示。多個數(shù)據(jù)集由不同的實例并發(fā)處理。只要主機應用程序可以保持kernel繁忙，應用程序的性能就會隨著實例數(shù)的增加而線性增加。

在Vitis中，很容易通過添加額外的kernel實例來提高加速性能，不需要過多的代碼調整。在這一點上，開發(fā)人員應該充分了解硬件中滿足性能目標所需的并行度，結合數(shù)據(jù)路徑寬度和kernel實例來達到預期的目標。

4. 確定軟件部分并行量

雖然FPGA及其kernel旨在提供潛在的并行性，但是必須對軟件應用程序進行設計以便利用這種潛在的并行性。

軟件應用程序中的并行性主要是以下幾方面：

?最大限度地減少空閑時間，并在kernel運行時執(zhí)行其他任務。

?保持kernel處于活動狀態(tài)，以便盡早并經(jīng)常執(zhí)行新的計算。

?優(yōu)化與FPGA之間的數(shù)據(jù)傳輸。

如上圖所示，host程序總是處于繁忙狀態(tài)并且計劃執(zhí)行下一步的操作，而kernel端是處理當前的任務。所以，host程序必須統(tǒng)籌與kernel的數(shù)據(jù)傳輸，并且向kernel端發(fā)送請求，不然再多的kernel也是沒有效果的。

在kernel運行時最大程度地減少CPU空閑時間

FPGA加速是將某些計算從主機處理器轉移到FPGA的kernel中，在純順序模型中，應用程序將閑置地等待結果，準備并回復處理。設計軟件應用程序以避免此類空閑周期，首先是確定不依賴kernel結果的應用程序部分，然后重新設計，以便這些函數(shù)可以在主機處理器上與FPGA中運行的kernel同時運行處理。

保持kernel利用率

Kernel是在FPGA中的，僅在應用程序請求它們時才運行。為了最大程度地提高性能，應使kernel一致處于繁忙（工作）狀態(tài)。從概念上講，這是通過在當前請求完成之前發(fā)出下一個請求來實現(xiàn)的。這可以實現(xiàn)流水線式執(zhí)行和重復執(zhí)行，使kernel得到最佳利用。

在上圖這個例子中，原始的應用程序重復的調用 func1，func2和func3。針對這個應用程序對應創(chuàng)建了三個kernel是K1，K2和K3。最平庸的實現(xiàn)是將三個kernel按順序運行，就像原始的應用程序一樣。但是，這意味著每個kernel只有三分之一的時間處于工作狀態(tài)。更好的方法是重構軟件應用程序，以便它可以向kernel發(fā)出流水線請求。這允許K1在K2處理K1的輸出的同時開始處理新的數(shù)據(jù)集。通過這個方法，三個kernel以最大化的利用率不斷運行。

優(yōu)化與FPGA之間的數(shù)據(jù)傳輸

在加速的應用程序中，必須將數(shù)據(jù)從主機傳輸?shù)紽PGA，尤其是基于PCIe的應用程序中。這就引入了延遲，對于應用程序的整體性能而言，可能是非常昂貴的。數(shù)據(jù)需要在正確的時間被傳輸，如果kernel的運行需要等待數(shù)據(jù)，那么應用程序的性能會收到負面影響。因此，重要的是在kernel需要數(shù)據(jù)時提前傳輸數(shù)據(jù)。這可以通過重復數(shù)據(jù)傳輸、kernel執(zhí)行來實現(xiàn)，這可以隱藏數(shù)據(jù)傳輸?shù)牡却龝r間開銷，并避免kernel等待數(shù)據(jù)的情況。

優(yōu)化數(shù)據(jù)傳輸?shù)牧硪环N方法是傳輸最佳大小的緩沖區(qū)。如下圖所示，有效的PCIe吞吐量根據(jù)傳輸?shù)木彌_區(qū)大小而有很大的差異。緩沖區(qū)越大，吞吐量越好，從而確保加速器始終具有可操作的數(shù)據(jù)而不會浪費時間。通常來說，最好進行1MB或更大的數(shù)據(jù)傳輸。預先運行DMA測試對于找到最佳緩沖區(qū)大小可能很有用。同樣，在確定最佳緩沖區(qū)大小時，請考慮大緩沖區(qū)對資源利用率和傳輸延遲的影響。

Xilinx建議在一個公共緩沖區(qū)內對多組數(shù)據(jù)進行分組，以實現(xiàn)最大可能的吞吐量。

概念化應用程序時間線

開發(fā)人員現(xiàn)在應該對哪些函數(shù)需要加速，需要什么并行性才能達到性能目標以及如何交付應用程序有很好的了解。在這一點上，以應用程序時間表的形式總結信息是非常有用的。應用程序時間軸序列（例如“保持Kernels使用率”中所示的序列）是應用程序在運行時表現(xiàn)性能和并行化非常有效的方法。它們可以展示應用程序如何調動體系結構中潛在的并行性。

Vitis軟件平臺會從實際應用程序運行中生成時間軸視圖。如果開發(fā)人員設計了預期的時間表，則可以將其與實際結果進行比較，從而確定潛在的問題，然后迭代并收斂到最佳結果，如上圖所示。

5. 微調架構細節(jié)

在正式編寫應用程序及其kernel之前，還有最后一步：從頂層決策中細化和提煉次級體系架構的細節(jié)。

確定最終kernel邊界

之前已經(jīng)有過討論，通過創(chuàng)建多個kernel的示例可以提高性能。然而，增加CU（compute unit）會對IO端口，帶寬和資源有額外地消耗。

在Vitis軟件平臺流程中，kernel端口的最大寬度為512，并且FPGA在資源方面也具有固定的成本，并不是無限消耗。重要的是，目標平臺也對可使用的最大端口設置了限制。所以我們要注意這些限制，以最佳方式充分使用這些端口及其帶寬。

使用多個CU進行擴展的另一種方法是通過在內核中添加多個引擎（engine）進行擴展。與添加更多CU的方式來提高性能一樣，此方法就是用在內核中的不同engine同時處理多個數(shù)據(jù)集。

將多個engine放置在同一kernel中可充分利用kernel I / O端口的帶寬。如果數(shù)據(jù)路徑engine不需要端口的全部寬度，則在kernel中添加其他engine比在其中創(chuàng)建具有單個engine的多個CU效率更高。

在kernel中放置多個engine還可以減少端口數(shù)量和事務數(shù)量到需要仲裁的全局內存中，從而提高了有效帶寬。另一方面，采用這種方法需要在開發(fā)kernel時考慮I / O多路復用行為，盡可能地減少全局內存的訪問。這是開發(fā)人員需要做出的權衡。

確定kernel的位置和連接性

確定kernel邊界后，開發(fā)人員要明確實例kernel的數(shù)量和連接到全局內存資源的端口數(shù)量。在這一點上，了解目標平臺的功能以及哪些全局內存資源可用很重要。例如，Alveo?U200數(shù)據(jù)中心加速卡具有分布在三個超級邏輯區(qū)域（SLR）中的4 x 16 GB DDR4存儲區(qū)和3 x 128 KB的PLRAM存儲區(qū)。有關更多信息，請參閱《 Vitis Software Platform Release Notes》。

如果kernel是工廠，則全局內存是貨物往返工廠的倉庫。SLR就像獨特的工業(yè)區(qū)，可以在其中建立倉庫和工廠。雖然可以將貨物從一個區(qū)域的倉庫轉移到另一個區(qū)域的工廠，但這會增加延遲和復雜性。

使用多個DDR有助于平衡數(shù)據(jù)傳輸負載并提高性能。但是，這也會帶來成本，因為每個DDR控制器都會消耗FPGA資源。在決定如何將kernel端口連接到內存庫時，請均衡這些考慮因素。

在完善了這些架構細節(jié)之后，開發(fā)人員就應該已經(jīng)掌握kernel以及整個應用程序所需的所有信息了。

　　審核編輯：湯梓紅

閱讀全文

FPGA(591963) FPGA(591963)
Xilinx(119163) Xilinx(119163)
硬件(64549) 硬件(64549)

用于軟件驗證的硬件加速仿真之一：物理和虛擬探針

在驗證領域，虛擬探針增強了硬件加速仿真作為數(shù)據(jù)中心資源對硬件設計人員和軟件開發(fā)人員的吸引力。

2017-08-18 10:39:15

1841

縱覽FFmpeg硬件加速方案，涉及主流硬件和操作系統(tǒng)！

被稱為“多媒體技術領域的瑞士軍刀”，F(xiàn)Fmpeg擁有廣泛的應用基礎。不過，當（實時）處理海量視頻時，需要借助各種方法提升效率。本文將縱覽FFmpeg的硬件加速方案，涉及各主流硬件方案和操作系統(tǒng)。

2018-05-18 09:03:30

8487

2017雙11技術揭秘—千億級流量來襲，如何用硬件加速技術為CPU減負？

11平穩(wěn)度過。秉著軟硬件結合的性能優(yōu)化思想，2017年主站接入層在硬件加速領域邁出了第一步。在剛過去的2017年雙11零點流量高峰的考驗下，主站接入層Tengine Gzip硬件加速機器運行平穩(wěn)

2017-12-29 11:25:28

ADAU1451硬件加速器擺動什么用？

Hi，HenryLj.mo請問下在Sigma 300里面使用硬件加速器slew，slew mode為RC type時，對應的time constant 與數(shù)據(jù)從當前值到目標值得時間有什么關系,或者說不同的time constant的值有什么用？ Thanks,Jack

2019-01-29 06:55:13

Firefly-RK3288 Linux硬件加速，可安裝Kodi

適用于Firefly-RK3288的板子* rockchip kernel 4.4 (VPU, GPU, DRM RGA and WIFI設備驅動)* rockchip debian stretch (xserver已加入GPU加速,帶硬件加速的gstreamer )

2017-08-19 15:10:30

Firefly-RK3399 Android8.1固件，可調用神經(jīng)網(wǎng)絡API進行硬件加速

(NNAPI) ，充分調用神經(jīng)網(wǎng)絡API進行硬件加速，使RK3399的AI運算性能大幅提升。適用基于主流模型架構衍生開發(fā)的各類應用，例如：商品識別、疲勞檢測等。 2分鐘視頻，一起了解下Android

2018-07-31 17:42:44

GNN（圖神經(jīng)網(wǎng)絡）硬件加速的FPGA實戰(zhàn)解決方案

算法的軟件實現(xiàn)方式非常低效，所以業(yè)界對GNN的硬件加速有著非常迫切的需求。我們知道傳統(tǒng)的CNN（卷積神經(jīng)網(wǎng)絡網(wǎng)絡）硬件加速方案已經(jīng)有非常多的解決方案；但是，GNN的硬件加速尚未得到充分的討論和研究，在

2021-07-07 08:00:00

H.264解碼器中CABAC硬件加速器怎么實現(xiàn)？

2021-06-07 06:48:58

MCU廠推多樣解決方案 DSP/FPU硬件加速芯片整合

，也有五花八門的硬件加速單元配置組合，滿足不同整合需求的應用架構?！　×?b class="flag-6" style="color: red">一個微控制器整合DSP、FPU硬件加速單元的目的，其實加入 硬件加速單元整合而不采行外部解決方案來組構硬件加速運算需求，其最大的優(yōu)點

2016-10-14 17:17:54

VDA安裝后禁用Revit硬件加速

您好，我正在設置新的XenApp / XenDesktop部署（第一個計時器）并遇到問題。使用GRID K260Q vGPU設置主映像時，可以在Revit和AutoCAD中啟用硬件加速并運行。兩個

2018-09-21 11:13:27

XCKU115板卡資料：1-基于Xilinx XCKU115的半高PCIe x8 硬件加速卡

基于Xilinx XCKU115的半高PCIe x8 硬件加速卡一、概述本板卡系我公司自主研發(fā)，采用Xilinx公司的XCKU115-3-FLVF1924-E芯片作為主處理器，主要用于FPGA

2019-10-25 16:00:50

labview可用硬件怎么加速？

目前我使用NI的機箱采集數(shù)據(jù)，labview做軟件平臺生成一個系統(tǒng)。想要達到實時性效果。能否給NI或labview采用硬件加速，提高處理速的呢？如何做呢？有什么資料可以參考？

2018-09-29 09:34:24

【KV260視覺入門套件試用體驗】硬件加速之—使用PL加速FFT運算（Vivado）

的應用，比如在數(shù)學，密碼學，天文學，地震學，生物學等領域。本文主旨利用PL端的并行性和靈活性來實現(xiàn)高效的FFT運算，在KV260搭建一個硬件加速算法，作為對比，我同時使用ARM核進行fft運算，驗證PL

2023-10-02 22:03:13

【PYNQ-Z2申請】圖像目標識別FPGA硬件加速

項目名稱：圖像目標識別FPGA硬件加速試用計劃：申請理由本人供職于一家AI公司，現(xiàn)在在使用FPGA硬件加速相關目標檢測算法的端側實現(xiàn)（鑒黃/司機行為識別），公司已經(jīng)有非常成熟的軟件算法以及GPU

2019-01-09 14:51:09

【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗】（原創(chuàng)）7.硬件加速Sora文生視頻源代碼

完成，準備輸出視頻幀 // 調用硬件加速模塊進行文本到視頻幀的轉換 // 將文本緩沖區(qū)的內容“傳遞”給硬件加速器 // TextToVideoHardwareAccelerator 是一個硬件模塊 // 它

2024-02-22 09:49:01

為什么要進入最佳硬件加速板？

我想進入硬件加速。什么板對此有好處，為什么？

2019-10-10 07:00:38

協(xié)調屏幕旋轉和硬件加速器

）。而且，在我的測試中，我發(fā)現(xiàn)關閉“硬件加速器”允許屏幕在旋轉時正確地繪制，但是這使得系統(tǒng)使用起來非常緩慢和痛苦（壞的用戶體驗）。謝謝任何幫助。

2020-04-03 10:56:36

在Sigma 300里面使用硬件加速器slew，slew mode為RC type時不同的time constant的值有什么用？

請問下在Sigma 300里面使用硬件加速器slew，slew mode為RC type時，對應的time constant 與數(shù)據(jù)從當前值到目標值得時間有什么關系,或者說不同的time constant的值有什么用？謝謝, 中 J Jj

2023-11-29 07:25:43

基于Xilinx XCKU115的半高PCIe x8 硬件加速卡解決方案

基于Xilinx XCKU115的半高PCIe x8 硬件加速卡一、概述本板卡系我公司自主研發(fā)，采用Xilinx公司的XCKU115-3-FLVF1924-E芯片作為主處理器，主要用于FPGA

2018-07-27 16:49:30

基于Xilinx XCKU115的半高PCIe x8硬件加速卡

基于Xilinx XCKU115的半高PCIe x8 硬件加速卡北京太速科技有限公司一、概述本板卡系我公司自主研發(fā)，采用Xilinx公司的XCKU115-3-FLVF1924-E芯片作為主處理器

2018-08-22 17:31:55

如何使用RSA硬件加速能多快生成2048bit的密鑰？

面，可能會導致誤判。嘗試改正后，生成的密鑰是正常的，但速度比OpenSSL純軟件慢。正常使用RSA硬件加速能多快生成2048bit的密鑰？這個補丁有優(yōu)化版嗎？

2023-05-06 08:05:44

如何充分利用數(shù)字信號處理器上的片內FIR和IIR硬件加速器？

上的片內FIR和IIR硬件加速器也分別稱為FIRA和IIRA，我們可以利用這些硬件加速器來分擔FIR和IIR處理任務，讓內核去執(zhí)行其他處理任務。在本文中，我們將借助不同的使用模型以及實時測試示例來探討如何在實踐中利用這些加速器。

2020-12-28 06:26:54

如何讓opencv使用官方的GStreamer-rockchip實現(xiàn)硬件加速呢

opencv編譯和運行時，使用的是安裝的GStreamer視頻IO，那么如何讓opencv使用官方的GStreamer-rockchip實現(xiàn)硬件加速呢？

2022-04-08 15:25:33

怎么確定一個步進電機控制的初始加速度？

怎么確定一個步進電機控制的初始加速度

2023-10-09 07:28:57

找不到3d硬件加速器怎么辦

，將會彈出設置選項，然后點擊設置按鈕。　　　　在Flash設置界面，點擊左下角第一個圖標，即顯示設置，記住圖標哦。然后在啟用硬件加速的選項前打上勾。　　　　最后點擊關閉后，按F5刷新游戲頁面即可?！　?

2019-08-21 09:04:31

無法導入硬件加速器

嗨！我已經(jīng)創(chuàng)建了一個硬件加速器（在vhdl中）并且合成成功完成。但是，當我使用創(chuàng)建和導入外圍設備向導時，它向我顯示我的包在庫中不可用，盡管它是。我能做什么？？？L'enfer，c'est l

2019-02-27 14:15:31

板載linux OS下，利用FPGA做圖像硬件加速

，詳細介紹相關片內硬件模塊在GUI系統(tǒng)中的角色及實現(xiàn)方式；（由于GPU模塊硬件的源碼的開源程度不高，不在本文的分析范圍內）分析現(xiàn)有GUI框架下，在硬件加速方面，我們能做的事情，并以非常簡單的圖像處理為

2019-04-02 21:42:10

求一種基于Xilinx XCKU115的半高PCIe x8 硬件加速卡

半高PCIe x8硬件加速卡有哪些技術指標？半高PCIe x8硬件加速卡的物理特性是什么？半高PCIe x8硬件加速卡的接口測試軟件有哪些？

2021-06-25 07:16:05

請問STM32H753的AccHw_Crypto硬件加速加密庫在哪里？

、F4、F7 等子目錄，但沒有 H7。H7 的子目錄僅存在于 Fw_Crypto 下。在 en.patchx_cryptolib_3-1-3.zip 中有 G0、G4、L5、WB 和 H7A3 的子目錄。我想，所有這些都只是軟件？哪個包包含 H753 的硬件加速庫 (AccHw_Crypto)？

2023-01-17 06:22:46

問下ARM3的硬件加速器只能用verilog寫嗎？

問下ARM3的硬件加速器只能用verilog寫嗎？

2022-09-30 10:45:39

阿里七層流量入口 Tengine硬件加速探索之路

的開發(fā)與維護。今天分享的主題是《阿里七層流量入口Tengine硬件加速探索之路》。接入層系統(tǒng)介紹接入層是2015年阿里巴巴全站HTTPS誕生的一個產(chǎn)品。作為一個電商網(wǎng)站，為了保護用戶信息安全、賬戶、交易

2018-06-04 17:07:55

數(shù)字集成電路設計中的硬件加速驗證技術

摘要：在芯片規(guī)模指數(shù)式上升和要求面市時間快速縮短的雙重壓力下，驗證已成為數(shù)字集成電路設計的瓶頸。利用硬件加速驗證技術能很好地解決這一問題。該文論述了硬件加速驗

2010-04-26 10:20:15

Hifn攜業(yè)內首款硬件加速型存儲解決方案亮相SNW秋季大會

Hifn攜業(yè)內首款硬件加速型存儲解決方案亮相SNW秋季大會存儲和網(wǎng)絡創(chuàng)新的推動廠商Hifn公司參加了本月14-17日在美國達拉斯Gaylord Texan酒店舉行的網(wǎng)絡存儲世界(SNW)大會，并對

2008-10-17 08:33:38

682

ARM：未來視覺體驗將通過圖形硬件加速得到提升

ARM：未來視覺體驗將通過圖形硬件加速得到提升 iPhone所帶來的“蝴蝶效應”讓業(yè)界對視覺體驗(Visual Experience)有了全新的認識，其圖形的縮放、翻轉、倒置、井深、反射、三

2008-10-24 09:06:06

520

IKIVO 為移動用戶界面添加 3D 和硬件加速支持

IKIVO 為移動用戶界面添加 3D 和硬件加速支持 - Enrich 4 將在巴塞羅那舉行的移動通信世界大會上進行展示巴塞羅那2010年2月

2010-02-10 19:00:00

522

安捷倫科技推出示波器MSO/DSO，具備硬件加速“搜索和導航

安捷倫科技推出示波器MSO/DSO，具備硬件加速“搜索和導航”功能安捷倫科技公司日前宣布推出14款種最新型號的 InfiniiVision 7000 系列示波器，進一步擴展其混合信號示

2010-03-08 09:56:22

1198

采用硬件加速發(fā)揮MicroBlaze處理能力

采用硬件加速發(fā)揮MicroBlaze處理能力　　MicroBlaze處理器是賽靈思(Xilinx)在嵌入式開發(fā)套件 (EDK) 中提供的兩款32位內核之一，是實現(xiàn)硬件加速的靈活工具。圖1是MicroBlaze的

2010-03-10 10:24:16

1131

基于VxWorks的硬件加速技術探討

簡述了愛普生S1D13A05芯片的架構特征，并且介紹了其中的2D硬件加速引擎的工作模式和相關的寄存器設置，最后以VxWorks操作系統(tǒng)作為開發(fā)環(huán)境，基于風河公司W(wǎng)indML圖形開發(fā)包，對S1D13A0

2011-09-01 14:07:47

957

基于FPGA Nios-Ⅱ的矩陣運算硬件加速器設計

針對復雜算法中矩陣運算量大, 計算復雜, 耗時多, 制約算法在線計算性能的問題, 從硬件實現(xiàn)角度, 研究基于FPGA/Nios-Ⅱ的矩陣運算硬件加速器設計, 實現(xiàn)矩陣并行計算。首先根據(jù)矩陣運算

2011-12-06 17:30:41

Nios II C語言至硬件加速編譯器

電子發(fā)燒友網(wǎng)核心提示: 獲獎的Nios II 嵌入式處理器C語言至硬件（C2H）加速編譯器將對時間要求較高的ANSI C函數(shù)轉換為FPGA中的硬件加速器，從而提高了性能。特性： (1)ANSI/ISO C 代碼按鍵

2012-10-17 14:29:34

1901

Mentor Graphics硬件加速仿真服務使用Veloce 硬件加速仿真平臺加速驗證

　　俄勒岡州威爾遜維爾，2016 年 4 月 20 日 — Mentor Graphics公司（納斯達克代碼：MENT）今日宣布，Mentor? 硬件加速仿真服務采用具有專業(yè)服務和 IP 的 Veloce? 硬件加速仿真平臺，借此加速仿真驗證并降低與片上系統(tǒng) （SoC）設計相關的風險。

2016-04-20 11:22:08

2307

Mentor Graphics Veloce 硬件加速仿真平臺協(xié)助 Barefoot Networks 驗證全球首個完全可編程開關

“Veloce 硬件加速仿真平臺可提供我們所需的容量，以此驗證我們可編程、特定于網(wǎng)絡并以互連為主導的設計，”Barefoot Networks 工程副總裁 Dan Lenoski 說道?！俺死?/div>

2016-07-20 14:25:20

1262

精確分類的視角無關人臉檢測方法與硬件加速體系結構

精確分類的視角無關人臉檢測方法與硬件加速體系結構，不錯的論文，值得學習參考。

2016-09-18 15:22:48

基于硬件加速的實時仿真平臺構建技術

基于硬件加速的實時仿真平臺構建技術_孔璐

2017-01-03 17:41:58

基于最優(yōu)移位雙線性插值的圖像縮放旋轉硬件加速研究

基于最優(yōu)移位雙線性插值的圖像縮放旋轉硬件加速研究_丁家隆

2017-01-08 15:15:59

Bitfusion支持通過云訪問基于賽靈思All Programmable器件的FPGA硬件加速功能

這是必然趨勢，肯定有人會通過云訪問 FPGA 硬件加速功能。 Bitfusion 既開發(fā)軟件，又設計硬件，并且與 Rackspace 協(xié)作共同創(chuàng)建專用于加速云計算的數(shù)據(jù)中心。這一理念與 FPGA

2017-02-08 19:48:30

238

UVM驗證平臺執(zhí)行硬件加速

UVM已經(jīng)成為了一種高效率的、從模塊級到系統(tǒng)級完整驗證環(huán)境開發(fā)標準，其中一個關鍵的原則是UVM可以開發(fā)出可重用的驗證組件。獲得重用動力的一個方面表現(xiàn)為標準的仿真器和硬件加速之間的驗證組件和環(huán)境的復用

2017-09-15 17:08:11

基于硬件加速系統(tǒng)的PCIe-SRIO橋的邏輯結構

基于混合架構的硬件加速是計算機領域中很重要的研究方向之一。它是指將一些特定的任務從通用CPU移植到硬件處理模塊上并進行相應的算法優(yōu)化。由于硬件設備的專用結構，這些硬件處理模塊往往比在基于順序指令集

2017-11-03 16:29:44

硬件加速邊緣檢測優(yōu)化處理方案

針對計算機處理高清圖像或視頻的邊緣檢測時存在延時長和數(shù)據(jù)存儲帶寬受限的缺點，提出了用Vivado HLS將邊緣檢測軟件代碼轉換成RTL級硬件電路的硬件加速方法。硬件加速是將運算量大的功能模塊由硬件

2017-11-15 18:02:01

1874

添加硬件加速器可以加快處理器的正弦計算

如果修改軟件不能實現(xiàn)所需速度，那么你可能順理成章的想到在你的設計中加入硬件加速模塊。作有很多種算法可對單精度浮點數(shù)字的正弦值進行計算，但添加硬件加速器是功能最為強大的方法之一。之所以得出這一結論

2017-11-24 18:38:33

1895

基于VxWorks的硬件加速技術探討

簡述了愛普生S1D13A05芯片的架構特征，并且介紹了其中的2D硬件加速引擎的工作模式和相關的寄存器設置，最后以VxWorks操作系統(tǒng)作為開發(fā)環(huán)境，基于風河公司W(wǎng)indML圖形開發(fā)

2017-12-01 04:26:01

257

利用硬件加速器提高處理器的性能

處理器內部集成的硬件加速器可以實現(xiàn)三種廣泛使用的信號處理操作：FIR(有限沖激響應)、IIR(無限沖激響應)和FFT(快速傅里葉變換)。硬件加速器減輕了核處理器的負擔，能潛在的提升處理器的計算吞吐

2017-12-04 15:22:36

1035

MD5算法硬件加速模型

針對MD5軟件實現(xiàn)方法存在占用資源大、安全性差等缺點，提出了基于NetMagic平臺的MD5硬件加速模型設計方案，并基于ModelSim和NetMagic平臺對提出的非流水線與流水線硬件加速模型進行

2018-01-12 16:45:07

憶芯科技利用Veloce 硬件加速仿真平臺進行高速企業(yè)級固態(tài)硬盤存儲設計

Mentor Graphics公司今天宣布，憶芯科技 (Starblaze Technology) 已成功使用 Veloce 硬件加速仿真平臺進行專業(yè)的高速企業(yè)級固態(tài)硬盤 (SSD) 存儲

2018-07-12 14:43:00

1619

Veloce仿真環(huán)境下的SoC端到端硬件加速器功能驗證

很多人認為硬件加速器無非是一種速度更快的仿真器而已。毫無疑問，由于硬件加速器使用物理硬件進行仿真，使用硬件加速器驗證復雜的集成電路和大型片上系統(tǒng)（SoC）能比軟件仿真器快若干數(shù)量級。與仿真用通用計算機相比，仿真用單一功能計算機能提供更高容量、更高效的系統(tǒng)。

2018-03-28 14:50:00

3155

利用硬件加速器提高仿真速度時的驗證平臺考慮

正確利用硬件加速器對邏輯仿真進行加速是非常有效的。如果知道某項設計在仿真中的運行速度（用每秒仿真了多少設計時鐘來衡量），你就能很容易地估計出該設計的原始性能。舉個例子，我們假設仿真器以每秒1000

2018-03-05 10:13:13

如何在Windows上設置英特爾硬件加速執(zhí)行管理器

了解如何在Windows上設置英特爾?硬件加速執(zhí)行管理器（英特爾?HAXM），以幫助您的Android模擬器以更快的速度運行。

2018-11-01 06:23:00

3959

基于Xilinx FPGA的Memcached硬件加速器的介紹

本教程討論基于Xilinx FPGA的Memcached硬件加速器的技術細節(jié)，該硬件加速器可為10G以太網(wǎng)端口提供線速Memcached服務。

2018-11-27 06:41:00

3433

毫米波傳感器1443硬件加速器的簡單介紹

2.6 mmWave波形傳感器簡介1443硬件加速器

2019-05-08 06:20:00

2981

FPGA的CNN實現(xiàn)硬件加速需要考慮這些因素

網(wǎng)上對于FPGACNN加速的研究已經(jīng)很多了，神經(jīng)網(wǎng)絡的硬件加速似乎已經(jīng)滿大街都是了，這里我們暫且不討論誰做的好誰做的不好，我們只是根據(jù)許許多多的經(jīng)驗來總結一下實現(xiàn)硬件加速，需要哪些知識，考慮哪些因素。

2019-03-08 14:44:33

3600

分享硬件加速仿真的 11 個謬論介紹和說明

硬件加速仿真可以實現(xiàn)寄存器傳輸級(RTL)和現(xiàn)代SoC設計門級的最佳功耗分析。只有硬件加速仿真才有處理大量邏輯以及產(chǎn)生針對所有元素的切換活動的獨有能力。

2019-10-11 17:54:29

4548

如何將硬件加速器關閉？

硬件加速是指在計算機中通過把計算量非常大的工作分配給專門的硬件來處理以減輕中央處理器的工作量之技術。尤其是在圖像處理中這個技術經(jīng)常被使用。

2019-08-15 15:29:35

6839

LSTM的硬件加速方式

Long-short term memory，簡稱LSTM，被廣泛的應用于語音識別、機器翻譯、手寫識別等。LSTM涉及到大量的矩陣乘法和向量乘法運算，會消耗大量的FPGA計算資源和帶寬。為了實現(xiàn)硬件加速，提出了稀疏LSTM。

2019-08-24 10:32:35

2798

firefly神經(jīng)網(wǎng)絡硬件加速簡介

Firefly-RK3399/AIO-3399J Android8.1固件支持Android Neural Networks API (NNAPI) ，充分調用神經(jīng)網(wǎng)絡API進行硬件加速，使RK3399的AI運算性能大幅提升。適用基于主流模型架構衍生開發(fā)的各類應用，例如：商品識別、疲勞檢測等。

2019-11-01 15:47:12

1704

蘋果VR硬件加速落地,或將成為行業(yè)助推器

蘋果VR硬件加速落地，或將成為行業(yè)助推器。美東時間周四，美國媒體援引知情人士的話稱，蘋果計劃2022年推出高端VR頭戴設備，為未來更加主流的AR眼鏡鋪路。

2021-01-22 11:35:05

2096

Xilinx推出軟件定義、硬件加速型Alveo SmartNIC，掀起現(xiàn)代數(shù)據(jù)中心革命

賽靈思? Alveo? SN1000 是業(yè)界首個可組合式 SmartNIC 系列，面向各類功能卸載提供了軟件定義硬件加速功能。

2021-02-24 16:38:14

2676

硬件加速器提升下一代SHARC處理器的性能

硬件加速器提升下一代SHARC處理器的性能

2021-04-23 13:06:32

如何去確定一個硬件加速器件？有哪些步驟？

在開發(fā)一個加速程序的之前，有一個很重要的步驟：正確設計程序架構。

2021-06-11 13:05:17

1204

開發(fā)加速程序前如何正確設計程序架構？

將分為5個步驟來介紹： 1. 基準和建立目標? 2. 確定加速部分? 3. 確定FPGA硬件加速并行量 4. 確定軟件部分并行量? 5. 微調架構細節(jié)。 1. 基準和建立目標首先要測試應用程序的運行時間和吞吐量，來確定當前應用程序在現(xiàn)有平臺的的基準性能。

2021-06-11 16:28:55

1233

第七屆硬創(chuàng)大賽與中城智能硬件加速器達成戰(zhàn)略合作，推動智能硬件創(chuàng)新發(fā)展

?日前，中國硬件創(chuàng)新創(chuàng)客大賽組委會與中城智能硬件加速器正式達成戰(zhàn)略合作伙伴關系。 ? ? 中城智能硬件加速器天集社是2020年入選工信部中小企業(yè)服務平臺和國家級科技企業(yè)孵化器，鏈接全球硬件創(chuàng)新者建立

2021-07-15 15:18:02

2961

OpenHarmony 分論壇-華秋電子新硬件加速器

OpenHarmony 分論壇-華秋電子新硬件加速器今天的華為開發(fā)者大會2021上，OpenHarmony分論壇上展示了華秋電子新硬件加速器。 HDC分論壇-OpenHarmony 分論壇推薦鏈接：http://t.elecfans.com/live/1708.html 責任編輯：haq

2021-10-23 16:53:48

1500

openEuler Summit 2021-云/虛擬化分論壇：虛擬化硬件加速以及vDPA框架案例分析

openEuler Summit 2021-云/虛擬化分論壇：虛擬化硬件加速以及vDPA框架案例分析

2021-11-10 16:59:51

1747

OpenHarmony Dev-Board-SIG專場：OpenHarmony 新硬件加速器

OpenHarmony Dev-Board-SIG專場：OpenHarmony 新硬件加速器

2021-12-28 15:12:30

1104

基于CORTEX-M3硬件加速的目標跟蹤鎖定系統(tǒng)

本項目采用Cortex-M3軟核做控制部分，大規(guī)模專用硬件加速器做濾波跟蹤計算和智能目標檢測部分，視頻輸入輸出通過HDMI直接進入硬件加速器，繞過軟核實現(xiàn)更快的數(shù)據(jù)處理速度。

2022-05-16 10:04:26

959

AR機器人公司發(fā)布機器人操作系統(tǒng)(ROS)硬件加速框架ROBOTCORE

)硬件加速框架——ROBOTCORE?。ROS是機器人技術的標準。該公司為機器人提供半導體構建模塊，通過硬件加速為高性能機器人創(chuàng)建定制計算架構，同時保持機器人和加速器的硬件無關性（支持流行的FPGA和GPU）。 ROBOTCORE?可幫助機器人工程師創(chuàng)建與ROS和ROS 2 API兼容的知識產(chǎn)權(IP)核心，以提高包括

2022-06-16 12:40:20

1684