介紹
在深度學習中,卷積神經網絡(CNN或ConvNet)是一類人工神經網絡(ANN),最常用于分析視覺圖像。
CNN 也稱為移位不變或空間不變人工神經網絡(Shift Invariant or Space Invariant Artificial Neural Networks ,SIANN ),它基于卷積核或濾波器的共享權重架構,沿輸入特征滑動并提供稱為特征映射的平移等變響應。它們在圖像和視頻識別、推薦系統、圖像分類、圖像分割、醫學圖像分析、自然語言處理、腦機接口和金融時間序列中都有應用。
CNN 是多層感知器的正則化版本。多層感知器通常表示全連接網絡,即一層中的每個神經元都連接到下一層中的所有神經元。這些網絡的“完全連通性”使它們容易過度擬合數據。正則化或防止過擬合的典型方法包括:在訓練期間懲罰參數(例如權重衰減)或修剪連接性(跳過連接、丟失等) CNN 采用不同的正則化方法:它們利用數據中的分層模式并使用在過濾器中壓印的更小更簡單的圖案來組裝復雜度越來越高的圖案。因此,在連接性和復雜性的規模上,CNN 處于較低的極端。
與其他圖像分類算法相比,CNN 使用的預處理相對較少。這意味著網絡通過自動學習來學習優化過濾器(或內核),而在傳統算法中,這些過濾器是手工設計的。這種獨立于先驗知識和特征提取的人為干預是一個主要優勢。
cnn_hardware_acclerator_for_fpga
https://github.com/sumanth-kalluri/cnn_hardware_acclerator_for_fpga
https://thedatabus.io/introduction
這是完全參數化的 Verilog 實現CNN,用于加速 FPGA 上的卷積神經網絡推理
軟件工具:
設計 - Xilinx Vivado 2017
驗證 - Python 3.6 和 Xilinx ISE 14.7 命令行工具
convolution_network_on_FPGA
https://github.com/hunterlew/convolution_network_on_FPGA
描述
該項目使用 ISE 14.7 和 vertix-7 FPGA 構建。它使用某些加速策略執行 7 層網絡前向計算。首先,使用MatConvNet在 MSTAR 數據集上訓練一個 SAR 目標分類網絡,并使用 early-stop。然后,使用 Matlab 將權重和輸入轉換為 FPGA 可以加載的 COE 文件。接下來,設計原生 verilog 編寫的模型來完成前向計算。系統使用 16 位定點數據來保持精度。結果證明,它每張圖像的花費不到 1ms,優于其他計算平臺。
加速
第一個轉換需要對 FPGA 的資源和速度之間權衡,考慮到第一個轉換中輸入和權重的大小,如果層較大,那么該層就應該使用移位寄存器結構進行加速。另一個轉化,層僅需要使用管道結構。請注意,有 18 個文件以 m_conv_1 命名,表示第一個 conv 中有 18 個移位寄存器。
對于帶寬的限制,第二個轉換層,使用通道分組并行化方案。使用 v7-415t 和 v7-485t FPGA 進行比較,它們根據不同的資源量使用不同的組號(4 vs 1)。可能會注意到文件 CNN_top.v 中的方案,其中包含控制通道分組和合并的信號“ram_ready”。
CNN-FPGA
https://github.com/QShen3/CNN-FPGA
有以下幾個模塊:
Conv2d
說明:
卷積模塊,可以進行二維卷積。支持多個卷積核,不同步長,是否啟用邊緣0填充等
可配置參數:
PADDINGENABLE邊緣是否使用0填充,1代表是,0代表否0
輸入輸出:
Max_pool
說明:
最大池化模塊,可以對輸入進行最大池化運算。
可配置參數:
輸入輸出:
FPGA-CNN
https://github.com/dem123456789/FPGA-CNN
FPGA 實現的CNN:
CNN.v是頂層設計,初始化A,B,I。模板為16x16層模塊sixteenbysixteen.v
SixteenbySixteen.java生成Verilog代碼
clacc
https://github.com/taoyilee/clacc
原為清華大學深度學習硬件加速器課程項目,由林允龍教授主講。該課程相當于斯坦福大學的CS231n(http://cs231n.stanford.edu/)。
深度學習加速器(卷積神經網絡)
這是在 Verilog 中實現類似 MIT Eyeriss 的深度學習加速器
注:clacc代表卷積層加速器
RTL-Implementation-of-Two-Layer-CNN
https://github.com/Haleski47/RTL-Implementation-of-Two-Layer-CNN
https://github.com/Di5h3z/ECE-564-Convolutional-Neural-Network-Accelerator
具有詳細設計的兩層 CNN
詳細的設計文檔:
https://github.com/Haleski47/RTL-Implementation-of-Two-Layer-CNN/blob/master/report/Apar%20Bansal%20ECE564%20Project.pdf
NTHU-ICLAB
https://github.com/LeoTheBestCoder/NTHU-ICLAB
這是清華大學IC LAB提供的一個非常詳細的設計項目,逐步實現一個CNN,并附帶測試項目。
下面是每一步的功能,并且每一步都有詳細的設計文檔。
最終實現:使用 CNN 進行數字分類
ES203-COA-CNN
https://github.com/akcgjc007/ES203-COA-CNN
具體的實現過程:
代碼介紹:
https://www.youtube.com/watch?v=3J2X-j0z2M8
結果:
MNIST_CNN_HDL
https://github.com/makifozkanoglu/MNIST_CNN_HDL
https://github.com/flystandard1/CNN_hardware_ECE1718_UofT
通過硬件加速提升 CNN-mnist 的性能
文件夾“design_files”包括硬件中的所有設計文件
文件夾“verification_files”是設計文件的驗證環境
文件夾“weights”包括 mnist 和輸入圖像的權重
CNN-Implementation-in-Verilog
https://github.com/boaaaang/CNN-Implementation-in-Verilog
使用 Python & Verilog 實現卷積神經網絡
實現框圖:
仿真波形
CNN_Core
https://github.com/0x5b25/CNN_Core
使用 Altera Avalon-MM 總線
使用 quartus prime ide 在 Stratix IV 上編譯和測試。
更多介紹請參考instructions.txt
CNN-Accelerator-VLSI
https://github.com/lirui-shanghaitech/CNN-Accelerator-VLSI
詳細要求在./resource/Project_2.0.pdf中有詳細介紹。
下面列出一些主要要求:
所有輸入特征圖和權重的位長為 8 位,輸出為 25 位數據。
輸入特征圖帶寬為8x8位,權重帶寬也是8x8位(最大同時讀取8個輸入特征圖和8個權重)
輸出帶寬為 2x25 位(最多同時將 2 個輸出寫入主存)
結果如下:
注意:這個項目有一部分所需的文件沒有公開,但是,可以將此設計合成到 FPGA。
CNN-FPGA
https://github.com/omarelhedaby/CNN-FPGA
在ZYNQ FPGA上實現CNN,使用MNIST數據庫對手寫數字進行分類
網絡 Conv2D->Tanh Activation->AvgPool->Conv2D->Tanh Activation->AvgPool->Conv2D->Tanh Activation->全連接層->Relu->全連接層->Softmax
該項目很完整,雖然Readme寫的不是很完整,但是有個詳細的設計、仿真及驗證完檔。
https://github.com/omarelhedaby/CNN-FPGA/blob/master/Hardware%20Documentation.pdf
Image-Classification-using-CNN-on-FPGA
https://github.com/padhi499/Image-Classification-using-CNN-on-FPGA
簡介
在 FPGA 上使用 CNN 進行圖像分類
項目是關于在 FPGA 上設計一個經過訓練的神經 n/w(CIFAR-10 數據集),以使用深度學習概念(CNN-卷積神經網絡)對圖像 I/P 進行分類。
有 6 層(滑動窗口卷積、ReLU 激活、最大池化、扁平化、完全連接和 Softmax 激活)決定了我們的 I/P 圖像的類別。內核/過濾器用于從圖像 I/P 進行特征檢測。圖像 I/P 可以是灰度/彩色的。
使用的工具
Vivado v17.4
Matlab vR2018.a
DigitalRecognition
https://github.com/suisuisi/FPGAandCNN
《基于FPGA的數字識別-實時視頻處理的定點卷積神經網絡實現》
posture_recognition_CNN
https://github.com/cxdzyq1110/posture_recognition_CNN
簡介
基于CNN的姿態識別
幫助機器通過攝像頭了解我們人類在做什么是很重要的。一旦實現,機器就可以對人類的各種姿勢做出不同的反應。但是這個過程也非常困難,因為通常這個過程實現不僅速度跟不上并且耗電,同時也需要非常大的內存空間。
這里我們專注于實時姿勢識別,并嘗試讓機器“知道”我們做出什么姿勢。姿態識別系統由DE10-Nano SoC FPGA Kit、攝像頭和HDMI監視器組成。SoC FPGA 從攝像頭捕捉視頻流,通過 CNN 模型識別人體姿態,最后通過 HDMI 接口顯示原始視頻和分類結果(站立、行走、揮手等)。
我們上傳我們的項目,包括 Matlab、Python 和 Quartus。
軟件版本:
Matlab r2017b
Python 3.6.3
Anaconda 5.1.0
TensorFlow-gpu 1.3.0
Quartus 14.0
同時在該倉庫中含有作者的論文,論文中包含詳細的設計。
NPU_on_FPGA
https://github.com/cxdzyq1110/NPU_on_FPGA
目的 在FPGA上面實現一個NPU計算單元。能夠執行矩陣運算(ADD / ADDi / ADDs / MULT / MULTi / DOT等)、圖像處理運算(CONV / POOL等)、非線性映射(RELU / TANH / SIGM等)。
優點 考慮到靈活性較強,易于修改網絡結構,適用于實現小型CNN/RNN網絡。
缺陷 由于指令串行執行、缺少Cache導致外存讀寫頻繁,運算性能較低。
該項目也是上面項目的同一作者,詳細的設計,完整的工程,值得去操作一下。
neural-engine
https://github.com/hollance/neural-engine
大多數新的 iPhone 和 iPad 都有神經引擎,這是一種特殊的處理器,可以讓機器學習模型變得非常快,但對于這種處理器的實際工作原理,公眾知之甚少。
Apple 神經引擎(或 ANE)是NPU的一種,代表神經處理單元。它就像 GPU,但 NPU 不是加速圖形,而是加速卷積和矩陣乘法等神經網絡操作。
ANE 并不是唯一的 NPU——除了 Apple 之外,許多公司都在開發自己的 AI 加速器芯片。除了神經引擎,最著名的 NPU 是谷歌的 TPU(或 Tensor Processing Unit)。
這個項目并不是一個實現CNN的項目,但是是一個關于Apple 神經引擎(或 ANE)介紹及相關文檔的集合的項目。
總結
今天介紹了N個CNN的項目,前面的項目比較“單薄”,只適合學習CNN設計,從NTHU-ICLAB(包含)之后的項目更適合實踐,因為這些項目都有詳細的設計文檔及板卡驗證過程。
結合之前的TPU及今天的相關項目,大家應該對神經網絡應該不會再恐懼了,下一篇文章我們將介紹一些DNN項目,將這個系列完善一下。
最后,還是感謝各個大佬開源的項目,讓我們受益匪淺。后面有什么感興趣方面的項目,大家可以在后臺留言或者加微信留言,今天就到這,我是爆肝的碎碎思,期待下期文章與你相見。
審核編輯 :李倩
-
濾波器
+關注
關注
161文章
7855瀏覽量
178597 -
cnn
+關注
關注
3文章
353瀏覽量
22277 -
卷積神經網絡
+關注
關注
4文章
367瀏覽量
11891
原文標題:優秀的 Verilog/FPGA開源項目介紹(二十一)- 卷積神經網絡(CNN)
文章出處:【微信號:Open_FPGA,微信公眾號:OpenFPGA】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論