faster rcnn網絡結構詳解（四個切入點）

本文從四個切入點為你介紹Faster R-CNN網絡。

經過R-CNN和Fast RCNN的積淀，Ross B. Girshick在2016年提出了新的Faster RCNN，在結構上，Faster RCNN已經將特征抽取(feature extrac tion)，proposal提取，bounding box regression(rect refine)，classification都整合在了一個網絡中，使得綜合性能有較大提高，在檢測速度方面尤為明顯。

1 Conv layers 2 Region Proposal Networks(RPN) - 2.1 多通道圖像卷積基礎知識介紹 - 2.2 anchors - 2.3 softmax判定positive與negative - 2.4 bounding box regression原理 - 2.5 對proposals進行bounding box regression - 2.6 Proposal Layer 3 RoI pooling - 3.1 為何需要RoI Pooling - 3.2 RoI Pooling原理 4 Classification 5 Faster RCNN訓練 - 5.1 訓練RPN網絡 - 5.2 通過訓練好的RPN網絡收集proposals - 5.3 訓練Faster RCNN網絡 Questions and Answer

圖1 Faster RCNN基本結構（來自原論文）

依作者看來，如圖1，Faster RCNN其實可以分為4個主要內容： ?

Conv layers。作為一種CNN網絡目標檢測方法，Faster RCNN首先使用一組基礎的conv+relu+pooling層提取image的feature maps。該feature maps被共享用于后續RPN層和全連接層。

Region Proposal Networks。RPN網絡用于生成region proposals。該層通過softmax判斷anchors屬于positive或者negative，再利用bounding box regression修正anchors獲得精確的proposals。

Roi Pooling。該層收集輸入的feature maps和proposals，綜合這些信息后提取proposal feature maps，送入后續全連接層判定目標類別。

Classification。利用proposal feature maps計算proposal的類別，同時再次bounding box regression獲得檢測框最終的精確位置。

所以本文以上述4個內容作為切入點介紹Faster R-CNN網絡。 ? 圖2展示了python版本中的VGG16模型中的faster_rcnn_test.pt的網絡結構，可以清晰的看到該網絡對于一副任意大小PxQ的圖像： ?

首先縮放至固定大小MxN，然后將MxN圖像送入網絡；

而Conv layers中包含了13個conv層+13個relu層+4個pooling層；

RPN網絡首先經過3x3卷積，再分別生成positive anchors和對應bounding box regression偏移量，然后計算出proposals；

而Roi Pooling層則利用proposals從feature maps中提取proposal feature送入后續全連接和softmax網絡作classification（即分類proposal到底是什么object）。

圖2 faster_rcnn_test.pt網絡結構（pascal_voc/VGG16/faster_rcnn_alt_opt/faster_rcnn_test.pt）

本文不會討論任何關于R-CNN家族的歷史，分析清楚最新的Faster R-CNN就夠了，并不需要追溯到那么久。實話說我也不了解R-CNN，更不關心。有空不如看看新算法。 ?

新出爐的pytorch官方Faster RCNN代碼導讀：

捋一捋pytorch官方FasterRCNN代碼

https://zhuanlan.zhihu.com/p/31426458

1 Conv layers

Conv layers包含了conv，pooling，relu三種層。以python版本中的VGG16模型中的faster_rcnn_test.pt的網絡結構為例，如圖2，Conv layers部分共有13個conv層，13個relu層，4個pooling層。這里有一個非常容易被忽略但是又無比重要的信息，在Conv layers中： ?

所有的conv層都是：kernel_size=3，pad=1，stride=1

所有的pooling層都是：kernel_size=2，pad=0，stride=2

為何重要？在Faster RCNN Conv layers中對所有的卷積都做了擴邊處理（ pad=1，即填充一圈0），導致原圖變為 (M+2)x(N+2)大小，再做3x3卷積后輸出MxN 。正是這種設置，導致Conv layers中的conv層不改變輸入和輸出矩陣大小。如圖3：

圖3 卷積示意圖

類似的是，Conv layers中的pooling層kernel_size=2，stride=2。這樣每個經過pooling層的MxN矩陣，都會變為(M/2)x(N/2)大小。綜上所述，在整個Conv layers中，conv和relu層不改變輸入輸出大小，只有pooling層使輸出長寬都變為輸入的1/2。 ? 那么，一個MxN大小的矩陣經過Conv layers固定變為(M/16)x(N/16)！這樣Conv layers生成的feature map中都可以和原圖對應起來。 ?

2 Region Proposal Networks(RPN)

經典的檢測方法生成檢測框都非常耗時，如OpenCV adaboost使用滑動窗口+圖像金字塔生成檢測框；或如R-CNN使用SS(Selective Search)方法生成檢測框。而Faster RCNN則拋棄了傳統的滑動窗口和SS方法，直接使用RPN生成檢測框，這也是Faster R-CNN的巨大優勢，能極大提升檢測框的生成速度。

圖4 RPN網絡結構

上圖4展示了RPN網絡的具體結構。可以看到RPN網絡實際分為2條線，上面一條通過softmax分類anchors獲得positive和negative分類，下面一條用于計算對于anchors的bounding box regression偏移量，以獲得精確的proposal。而最后的Proposal層則負責綜合positive anchors和對應bounding box regression偏移量獲取proposals，同時剔除太小和超出邊界的proposals。其實整個網絡到了Proposal Layer這里，就完成了相當于目標定位的功能。 ?

2.1 多通道圖像卷積基礎知識介紹

在介紹RPN前，還要多解釋幾句基礎知識，已經懂的看官老爺跳過就好。 ?

對于單通道圖像+單卷積核做卷積，第一章中的圖3已經展示了；

對于多通道圖像+多卷積核做卷積，計算方式如下：

圖5 多通道卷積計算方式

如圖5，輸入有3個通道，同時有2個卷積核。對于每個卷積核，先在輸入3個通道分別作卷積，再將3個通道結果加起來得到卷積輸出。所以對于某個卷積層，無論輸入圖像有多少個通道，輸出圖像通道數總是等于卷積核數量！ ? 對多通道圖像做1x1卷積，其實就是將輸入圖像于每個通道乘以卷積系數后加在一起，即相當于把原圖像中本來各個獨立的通道“聯通”在了一起。 ?

2.2 anchors

提到RPN網絡，就不能不說anchors。所謂anchors，實際上就是一組由rpn/generate_anchors.py生成的矩形。直接運行作者demo中的generate_anchors.py可以得到以下輸出： ?

[[ -84.  -40.   99.   55.]
 [-176.  -88.  191.  103.]
 [-360. -184.  375.  199.]
 [ -56.  -56.   71.   71.]
 [-120. -120.  135.  135.]
 [-248. -248.  263.  263.]
 [ -36.  -80.   51.   95.]
 [ -80. -168.   95.  183.]
 [-168. -344.  183.  359.]]

? 其中每行的4個值?

表矩形左上和右下角點坐標。9個矩形共有3種形狀，長寬比為大約為?

三種，如圖6。實際上通過anchors就引入了檢測中常用到的多尺度方法。

圖6 anchors示意圖

注：關于上面的anchors size，其實是根據檢測圖像設置的。在python demo中，會把任意大小的輸入圖像reshape成800x600（即圖2中的M=800，N=600）。再回頭來看anchors的大小，anchors中長寬1:2中最大為352x704，長寬2:1中最大736x384，基本是cover了800x600的各個尺度和形狀。 ? 那么這9個anchors是做什么的呢？借用Faster RCNN論文中的原圖，如圖7，遍歷Conv layers計算獲得的feature maps，為每一個點都配備這9種anchors作為初始的檢測框。這樣做獲得檢測框很不準確，不用擔心，后面還有2次bounding box regression可以修正檢測框位置。

圖7

解釋一下上面這張圖的數字。 ?

在原文中使用的是ZF model中，其Conv Layers中最后的conv5層num_output=256，對應生成256張特征圖，所以相當于feature map每個點都是256-dimensions

在conv5之后，做了rpn_conv/3x3卷積且num_output=256，相當于每個點又融合了周圍3x3的空間信息（猜測這樣做也許更魯棒？反正我沒測試），同時256-d不變（如圖4和圖7中的紅框）

假設在conv5 feature map中每個點上有k個anchor（默認k=9），而每個anhcor要分positive和negative，所以每個點由256d feature轉化為cls=2?k scores；而每個anchor都有(x, y, w, h)對應4個偏移量，所以reg=4?k coordinates

補充一點，全部anchors拿去訓練太多了，訓練程序會在合適的anchors中隨機選取128個postive anchors+128個negative anchors進行訓練（什么是合適的anchors下文5.1有解釋）

注意，在本文講解中使用的VGG conv5 num_output=512，所以是512d，其他類似。 ? 其實RPN最終就是在原圖尺度上，設置了密密麻麻的候選Anchor。然后用cnn去判斷哪些Anchor是里面有目標的positive anchor，哪些是沒目標的negative anchor。所以，僅僅是個二分類而已！ ? 那么Anchor一共有多少個？原圖800x600，VGG下采樣16倍，feature map每個點設置9個Anchor，所以： ?

其中ceil()表示向上取整，是因為VGG輸出的feature map size= 50*38。

圖8 Gernerate Anchors

2.3 softmax判定positive與negative

一副MxN大小的矩陣送入Faster RCNN網絡后，到RPN網絡變為(M/16)x(N/16)，不妨設 W=M/16，H=N/16。在進入reshape與softmax之前，先做了1x1卷積，如圖9：

圖9 RPN中判定positive/negative網絡結構

該1x1卷積的caffe prototxt定義如下： ?

layer {
  name: "rpn_cls_score"
  type: "Convolution"
  bottom: "rpn/output"
  top: "rpn_cls_score"
  convolution_param {
    num_output: 18   # 2(positive/negative) * 9(anchors)
    kernel_size: 1 pad: 0 stride: 1
  }
}

? 可以看到其num_output=18，也就是經過該卷積的輸出圖像為WxHx18大小（注意第二章開頭提到的卷積計算方式）。這也就剛好對應了feature maps每一個點都有9個anchors，同時每個anchors又有可能是positive和negative，所有這些信息都保存WxHx(9*2)大小的矩陣。為何這樣做？后面接softmax分類獲得positive anchors，也就相當于初步提取了檢測目標候選區域box（一般認為目標在positive anchors中）。 ? 那么為何要在softmax前后都接一個reshape layer？其實只是為了便于softmax分類，至于具體原因這就要從caffe的實現形式說起了。在caffe基本數據結構blob中以如下形式保存數據： ?

blob=[batch_size, channel，height，width]

對應至上面的保存positive/negative anchors的矩陣，其在caffe blob中的存儲形式為[1, 2x9, H, W]。而在softmax分類時需要進行positive/negative二分類，所以reshape layer會將其變為[1, 2, 9xH, W]大小，即單獨“騰空”出來一個維度以便softmax分類，之后再reshape回復原狀。貼一段caffe softmax_loss_layer.cpp的reshape函數的解釋，非常精辟：

"Number of labels must match number of predictions; "
"e.g., if softmax axis == 1 and prediction shape is (N, C, H, W), "
"label count (number of labels) must be N*H*W, "
"with integer values in {0, 1, ..., C-1}.";

? 綜上所述，RPN網絡中利用anchors和softmax初步提取出positive anchors作為候選區域（另外也有實現用sigmoid代替softmax，輸出[1, 1, 9xH, W]后接sigmoid進行positive/negative二分類，原理一樣）。??

2.4 bounding box regression原理

如圖9所示綠色框為飛機的Ground Truth(GT)，紅色為提取的positive anchors，即便紅色的框被分類器識別為飛機，但是由于紅色的框定位不準，這張圖相當于沒有正確的檢測出飛機。所以我們希望采用一種方法對紅色的框進行微調，使得positive anchors和GT更加接近。

圖10

對于窗口一般使用四維向量?表示，分別表示窗口的中心點坐標和寬高。對于圖 11，紅色的框A代表原始的positive Anchors，綠色的框G代表目標的GT，我們的目標是尋找一種關系，使得輸入原始的anchor A經過映射得到一個跟真實窗口G更接近的回歸窗口G'，即： ?

給定anchor?；

尋找一種變換F，使得：，其中。

圖11

那么經過何種變換F才能從圖10中的anchor A變為G'呢？比較簡單的思路就是: ?

先做平移：

再做縮放：

觀察上面4個公式發現，需要學習的是這四個變換。當輸入的anchor A與GT相差較小時，可以認為這種變換是一種線性變換，那么就可以用線性回歸來建模對窗口進行微調（注意，只有當anchors A和GT比較接近時，才能使用線性回歸模型，否則就是復雜的非線性問題了）。 ? 接下來的問題就是如何通過線性回歸獲得?了。線性回歸就是給定輸入的特征向量X, 學習一組參數W, 使得經過線性回歸后的值跟真實值Y非常接近，即Y=WX。對于該問題，輸入X是cnn feature map，定義為Φ；同時還有訓練傳入A與GT之間的變換量，即。輸出是四個變換。那么目標函數可以表示為： ?

其中是對應anchor的feature map組成的特征向量，?是需要學習的參數，是得到的預測值（*表示 x，y，w，h，也就是每一個變換對應一個上述目標函數）。為了讓預測值與真實值差距最小，設計L1損失函數：

函數優化目標為： ?

為了方便描述，這里以L1損失為例介紹，而真實情況中一般使用soomth-L1損失。 ? 需要說明，只有在GT與需要回歸框位置比較接近時，才可近似認為上述線性變換成立。
說完原理，對應于Faster RCNN原文，positive anchor與ground truth之間的平移量??與尺度因子?如下： ?

對于訓練bouding box regression網絡回歸分支，輸入是cnn feature Φ，監督信號是Anchor與GT的差距?，即訓練目標是：輸入 Φ的情況下使網絡輸出與監督信號盡可能接近。那么當bouding box regression工作時，再輸入Φ時，回歸網絡分支的輸出就是每個Anchor的平移量和變換尺度，顯然即可用來修正Anchor位置了。 ?

2.5 對proposals進行bounding box regression

在了解bounding box regression后，再回頭來看RPN網絡第二條線路，如圖12。

圖12 RPN中的bbox reg

先來看一看上圖11中1x1卷積的caffe prototxt定義： ?

layer {
  name: "rpn_bbox_pred"
  type: "Convolution"
  bottom: "rpn/output"
  top: "rpn_bbox_pred"
  convolution_param {
    num_output: 36   # 4 * 9(anchors)
    kernel_size: 1 pad: 0 stride: 1
  }
}

? 可以看到其 num_output=36，即經過該卷積輸出圖像為WxHx36，在caffe blob存儲為[1, 4x9, H, W]，這里相當于feature maps每個點都有9個anchors，每個anchors又都有4個用于回歸的

變換量。 ? 回到圖8，VGG輸出?50*38*512?的特征，對應設置?50*38*k?個anchors，而RPN輸出： ?

大小為50*38*2k?的positive/negative softmax分類特征矩陣；

大小為?50*38*4k?的regression坐標回歸特征矩陣。

恰好滿足RPN完成positive/negative分類+bounding box regression坐標回歸。 ?

2.6 Proposal Layer

Proposal Layer負責綜合所有??變換量和positive anchors，計算出精準的proposal，送入后續RoI Pooling Layer。還是先來看看Proposal Layer的caffe prototxt定義： ?

layer {
  name: 'proposal'
  type: 'Python'
  bottom: 'rpn_cls_prob_reshape'
  bottom: 'rpn_bbox_pred'
  bottom: 'im_info'
  top: 'rois'
  python_param {
    module: 'rpn.proposal_layer'
    layer: 'ProposalLayer'
    param_str: "'feat_stride': 16"
  }
}

? Proposal Layer有3個輸入：positive vs negative anchors分類器結果rpn_cls_prob_reshape，對應的bbox reg的?

變換量rpn_bbox_pred，以及im_info；另外還有參數feat_stride=16，這和圖4是對應的。 ? 首先解釋im_info。對于一副任意大小PxQ圖像，傳入Faster RCNN前首先reshape到固定MxN，im_info=[M, N, scale_factor]則保存了此次縮放的所有信息。然后經過Conv Layers，經過4次pooling變為WxH=(M/16)x(N/16)大小，其中feature_stride=16則保存了該信息，用于計算anchor偏移量。

圖13

Proposal Layer forward（caffe layer的前傳函數）按照以下順序依次處理： ?

生成anchors，利用對所有的anchors做bbox regression回歸（這里的anchors生成和訓練時完全一致）；

按照輸入的positive softmax scores由大到小排序anchors，提取前pre_nms_topN(e.g. 6000)個anchors，即提取修正位置后的positive anchors；

限定超出圖像邊界的positive anchors為圖像邊界，防止后續roi pooling時proposal超出圖像邊界（見文章底部QA部分圖21）；

剔除尺寸非常小的positive anchors；

對剩余的positive anchors進行NMS（nonmaximum suppression）

Proposal Layer有3個輸入：positive和negative anchors分類器結果rpn_cls_prob_reshape，對應的bbox reg的(e.g. 300)結果作為proposal輸出。

之后輸出proposal=[x1, y1, x2, y2]，注意，由于在第三步中將anchors映射回原圖判斷是否超出邊界，所以這里輸出的proposal是對應MxN輸入圖像尺度的，這點在后續網絡中有用。另外我認為，嚴格意義上的檢測應該到此就結束了，后續部分應該屬于識別了。 ? RPN網絡結構就介紹到這里，總結起來就是：
生成anchors -> softmax分類器提取positvie anchors -> bbox reg回歸positive anchors -> Proposal Layer生成proposals

3 RoI pooling

而RoI Pooling層則負責收集proposal，并計算出proposal feature maps，送入后續網絡。從圖2中可以看到Rol pooling層有2個輸入： ?

原始的feature maps

RPN輸出的proposal boxes（大小各不相同）

3.1 為何需要RoI Pooling

先來看一個問題：對于傳統的CNN（如AlexNet和VGG），當網絡訓練好后輸入的圖像尺寸必須是固定值，同時網絡輸出也是固定大小的vector or matrix。如果輸入圖像大小不定，這個問題就變得比較麻煩。有2種解決辦法： ?

從圖像中crop一部分傳入網絡；

將圖像warp成需要的大小后傳入網絡。

兩種辦法的示意圖如圖14，可以看到無論采取那種辦法都不好，要么crop后破壞了圖像的完整結構，要么warp破壞了圖像原始形狀信息。 ? 回憶RPN網絡生成的proposals的方法：對positive anchors進行bounding box regression，那么這樣獲得的proposals也是大小形狀各不相同，即也存在上述問題。所以Faster R-CNN中提出了RoI Pooling解決這個問題。不過RoI Pooling確實是從Spatial Pyramid Pooling發展而來，但是限于篇幅這里略去不講，有興趣的讀者可以自行查閱相關論文。 ?

3.2 RoI Pooling原理

分析之前先來看看RoI Pooling Layer的caffe prototxt的定義： ?

layer {
  name: "roi_pool5"
  type: "ROIPooling"
  bottom: "conv5_3"
  bottom: "rois"
  top: "pool5"
  roi_pooling_param {
    pooled_w: 7
    pooled_h: 7
    spatial_scale: 0.0625 # 1/16
  }
}

? 其中有新參數pooled_w和pooled_h，另外一個參數spatial_scale認真閱讀的讀者肯定已經知道知道用途。RoI Pooling layer forward過程： ?

由于proposal是對應MxN尺度的，所以首先使用spatial_scale參數將其映射回(M/16)x(N/16)大小的feature map尺度；

再將每個proposal對應的feature map區域水平分為pooled_w x pooled_h 的網格；

對網格的每一份都進行max pooling處理。

這樣處理后，即使大小不同的proposal輸出結果都是?pooled_w x pooled_h?固定大小，實現了固定長度輸出。

圖15 proposal示意圖

4 Classification

Classification部分利用已經獲得的proposal feature maps，通過full connect層與softmax計算每個proposal具體屬于那個類別（如人，車，電視等），輸出cls_prob概率向量；同時再次利用bounding box regression獲得每個proposal的位置偏移量bbox_pred，用于回歸更加精確的目標檢測框。Classification部分網絡結構如圖16。

圖16 Classification部分網絡結構圖

從RoI Pooling獲取到7x7=49大小的proposal feature maps后，送入后續網絡，可以看到做了如下2件事： ?

通過全連接和softmax對proposals進行分類，這實際上已經是識別的范疇了;

再次對proposals進行bounding box regression，獲取更高精度的rect box。

這里來看看全連接層InnerProduct layers，簡單的示意圖如圖17：

圖17 全連接層示意圖

其計算公式如下：

其中W和bias B都是預先訓練好的，即大小是固定的，當然輸入X和輸出Y也就是固定大小。所以，這也就印證了之前Roi Pooling的必要性。到這里，我想其他內容已經很容易理解，不在贅述了。 ?

5 Faster RCNN訓練

Faster R-CNN的訓練，是在已經訓練好的model（如VGG_CNN_M_1024，VGG，ZF）的基礎上繼續進行訓練。實際中訓練過程分為6個步驟： ?

在已經訓練好的model上，訓練RPN網絡，對應stage1_rpn_train.pt

利用步驟1中訓練好的RPN網絡，收集proposals，對應rpn_test.pt

第一次訓練Fast RCNN網絡，對應stage1_fast_rcnn_train.pt

第二訓練RPN網絡，對應stage2_rpn_train.pt

再次利用步驟4中訓練好的RPN網絡，收集proposals，對應rpn_test.pt

第二次訓練Fast RCNN網絡，對應stage2_fast_rcnn_train.pt

可以看到訓練過程類似于一種“迭代”的過程，不過只循環了2次。至于只循環了2次的原因是應為作者提到："A similar alternating training can be run for more iterations, but we have observed negligible improvements"，即循環更多次沒有提升了。接下來本章以上述6個步驟講解訓練過程。 ? 下面是一張訓練過程流程圖，應該更加清晰：

5.1 訓練RPN網絡

在該步驟中，首先讀取RBG提供的預訓練好的model（本文使用VGG），開始迭代訓練。來看看stage1_rpn_train.pt網絡結構，如圖19。

圖19 stage1_rpn_train.pt（考慮圖片大小，Conv Layers中所有的層都畫在一起了，如紅圈所示，后續圖都如此處理）

與檢測網絡類似的是，依然使用Conv Layers提取feature maps。整個網絡使用的Loss如下：

上述公式中 i?表示anchors index，表示positive softmax probability，代表對應的GT predict概率（即當第i個anchor與GT間IoU>0.7，認為是該anchor是positive，；反之IoU<0.3時，認為是該anchor是negative，；至于那些0.3<0.7的anchor則不參與訓練）；t代表predict>

cls loss，即rpn_cls_loss層計算的softmax loss，用于分類anchors為positive與negative的網絡訓練；

reg loss，即rpn_loss_bbox層計算的soomth L1 loss，用于bounding box regression網絡訓練。注意在該loss中乘了??，相當于只關心positive anchors的回歸（其實在回歸中也完全沒必要去關心negative）。

由于在實際過程中，和差距過大，用參數λ平衡二者（如，時設置?），使總的網絡Loss計算過程中能夠均勻考慮2種Loss。這里比較重要是?使用的soomth L1 loss，計算公式如下： ?

了解數學原理后，反過來看圖18： ?

在RPN訓練階段，rpn-data（python AnchorTargetLayer）層會按照和test階段Proposal層完全一樣的方式生成Anchors用于訓練；

對于rpn_loss_cls，輸入的rpn_cls_scors_reshape和rpn_labels分別對應?與?，參數隱含在與的caffe blob的大小中；

對于rpn_loss_bbox，輸入的rpn_bbox_pred和rpn_bbox_targets分別對應 t?與?t*?，rpn_bbox_inside_weigths對應?，rpn_bbox_outside_weigths未用到（從smooth_L1_Loss layer代碼中可以看到），而同樣隱含在caffe blob大小中。

這樣，公式與代碼就完全對應了。特別需要注意的是，在訓練和檢測階段生成和存儲anchors的順序完全一樣，這樣訓練結果才能被用于檢測！ ?

5.2 通過訓練好的RPN網絡收集proposals

在該步驟中，利用之前的RPN網絡，獲取proposal rois，同時獲取positive softmax probability，如圖20，然后將獲取的信息保存在python pickle文件中。該網絡本質上和檢測中的RPN網絡一樣，沒有什么區別。

圖20 rpn_test.pt

5.3 訓練Faster RCNN網絡

讀取之前保存的pickle文件，獲取proposals與positive probability。從data層輸入網絡。然后： ?

將提取的proposals作為rois傳入網絡，如圖21藍框；

計算bbox_inside_weights+bbox_outside_weights，作用與RPN一樣，傳入soomth_L1_loss layer，如圖21綠框。

這樣就可以訓練最后的識別softmax與最終的bounding box regression了。

圖21 stage1_fast_rcnn_train.pt

之后的stage2訓練都是大同小異，不再贅述了。Faster R-CNN還有一種end-to-end的訓練方式，可以一次完成train，有興趣請自己看作者GitHub吧。 ? rbgirshick py-faster-rcn： github.com/rbgirshick/py-faster-rcnn

Q&A

此篇文章初次成文于2016年內部學習分享，再后來經多次修正和完善成為現在的樣子。感謝大家一直以來的支持，現在總結常見疑問回答如下： ?

為什么Anchor坐標中有負數？

回顧anchor生成步驟：首先生成9個base anchor，然后通過坐標偏移在50*38?大小的 1/16下采樣FeatureMap每個點都放上這9個base anchor，就形成了?50*38*k?個anhcors。至于這9個base anchor坐標是什么其實并不重要，不同代碼實現也許不同。 ? 顯然這里面有一部分邊緣anchors會超出圖像邊界，而真實中不會有超出圖像的目標，所以會有clip anchor步驟。

圖21 clip anchor

Anchor到底與網絡輸出如何對應？

VGG輸出 50*38*512?的特征，對應設置?50*38*k?個anchors，而RPN輸出?50*38*2k?的分類特征矩陣和?50*38*4k?的坐標回歸特征矩陣。

圖22 anchor與網絡輸出如何對應方式

其實在實現過程中，每個點的 2k?個分類特征與 4k?回歸特征，與 k?個anchor逐個對應即可，這實際是一種“人為設置的邏輯映射”。當然，也可以不這樣設置，但是無論如何都需要保證在訓練和測試過程中映射方式必須一致。 ?

為何有ROI Pooling還要把輸入圖片resize到固定大小的MxN？

由于引入ROI Pooling，從原理上說Faster R-CNN確實能夠檢測任意大小的圖片。但是由于在訓練的時候需要使用大batch訓練網絡，而不同大小輸入拼batch在實現的時候代碼較為復雜，而且當時以Caffe為代表的第一代深度學習框架也不如Tensorflow和PyTorch靈活，所以作者選擇了把輸入圖片resize到固定大小的800x600。這應該算是歷史遺留問題。 ? 另外很多問題，都是屬于具體實現問題，真誠的建議讀者閱讀代碼自行理解。??

編輯：黃飛

閱讀全文

人工智能(229987) 人工智能(229987)
數據結構(39862) 數據結構(39862)
分類器(13099) 分類器(13099)
網絡結構(10917) 網絡結構(10917)
cnn(21235) cnn(21235)

賽靈思FPGA全局時鐘網絡結構詳解

針對不同類型的器件，Xilinx公司提供的全局時鐘網絡在數量、性能等方面略有區別，下面以Virtex-4系列芯片為例，簡單介紹FPGA全局時鐘網絡結構。

2013-11-28 18:49:00

12150

四旋翼的四軸四個電機不是同步開始轉是什么問題？

四軸四個電機不是同步開始轉是什么問題？求大神解決！！！

2015-07-25 12:02:13

四個ping命令搞定網絡故障

四個ping命令搞定網絡故障如果你的電腦不能上網或者突然不能上網了怎么辦？請專業人員來維修還是自己瞎急一通呢，下面給大家介紹如何準確地判斷電腦不能上網問題出在哪里？又如何能快捷地解決這故障？希望下文

2009-04-13 14:24:37

網絡結構與IP分組交換技術

《計算機體系結構—網絡篇1、2》之 網絡結構、IP分組交換技術、IP/MAC映射、NAT轉換等...

2021-12-23 06:05:38

網絡結構與IP分組交換技術簡析

課程內容：網絡結構、IP分組交換技術、IP/MAC地址映射、私網公網IP、NAT轉換、網卡、交換機、路由器等，以上這些內容對于很多同學來說是熟悉又陌生，熟悉的是經常聽到，陌生的是沒有多少同學真的完全弄明白了，這部分課程會為大家解決這個問題。...

2022-01-12 07:12:09

DVB-H網絡結構

DVB-H網絡結構DVB-H同樣采用單頻網（SFN），對頻率資源再用，每個單頻網的半徑大約40公里，內部由多個發射機和功率增強器覆蓋，發射機之間采用IP網聯接，每個發射機配有一個IP/DVB打包機

2009-07-17 21:34:33

LTE的網絡結構和核心技術

的系統框架大部分已經完成。　　　LTE采用由ENodeB構成的單層結構，這種結構有利于簡化網絡和減小延遲，實現了低時延，低復雜度和低成本的要求。與傳統的3GPP接入網相比，LTE網絡RNC節點

2011-10-27 14:22:22

RK3399 PRO npu支持faster RCNN做全圖檢測嗎

RK3399 PRO npu 支持 faster RCNN 做全圖檢測么？能否提供一個例子或者設置方法？

2022-04-15 10:55:07

STM32芯片系統結構四個驅動單元

STM32芯片系統結構四個驅動單元 Icode、Dcode、System、DMA指令總線 Icode數據總線 Dcode將Cortex-M3和Flash、SRAM進行連接加載用const修飾（若用

2021-12-14 07:39:22

UI設計的四個方向

2019-04-16 14:24:14

YOLOv5網絡結構解析

1、YOLOv5 網絡結構解析　　YOLOv5針對不同大小（n， s， m， l， x）的網絡整體架構都是一樣的，只不過會在每個子模塊中采用不同的深度和寬度，　　分別應對yaml文件中

2022-10-31 16:30:17

linux不同網絡結構的不同IP設法

Linux的裝系統設IP，這應該是系統管理員的基本功，可是不同的網絡結構有不同的IP設法，您知道嗎？

2019-07-05 06:52:17

三維空間中每一平面有四個點，能根據這四個點畫出一個圓來嗎？

各位大佬，想問一下就是三維空間中每一平面有四個點能根據這四個點畫出一個圓來嗎？應該如何實現？希望有人能夠講解一下不勝感激

2022-05-24 16:46:54

為什么GUI觸摸屏校準四個點的坐標都相同？

我想把GUI 屏幕校準的函數用在項目中可是依次點好四個點后顯示出來四個點的坐標都相同。。都是5535 我用的是2.8寸屏幕請問是函數沒有移植好嗎？校準函數是TP_Adjust();求大神解答謝謝了~

2019-10-28 22:30:42

你知道四軸的四個電機轉的方向是不一樣的嗎

你知道四軸的四個電機轉的方向是不一樣的嗎？基本結構四軸利用其復雜的算法控制來彌補其簡單的機械結構。其采用四個旋翼作為飛行的直接動力源，旋翼對稱分布在機體的四個方向，一般裝成“X”型的或者“十”型

2021-09-06 08:47:40

使用ad9106的四個輸出渠道, 每個頻道包含1000個點，如何設定輸出波形的頻率 ?

我們使用 ad9106 的四個輸出渠道, 每個頻道包含 1000 個點。如何設定輸出波形的頻率 ? 例如,如果我們想要輸出一個平方波, 如何設定平方波的頻率 ?

2023-12-01 07:55:21

單片機程序中的六個設計原則分別是哪些

片頭在上一篇文章中已經介紹了“單一職責原則”在單片機程序中的使用，并以“環形緩存”作為介紹切入點，因為“環形緩存”在應用中比較多，所以在介紹“開閉原則”時依然以它作為介紹切入點。六個設計原則分別

2022-03-01 06:06:57

各位大佬，四個***的點陣怎么仿真，有原理圖

各位大佬，四個***的點陣怎么仿真。有原理圖。

2019-04-04 20:52:14

如何利用STM32F401VE實現四個按鈕分別控制四個LED燈？

2021-11-17 08:02:58

如何在Altium中板框的四個邊進行倒角？

板框的四個邊如何進行倒角？

2019-07-31 23:06:20

如何實現UCOS系統四個任務相互制約？

我用ucos系統跑四個任務，其中一個任務執行，其余三個任務不可以執行，也不可以打斷當前執行的任務，直到當前任務執行完畢。才可以根據外設中斷或者通訊請求執行四個任務中的一個。剛剛接觸ucos我應該怎么實現啊。

2019-04-04 06:36:21

如何用labview將IP地址的四個數值部分拆分成四個數值

在TCP通訊中，需要將IP地址轉換成hex碼，并需要求異或和。如何用labview將IP地址的四個數值部分拆分成四個單個數值？

2017-10-04 10:36:46

學習Linux的四個步驟

學習Linux的四個步驟解答：學習Linux的四個步驟假設你是計算機科班出身，計算機系的基本課程如數據結構、操作系統、體系結構、編譯原理、計算機網絡你全修過我想大概可以分為4個階段，水平從低到高從

2017-09-24 15:27:29

實現四個按鈕分別控制四個LED燈

實現四個按鈕分別控制四個LED燈，按一次亮，再按一次熄滅。掌握芯片的終端機制，并學會進行中斷配置。GPIO控制器 -> SYSCFG選擇器 -> EXTI外部中斷控制器 ->

2021-08-16 08:10:58

工程師必須掌握模擬IC設計的四個部分

基本單元都是互補型源極接地放大電路。模擬電子技術的重要性時不我待。模擬電路再怎么說，關鍵的是多學多做，做出片子就自然懂得哪些知識點需要掌握了。這里就主要談談學習模擬電路要求的四個知識部分，要成為模擬電路

2018-08-22 09:29:21

怎么運行Faster RCNN的tensorflow代碼

如何運行Faster RCNN的tensorflow代碼

2020-06-15 09:25:04

手寫只是平板電腦的切入點

本CEO杜國楹。中國經濟時報：壹人壹本的手寫技術能否使自己成為一個很偉大的公司？杜國楹：手寫既不是今天的全部，更不是未來的全部。它是我們進入市場的一個切入點，也是我們最大的優勢。現在手寫主要服務于

2013-10-22 10:51:06

手繪網絡結構圖

手繪一些網絡結構圖，很初級

2019-10-25 14:06:33

接入網四種結構的優缺點

線直接連接的網絡結構。其特點是共享主干光纖，節約線路投資，增刪節點容易，動態范圍要求較高，彼此干擾較小。缺點是損耗積累，用戶接受對主干光纖的依賴性強。二是環形結構。指所有節點共用一條光纖鏈路，光纖鏈路

2020-12-01 16:11:44

時鐘系統與內部結構四個驅動單元

功耗。特別是對手持式設備、利用電池供電的設備都功耗要求比較高。一、時鐘系統與內部結構四個驅動單元Cortex-M3內核ICode總線（I-bus）.DCode總線（D-bus）.和系統總線（S...

2021-08-06 08:05:06

求助。我國市級電話網絡結構

我國的市級的電話網絡結構是一樣的么他的結構圖是怎么樣的

2013-11-09 19:43:01

深度學習RCNN算法

目標檢測算法圖解：一文看懂RCNN系列算法

2019-08-29 09:50:56

用四個按鈕控制四個繼電器的程序怎么寫？

我想用四個按鈕控制四個繼電器，假設按鈕為ABCD，繼電器為EFGH,AB按下E動，CD按下F動，AC按下G動，BD按下H動，都按下不動，麻煩高手給個程序他，我用的單片機是AT89C51，打算用P1口

2015-07-22 00:28:41

直流電源EMI濾波器的設計原則、網絡結構、參數選擇

的設計原則、網絡結構、參數選擇<br/>1設計原則——滿足最大阻抗失配插入損耗要盡可能增大，即盡可能增大信號的反射。設電源的輸出阻抗和與之端接的濾波器的輸人阻抗分別為ZO

2009-10-10 13:07:57

直流電源EMI濾波器的設計原則、網絡結構、參數選擇

直流電源EMI濾波器的設計原則、網絡結構、參數選擇

2012-04-08 12:49:42

神經網絡結構搜索有什么優勢？

，稍有不同就無法復現論文的結果。而網絡結構作為一種特殊的超參數，在深度學習整個環節中扮演著舉足輕重的角色。在圖像分類任務上大放異彩的ResNet、在機器翻譯任務上稱霸的Transformer等網絡結構

2019-09-11 11:52:14

請問MLO存放的四個block是否有必要？

本帖最后由一只耳朵怪于 2018-6-21 15:12 編輯查看TI官方資料，說MLO存放nand的四個block中，從第一個開始到第四個block直到成功啟動為止，請問是否很有必要

2018-06-21 03:36:06

請問一下無線局域網的兩種網絡結構是什么？

請問一下無線局域網的兩種網絡結構是什么？

2023-05-09 16:22:11

請問小四軸四個720空心杯為什么不能同時轉動起來？

小四軸，四個720空心杯電機，我把板子電源接口直接接到穩壓電源的，4.2V，1A。如果只驅動一個電機，那電機轉動很快，驅動兩個電機，電機也能轉，但是轉速就變慢了。當一起驅動四個電機時，根本驅動不起來

2019-05-17 06:36:26

請問無線局域網的兩種網絡結構分別是什么呢？

請問無線局域網的兩種網絡結構分別是什么呢？

2023-05-09 16:27:04

請問逆變器輸出LC濾波器有沒有比較系統的設計方法？切入點在哪呢？

請問逆變器輸出LC濾波器有沒有比較系統的設計方法？切入點在哪呢？

2017-11-03 19:51:25

基于網絡結構的變頻器控制系統

基于網絡的變頻器能實現監控數據的網絡共享以及參數的在線優化。本文介紹Ａ—Ｂ變頻器的各種網絡結構、各種網絡的特點以及通信的數據結構。關鍵詞：變頻器自動化網絡通

2009-05-31 16:54:46

TD-SCDMA網絡結構

TD-SCDMA 系統的網絡結構完全遵循3GPP 指定的UMTS 網絡結構，可以分為接入網(UTRAN)和核心網(CN)。本章首先介紹UMTS 的物理網絡結構模型，根據TD-SCDMA 系統的接入網和核心網組成闡述

2009-06-19 14:10:36

217

TD-SCDMA R4網絡結構和技術要求

TD-SCDMA R4網絡結構和技術要求:核心網演進過程R99網絡結構R4網絡結構

2009-07-30 08:19:32

DeviceNet 網絡結構

DeviceNet 網絡結構 基于現場總線的開放的自動化系統底層結構近年來發展起來的現場總線技術以其靈活的控制方式信息共享和低成本等特點被廣泛的用于復的

2010-03-22 15:46:51

無標度網絡拓撲結構非均勻性研究

利用網絡結構熵定量分析了無標度網絡拓撲結構的非均勻性．通過引入度秩函數，解析地給出了無標度網絡的網絡結構熵．研究發現當標度指數大于2時，無標度網絡的網絡結構熵

2010-10-15 16:24:57

基于GMPLS的光突發交換的原理與網絡結構

基于GMPLS的光突發交換的原理與網絡結構 基于GMPLS的OBS具有OBS的基本特點，如變長度的數據轉發單元(突發包)；控制信息(控制分組)與突發包

2009-03-04 11:53:38

716

GPRS、CDMA1X網絡結構大對比

GPRS、CDMA1X網絡結構大對比摘要：目前，基于GPRS/CDMA無線數據傳輸業務廣泛在移動辦公、工業控制、遠程遙測等多方面應用，網絡運營

2009-12-19 10:45:52

3479

企業應找準智能電網切入點

企業應找準智能電網切入點 在過去的一年中,智能電網受到世界各國的高度關注,中國國家電網公司也于去年上半年正式啟動智能電網建設。有資料顯示,傳統電網的

2010-02-25 09:04:52

295

HFC網絡,HFC網絡結構組成是什么?

HFC網絡,HFC網絡結構組成是什么? 一、區域網多業務系統服務商(MSO)越來越常見，他們將幾個相鄰的系統做到一起而組成一個更大的區域

2010-03-20 14:04:42

9494

環形網絡,環形網絡結構是什么?

環形網絡,環形網絡結構是什么? 這種結構的網絡形式主要應用于令牌網中，在這種網絡結構中各設備是直接通過電纜來串接的，最后形成一個閉環，

2010-03-22 11:14:26

5779

什么是光纖接入網(OAN)的網絡結構

什么是光纖接入網(OAN)的網絡結構 光纖接入網(OAN)，是指用光纖作為主要的傳輸媒質，實現接入網的信息傳送功能。通過光線路終端(OL

2010-04-06 11:20:19

2528

ATM網絡結構和接口

一、ATM網絡結構 ATM網可分為三大部分：公用ATM網、專用ATM網和ATM接入網。公用ATM網是由電信管理部門經營和管理

2010-06-10 08:02:13

1934

NGN網絡結構三層平面模型的研究

NGN結構的研究是下一代網絡體系結構研究中的核心內容針對目前下一代網絡研究狀況，本文提出一種三層平面結構模型.業務平面抽象NGN網絡結構的功能需求，功能平面抽象獨立于物理網

2011-09-21 16:39:44

4G網絡結構及關鍵技術

4G網絡結構及關鍵技的精彩講解

2011-11-10 17:19:46

114

三種zigbee網絡架構詳解

在萬物互聯的背景下，zigbee網絡應用越加廣泛，zigbee技術具有強大的組網能力，可以形成星型、樹型和網狀網，三種zigbee網絡結構各有優勢，可以根據實際項目需要來選擇合適的zigbee網絡結構。

2016-07-28 16:02:51

51255

基于自適應果蠅算法的神經網絡結構訓練

基于自適應果蠅算法的神經網絡結構訓練_霍慧慧

2017-01-03 17:41:58

智能電表數據采集新型網絡結構與傳輸協議_程瑛穎

智能電表數據采集新型網絡結構與傳輸協議_程瑛穎

2017-01-12 20:08:01

基于網絡結構的專利池許可費計算方法_莫愿斌

基于網絡結構的專利池許可費計算方法_莫愿斌

2017-03-16 09:09:26

網絡結構中鏈接壽命的研究

的特性，特別是基于網絡拓撲結構的研究，以期改善當前的網絡應用并創造新的受歡迎的社交網絡應用。然而，大多數的現有研究方法只是研究隨著時間積累的網絡結構的動態變化，這些方法無法完全反映社交網絡的其他特性比如鏈接壽命現象。鏈接壽命現象是指社交網絡中的

2017-11-24 09:50:31

[目標檢測]Faster RCNN算法詳解

》，《fast RCNN算法詳解》。思想從RCNN到fast RCNN，再到本文的faster RCNN，目標檢測的四個基本步驟（候選區域生成，特征提取，分類，位置精修）終于被統一到

2017-12-06 02:30:04

557

概率模型的大規模網絡結構發現方法

網絡結構發現任務的有效工具，但該類方法存在計算瓶頸．近幾年出現了一些基于概率模型的大規模網絡結構發現方法，主要從網絡表示、結構假設、參數求解這3個方面解決計算問題．按照模型參數求解策略將已有方法歸為兩類：隨

2018-02-12 10:48:18

神經網絡瘦身：關于SqueezeNet的創新點、網絡結構

關于SqueezeNet的創新點、網絡結構，國內已經有若干愛好者發布了相關的簡介，如這篇（http://blog.csdn.net/xbinworld/article/details

2018-03-13 16:41:33

4986

網絡結構自動設計算法——BlockQNN

神經網絡結構設計一直是深度學習里的核心問題。在基于深度學習的分類、檢測、分割、跟蹤等任務中，基礎神經網絡的結構對整體算法的性能優劣有著決定性的影響。

2018-05-17 09:44:43

5221

程序猿為大家帶來的深度學習版本“撩妹”技巧

Faster RCNN(圖2)是由被粉絲們昵稱為RGB的Ross B.Girshick所發表。自2013年起發表的RCNN三部曲包含RCNN、Fast RCNN以及Faster RCNN。最終版

2018-10-04 16:36:00

2448

一種新型神經網絡結構：膠囊網絡

膠囊網絡是 Geoffrey Hinton 提出的一種新型神經網絡結構，為了解決卷積神經網絡（ConvNets）的一些缺點，提出了膠囊網絡。

2019-02-02 09:25:00

5417

一種神經網絡結構改進方法「ReZero」

近日，來自加州大學圣迭戈分校（UCSD）的研究者提出一種神經網絡結構改進方法「ReZero」，它能夠動態地加快優質梯度和任意深層信號的傳播。

2020-04-17 09:30:56

5083

主流的數據中心網絡結構介紹

作為數據中心部署工程師，首先要熟悉各種網絡的拓撲結構，將適合自己網絡的拓撲結構羅列出來，再一一篩選。那么主流的數據中心網絡結構有哪些呢？

2020-06-01 14:55:51

3922

廣州移動和中興通訊開啟網絡結構優化AI時代

近日，廣州移動攜手中興通訊率先在越秀區完成5G站點 AAPC（Automatic Antenna Pattern Control）權值自優化方案的驗證，通過AI技術與網絡結構優化的深度融合，大大簡化

2020-08-14 17:02:50

1918

廣州移動和中興通訊共同開啟網絡結構優化AI時代

2020-08-14 17:50:17

2447

傳感器已成物聯網和工業物聯網的重要切入點

物聯網要想走得更遠，取決于傳感器的發展程度。無論是從信息測量、分析到機器之間的控制，都依賴傳感器來收集信息。無論誰想在物聯網乃至工業物聯網中占有一席之地，傳感器都是最合適的切入點。

2020-08-17 10:06:08

900

交換機的三層網絡結構介紹

對于一大型監控項目，其重點就是交換機的選擇了，這里我們選用三層網絡結構，網絡結構為接入層‐匯聚層‐核心層。相對兩層網絡架構，三層架構網絡組網規模更大，傳輸距離更遠，網絡可拓展性更強。

2021-01-09 10:29:49

10452

目標檢測：Faster RCNN算法詳解

》，《fast RCNN算法詳解》。思想從RCNN到fast RCNN，再到本文的faster RCNN，目標檢測的四個基本步驟（候選區域生成，特征提取，分類，位置精修）終于被統

2021-01-13 16:25:31

4324

加強人臉識別準確率的Faster-RCNN模型

為實現對自然場景下小尺度人臉的準確檢測，提出一種改進的 Faster-RCNN模型。采用 Resnet-50提取卷積特征，對不同卷積層的特征圖進行多尺度融合，同時將區域建議網絡產生的錨框由最初

2021-03-11 17:24:42

一種改進的深度神經網絡結構搜索方法

為提升網絡結構的尋優能力，提岀一種改進的深度神經網絡結構搜索方法。針對網絡結構間距難以度量的問題，結合神經網絡的結構搜索方案，設計基于圖的深度神經網絡結構間距度量方式。對少量步數訓練和充分訓練

2021-03-16 14:05:46

實現DA轉換器雙極性電壓輸出的雙R-2R電阻網絡結構

本論文提出了一種能實現DA轉換器雙極性電壓輸出的雙R-2R電阻網絡結構，并對該結構的各項特性進行了理論分析、仿真驗證，通過最后的流片測試，結果表明本論文所提出的結構與目前常用的兩種實現雙極性電壓輸出的雙R-2R電阻網絡結構相比，在工藝依賴性和長期穩定性上有一定的優勢。

2021-03-23 09:16:28

基于雙編碼器網絡結構的CGAtten-GRU模型

為了解決序列到序列模型中編碼器不能充分編碼源文本的問題，構建一種基于雙編碼器網絡結構的Cgatten-GRU模型。2個編碼器分別使用卷積神經網絡和雙向門控循環單元，源文本并行進入雙編碼器，結合

2021-04-01 15:10:47

一種脫離預訓練的多尺度目標檢測網絡模型

設計新的Deformable- Scratch Net網絡模型，調整網絡結構并融合淺層信息以提高對小目標的檢測性能。實驗結果表明，與Faster-RCNN等經典網絡模型相比，該模型在 PASCALⅤOC數據集和自制遙感軍事目標數據集上的檢測精度更高。

2021-04-02 11:35:50

幾種典型神經網絡結構的比較與分析

幾種典型神經網絡結構的比較與分析說明。

2021-04-28 10:11:58

面向圖像識別的輕量級SepNet網絡結構

針對卷積神經網絡在圖像識別任務上模型復雜度大、參數量多，首先提出了一種輕量仳的 Sepet網絡結構，該結構在分類器模抉上采用克羅內克積替換了傳統的全連接層。為進一步優化網絡結構，在特征提取模塊均衡

2021-06-03 16:20:03

人工智能走進現實世界的切入點是

人工智能（AI）是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。而人工智能走進現實世界的切入點是什么？想要知道人工智能走進現實世界的切入點是什么這個

2021-06-04 14:39:44

2007

融合網絡結構和節點屬性的鏈接預測模型

融合網絡結構和節點屬性的鏈接預測模型

2021-06-09 11:41:35

古籍版面分析和風格融合網絡結構分析

古籍版面分析和風格融合網絡結構分析

2021-06-25 11:45:32

卷積神經網絡結構優化綜述

學習社區的一個研究熱點.本文整理了卷積神經網絡結構優化技術的發展歷史、研究現狀以及典型方法,將這些工作歸納為網絡剪枝與稀疏化、張量分解、知識遷移和精細模塊設計4 個方面并進行了較為全面的探討.最后,本文對當前研究的熱點與難點作了分析和總結,并對網絡結構優化領域未來的發展方向和應用前景進行了展望.

2022-02-14 11:02:59

755

卷積神經網絡結構組成與解釋

來源：機器學習算法那些事卷積神經網絡是以卷積層為主的深度網路結構，網絡結構包括有卷積層、激活層、BN層、池化層、FC層、損失層等。卷積操作是對圖像和濾波矩陣做內積（元素相乘再求和）的操作。1.卷積

2023-06-28 10:05:59

1321

卷積神經網絡結構

卷積神經網絡結構 卷積神經網絡(Convolutional Neural Network, CNN)是一種前饋神經網絡，常用于圖像處理、自然語言處理等領域中。它是一種深度學習（Deep

2023-08-17 16:30:35

804

都2023年了，Faster-RCNN還能用嗎？

在多數深度學習開發者的印象中Faster-RCNN與Mask-RCNN作為早期的RCNN系列網絡現在應該是日薄西山，再也沒有什么值得留戀的地方，但是你卻會發現Pytorch無論哪個版本的torchvision都一直在支持Faster-RCNN與Mask-RCNN模型網絡的遷移學習訓練。

2023-10-11 16:44:16

324