一区二区三区不卡在线,亚洲欧美日韩高清在线看,污在线看

最近，基于Transformer的端到端檢測器（DETR）已經(jīng)取得了顯著的性能。然而，DETR的高計(jì)算成本問題尚未得到有效解決，這限制了它們的實(shí)際應(yīng)用，并使它們無法充分利用無后處理的好處，如非最大值抑制（NMS）。

本文首先分析了現(xiàn)代實(shí)時(shí)目標(biāo)檢測器中NMS對推理速度的影響，并建立了端到端的速度基準(zhǔn)。為了避免NMS引起的推理延遲，作者提出了一種實(shí)時(shí)檢測Transformer（RT-DETR），這是第一個(gè)實(shí)時(shí)端到端目標(biāo)檢測器。

具體而言，設(shè)計(jì)了一種高效的混合編碼器，通過解耦尺度內(nèi)交互和跨尺度融合來高效處理多尺度特征，并提出了IoU感知的查詢選擇，以提高目標(biāo)查詢的初始化。

此外，本文提出的檢測器支持通過使用不同的解碼器層來靈活調(diào)整推理速度，而不需要重新訓(xùn)練，這有助于實(shí)時(shí)目標(biāo)檢測器的實(shí)際應(yīng)用。

RTDETR-L在COCO val2017上實(shí)現(xiàn)了53.0%的AP，在T4 GPU上實(shí)現(xiàn)了114 FPS，而RT-DETR-X實(shí)現(xiàn)了54.8%的AP和74 FPS，在速度和精度方面都優(yōu)于相同規(guī)模的所有YOLO檢測器。

此外，RTDETR-R50實(shí)現(xiàn)了53.1%的AP和108 FPS，在精度上比DINO-Deformable-DETR-R50高出2.2%的AP，在FPS上高出約21倍。

1、簡介

目標(biāo)檢測是一項(xiàng)基本的視覺任務(wù)，涉及識別和定位圖像中的目標(biāo)?，F(xiàn)代目標(biāo)檢測器有兩種典型的體系結(jié)構(gòu)：

基于CNN

基于Transformer

在過去的幾年里，人們對基于CNN的目標(biāo)檢測器進(jìn)行了廣泛的研究。這些檢測器的架構(gòu)已經(jīng)從最初的兩階段發(fā)展到一階段，并且出現(xiàn)了兩種檢測范式，Anchor-Base和Anchor-Free。這些研究在檢測速度和準(zhǔn)確性方面都取得了重大進(jìn)展。

基于Transformer的目標(biāo)檢測器（DETR）由于消除了各種手工設(shè)計(jì)的組件，如非最大值抑制（NMS），自提出以來，受到了學(xué)術(shù)界的廣泛關(guān)注。該架構(gòu)極大地簡化了目標(biāo)檢測的流水線，實(shí)現(xiàn)了端到端的目標(biāo)檢測。

實(shí)時(shí)目標(biāo)檢測是一個(gè)重要的研究領(lǐng)域，具有廣泛的應(yīng)用，如目標(biāo)跟蹤、視頻監(jiān)控、自動(dòng)駕駛等。現(xiàn)有的實(shí)時(shí)檢測器通常采用基于CNN的架構(gòu)，在檢測速度和準(zhǔn)確性方面實(shí)現(xiàn)了合理的權(quán)衡。然而，這些實(shí)時(shí)檢測器通常需要NMS進(jìn)行后處理，這通常難以優(yōu)化并且不夠魯棒，導(dǎo)致檢測器的推理速度延遲。

最近，由于研究人員在加速訓(xùn)練收斂和降低優(yōu)化難度方面的努力，基于Transformer的檢測器取得了顯著的性能。然而，DETR的高計(jì)算成本問題尚未得到有效解決，這限制了DETR的實(shí)際應(yīng)用，并導(dǎo)致無法充分利用其優(yōu)勢。這意味著，盡管簡化了目標(biāo)檢測流水線，但由于模型本身的計(jì)算成本高，很難實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測。

上述問題自然啟發(fā)考慮是否可以將DETR擴(kuò)展到實(shí)時(shí)場景，充分利用端到端檢測器來避免NMS對實(shí)時(shí)檢測器造成的延遲。為了實(shí)現(xiàn)上述目標(biāo)，作者重新思考了DETR，并對其關(guān)鍵組件進(jìn)行了詳細(xì)的分析和實(shí)驗(yàn)，以減少不必要的計(jì)算冗余。

具體而言，作者發(fā)現(xiàn)，盡管多尺度特征的引入有利于加速訓(xùn)練收斂和提高性能，但它也會(huì)導(dǎo)致編碼器中序列長度的顯著增加。因此，由于計(jì)算成本高，Transformer編碼器成為模型的計(jì)算瓶頸。為了實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測，設(shè)計(jì)了一種高效的混合編碼器來取代原來的Transformer編碼器。通過解耦多尺度特征的尺度內(nèi)交互和尺度間融合，編碼器可以有效地處理不同尺度的特征。

此外，先前的工作表明，解碼器的目標(biāo)查詢初始化方案對檢測性能至關(guān)重要。為了進(jìn)一步提高性能，作者提出了IoU-Aware的查詢選擇，它通過在訓(xùn)練期間提供IoU約束來向解碼器提供更高質(zhì)量的初始目標(biāo)查詢。

此外，作者提出的檢測器支持通過使用不同的解碼器層來靈活調(diào)整推理速度，而不需要重新訓(xùn)練，這得益于DETR架構(gòu)中解碼器的設(shè)計(jì)，并有助于實(shí)時(shí)檢測器的實(shí)際應(yīng)用。

本文提出了一種實(shí)時(shí)檢測Transformer（RT-DETR），這是第一個(gè)實(shí)時(shí)基于Transformer的端到端目標(biāo)檢測器。RT-DETR不僅在精度和速度上優(yōu)于目前最先進(jìn)的實(shí)時(shí)檢測器，而且不需要后處理，因此檢測器的推理速度不會(huì)延遲并保持穩(wěn)定，充分利用了端到端檢測流水線的優(yōu)勢。

RT-DETR-L在COCO val2017上實(shí)現(xiàn)了53.0%的AP，在NVIDIA Tesla T4 GPU上實(shí)現(xiàn)了114 FPS，而RT-DETR-X實(shí)現(xiàn)了54.8%的AP和74 FPS，在速度和精度方面都優(yōu)于相同規(guī)模的所有YOLO檢測器。因此，RT-DETR成為了一種用于實(shí)時(shí)目標(biāo)檢測的新的SOTA，如圖1所示。

此外，提出的RT-DETR-R50實(shí)現(xiàn)了53.1%的AP和108 FPS，而RT-DETR-R101實(shí)現(xiàn)了54.3%的AP和74 FPS。其中，RT-DETR50在準(zhǔn)確度上優(yōu)于DINO-Deformable-DETR-R50 2.2%的AP（53.1%的AP對50.9%的AP），在FPS（108 FPS對5 FPS）上優(yōu)于DINO-Deformable-DETR-R5約21倍。

本文的主要貢獻(xiàn)總結(jié)如下：

提出了第一個(gè)實(shí)時(shí)端到端目標(biāo)檢測器，它不僅在準(zhǔn)確性和速度上優(yōu)于當(dāng)前的實(shí)時(shí)檢測器，而且不需要后處理，因此推理速度不延遲，保持穩(wěn)定；

詳細(xì)分析了NMS對實(shí)時(shí)檢測器的影響，并從后處理的角度得出了關(guān)于基于CNN的實(shí)時(shí)檢測器的結(jié)論；

提出的IoU-Aware查詢選擇在我們的模型中顯示出優(yōu)異的性能改進(jìn)，這為改進(jìn)目標(biāo)查詢的初始化方案提供了新的線索；

本文的工作為端到端檢測器的實(shí)時(shí)實(shí)現(xiàn)提供了一個(gè)可行的解決方案，并且所提出的檢測器可以通過使用不同的解碼器層來靈活地調(diào)整模型大小和推理速度，而不需要重新訓(xùn)練。

2、相關(guān)方法

2.1、實(shí)時(shí)目標(biāo)檢測器

經(jīng)過多年的不斷發(fā)展，YOLO系列已成為實(shí)時(shí)目標(biāo)檢測器的代名詞，大致可分為兩類：

Anchor-Base

Anchor-Free

從這些檢測器的性能來看，Anchor不再是制約YOLO發(fā)展的主要因素。然而，上述檢測器產(chǎn)生了許多冗余的邊界框，需要在后處理階段使用NMS來過濾掉它們。

不幸的是，這會(huì)導(dǎo)致性能瓶頸，NMS的超參數(shù)對檢測器的準(zhǔn)確性和速度有很大影響。作者認(rèn)為這與實(shí)時(shí)目標(biāo)檢測器的設(shè)計(jì)理念不兼容。

2.2、端到端目標(biāo)檢測器

端到端目標(biāo)檢測器以其流線型管道而聞名。Carion等人首先提出了基于Transformer的端到端目標(biāo)檢測器，稱為DETR（DEtection Transformer）。它因其獨(dú)特的特點(diǎn)而備受關(guān)注。特別地，DETR消除了傳統(tǒng)檢測流水線中手工設(shè)計(jì)的Anchor和NMS組件。相反，它采用二分匹配，并直接預(yù)測一對一的對象集。通過采用這種策略，DETR簡化了檢測管道，緩解了NMS帶來的性能瓶頸。

盡管DETR具有明顯的優(yōu)勢，但它存在兩個(gè)主要問題：

訓(xùn)練收斂緩慢

查詢難以優(yōu)化

已經(jīng)提出了許多DETR變體來解決這些問題。具體而言，Deformable DETR通過提高注意力機(jī)制的效率，加速了多尺度特征的訓(xùn)練收斂。Conditional DETR和Anchor DETR降低了查詢的優(yōu)化難度。DAB-DETR引入4D參考點(diǎn)，并逐層迭代優(yōu)化預(yù)測框。DN-DETR通過引入查詢?nèi)ピ雭砑铀儆?xùn)練收斂。DINO以之前的作品為基礎(chǔ)，取得了最先進(jìn)的成果。

盡管正在不斷改進(jìn)DETR的組件，但本文的目標(biāo)不僅是進(jìn)一步提高模型的性能，而且是創(chuàng)建一個(gè)實(shí)時(shí)的端到端目標(biāo)檢測器。

2.3、目標(biāo)檢測的多尺度特征

現(xiàn)代目標(biāo)檢測器已經(jīng)證明了利用多尺度特征來提高性能的重要性，尤其是對于小物體。FPN引入了一種融合相鄰尺度特征的特征金字塔網(wǎng)絡(luò)。隨后的工作擴(kuò)展和增強(qiáng)了這種結(jié)構(gòu)，并被廣泛用于實(shí)時(shí)目標(biāo)檢測器。Zhu等人首先在DETR中引入了多尺度特征，提高了性能和收斂速度，但這也導(dǎo)致了DETR計(jì)算成本的顯著增加。

盡管Deformable Attention制在一定程度上減輕了計(jì)算成本，但多尺度特征的結(jié)合仍然會(huì)導(dǎo)致較高的計(jì)算負(fù)擔(dān)。為了解決這個(gè)問題，一些工作試圖設(shè)計(jì)計(jì)算高效的DETR。Effificient DETR通過初始化具有密集先驗(yàn)的目標(biāo)查詢來減少編碼器和解碼器層的數(shù)量。Sparse DETR選擇性地更新期望被解碼器引用的編碼器token，從而減少計(jì)算開銷。Lite DETR通過以交錯(cuò)方式降低低級別特征的更新頻率來提高編碼器的效率。盡管這些研究降低了DETR的計(jì)算成本，但這些工作的目標(biāo)并不是將DETR作為一種實(shí)時(shí)檢測器來推廣。

3、檢測器端到端速度

3.1、分析NMS

NMS是檢測中廣泛采用的后處理算法，用于消除檢測器輸出的重疊預(yù)測框。NMS中需要2個(gè)超參數(shù)：得分閾值和IoU閾值。

特別地，分?jǐn)?shù)低于分?jǐn)?shù)閾值的預(yù)測框被直接過濾掉，并且每當(dāng)2個(gè)預(yù)測框的IoU超過IoU閾值時(shí)，分?jǐn)?shù)較低的框?qū)⒈粊G棄。重復(fù)執(zhí)行此過程，直到每個(gè)類別的所有框都已處理完畢。因此，NMS的執(zhí)行時(shí)間主要取決于輸入預(yù)測框的數(shù)量和兩個(gè)超參數(shù)。

為了驗(yàn)證這一觀點(diǎn)，作者利用YOLOv5和YOLOv8進(jìn)行實(shí)驗(yàn)。首先計(jì)算在輸出框被相同輸入圖像的不同得分閾值濾波后剩余的預(yù)測框的數(shù)量。采樣了0.001到0.25的一些分?jǐn)?shù)作為閾值，對兩個(gè)檢測器的剩余預(yù)測框進(jìn)行計(jì)數(shù)，并將其繪制成直方圖，直觀地反映了NMS易受其超參數(shù)的影響，如圖2所示。

此外，以YOLOv8為例，評估了不同NMS超參數(shù)下COCO val2017的模型準(zhǔn)確性和NMS操作的執(zhí)行時(shí)間。

注意，在實(shí)驗(yàn)中采用的NMS后處理操作是指TensorRT efficientNMSPlugin，它涉及多個(gè)CUDA內(nèi)核，包括EfficientNMSFilter、RadixSort、EfficientNMS等，作者只報(bào)告了EfficientNMS內(nèi)核的執(zhí)行時(shí)間。在T4 GPU上測試了速度，上述實(shí)驗(yàn)中的輸入圖像和預(yù)處理是一致的。使用的超參數(shù)和相應(yīng)的結(jié)果如表1所示。

3.2、端到端速度基準(zhǔn)

為了能夠公平地比較各種實(shí)時(shí)檢測器的端到端推理速度，作者建立了一個(gè)端到端速度測試基準(zhǔn)。考慮到NMS的執(zhí)行時(shí)間可能會(huì)受到輸入圖像的影響，有必要選擇一個(gè)基準(zhǔn)數(shù)據(jù)集，并計(jì)算多個(gè)圖像的平均執(zhí)行時(shí)間。該基準(zhǔn)采用COCO val2017作為默認(rèn)數(shù)據(jù)集，為需要后處理的實(shí)時(shí)檢測器添加了TensorRT的NMS后處理插件。

具體來說，根據(jù)基準(zhǔn)數(shù)據(jù)集上相應(yīng)精度的超參數(shù)測試檢測器的平均推理時(shí)間，不包括IO和內(nèi)存復(fù)制操作。利用該基準(zhǔn)測試T4 GPU上基于錨的檢測器YOLOv5和YOLOv7以及Anchor-Free檢測器PP-YOLOE、YOLOv6和YOLOv8的端到端速度。

測試結(jié)果如表2所示。

根據(jù)結(jié)果得出結(jié)論，對于需要NMS后處理的實(shí)時(shí)檢測器，Anchor-Free檢測器在同等精度上優(yōu)于Anchor-Base的檢測器，因?yàn)榍罢叩暮筇幚頃r(shí)間明顯少于后者，這在以前的工作中被忽略了。這種現(xiàn)象的原因是，Anchor-Base的檢測器比Anchor-Free的檢測器產(chǎn)生更多的預(yù)測框（在測試的檢測器中是3倍多）。

4、The Real-time DETR

4.1、方法概覽

所提出的RT-DETR由Backbone、混合編碼器和帶有輔助預(yù)測頭的Transformer解碼器組成。模型體系結(jié)構(gòu)的概述如圖3所示。

具體來說：

首先，利用Backbone的最后3個(gè)階段的輸出特征作為編碼器的輸入；

然后，混合編碼器通過尺度內(nèi)交互和跨尺度融合將多尺度特征轉(zhuǎn)換為一系列圖像特征（如第4.2節(jié)所述）；

隨后，采用IoU-Aware查詢選擇從編碼器輸出序列中選擇固定數(shù)量的圖像特征，作為解碼器的初始目標(biāo)查詢；

最后，具有輔助預(yù)測頭的解碼器迭代地優(yōu)化對象查詢以生成框和置信度得分。

4.2、高效混合編碼器

1、計(jì)算瓶頸分析

為了加速訓(xùn)練收斂并提高性能，Zhu等人建議引入多尺度特征，并提出Deformable Attention機(jī)制以減少計(jì)算。然而，盡管注意力機(jī)制的改進(jìn)減少了計(jì)算開銷，但輸入序列長度的急劇增加仍然導(dǎo)致編碼器成為計(jì)算瓶頸，阻礙了DETR的實(shí)時(shí)實(shí)現(xiàn)。

如所述，編碼器占GFLOP的49%，但在Deformable DETR中僅占AP的11%。為了克服這一障礙，作者分析了多尺度Transformer編碼器中存在的計(jì)算冗余，并設(shè)計(jì)了一組變體，以證明尺度內(nèi)和尺度間特征的同時(shí)交互在計(jì)算上是低效的。

從包含關(guān)于圖像中的對象的豐富語義信息的低級特征中提取高級特征。直觀地說，對連接的多尺度特征進(jìn)行特征交互是多余的。如圖5所示，為了驗(yàn)證這一觀點(diǎn)，作者重新思考編碼器結(jié)構(gòu)，并設(shè)計(jì)了一系列具有不同編碼器的變體。

該組變體通過將多尺度特征交互解耦為尺度內(nèi)交互和跨尺度融合的兩步操作，逐步提高模型精度，同時(shí)顯著降低計(jì)算成本。首先刪除了DINO-R50中的多尺度變換編碼器作為基線A。接下來，插入不同形式的編碼器，以產(chǎn)生基于基線A的一系列變體，具體如下：

A→ B：變體B插入一個(gè)單尺度Transformer編碼器，該編碼器使用一層Transformer Block。每個(gè)尺度的特征共享編碼器，用于尺度內(nèi)特征交互，然后連接輸出的多尺度特征。

B→ C：變體C引入了基于B的跨尺度特征融合，并將連接的多尺度特征輸入編碼器以執(zhí)行特征交互。

C→ D：變體D解耦了多尺度特征的尺度內(nèi)交互和跨尺度融合。首先，使用單尺度Transformer編碼器進(jìn)行尺度內(nèi)交互，然后使用類PANet結(jié)構(gòu)進(jìn)行跨尺度融合。

D→ E：變體E進(jìn)一步優(yōu)化了基于D的多尺度特征的尺度內(nèi)交互和跨尺度融合，采用了設(shè)計(jì)的高效混合編碼器。

2、Hybrid design

基于上述分析，作者重新思考了編碼器的結(jié)構(gòu)，并提出了一種新的高效混合編碼器。如圖3所示，所提出的編碼器由兩個(gè)模塊組成，即基于注意力的尺度內(nèi)特征交互（AIFI）模塊和基于神經(jīng)網(wǎng)絡(luò)的跨尺度特征融合模塊（CCFM）。

AIFI進(jìn)一步減少了基于變體D的計(jì)算冗余，變體D僅在上執(zhí)行尺度內(nèi)交互。作者認(rèn)為，將自注意力操作應(yīng)用于具有更豐富語義概念的高級特征可以捕捉圖像中概念實(shí)體之間的聯(lián)系，這有助于后續(xù)模塊對圖像中目標(biāo)的檢測和識別。

同時(shí)，由于缺乏語義概念以及與高級特征的交互存在重復(fù)和混淆的風(fēng)險(xiǎn)，較低級別特征的尺度內(nèi)交互是不必要的。為了驗(yàn)證這一觀點(diǎn)，只對變體D中的進(jìn)行了尺度內(nèi)相互作用，實(shí)驗(yàn)結(jié)果見表3，見行。與變體D相比，顯著降低了延遲（快35%），但提高了準(zhǔn)確性（AP高0.4%）。這一結(jié)論對實(shí)時(shí)檢測器的設(shè)計(jì)至關(guān)重要。

CCFM也基于變體D進(jìn)行了優(yōu)化，在融合路徑中插入了幾個(gè)由卷積層組成的融合塊。融合塊的作用是將相鄰的特征融合成一個(gè)新的特征，其結(jié)構(gòu)如圖4所示。融合塊包含N個(gè)RepBlock，兩個(gè)路徑輸出通過元素相加進(jìn)行融合。

可以將這個(gè)過程表述如下：

其中表示多頭自注意力，表示將特征的形狀恢復(fù)到與相同的形狀，這是的inverse操作。

4.3、IoU-Aware查詢選擇

DETR中的目標(biāo)查詢是一組可學(xué)習(xí)的嵌入，這些嵌入由解碼器優(yōu)化，并由預(yù)測頭映射到分類分?jǐn)?shù)和邊界框。然而，這些目標(biāo)查詢很難解釋和優(yōu)化，因?yàn)樗鼈儧]有明確的物理意義。后續(xù)工作改進(jìn)了目標(biāo)查詢的初始化，并將其擴(kuò)展到內(nèi)容查詢和位置查詢（Anchor點(diǎn)）。其中，Effificient detr、Dino以及Deformable detr都提出了查詢選擇方案，它們的共同點(diǎn)是利用分類得分從編碼器中選擇Top-K個(gè)特征來初始化目標(biāo)查詢（或僅位置查詢）。然而，由于分類得分和位置置信度的分布不一致，一些預(yù)測框具有高分類得分，但不接近GT框，這導(dǎo)致選擇了分類得分高、IoU得分低的框，而分類得分低、IoU分?jǐn)?shù)高的框被丟棄。這會(huì)削弱探測器的性能。

為了解決這個(gè)問題，作者提出了IoU-Aware查詢選擇，通過約束模型在訓(xùn)練期間為具有高IoU分?jǐn)?shù)的特征產(chǎn)生高分類分?jǐn)?shù)，并為具有低IoU得分的特征產(chǎn)生低分類分?jǐn)?shù)。因此，與模型根據(jù)分類得分選擇的Top-K個(gè)編碼器特征相對應(yīng)的預(yù)測框具有高分類得分和高IoU得分。

將檢測器的優(yōu)化目標(biāo)重新表述如下：

其中和表示預(yù)測和GT，和。和分別表示類別和邊界框。將IoU分?jǐn)?shù)引入分類分支的目標(biāo)函數(shù)（類似于VFL），以實(shí)現(xiàn)對正樣本分類和定位的一致性約束。

有效性分析

為了分析所提出的IoU感知查詢選擇的有效性，在val2017上可視化了查詢選擇所選擇的編碼器特征的分類分?jǐn)?shù)和IoU分?jǐn)?shù)，如圖6所示。

具體來說，首先根據(jù)分類得分選擇前K個(gè)（在實(shí)驗(yàn)中K=300）編碼器特征，然后可視化分類得分大于0.5的散點(diǎn)圖。紅點(diǎn)和藍(lán)點(diǎn)是根據(jù)分別應(yīng)用普通查詢選擇和IoU感知查詢選擇訓(xùn)練的模型計(jì)算的。點(diǎn)越靠近圖的右上角，對應(yīng)特征的質(zhì)量就越高，即分類標(biāo)簽和邊界框更有可能描述圖像中的真實(shí)對象。

根據(jù)可視化結(jié)果發(fā)現(xiàn)最引人注目的特征是大量藍(lán)色點(diǎn)集中在圖的右上角，而紅色點(diǎn)集中在右下角。這表明，使用IoU感知查詢選擇訓(xùn)練的模型可以產(chǎn)生更多高質(zhì)量的編碼器特征。

此外，還定量分析了這兩類點(diǎn)的分布特征。圖中藍(lán)色點(diǎn)比紅色點(diǎn)多138%，即分類得分小于或等于0.5的紅色點(diǎn)更多，這可以被視為低質(zhì)量特征。然后，分析分類得分大于0.5的特征的IoU得分，發(fā)現(xiàn)IoU得分大于0.5時(shí)，藍(lán)色點(diǎn)比紅色點(diǎn)多120%。

定量結(jié)果進(jìn)一步表明，IoU感知查詢選擇可以為對象查詢提供更多具有準(zhǔn)確分類（高分類分?jǐn)?shù)）和精確定位（高IoU分?jǐn)?shù)）的編碼器特征，從而提高檢測器的準(zhǔn)確性。

4.4、Scaled RT-DETR

為了提供RT-DETR的可擴(kuò)展版本，將ResNet網(wǎng)替換為HGNetv2。使用depth multiplier和width multiplier將Backbone和混合編碼器一起縮放。因此，得到了具有不同數(shù)量的參數(shù)和FPS的RT-DETR的兩個(gè)版本。

對于混合編碼器，通過分別調(diào)整CCFM中RepBlock的數(shù)量和編碼器的嵌入維度來控制depth multiplier和width multiplier。值得注意的是，提出的不同規(guī)模的RT-DETR保持了同質(zhì)解碼器，這有助于使用高精度大型DETR模型對光檢測器進(jìn)行蒸餾。這將是一個(gè)可探索的未來方向。

5、實(shí)驗(yàn)

5.1、與SOTA比較

5.2、混合編碼器的消融實(shí)驗(yàn)研究

5.3、IoU感知查詢選擇的消融研究

5.4、解碼器的消融研究

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴