色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

RT-DETR用114FPS實(shí)現(xiàn)54.8AP遠(yuǎn)超YOLOv8

新機(jī)器視覺 ? 來源:集智書童 ? 2023-04-20 09:59 ? 次閱讀

最近,基于Transformer的端到端檢測器(DETR)已經(jīng)取得了顯著的性能。然而,DETR的高計(jì)算成本問題尚未得到有效解決,這限制了它們的實(shí)際應(yīng)用,并使它們無法充分利用無后處理的好處,如非最大值抑制(NMS)。

本文首先分析了現(xiàn)代實(shí)時(shí)目標(biāo)檢測器中NMS對推理速度的影響,并建立了端到端的速度基準(zhǔn)。為了避免NMS引起的推理延遲,作者提出了一種實(shí)時(shí)檢測Transformer(RT-DETR),這是第一個(gè)實(shí)時(shí)端到端目標(biāo)檢測器。

具體而言,設(shè)計(jì)了一種高效的混合編碼器,通過解耦尺度內(nèi)交互和跨尺度融合來高效處理多尺度特征,并提出了IoU感知的查詢選擇,以提高目標(biāo)查詢的初始化。

此外,本文提出的檢測器支持通過使用不同的解碼器層來靈活調(diào)整推理速度,而不需要重新訓(xùn)練,這有助于實(shí)時(shí)目標(biāo)檢測器的實(shí)際應(yīng)用。

RTDETR-L在COCO val2017上實(shí)現(xiàn)了53.0%的AP,在T4 GPU上實(shí)現(xiàn)了114 FPS,而RT-DETR-X實(shí)現(xiàn)了54.8%的AP和74 FPS,在速度和精度方面都優(yōu)于相同規(guī)模的所有YOLO檢測器。

此外,RTDETR-R50實(shí)現(xiàn)了53.1%的AP和108 FPS,在精度上比DINO-Deformable-DETR-R50高出2.2%的AP,在FPS上高出約21倍。

1、簡介

目標(biāo)檢測是一項(xiàng)基本的視覺任務(wù),涉及識別和定位圖像中的目標(biāo)?,F(xiàn)代目標(biāo)檢測器有兩種典型的體系結(jié)構(gòu):

基于CNN

基于Transformer

在過去的幾年里,人們對基于CNN的目標(biāo)檢測器進(jìn)行了廣泛的研究。這些檢測器的架構(gòu)已經(jīng)從最初的兩階段發(fā)展到一階段,并且出現(xiàn)了兩種檢測范式,Anchor-Base和Anchor-Free。這些研究在檢測速度和準(zhǔn)確性方面都取得了重大進(jìn)展。

基于Transformer的目標(biāo)檢測器(DETR)由于消除了各種手工設(shè)計(jì)的組件,如非最大值抑制(NMS),自提出以來,受到了學(xué)術(shù)界的廣泛關(guān)注。該架構(gòu)極大地簡化了目標(biāo)檢測的流水線,實(shí)現(xiàn)了端到端的目標(biāo)檢測。

實(shí)時(shí)目標(biāo)檢測是一個(gè)重要的研究領(lǐng)域,具有廣泛的應(yīng)用,如目標(biāo)跟蹤、視頻監(jiān)控、自動(dòng)駕駛等。現(xiàn)有的實(shí)時(shí)檢測器通常采用基于CNN的架構(gòu),在檢測速度和準(zhǔn)確性方面實(shí)現(xiàn)了合理的權(quán)衡。然而,這些實(shí)時(shí)檢測器通常需要NMS進(jìn)行后處理,這通常難以優(yōu)化并且不夠魯棒,導(dǎo)致檢測器的推理速度延遲。

最近,由于研究人員在加速訓(xùn)練收斂和降低優(yōu)化難度方面的努力,基于Transformer的檢測器取得了顯著的性能。然而,DETR的高計(jì)算成本問題尚未得到有效解決,這限制了DETR的實(shí)際應(yīng)用,并導(dǎo)致無法充分利用其優(yōu)勢。這意味著,盡管簡化了目標(biāo)檢測流水線,但由于模型本身的計(jì)算成本高,很難實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測。

上述問題自然啟發(fā)考慮是否可以將DETR擴(kuò)展到實(shí)時(shí)場景,充分利用端到端檢測器來避免NMS對實(shí)時(shí)檢測器造成的延遲。為了實(shí)現(xiàn)上述目標(biāo),作者重新思考了DETR,并對其關(guān)鍵組件進(jìn)行了詳細(xì)的分析和實(shí)驗(yàn),以減少不必要的計(jì)算冗余。

具體而言,作者發(fā)現(xiàn),盡管多尺度特征的引入有利于加速訓(xùn)練收斂和提高性能,但它也會(huì)導(dǎo)致編碼器中序列長度的顯著增加。因此,由于計(jì)算成本高,Transformer編碼器成為模型的計(jì)算瓶頸。為了實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測,設(shè)計(jì)了一種高效的混合編碼器來取代原來的Transformer編碼器。通過解耦多尺度特征的尺度內(nèi)交互和尺度間融合,編碼器可以有效地處理不同尺度的特征。

此外,先前的工作表明,解碼器的目標(biāo)查詢初始化方案對檢測性能至關(guān)重要。為了進(jìn)一步提高性能,作者提出了IoU-Aware的查詢選擇,它通過在訓(xùn)練期間提供IoU約束來向解碼器提供更高質(zhì)量的初始目標(biāo)查詢。

此外,作者提出的檢測器支持通過使用不同的解碼器層來靈活調(diào)整推理速度,而不需要重新訓(xùn)練,這得益于DETR架構(gòu)中解碼器的設(shè)計(jì),并有助于實(shí)時(shí)檢測器的實(shí)際應(yīng)用。

本文提出了一種實(shí)時(shí)檢測Transformer(RT-DETR),這是第一個(gè)實(shí)時(shí)基于Transformer的端到端目標(biāo)檢測器。RT-DETR不僅在精度和速度上優(yōu)于目前最先進(jìn)的實(shí)時(shí)檢測器,而且不需要后處理,因此檢測器的推理速度不會(huì)延遲并保持穩(wěn)定,充分利用了端到端檢測流水線的優(yōu)勢。

RT-DETR-L在COCO val2017上實(shí)現(xiàn)了53.0%的AP,在NVIDIA Tesla T4 GPU上實(shí)現(xiàn)了114 FPS,而RT-DETR-X實(shí)現(xiàn)了54.8%的AP和74 FPS,在速度和精度方面都優(yōu)于相同規(guī)模的所有YOLO檢測器。因此,RT-DETR成為了一種用于實(shí)時(shí)目標(biāo)檢測的新的SOTA,如圖1所示。

a1cff7ce-df12-11ed-bfe3-dac502259ad0.png

此外,提出的RT-DETR-R50實(shí)現(xiàn)了53.1%的AP和108 FPS,而RT-DETR-R101實(shí)現(xiàn)了54.3%的AP和74 FPS。其中,RT-DETR50在準(zhǔn)確度上優(yōu)于DINO-Deformable-DETR-R50 2.2%的AP(53.1%的AP對50.9%的AP),在FPS(108 FPS對5 FPS)上優(yōu)于DINO-Deformable-DETR-R5約21倍。

本文的主要貢獻(xiàn)總結(jié)如下:

提出了第一個(gè)實(shí)時(shí)端到端目標(biāo)檢測器,它不僅在準(zhǔn)確性和速度上優(yōu)于當(dāng)前的實(shí)時(shí)檢測器,而且不需要后處理,因此推理速度不延遲,保持穩(wěn)定;

詳細(xì)分析了NMS對實(shí)時(shí)檢測器的影響,并從后處理的角度得出了關(guān)于基于CNN的實(shí)時(shí)檢測器的結(jié)論;

提出的IoU-Aware查詢選擇在我們的模型中顯示出優(yōu)異的性能改進(jìn),這為改進(jìn)目標(biāo)查詢的初始化方案提供了新的線索;

本文的工作為端到端檢測器的實(shí)時(shí)實(shí)現(xiàn)提供了一個(gè)可行的解決方案,并且所提出的檢測器可以通過使用不同的解碼器層來靈活地調(diào)整模型大小和推理速度,而不需要重新訓(xùn)練。

2、相關(guān)方法

2.1、實(shí)時(shí)目標(biāo)檢測器

經(jīng)過多年的不斷發(fā)展,YOLO系列已成為實(shí)時(shí)目標(biāo)檢測器的代名詞,大致可分為兩類:

Anchor-Base

Anchor-Free

從這些檢測器的性能來看,Anchor不再是制約YOLO發(fā)展的主要因素。然而,上述檢測器產(chǎn)生了許多冗余的邊界框,需要在后處理階段使用NMS來過濾掉它們。

不幸的是,這會(huì)導(dǎo)致性能瓶頸,NMS的超參數(shù)對檢測器的準(zhǔn)確性和速度有很大影響。作者認(rèn)為這與實(shí)時(shí)目標(biāo)檢測器的設(shè)計(jì)理念不兼容。

2.2、端到端目標(biāo)檢測器

端到端目標(biāo)檢測器以其流線型管道而聞名。Carion等人首先提出了基于Transformer的端到端目標(biāo)檢測器,稱為DETR(DEtection Transformer)。它因其獨(dú)特的特點(diǎn)而備受關(guān)注。特別地,DETR消除了傳統(tǒng)檢測流水線中手工設(shè)計(jì)的Anchor和NMS組件。相反,它采用二分匹配,并直接預(yù)測一對一的對象集。通過采用這種策略,DETR簡化了檢測管道,緩解了NMS帶來的性能瓶頸。

盡管DETR具有明顯的優(yōu)勢,但它存在兩個(gè)主要問題:

訓(xùn)練收斂緩慢

查詢難以優(yōu)化

已經(jīng)提出了許多DETR變體來解決這些問題。具體而言,Deformable DETR通過提高注意力機(jī)制的效率,加速了多尺度特征的訓(xùn)練收斂。Conditional DETR和Anchor DETR降低了查詢的優(yōu)化難度。DAB-DETR引入4D參考點(diǎn),并逐層迭代優(yōu)化預(yù)測框。DN-DETR通過引入查詢?nèi)ピ雭砑铀儆?xùn)練收斂。DINO以之前的作品為基礎(chǔ),取得了最先進(jìn)的成果。

盡管正在不斷改進(jìn)DETR的組件,但本文的目標(biāo)不僅是進(jìn)一步提高模型的性能,而且是創(chuàng)建一個(gè)實(shí)時(shí)的端到端目標(biāo)檢測器。

2.3、目標(biāo)檢測的多尺度特征

現(xiàn)代目標(biāo)檢測器已經(jīng)證明了利用多尺度特征來提高性能的重要性,尤其是對于小物體。FPN引入了一種融合相鄰尺度特征的特征金字塔網(wǎng)絡(luò)。隨后的工作擴(kuò)展和增強(qiáng)了這種結(jié)構(gòu),并被廣泛用于實(shí)時(shí)目標(biāo)檢測器。Zhu等人首先在DETR中引入了多尺度特征,提高了性能和收斂速度,但這也導(dǎo)致了DETR計(jì)算成本的顯著增加。

盡管Deformable Attention制在一定程度上減輕了計(jì)算成本,但多尺度特征的結(jié)合仍然會(huì)導(dǎo)致較高的計(jì)算負(fù)擔(dān)。為了解決這個(gè)問題,一些工作試圖設(shè)計(jì)計(jì)算高效的DETR。Effificient DETR通過初始化具有密集先驗(yàn)的目標(biāo)查詢來減少編碼器和解碼器層的數(shù)量。Sparse DETR選擇性地更新期望被解碼器引用的編碼器token,從而減少計(jì)算開銷。Lite DETR通過以交錯(cuò)方式降低低級別特征的更新頻率來提高編碼器的效率。盡管這些研究降低了DETR的計(jì)算成本,但這些工作的目標(biāo)并不是將DETR作為一種實(shí)時(shí)檢測器來推廣。

3、檢測器端到端速度

3.1、分析NMS

NMS是檢測中廣泛采用的后處理算法,用于消除檢測器輸出的重疊預(yù)測框。NMS中需要2個(gè)超參數(shù):得分閾值和IoU閾值。

特別地,分?jǐn)?shù)低于分?jǐn)?shù)閾值的預(yù)測框被直接過濾掉,并且每當(dāng)2個(gè)預(yù)測框的IoU超過IoU閾值時(shí),分?jǐn)?shù)較低的框?qū)⒈粊G棄。重復(fù)執(zhí)行此過程,直到每個(gè)類別的所有框都已處理完畢。因此,NMS的執(zhí)行時(shí)間主要取決于輸入預(yù)測框的數(shù)量和兩個(gè)超參數(shù)。

a1fe0772-df12-11ed-bfe3-dac502259ad0.png

為了驗(yàn)證這一觀點(diǎn),作者利用YOLOv5和YOLOv8進(jìn)行實(shí)驗(yàn)。首先計(jì)算在輸出框被相同輸入圖像的不同得分閾值濾波后剩余的預(yù)測框的數(shù)量。采樣了0.001到0.25的一些分?jǐn)?shù)作為閾值,對兩個(gè)檢測器的剩余預(yù)測框進(jìn)行計(jì)數(shù),并將其繪制成直方圖,直觀地反映了NMS易受其超參數(shù)的影響,如圖2所示。

此外,以YOLOv8為例,評估了不同NMS超參數(shù)下COCO val2017的模型準(zhǔn)確性和NMS操作的執(zhí)行時(shí)間。

a20d656e-df12-11ed-bfe3-dac502259ad0.png

注意,在實(shí)驗(yàn)中采用的NMS后處理操作是指TensorRT efficientNMSPlugin,它涉及多個(gè)CUDA內(nèi)核,包括EfficientNMSFilter、RadixSort、EfficientNMS等,作者只報(bào)告了EfficientNMS內(nèi)核的執(zhí)行時(shí)間。在T4 GPU上測試了速度,上述實(shí)驗(yàn)中的輸入圖像和預(yù)處理是一致的。使用的超參數(shù)和相應(yīng)的結(jié)果如表1所示。

3.2、端到端速度基準(zhǔn)

為了能夠公平地比較各種實(shí)時(shí)檢測器的端到端推理速度,作者建立了一個(gè)端到端速度測試基準(zhǔn)。考慮到NMS的執(zhí)行時(shí)間可能會(huì)受到輸入圖像的影響,有必要選擇一個(gè)基準(zhǔn)數(shù)據(jù)集,并計(jì)算多個(gè)圖像的平均執(zhí)行時(shí)間。該基準(zhǔn)采用COCO val2017作為默認(rèn)數(shù)據(jù)集,為需要后處理的實(shí)時(shí)檢測器添加了TensorRT的NMS后處理插件。

具體來說,根據(jù)基準(zhǔn)數(shù)據(jù)集上相應(yīng)精度的超參數(shù)測試檢測器的平均推理時(shí)間,不包括IO和內(nèi)存復(fù)制操作。利用該基準(zhǔn)測試T4 GPU上基于錨的檢測器YOLOv5和YOLOv7以及Anchor-Free檢測器PP-YOLOE、YOLOv6和YOLOv8的端到端速度。

測試結(jié)果如表2所示。

a21ff5da-df12-11ed-bfe3-dac502259ad0.png

根據(jù)結(jié)果得出結(jié)論,對于需要NMS后處理的實(shí)時(shí)檢測器,Anchor-Free檢測器在同等精度上優(yōu)于Anchor-Base的檢測器,因?yàn)榍罢叩暮筇幚頃r(shí)間明顯少于后者,這在以前的工作中被忽略了。這種現(xiàn)象的原因是,Anchor-Base的檢測器比Anchor-Free的檢測器產(chǎn)生更多的預(yù)測框(在測試的檢測器中是3倍多)。

4、The Real-time DETR

4.1、方法概覽

所提出的RT-DETR由Backbone、混合編碼器和帶有輔助預(yù)測頭的Transformer解碼器組成。模型體系結(jié)構(gòu)的概述如圖3所示。

a2428d5c-df12-11ed-bfe3-dac502259ad0.png

具體來說:

首先,利用Backbone的最后3個(gè)階段的輸出特征作為編碼器的輸入;

然后,混合編碼器通過尺度內(nèi)交互和跨尺度融合將多尺度特征轉(zhuǎn)換為一系列圖像特征(如第4.2節(jié)所述);

隨后,采用IoU-Aware查詢選擇從編碼器輸出序列中選擇固定數(shù)量的圖像特征,作為解碼器的初始目標(biāo)查詢;

最后,具有輔助預(yù)測頭的解碼器迭代地優(yōu)化對象查詢以生成框和置信度得分。

4.2、高效混合編碼器

1、計(jì)算瓶頸分析

為了加速訓(xùn)練收斂并提高性能,Zhu等人建議引入多尺度特征,并提出Deformable Attention機(jī)制以減少計(jì)算。然而,盡管注意力機(jī)制的改進(jìn)減少了計(jì)算開銷,但輸入序列長度的急劇增加仍然導(dǎo)致編碼器成為計(jì)算瓶頸,阻礙了DETR的實(shí)時(shí)實(shí)現(xiàn)。

如所述,編碼器占GFLOP的49%,但在Deformable DETR中僅占AP的11%。為了克服這一障礙,作者分析了多尺度Transformer編碼器中存在的計(jì)算冗余,并設(shè)計(jì)了一組變體,以證明尺度內(nèi)和尺度間特征的同時(shí)交互在計(jì)算上是低效的。

從包含關(guān)于圖像中的對象的豐富語義信息的低級特征中提取高級特征。直觀地說,對連接的多尺度特征進(jìn)行特征交互是多余的。如圖5所示,為了驗(yàn)證這一觀點(diǎn),作者重新思考編碼器結(jié)構(gòu),并設(shè)計(jì)了一系列具有不同編碼器的變體。

a261a818-df12-11ed-bfe3-dac502259ad0.png

該組變體通過將多尺度特征交互解耦為尺度內(nèi)交互和跨尺度融合的兩步操作,逐步提高模型精度,同時(shí)顯著降低計(jì)算成本。首先刪除了DINO-R50中的多尺度變換編碼器作為基線A。接下來,插入不同形式的編碼器,以產(chǎn)生基于基線A的一系列變體,具體如下:

A→ B:變體B插入一個(gè)單尺度Transformer編碼器,該編碼器使用一層Transformer Block。每個(gè)尺度的特征共享編碼器,用于尺度內(nèi)特征交互,然后連接輸出的多尺度特征。

B→ C:變體C引入了基于B的跨尺度特征融合,并將連接的多尺度特征輸入編碼器以執(zhí)行特征交互。

C→ D:變體D解耦了多尺度特征的尺度內(nèi)交互和跨尺度融合。首先,使用單尺度Transformer編碼器進(jìn)行尺度內(nèi)交互,然后使用類PANet結(jié)構(gòu)進(jìn)行跨尺度融合。

D→ E:變體E進(jìn)一步優(yōu)化了基于D的多尺度特征的尺度內(nèi)交互和跨尺度融合,采用了設(shè)計(jì)的高效混合編碼器。

2、Hybrid design

基于上述分析,作者重新思考了編碼器的結(jié)構(gòu),并提出了一種新的高效混合編碼器。如圖3所示,所提出的編碼器由兩個(gè)模塊組成,即基于注意力的尺度內(nèi)特征交互(AIFI)模塊和基于神經(jīng)網(wǎng)絡(luò)的跨尺度特征融合模塊(CCFM)。

AIFI進(jìn)一步減少了基于變體D的計(jì)算冗余,變體D僅在上執(zhí)行尺度內(nèi)交互。作者認(rèn)為,將自注意力操作應(yīng)用于具有更豐富語義概念的高級特征可以捕捉圖像中概念實(shí)體之間的聯(lián)系,這有助于后續(xù)模塊對圖像中目標(biāo)的檢測和識別。

同時(shí),由于缺乏語義概念以及與高級特征的交互存在重復(fù)和混淆的風(fēng)險(xiǎn),較低級別特征的尺度內(nèi)交互是不必要的。為了驗(yàn)證這一觀點(diǎn),只對變體D中的進(jìn)行了尺度內(nèi)相互作用,實(shí)驗(yàn)結(jié)果見表3,見行。與變體D相比,顯著降低了延遲(快35%),但提高了準(zhǔn)確性(AP高0.4%)。這一結(jié)論對實(shí)時(shí)檢測器的設(shè)計(jì)至關(guān)重要。

a2792a24-df12-11ed-bfe3-dac502259ad0.png

CCFM也基于變體D進(jìn)行了優(yōu)化,在融合路徑中插入了幾個(gè)由卷積層組成的融合塊。融合塊的作用是將相鄰的特征融合成一個(gè)新的特征,其結(jié)構(gòu)如圖4所示。融合塊包含N個(gè)RepBlock,兩個(gè)路徑輸出通過元素相加進(jìn)行融合。

可以將這個(gè)過程表述如下:

a29d0250-df12-11ed-bfe3-dac502259ad0.png

其中表示多頭自注意力,表示將特征的形狀恢復(fù)到與相同的形狀,這是的inverse操作。

4.3、IoU-Aware查詢選擇

DETR中的目標(biāo)查詢是一組可學(xué)習(xí)的嵌入,這些嵌入由解碼器優(yōu)化,并由預(yù)測頭映射到分類分?jǐn)?shù)和邊界框。然而,這些目標(biāo)查詢很難解釋和優(yōu)化,因?yàn)樗鼈儧]有明確的物理意義。后續(xù)工作改進(jìn)了目標(biāo)查詢的初始化,并將其擴(kuò)展到內(nèi)容查詢和位置查詢(Anchor點(diǎn))。其中,Effificient detr、Dino以及Deformable detr都提出了查詢選擇方案,它們的共同點(diǎn)是利用分類得分從編碼器中選擇Top-K個(gè)特征來初始化目標(biāo)查詢(或僅位置查詢)。然而,由于分類得分和位置置信度的分布不一致,一些預(yù)測框具有高分類得分,但不接近GT框,這導(dǎo)致選擇了分類得分高、IoU得分低的框,而分類得分低、IoU分?jǐn)?shù)高的框被丟棄。這會(huì)削弱探測器的性能。

為了解決這個(gè)問題,作者提出了IoU-Aware查詢選擇,通過約束模型在訓(xùn)練期間為具有高IoU分?jǐn)?shù)的特征產(chǎn)生高分類分?jǐn)?shù),并為具有低IoU得分的特征產(chǎn)生低分類分?jǐn)?shù)。因此,與模型根據(jù)分類得分選擇的Top-K個(gè)編碼器特征相對應(yīng)的預(yù)測框具有高分類得分和高IoU得分。

將檢測器的優(yōu)化目標(biāo)重新表述如下:

a2b27a04-df12-11ed-bfe3-dac502259ad0.png

其中和表示預(yù)測和GT,和。和分別表示類別和邊界框。將IoU分?jǐn)?shù)引入分類分支的目標(biāo)函數(shù)(類似于VFL),以實(shí)現(xiàn)對正樣本分類和定位的一致性約束。

有效性分析

為了分析所提出的IoU感知查詢選擇的有效性,在val2017上可視化了查詢選擇所選擇的編碼器特征的分類分?jǐn)?shù)和IoU分?jǐn)?shù),如圖6所示。

a2c943a6-df12-11ed-bfe3-dac502259ad0.png

具體來說,首先根據(jù)分類得分選擇前K個(gè)(在實(shí)驗(yàn)中K=300)編碼器特征,然后可視化分類得分大于0.5的散點(diǎn)圖。紅點(diǎn)和藍(lán)點(diǎn)是根據(jù)分別應(yīng)用普通查詢選擇和IoU感知查詢選擇訓(xùn)練的模型計(jì)算的。點(diǎn)越靠近圖的右上角,對應(yīng)特征的質(zhì)量就越高,即分類標(biāo)簽和邊界框更有可能描述圖像中的真實(shí)對象。

根據(jù)可視化結(jié)果發(fā)現(xiàn)最引人注目的特征是大量藍(lán)色點(diǎn)集中在圖的右上角,而紅色點(diǎn)集中在右下角。這表明,使用IoU感知查詢選擇訓(xùn)練的模型可以產(chǎn)生更多高質(zhì)量的編碼器特征。

此外,還定量分析了這兩類點(diǎn)的分布特征。圖中藍(lán)色點(diǎn)比紅色點(diǎn)多138%,即分類得分小于或等于0.5的紅色點(diǎn)更多,這可以被視為低質(zhì)量特征。然后,分析分類得分大于0.5的特征的IoU得分,發(fā)現(xiàn)IoU得分大于0.5時(shí),藍(lán)色點(diǎn)比紅色點(diǎn)多120%。

定量結(jié)果進(jìn)一步表明,IoU感知查詢選擇可以為對象查詢提供更多具有準(zhǔn)確分類(高分類分?jǐn)?shù))和精確定位(高IoU分?jǐn)?shù))的編碼器特征,從而提高檢測器的準(zhǔn)確性。

4.4、Scaled RT-DETR

為了提供RT-DETR的可擴(kuò)展版本,將ResNet網(wǎng)替換為HGNetv2。使用depth multiplier和width multiplier將Backbone和混合編碼器一起縮放。因此,得到了具有不同數(shù)量的參數(shù)和FPS的RT-DETR的兩個(gè)版本。

對于混合編碼器,通過分別調(diào)整CCFM中RepBlock的數(shù)量和編碼器的嵌入維度來控制depth multiplier和width multiplier。值得注意的是,提出的不同規(guī)模的RT-DETR保持了同質(zhì)解碼器,這有助于使用高精度大型DETR模型對光檢測器進(jìn)行蒸餾。這將是一個(gè)可探索的未來方向。

5、實(shí)驗(yàn)

5.1、與SOTA比較

a2e7a030-df12-11ed-bfe3-dac502259ad0.png

5.2、混合編碼器的消融實(shí)驗(yàn)研究

a305c81c-df12-11ed-bfe3-dac502259ad0.png

5.3、IoU感知查詢選擇的消融研究

a32a9d18-df12-11ed-bfe3-dac502259ad0.png

5.4、解碼器的消融研究

a346583c-df12-11ed-bfe3-dac502259ad0.png






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3638

    瀏覽量

    134426
  • 檢測器
    +關(guān)注

    關(guān)注

    1

    文章

    863

    瀏覽量

    47676
  • FPS
    FPS
    +關(guān)注

    關(guān)注

    0

    文章

    35

    瀏覽量

    11982
  • NMS
    NMS
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    6032

原文標(biāo)題:YOLO超快時(shí)代終結(jié)了 | RT-DETR用114FPS實(shí)現(xiàn)54.8AP,遠(yuǎn)超YOLOv8

文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    使用YOLOv8做目標(biāo)檢測和實(shí)例分割的演示

    YOLOv8是來自Ultralytics的最新的基于YOLO的對象檢測模型系列,提供最先進(jìn)的性能。
    的頭像 發(fā)表于 02-06 10:11 ?7459次閱讀

    簡單聊聊目標(biāo)檢測新范式RT-DETR的骨干:HGNetv2

    當(dāng)然,人們對RT-DETR之所以產(chǎn)生濃厚的興趣,我覺得大概率還是對YOLO系列審美疲勞了,就算是出到了YOLO10086,我還是只想用YOLOv5和YOLOv7的框架來魔改做業(yè)務(wù)。。
    的頭像 發(fā)表于 04-27 09:42 ?2006次閱讀
    簡單聊聊目標(biāo)檢測新范式<b class='flag-5'>RT-DETR</b>的骨干:HGNetv2

    在AI愛克斯開發(fā)板上OpenVINO?加速YOLOv8目標(biāo)檢測模型

    《在 AI 愛克斯開發(fā)板上 OpenVINO 加速 YOLOv8 分類模型》介紹了在 AI 愛克斯開發(fā)板上使用 OpenVINO 開發(fā)套件部署并測評 YOLOv8 的分類模型,本文將介紹在 AI 愛克斯開發(fā)板上使用 OpenV
    的頭像 發(fā)表于 05-12 09:08 ?1312次閱讀
    在AI愛克斯開發(fā)板上<b class='flag-5'>用</b>OpenVINO?加速<b class='flag-5'>YOLOv8</b>目標(biāo)檢測模型

    介紹RT-DETR兩種風(fēng)格的onnx格式和推理方式

    RT-DETR是由百度近期推出的DETR-liked目標(biāo)檢測器,該檢測器由HGNetv2、混合編碼器和帶有輔助預(yù)測頭的Transformer編碼器組成
    的頭像 發(fā)表于 05-17 17:46 ?3260次閱讀
    介紹<b class='flag-5'>RT-DETR</b>兩種風(fēng)格的onnx格式和推理方式

    AI愛克斯開發(fā)板上使用OpenVINO加速YOLOv8目標(biāo)檢測模型

    《在AI愛克斯開發(fā)板上OpenVINO加速YOLOv8分類模型》介紹了在AI愛克斯開發(fā)板上使用OpenVINO 開發(fā)套件部署并測評YOLOv8的分類模型,本文將介紹在AI愛克斯開發(fā)板上使用OpenVINO加速
    的頭像 發(fā)表于 05-26 11:03 ?1240次閱讀
    AI愛克斯開發(fā)板上使用OpenVINO加速<b class='flag-5'>YOLOv8</b>目標(biāo)檢測模型

    教你如何用兩行代碼搞定YOLOv8各種模型推理

    大家好,YOLOv8 框架本身提供的API函數(shù)是可以兩行代碼實(shí)現(xiàn) YOLOv8 模型推理,這次我把這段代碼封裝成了一個(gè)類,只有40行代碼左右,可以同時(shí)支持YOLOv8對象檢測、實(shí)例分割
    的頭像 發(fā)表于 06-18 11:50 ?3055次閱讀
    教你如何用兩行代碼搞定<b class='flag-5'>YOLOv8</b>各種模型推理

    三種主流模型部署框架YOLOv8推理演示

    深度學(xué)習(xí)模型部署有OpenVINO、ONNXRUNTIME、TensorRT三個(gè)主流框架,均支持Python與C++的SDK使用。對YOLOv5~YOLOv8的系列模型,均可以通過C++推理實(shí)現(xiàn)模型
    的頭像 發(fā)表于 08-06 11:39 ?2734次閱讀

    如何修改YOLOv8的源碼

    很多人也想跟修改YOLOv5源碼一樣的方式去修改YOLOv8的源碼,但是在github上面卻發(fā)現(xiàn)找到的YOLOv8項(xiàng)目下面TAG分支是空的,然后就直接從master/main下面把源碼克隆出來一通
    的頭像 發(fā)表于 09-04 10:02 ?1994次閱讀
    如何修改<b class='flag-5'>YOLOv8</b>的源碼

    YOLOv8實(shí)現(xiàn)任意目錄下命令行訓(xùn)練

    當(dāng)你使用YOLOv8命令行訓(xùn)練模型的時(shí)候,如果當(dāng)前執(zhí)行的目錄下沒有相關(guān)的預(yù)訓(xùn)練模型文件,YOLOv8就會(huì)自動(dòng)下載模型權(quán)重文件。這個(gè)是一個(gè)正常操作,但是你還會(huì)發(fā)現(xiàn),當(dāng)你在參數(shù)model中指定已有
    的頭像 發(fā)表于 09-04 10:50 ?1104次閱讀
    <b class='flag-5'>YOLOv8</b><b class='flag-5'>實(shí)現(xiàn)</b>任意目錄下命令行訓(xùn)練

    基于OpenVINO Python API部署RT-DETR模型

    RT-DETR 是在 DETR 模型基礎(chǔ)上進(jìn)行改進(jìn)的,一種基于 DETR 架構(gòu)的實(shí)時(shí)端到端檢測器,它通過使用一系列新的技術(shù)和算法,實(shí)現(xiàn)了更高效的訓(xùn)練和推理,我們將在 Python、C+
    的頭像 發(fā)表于 10-20 11:15 ?960次閱讀
    基于OpenVINO Python API部署<b class='flag-5'>RT-DETR</b>模型

    基于OpenVINO C++ API部署RT-DETR模型

    RT-DETR 是在 DETR 模型基礎(chǔ)上進(jìn)行改進(jìn)的,一種基于 DETR 架構(gòu)的實(shí)時(shí)端到端檢測器,它通過使用一系列新的技術(shù)和算法,實(shí)現(xiàn)了更高效的訓(xùn)練和推理,在前文我們發(fā)表了《基于 Op
    的頭像 發(fā)表于 11-03 14:30 ?834次閱讀
    基于OpenVINO C++ API部署<b class='flag-5'>RT-DETR</b>模型

    基于OpenVINO C# API部署RT-DETR模型

    RT-DETR 是在 DETR 模型基礎(chǔ)上進(jìn)行改進(jìn)的,一種基于 DETR 架構(gòu)的實(shí)時(shí)端到端檢測器,它通過使用一系列新的技術(shù)和算法,實(shí)現(xiàn)了更高效的訓(xùn)練和推理,在前文我們發(fā)表了《基于 Op
    的頭像 發(fā)表于 11-10 16:59 ?753次閱讀
    基于OpenVINO C# API部署<b class='flag-5'>RT-DETR</b>模型

    基于YOLOv8的自定義醫(yī)學(xué)圖像分割

    YOLOv8是一種令人驚嘆的分割模型;它易于訓(xùn)練、測試和部署。在本教程中,我們將學(xué)習(xí)如何在自定義數(shù)據(jù)集上使用YOLOv8。但在此之前,我想告訴你為什么在存在其他優(yōu)秀的分割模型時(shí)應(yīng)該使用YOLOv8呢?
    的頭像 發(fā)表于 12-20 10:51 ?771次閱讀
    基于<b class='flag-5'>YOLOv8</b>的自定義醫(yī)學(xué)圖像分割

    基于OpenCV DNN實(shí)現(xiàn)YOLOv8的模型部署與推理演示

    基于OpenCV DNN實(shí)現(xiàn)YOLOv8推理的好處就是一套代碼就可以部署在Windows10系統(tǒng)、烏班圖系統(tǒng)、Jetson的Jetpack系統(tǒng)
    的頭像 發(fā)表于 03-01 15:52 ?1584次閱讀
    基于OpenCV DNN<b class='flag-5'>實(shí)現(xiàn)</b><b class='flag-5'>YOLOv8</b>的模型部署與推理演示

    OpenVINO? Java API應(yīng)用RT-DETR做目標(biāo)檢測器實(shí)戰(zhàn)

    本文將從零開始詳細(xì)介紹環(huán)境搭建的完整步驟,我們基于英特爾開發(fā)套件AIxBoard為硬件基礎(chǔ)實(shí)現(xiàn)了Java在Ubuntu 22.04系統(tǒng)上成功使用OpenVINO? Java API,并且成功運(yùn)行了RT-DETR實(shí)現(xiàn)實(shí)時(shí)端到端目標(biāo)
    的頭像 發(fā)表于 03-18 15:04 ?794次閱讀
    OpenVINO? Java API應(yīng)用<b class='flag-5'>RT-DETR</b>做目標(biāo)檢測器實(shí)戰(zhàn)
    主站蜘蛛池模板: 丰满少妇69激情啪啪无码| 天天综合亚洲综合网站| 99久久久免费精品免费| 免费观看国产视频| 97视频在线播放| 免费在线视频a| 99爱视频在线观看| 欧美日韩高清一区二区三区| np高h肉辣一女多男| 秋霞午夜一级理论片久久| 草莓视频在线免费观看 | 小伙无套内射老女人| 国产精品视频免费观看| 亚洲 欧美 国产 视频二区| 国产视频精品免费| 亚洲中文热码在线视频| 久久精品成人免费网站| 中文字幕在线观看网址| 男人边吃奶边摸边做刺激情话| ca88亚洲城娱乐| 色拍拍噜噜噜久久蜜桃| 国产精品香蕉视频在线| 亚洲视频精选| 麻豆国产原创中文AV网站| bbwvideoa欧美老妇| 色老头色老太aaabbb| 国产欧美一区二区三区免费| 亚洲另类中文字幕| 恋夜秀场1234手机视频在线观看| 95国产精品人妻无码久| 日本熟妇乱妇熟色A片蜜桃| 国产精品久久一区二区三区蜜桃| 亚洲精品视频免费看| 久久香蕉国产线看观看首页 | 中国女人逼| 欧美亚洲精品一区二三区8V| 富婆大保健嗷嗷叫普通话对白| 性吧 校园春色| 久久久久九九| 成年人免费观看视频网站| 玩弄人妻少妇500系列网址|