色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TransGeo:第一種用于交叉視圖圖像地理定位的純Transformer方法

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-01-16 11:02 ? 次閱讀

主要內(nèi)容:

提出了第一種用于交叉視圖圖像地理定位的純Transformer方法,在對齊和未對齊的數(shù)據(jù)集上都實(shí)現(xiàn)了最先進(jìn)的結(jié)果,與基于CNN的方法相比,計(jì)算成本更低,所提出的方法不依賴于極坐標(biāo)變換和數(shù)據(jù)增強(qiáng),具有通用性和靈活性。

論文出發(fā)點(diǎn):

基于CNN的交叉視圖圖像地理定位主要依賴于極坐標(biāo)變換,無法對全局相關(guān)性進(jìn)行建模,為了解決這些限制,論文提出的算法利用Transformer在全局信息建模和顯式位置信息編碼方面的優(yōu)勢,還進(jìn)一步利用Transformer輸入的靈活性,提出了一種注意力引導(dǎo)的非均勻裁剪方法去除無信息的圖像塊,性能下降可以忽略不計(jì),從而降低了計(jì)算成本,節(jié)省下來的計(jì)算可以重新分配來提高信息patch的分辨率,從而在不增加額外計(jì)算成本的情況下提高性能。

這種“關(guān)注并放大”策略與觀察圖像時(shí)的人類行為高度相似。

圖像地理定位(名詞解釋):

基于圖像的地理定位旨在通過檢索GPS標(biāo)記的參考數(shù)據(jù)庫中最相似的圖像來確定查詢圖像的位置,其應(yīng)用在大城市環(huán)境中改善具有大的噪聲GPS和導(dǎo)航,在Transformer出現(xiàn)之前,通常使用度量學(xué)習(xí)損失來訓(xùn)練雙通道CNN框架,但是這樣交叉視圖檢索系統(tǒng)在街道視圖和鳥瞰視圖之間存在很大的領(lǐng)域差距,因?yàn)镃NN不能明確編碼每個(gè)視圖的位置信息,之后為了改善域間隙,算法在鳥瞰圖像上應(yīng)用預(yù)定義的極坐標(biāo)變換,變換后的航空圖像具有與街景查詢圖像相似的幾何布局,然而極坐標(biāo)變換依賴于與兩個(gè)視圖相對應(yīng)的幾何體的先驗(yàn)知識,并且當(dāng)街道查詢在空間上未在航空圖像的中心對齊時(shí),極坐標(biāo)轉(zhuǎn)換可能會失敗。

Contribution:

提出了第一種基于Transformer的方法用于交叉視圖圖像地理定位,無需依賴極坐標(biāo)變換或數(shù)據(jù)增強(qiáng)。

提出了一種注意力引導(dǎo)的非均勻裁剪策略,去除參考航空圖像中的大量非信息補(bǔ)丁以減少計(jì)算量,性能下降可忽略不計(jì),通過將省下來的計(jì)算資源重新分配到信息patch的更高圖像分辨率進(jìn)一步提高了性能。

與基于CNN的方法相比,在數(shù)據(jù)集上的最先進(jìn)性能具有更低的計(jì)算成本、GPU內(nèi)存消耗和推理時(shí)間。

網(wǎng)絡(luò)架構(gòu):

251123c0-952a-11ed-bfe3-dac502259ad0.png

25375ea0-952a-11ed-bfe3-dac502259ad0.png

Patch Embedding:

256d4ab0-952a-11ed-bfe3-dac502259ad0.png

Class Token:

最后一層輸出的類token被送到一個(gè)MLP頭以生成最終的分類向量,使用最終輸出向量作為嵌入特征,并使用上面說的損失對其進(jìn)行訓(xùn)練。

可學(xué)習(xí)的位置嵌入:

位置嵌入被添加到每個(gè)token以保持位置信息,采用了可學(xué)習(xí)的位置嵌入,這是包括class token在內(nèi)的所有(N+1)token的可學(xué)習(xí)矩陣,可學(xué)習(xí)的位置嵌入使雙通道Transformer能夠?qū)W習(xí)每個(gè)視圖的最佳位置編碼,而無需任何關(guān)于幾何對應(yīng)的先驗(yàn)知識,因此比基于CNN的方法更通用和靈活。

多頭注意力:

Transformer編碼器內(nèi)部架構(gòu)是L個(gè)級聯(lián)的基本Transformer,關(guān)鍵組成部分是多頭注意力塊,它首先使用三個(gè)可學(xué)習(xí)的線性投影將輸入轉(zhuǎn)換為查詢、鍵和值,表示為Q、K、V,維度為D,然后將注意力輸出計(jì)算為

258decca-952a-11ed-bfe3-dac502259ad0.png

,一個(gè)k-head注意力塊用k個(gè)不同的head對Q、k、V進(jìn)行線性投影,然后對所有k個(gè)head并行執(zhí)行attention,輸出被連接并投影回模型維度D,多頭注意力可以模擬從第一層開始的任意兩個(gè)標(biāo)記之間的強(qiáng)全局相關(guān)性,這在CNN中是不可能學(xué)習(xí)的,因?yàn)榫矸e的接受域有限。

Attention引導(dǎo)的非均勻裁剪:

當(dāng)尋找圖像匹配的線索時(shí),人類通常會第一眼找到最重要的區(qū)域,然后只關(guān)注重要的區(qū)域并放大以找到高分辨率的更多細(xì)節(jié),把“關(guān)注并放大”的思想用在交叉圖像地理定位中可能更有益,因?yàn)閮蓚€(gè)視圖只共享少量可見區(qū)域,一個(gè)視圖中的大量區(qū)域,例如鳥瞰圖中的高樓屋頂,在另一個(gè)視圖可能看不見,這些區(qū)域?qū)ψ罱K相似性的貢獻(xiàn)微不足道,可以去除這些區(qū)域以減少計(jì)算和存儲成本,然而重要的區(qū)域通常分散在圖像上,因此CNN中的均勻裁剪不能去除分散的區(qū)域,因此提出了注意力引導(dǎo)的非均勻裁剪

25af1c06-952a-11ed-bfe3-dac502259ad0.png

在鳥瞰分支的最后一個(gè)transformer編碼器中使用注意力圖,它代表了每個(gè)token對最終輸出的貢獻(xiàn),由于只有class token對應(yīng)的輸出與MLP head連接,因此選擇class token與所有其他patch token之間的相關(guān)性作為注意力圖,并將其重塑為原始圖像形狀。

模型優(yōu)化:

為了在沒有數(shù)據(jù)增強(qiáng)的情況下訓(xùn)練Transformer模型,采用了正則化/泛化技術(shù)ASAM。在優(yōu)化損失時(shí)使用ASAM來最小化損失landscape的自適應(yīng)銳度使得該模型以平滑的損失曲率收斂以實(shí)現(xiàn)強(qiáng)大的泛化能力。

25e54cd6-952a-11ed-bfe3-dac502259ad0.png

通過同時(shí)最小化的損失和自適應(yīng)銳度,能夠在不使用任何數(shù)據(jù)增強(qiáng)的情況下克服過擬合問題

實(shí)驗(yàn):

在兩個(gè)城市規(guī)模的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),即CVUSA和VIGOR,分別代表了空間對齊和非對齊設(shè)置

評估度量:在top-k召回準(zhǔn)確率,表示為“R@k”,基于每個(gè)查詢的余弦相似度檢索嵌入空間中的k個(gè)最近參考鄰居,如果地面真實(shí)參考圖像出現(xiàn)在前k個(gè)檢索圖像中,則認(rèn)為其正確。

預(yù)測GPS位置和地面真實(shí)GPS位置之間的真實(shí)世界距離作為VIGOR數(shù)據(jù)集上的米級別的評估。

命中率,即覆蓋查詢圖像(包括地面真相)的前1個(gè)檢索參考圖像的百分比

2600fff8-952a-11ed-bfe3-dac502259ad0.png

26217bf2-952a-11ed-bfe3-dac502259ad0.png

264e90e2-952a-11ed-bfe3-dac502259ad0.png

和之前SOTA方法SAFA在計(jì)算代價(jià)上的比較

26602d3e-952a-11ed-bfe3-dac502259ad0.png

總結(jié):

提出了第一種用于交叉視圖圖像地理定位的純Transformer方法,在對齊和未對齊的數(shù)據(jù)集上都實(shí)現(xiàn)了最先進(jìn)的結(jié)果,與基于CNN的方法相比,計(jì)算成本更低。

缺點(diǎn)是使用兩個(gè)管道,且patch選擇簡單地使用不可通過參數(shù)學(xué)習(xí)的注意力圖。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1085

    瀏覽量

    40486
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24719
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    352

    瀏覽量

    22237

原文標(biāo)題:CVPR 2022 | TransGeo:第一種用于交叉視圖圖像地理定位的純Transformer方法

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Mamba入局圖像復(fù)原,達(dá)成新SOTA

    圖像復(fù)原又來新突破了!還記得性能超越SwinIR(基于Transformer)的MambaIR嗎?一種基于Mamba的圖像復(fù)原基準(zhǔn)模型,登上ECCV 2024。最近原作者又開發(fā)了新版本
    的頭像 發(fā)表于 12-30 18:09 ?99次閱讀
    Mamba入局<b class='flag-5'>圖像</b>復(fù)原,達(dá)成新SOTA

    全球地理定位技術(shù)的發(fā)展歷程

    根據(jù) Google 提供的數(shù)據(jù),目前有 5,465 顆衛(wèi)星在環(huán)繞地球軌道運(yùn)行,其中有 154 顆衛(wèi)星主要用于導(dǎo)航。
    的頭像 發(fā)表于 12-16 11:37 ?268次閱讀

    如何使用圖像采集卡

    圖像進(jìn)行處理和存儲。本文旨在詳細(xì)探討圖像采集卡的定義、功能、安裝和使用方法,以幫助讀者更好地理解和利用這設(shè)備。
    的頭像 發(fā)表于 12-13 15:03 ?140次閱讀
    如何使用<b class='flag-5'>圖像</b>采集卡

    自動(dòng)駕駛中直說的BEV+Transformer到底是個(gè)啥?

    (Bird’s Eye View)+Transformer”是兩個(gè)方向的技術(shù),BEV是一種全新的3D坐標(biāo)系,而Transformer則是一種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,BEV+
    的頭像 發(fā)表于 11-07 11:19 ?410次閱讀
    自動(dòng)駕駛中<b class='flag-5'>一</b>直說的BEV+<b class='flag-5'>Transformer</b>到底是個(gè)啥?

    SegVG視覺定位方法的各個(gè)組件

    視覺定位(Visual Grounding)旨在基于自由形式的自然語言文本表達(dá)定位圖像中的目標(biāo)物體。隨著多模態(tài)推理系 統(tǒng)的普及,如視覺問答和圖像描述,視覺定位的重要性愈加凸顯。已有的研
    的頭像 發(fā)表于 10-28 13:59 ?446次閱讀
    SegVG視覺<b class='flag-5'>定位</b><b class='flag-5'>方法</b>的各個(gè)組件

    一種將NeRFs應(yīng)用于視覺定位任務(wù)的新方法

    視覺定位旨在估計(jì)在已知環(huán)境中捕獲的給定圖像的旋轉(zhuǎn)和位置,大致可以分為絕對姿態(tài)回歸(APR),場景坐標(biāo)回歸(SCR)和分層方法(HM)。
    的頭像 發(fā)表于 10-28 10:03 ?216次閱讀
    <b class='flag-5'>一種</b>將NeRFs應(yīng)<b class='flag-5'>用于</b>視覺<b class='flag-5'>定位</b>任務(wù)的新<b class='flag-5'>方法</b>

    一種半動(dòng)態(tài)環(huán)境中的定位方法

    和終身定位方法,以識別非靜態(tài)環(huán)境中的半動(dòng)態(tài)物體,并提出了個(gè)通用框架,將主流物體檢測算法與建圖和定位算法集成在起。建圖
    的頭像 發(fā)表于 09-30 14:40 ?273次閱讀
    <b class='flag-5'>一種</b>半動(dòng)態(tài)環(huán)境中的<b class='flag-5'>定位</b><b class='flag-5'>方法</b>

    一種無透鏡成像的新方法

    透鏡成像形式,它使用掃描光束收集散射光進(jìn)行圖像重建,面臨著周期性樣品的挑戰(zhàn)。為了研究微電子或光子元件中的納米級圖案,一種基于無透鏡成像的新方法可以實(shí)現(xiàn)近乎完美的高分辨率顯微鏡。這在波長短于紫外線時(shí)尤為重要,其成像空間分辨率高于
    的頭像 發(fā)表于 07-19 06:20 ?394次閱讀
    <b class='flag-5'>一種</b>無透鏡成像的新<b class='flag-5'>方法</b>

    機(jī)器學(xué)習(xí)中的交叉驗(yàn)證方法

    在機(jī)器學(xué)習(xí)中,交叉驗(yàn)證(Cross-Validation)是一種重要的評估方法,它通過將數(shù)據(jù)集分割成多個(gè)部分來評估模型的性能,從而避免過擬合或欠擬合問題,并幫助選擇最優(yōu)的超參數(shù)。本文將詳細(xì)探討幾種
    的頭像 發(fā)表于 07-10 16:08 ?1190次閱讀

    地下金屬電纜故障定位儀的管線探測方法——每日了解電力知識

    法和夾鉗法三信號施加模式,適合不同場合需要。 2、 接收機(jī)功能: 用于對地下電纜的位置、走向、埋深及電流測量。 3、左右定位箭頭指示目標(biāo)管線位置,定位快速、精確;前后箭頭和dB值指示
    的頭像 發(fā)表于 07-08 09:04 ?696次閱讀
    地下金屬電纜故障<b class='flag-5'>定位</b>儀的管線探測<b class='flag-5'>方法</b>——每日了解電力知識

    為什么UWB定位技術(shù)適用于室內(nèi)定位

    UWB室內(nèi)人員定位原理 UWB室內(nèi)人員定位技術(shù)只是屬于無線定位技術(shù)的一種。流行的無線定位技術(shù)包括GPS
    的頭像 發(fā)表于 06-19 17:10 ?713次閱讀
    為什么UWB<b class='flag-5'>定位</b>技術(shù)適<b class='flag-5'>用于</b>室內(nèi)<b class='flag-5'>定位</b>?

    交叉導(dǎo)軌維護(hù)和保養(yǎng)的方法

    交叉導(dǎo)軌系統(tǒng)作為一種常見的機(jī)械傳動(dòng)裝置,廣泛應(yīng)用于各種精密機(jī)械設(shè)備中。為了確保交叉導(dǎo)軌系統(tǒng)的正常運(yùn)行和延長其使用壽命,定期維護(hù)和保養(yǎng)是至關(guān)重要的。
    的頭像 發(fā)表于 05-05 17:48 ?442次閱讀
    <b class='flag-5'>交叉</b>導(dǎo)軌維護(hù)和保養(yǎng)的<b class='flag-5'>方法</b>

    3雙控開關(guān)的接線方法

    詳盡、詳實(shí)、細(xì)致地介紹三常見的雙控開關(guān)的接線方法第一種接線方法是直連法。直連法是最簡單的雙控開關(guān)接線方法,適
    的頭像 發(fā)表于 02-05 13:46 ?5665次閱讀

    什么是gps定位? gps定位放線的步驟有哪些

    用戶的位置,從而實(shí)現(xiàn)定位。 GPS定位放線是一種使用GPS技術(shù)進(jìn)行精確測量和放線的方法。它常用于建筑工程、土地測量、地貌調(diào)查和
    的頭像 發(fā)表于 01-22 15:48 ?6676次閱讀

    bds是什么地理技術(shù) BDS與GPS的區(qū)別

    導(dǎo)航系統(tǒng)。雖然BDS和GPS都是用于地理定位和導(dǎo)航的技術(shù),但它們在很多方面存在著差異。 BDS(北斗導(dǎo)航衛(wèi)星系統(tǒng))是中國自主研發(fā)的一種全球衛(wèi)星導(dǎo)航系統(tǒng),旨在提供全球范圍內(nèi)的高精度定位
    的頭像 發(fā)表于 01-19 10:11 ?2.1w次閱讀
    主站蜘蛛池模板: 精品高清国产a毛片| 人妻美妇疯狂迎合| 国产在线精品亚洲一品区| 国产日韩久久久精品影院首页 | 日本性xxx| 少女开女包www| 午夜国产大片免费观看| 亚洲国产高清在线观看视频| 亚洲天堂视频网站| 777米奇色狠狠俺去啦| 被免费网站在线视频| 国产乱对白精彩在线播放 | 1024人成网站色www下载| a一级毛片视频免费看| 国产精品国产三级国AV在线观看| 国产一区亚洲| 老师的蕾丝小内内湿透了| 人妻免费久久久久久久了| 乌克兰粉嫩摘花第一次| 伊人久久中文字幕久久cm| qvod电影| 国产午夜精品不卡观看| 拉菲娱乐主管高工资q39709| 欧美区一区二| 亚洲地址一地址二地址三| 91久久偷偷做嫩草影院免费看| 超熟女专门志| 狠狠插影院| 欧美巨大xxxx做受高清| 性夜a爽黄爽| 99国产精品成人免费视频| 高清国产一区| 久久天天躁狠狠躁夜夜躁| 日韩午夜中文字幕电影| 夜月视频直播免费观看| 爱人 qvod| 精品视频网站| 三级黄色高清视频| 中字幕视频在线永久在线 | 在线超碰免费视频观看| 大胸美女脱内衣黄网站|