作者:泡椒味的口香糖 |
0. 筆者個(gè)人體會(huì)
全景分割和實(shí)例分割任務(wù)的標(biāo)注是非常龐大的工作量,很多生成模型和NeRF都在嘗試直接合成全景分割訓(xùn)練集,但是都存在目標(biāo)交叉區(qū)域的類別模糊問題。
今天筆者將為大家分享PanopticNeRF-360這項(xiàng)工作,是PanopticNeRF的擴(kuò)展,可以使用3D粗標(biāo)注快速生成新視點(diǎn)的大量高質(zhì)量RGB和全景分割。號(hào)稱將標(biāo)注時(shí)間從1.5h降低到了0.75min(120倍)。
當(dāng)然筆者水平有限,如果有理解不當(dāng)?shù)牡胤綒g迎大家一起討論~
1. 效果展示
PanopticNeRF-360用于生成全景分割,因此輸入圖像也需要魚眼相機(jī)。整個(gè)框架的是輸入是前視雙目相機(jī)和側(cè)視的兩個(gè)魚眼相機(jī),還有3D粗標(biāo)注(3D空間的立方體、橢球、多面體都可以),來生成連續(xù)的RGB、全景分割、實(shí)例分割。
代碼已經(jīng)開源了,感興趣的讀者可以關(guān)注一下,下面來看具體的論文信息。
2. 摘要
訓(xùn)練自動(dòng)駕駛汽車的感知系統(tǒng)需要大量的注釋。然而,在2D圖像中手工標(biāo)記是高度勞動(dòng)密集型的。雖然現(xiàn)有數(shù)據(jù)集為預(yù)先錄制的序列提供了豐富的注釋,但它們?cè)跇?biāo)注很少遇到的視點(diǎn)方面存在不足,這潛在地阻礙了感知模型的泛化能力。在本文中,我們提出了PanopticNeRF-360,這是一種新的方法,它將粗糙的3D注釋與嘈雜的2D語義線索相結(jié)合,以從任何視點(diǎn)生成一致的全景標(biāo)簽和高質(zhì)量圖像。我們的關(guān)鍵見解在于利用3D和2D先驗(yàn)的互補(bǔ)性來相互增強(qiáng)幾何和語義。具體來說,我們建議利用3D和2D空間中的噪聲語義和實(shí)例標(biāo)簽來指導(dǎo)幾何優(yōu)化。同時(shí),改進(jìn)的幾何形狀通過經(jīng)由學(xué)習(xí)的語義場(chǎng)在3D空間中合并3D和2D注釋來幫助過濾3D和注釋中存在的噪聲。為了進(jìn)一步增強(qiáng)外觀,我們結(jié)合MLP和哈希網(wǎng)格來產(chǎn)生混合場(chǎng)景特征,在高頻外觀和主要的連續(xù)語義之間取得平衡。我們的實(shí)驗(yàn)展示了PanopticNeRF-360在KITTI-360數(shù)據(jù)集的具有挑戰(zhàn)性的城市場(chǎng)景上優(yōu)于現(xiàn)有標(biāo)簽轉(zhuǎn)移方法的一流性能。此外,PanopticNeRF-360支持高保真、多視圖和時(shí)空一致的外觀、語義和實(shí)例標(biāo)簽的全方位渲染。
3. 算法解析
PanopticNeRF和PanopticNeRF-360這兩篇文章希望干件啥事?
全景分割和實(shí)例分割的數(shù)據(jù)標(biāo)注太貴了,希望用深度學(xué)習(xí)實(shí)現(xiàn)自動(dòng)或者半自動(dòng)化標(biāo)注。
主要思想是啥?
主體框架還是用NeRF,因?yàn)樗男乱朁c(diǎn)合成能力太強(qiáng)了!可以建立3D語義場(chǎng)和實(shí)例場(chǎng)來渲染大量的全景分割和實(shí)例分割標(biāo)注。不過這篇文章側(cè)重的不是改進(jìn)NeRF結(jié)構(gòu),而是利用NeRF的渲染結(jié)果去做聯(lián)合優(yōu)化。
PanopticNeRF-360的具體原理是啥?
整個(gè)框架的輸入是前視雙目相機(jī)、兩個(gè)側(cè)視魚眼相機(jī)、3D粗標(biāo)注(立方體、橢球、多面體都可以),對(duì)空間中的每個(gè)點(diǎn)x,先分別使用一個(gè)MLP f和哈希網(wǎng)格h建模幾何、語義和外觀信息,直接合并兩個(gè)特征(f1和f2)。之后就是兩個(gè)語義場(chǎng),一個(gè)由3D粗標(biāo)注建模的固定語義場(chǎng)和一個(gè)可學(xué)習(xí)的語義場(chǎng),兩個(gè)語義場(chǎng)分別去渲染得到2D語義標(biāo)簽,還有一個(gè)固定的3D實(shí)例場(chǎng)區(qū)渲染2D全景分割。用固定場(chǎng)渲染得到的實(shí)例分割和全景分割做為偽真值去引導(dǎo)幾何優(yōu)化(優(yōu)化的還是語義場(chǎng)中的體密度),再做一個(gè)幾何-語義的聯(lián)合優(yōu)化去解決類別模糊問題(3D場(chǎng)景中兩個(gè)目標(biāo)重疊區(qū)域該定義為什么類別)。
這篇文章主要是有兩個(gè)創(chuàng)新點(diǎn),一方面它是第一個(gè)基于3D粗標(biāo)簽來生成高質(zhì)量全景分割的模型,另一方面它提出了兩種優(yōu)化策略來同時(shí)優(yōu)化幾何和語義預(yù)測(cè)。
這個(gè)優(yōu)化策略具體是怎么搞的?
室外采集的圖像有大量的曝光,并且不同目標(biāo)在3D空間中有很多重疊區(qū)域,因此直接做普通的幾何-語義聯(lián)合優(yōu)化的話,改進(jìn)效果不明顯。
因此,作者提出了兩種優(yōu)化策略,分別是標(biāo)簽引導(dǎo)的幾何優(yōu)化和幾何語義聯(lián)合優(yōu)化,實(shí)際上是引入了兩個(gè)固定的語義和實(shí)例場(chǎng)。
標(biāo)簽引導(dǎo)的優(yōu)化就是用固定場(chǎng)(還是來源于最初的3D粗標(biāo)注)渲染得到的語義分割和全景分割做為真值去優(yōu)化可學(xué)習(xí)語義場(chǎng),更側(cè)重渲染2D分割圖中精確的物體邊界。而聯(lián)合優(yōu)化也就是同時(shí)估計(jì)目標(biāo)的3D類別和對(duì)應(yīng)的2D分布,更側(cè)重在不同物體的3D框有交集時(shí)解決類別模糊問題。
這里面還有個(gè)線回歸,是用可學(xué)習(xí)語義場(chǎng)渲染的全景分割去優(yōu)化固定場(chǎng)的渲染結(jié)果,實(shí)際運(yùn)行中只用到了建筑物類別。這里也推薦工坊推出的新課程《國(guó)內(nèi)首個(gè)面向自動(dòng)駕駛目標(biāo)檢測(cè)領(lǐng)域的Transformer原理與實(shí)戰(zhàn)課程》。
到這里,渲染分割圖夠了,那如何渲染RGB圖呢?
渲染RGB圖最關(guān)鍵的是高頻信息!語義標(biāo)簽在相同目標(biāo)上是連續(xù)的,目標(biāo)對(duì)應(yīng)的外觀卻包含了大量高頻細(xì)節(jié),所以直接渲染RGB的話必然會(huì)損失高頻信息。這也就是pipeline中最前面哈希網(wǎng)格的作用,這一點(diǎn)和NICE-SLAM很像。
有個(gè)問題,前面哈希網(wǎng)格和MLP直接合并是不是太簡(jiǎn)單了?
這里作者測(cè)試了直接合并,還有做element-wise "product"的方案(參考文章Factor fields: A unified framework for neural fields and beyond),發(fā)現(xiàn)直接合并的策略簡(jiǎn)單但有效。
如果把固定的實(shí)例場(chǎng)也改為可學(xué)習(xí)的,會(huì)不會(huì)提高性能?
作者計(jì)算了整個(gè)視頻序列上3D目標(biāo)交叉的數(shù)量和體積,發(fā)現(xiàn)大部分都是語義目標(biāo)有交集,但是實(shí)例和實(shí)例之間的交集很少,所以沒必要再單獨(dú)建立一個(gè)實(shí)例場(chǎng)。
最后再簡(jiǎn)單說一下這個(gè)聯(lián)合優(yōu)化
前面說了,這部分主要用來預(yù)測(cè)重疊區(qū)域的語義類別,這也是提出可學(xué)習(xí)場(chǎng)的主要原因,不然使用固定場(chǎng)就可以預(yù)測(cè)幾何信息。這部分主要是兩個(gè)交叉熵?fù)p失,對(duì)每個(gè)類別k都引入了一個(gè)權(quán)重w,同時(shí)對(duì)每個(gè)3D點(diǎn)都引入語義損失:
可以看一下引入聯(lián)合優(yōu)化的具體效果:
PanopticNeRF-360和PanopticNeRF的區(qū)別是什么?
PanopticNeRF是3DV 2022的文章,PanopticNeRF-360是它的擴(kuò)展,主要區(qū)別如下:
1、普通全景分割生成->360°全景分割;
2、將實(shí)例標(biāo)簽合并到了標(biāo)簽引導(dǎo)的幾何優(yōu)化中,從而實(shí)現(xiàn)全景標(biāo)簽引導(dǎo)的幾何優(yōu)化;
3、提高生成質(zhì)量,mIoU提升0.8,PQ提升2.3;
4、將場(chǎng)景特征從純MLP改進(jìn)為MLP和哈希網(wǎng)格的混合,提高訓(xùn)練速度(2.5倍加速)。
4. 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)是在KITTI-360上搞的,對(duì)比方案包括其他3D-2D和2D-2D的標(biāo)簽遷移數(shù)據(jù)集,訓(xùn)練用了一塊3090。
3D-2D語義標(biāo)簽遷移的定量對(duì)比,PanopticNeRF-360的mIoU和Acc最高,相對(duì)于CRF方案兩個(gè)指標(biāo)分別提升了2.4%和11.9%。
3D-2D語義標(biāo)簽遷移的定性對(duì)比,在低紋理、曝光、重疊區(qū)域的預(yù)測(cè)效果很好。
魚眼3D-2D語義標(biāo)簽遷移,同樣在曝光區(qū)域效果比較好。
3D-2D全景標(biāo)簽遷移的定量結(jié)果,同樣超過了CRF方案。
3D-2D全局分割標(biāo)簽遷移的定性對(duì)比。
算是消融實(shí)驗(yàn),對(duì)比不同方案做為場(chǎng)景表征的性能。
消融實(shí)驗(yàn),對(duì)比整個(gè)pipeline中各個(gè)模塊的影響。
消融實(shí)驗(yàn)的定性對(duì)比,主要是證明各個(gè)損失對(duì)分割目標(biāo)物體邊界的影響。
文章中做了大量的對(duì)比實(shí)驗(yàn),受于篇幅限制只展示這些,感興趣的讀者可以閱讀一下論文原文。
5. 總結(jié)
PanopticNeRF-360是PanopticNeRF的擴(kuò)展版本,借助3D粗標(biāo)注快速生成大量的新視點(diǎn)全景分割和RGB圖,并引入幾何-語義聯(lián)合優(yōu)化來解決交叉區(qū)域的類別模糊問題,對(duì)于數(shù)據(jù)標(biāo)注領(lǐng)域有一定價(jià)值。但感覺這個(gè)方案還是需要3D粗標(biāo)注,而一步本身就需要很大的工作量,不值得后續(xù)能否不使用粗標(biāo)注就生成2D分割呢。
審核編輯:黃飛
?
評(píng)論
查看更多