色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

LERF:當CLIP遇見NeRF!讓自然語言與3D場景交互更直觀

CVer ? 來源:機器之心 ? 2023-03-24 10:45 ? 次閱讀

NeRF 大家都很熟悉了,但是你聽說過 LERF 嗎?本文中,來自 UC 伯克利的研究者將語言嵌入到 NeRF 中,并在 3D 場景中實現靈活的自然語言查詢。

NeRF(Neural Radiance Fields)又稱神經輻射場,自從被提出以來,火速成為最為熱門的研究領域之一,效果非常驚艷。然而,NeRF 的直接輸出只是一個彩色的密度場,對研究者來說可用信息很少,缺乏上下文就是需要面對的問題之一,其效果是直接影響了與 3D 場景交互界面的構建。

但自然語言不同,自然語言與 3D 場景交互非常直觀。我們可以用圖 1 中的廚房場景來解釋,通過詢問餐具在哪,或者詢問用來攪拌的工具在哪,以這種方式就可以在廚房里找到物體。不過完成這項任務不僅需要模型的查詢能力,還需要能夠在多個尺度上合并語義等。

本文中,來自 UC 伯克利的研究者提出了一種新穎的方法,并命名為 LERF(Language Embedded Radiance Fields),該方法將 CLIP(Contrastive Language-Image Pre-training)等模型中的語言嵌入到 NeRF 中,從而使得這些類型的 3D 開放式語言查詢成為可能。LERF 直接使用 CLIP,無需通過 COCO 等數據集進行微調,也不需要依賴掩碼區域建議。LERF 在多個尺度上保留了 CLIP 嵌入的完整性,還能夠處理各種語言查詢,包括視覺屬性(如黃色)、抽象概念(如電流)、文本等,如圖 1 所示。

c55d8934-c9bb-11ed-bfe3-dac502259ad0.png

論文地址:https://arxiv.org/abs/2303.09553

項目主頁:https://www.lerf.io/

LERF 可以實時交互地為語言提示提取 3D 相關示圖。例如在一張有小羊和水杯的桌子上,輸入提示小羊、或者水杯,LERF 就可以給出相關 3D 圖:

?

c5761ea4-c9bb-11ed-bfe3-dac502259ad0.gif

對于復雜的花束,LERF 也可以精準定位:

?

ca7c1ab6-c9bb-11ed-bfe3-dac502259ad0.gif

廚房中的不同物體:

cc7bae12-c9bb-11ed-bfe3-dac502259ad0.gif

方法

該研究通過與 NeRF 聯合優化語言場構建了新方法 LERF。LERF 將位置和物理尺度作為輸入并輸出單個 CLIP 向量。在訓練期間,場(field)使用多尺度特征金字塔(pyramid)進行監督,該金字塔包含從訓練視圖的圖像裁剪(crop)生成的 CLIP 嵌入。這允許 CLIP 編碼器捕獲不同尺度的圖像語境,從而將相同的 3D 位置與不同尺度的語言嵌入相關聯。LERF 可以在測試期間以任意尺度查詢語言場以獲得 3D 相關性映射。

cccbcece-c9bb-11ed-bfe3-dac502259ad0.png

由于從多尺度的多個視圖中提取 CLIP 嵌入,因此通過 LERF 的 3D CLIP 嵌入獲得的文本查詢的相關性映射與通過 2D CLIP 嵌入獲得的相比更加本地化(localized),并且是 3D 一致的,可以直接在 3D 場中進行查詢,而無需渲染多個視圖。

cd1bc924-c9bb-11ed-bfe3-dac502259ad0.png

LERF 需要在以樣本點為中心的體積上學習語言嵌入場。具體來說,該場的輸出是包含指定體積的圖像裁剪的所有訓練視圖的平均 CLIP 嵌入。通過將查詢從點重構為體積,LERF 可以有效地從輸入圖像的粗略裁剪中監督密集場,這些圖像可以通過在給定的體積尺度上進行調節以像素對齊的方式呈現。

cd9929be-c9bb-11ed-bfe3-dac502259ad0.png

LERF 本身會產生連貫的結果,但生成的相關性映射有時可能是不完整的,并且包含一些異常值,如下圖 5 所示。

cdda20c2-c9bb-11ed-bfe3-dac502259ad0.png

為了規范優化的語言場,該研究通過共享瓶頸引入了自監督的 DINO。

在架構方面,優化 3D 中的語言嵌入不應該影響底層場景表征中的密度分布,因此該研究通過訓練兩個獨立的網絡來捕獲 LERF 中的歸納偏置(inductive bias):一個用于特征向量(DINO、CLIP),另一個用于標準 NeRF 輸出(顏色、密度)。

實驗

為了展示 LERF 處理真實世界數據的能力,該研究收集了 13 個場景,其中包括雜貨店、廚房、書店、小雕像等場景。圖 3 選擇了 5 個具有代表性的場景,展示了 LERF 處理自然語言的能力。

ce2de8ba-c9bb-11ed-bfe3-dac502259ad0.png

圖 3。

圖 7 為 LERF 與 LSeg 的 3D 視覺對比,在標定碗里的雞蛋中,LSeg 不如 LERF:

cec8faee-c9bb-11ed-bfe3-dac502259ad0.png

圖 8 表明,在有限的分割數據集上訓練的 LSeg 缺乏有效表示自然語言的能力。相反,它僅在訓練集分布范圍內的常見對象上表現良好,如圖 7 所示。

cefc862a-c9bb-11ed-bfe3-dac502259ad0.png

不過 LERF 方法還不算完美,下面為失敗案例,例如在標定西葫蘆蔬菜時,會出現其他蔬菜:

cf207756-c9bb-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3415

    瀏覽量

    49476
  • Clip
    +關注

    關注

    0

    文章

    32

    瀏覽量

    6793
  • 自然語言
    +關注

    關注

    1

    文章

    291

    瀏覽量

    13453

原文標題:LERF:當CLIP遇見NeRF!讓自然語言與3D場景交互更直觀

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    python自然語言

    最近,python自然語言是越來越火了,那么什么是自然語言自然語言(Natural Language )廣納了眾多技術,對自然或人類語言
    發表于 05-02 13:50

    自然語言處理怎么最快入門?

    問答等等。我們日常場景中比較常見到的類似Siri、微軟小冰之類的,這些的基礎都是自然語言處理,另外還有一些語音處理,這就暫且不表了。總之,你看到的機器與人利用語言交互,用機器模擬人腦閱
    發表于 11-28 10:02

    語義理解和研究資源是自然語言處理的兩大難題

    科技改變生活,智能化設備在我們生活中的應用范圍增加,智能設備對于語言交互,人機交互的技術需求也在增加,這些需求也在促進現在的技術研究進步。從現在的自然語言發展現狀來看,
    發表于 09-19 14:10

    【推薦體驗】騰訊云自然語言處理

    `相信大家對NLP自然語言處理的技術都不陌生,它是計算機科學領域和AI領域中的一個分支,它與計算機和人類之間使用自然語言進行交互密切相關,而NLP的最終目標是使計算機能夠像人類一樣理解語言
    發表于 10-09 15:28

    自然語言處理的語言模型

    自然語言處理——53 語言模型(數據平滑)
    發表于 04-16 11:11

    自然語言處理的詞性標注方法

    自然語言處理——78 詞性標注方法
    發表于 04-21 11:38

    自然語言處理——總結、習題

    自然語言處理——79 總結、習題
    發表于 06-19 11:22

    什么是自然語言處理

    什么是自然語言處理?自然語言處理任務有哪些?自然語言處理的方法是什么?
    發表于 09-08 06:51

    自然語言處理怎么最快入門_自然語言處理知識了解

    自然語言處理就是實現人機間自然語言通信,實現自然語言理解和自然語言生成是十分困難的,造成困難的根本原因是自然語言文本和對話的各個層次上廣泛存
    發表于 12-28 17:10 ?5351次閱讀

    自然語言處理(NLP)的學習方向

    科學、數學等于一體的科學。旨在從文本數據中提取信息。目的是計算機處理或“理解”自然語言,以執行自動翻譯、文本分類和情感分析等。自然語言處理是人工智能中最為困難的問題之一。
    的頭像 發表于 07-06 16:30 ?1.3w次閱讀

    自然語言融入NeRF,給點文字就生成3D圖的LERF來了

    自然語言不同,自然語言3D 場景交互非常直觀。我們可以用圖 1 中的廚房
    的頭像 發表于 03-22 10:10 ?623次閱讀

    自然語言處理的概念和應用 自然語言處理屬于人工智能嗎

      自然語言處理(Natural Language Processing)是一種人工智能技術,它是研究自然語言與計算機之間的交互和通信的一門學科。自然語言處理旨在研究機器如何理解人類
    發表于 08-23 17:31 ?1852次閱讀

    如何利用CLIP 的2D 圖像-文本預習知識進行3D場景理解

    自我監督學習的目的是獲得有利于下游任務的良好表現。主流的方法是使用對比學習來與訓練網絡。受CLIP成功的啟發,利用CLIP的預訓練模型來完成下游任務引起了廣泛的關注。本文利用圖像文本預先訓練的CLIP知識來幫助理解
    的頭像 發表于 10-29 16:54 ?1685次閱讀
    如何利用<b class='flag-5'>CLIP</b> 的2<b class='flag-5'>D</b> 圖像-文本預習知識進行<b class='flag-5'>3D</b><b class='flag-5'>場景</b>理解

    自然語言處理包括哪些內容

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個重要分支,它涉及到計算機與人類語言之間的交互。NLP的目標是計算機能夠理解、生成
    的頭像 發表于 07-03 14:15 ?1341次閱讀

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它致力于研究如何計算機能夠理解、解釋和生成人類語言。機器學習(Ma
    的頭像 發表于 12-05 15:21 ?1107次閱讀
    主站蜘蛛池模板: 亚洲日韩中文字幕日本有码 | sao虎影院桃红视频在线观看 | 极品色αv影院 | 狠狠色狠狠色综合日日91app | 国产精品亚洲精品爽爽 | 大地影院免费观看视频 | 拔萝卜电视剧高清免费 | 中字幕久久久人妻熟女天美传媒 | 久久久精品久久久久特色影视 | 国产老师开裆丝袜喷水漫画 | 小妇人电影免费完整观看2021 | 中文字幕无码亚洲字幕成A人蜜桃 | 亚洲一区在线视频观看 | 免费精品美女久久久久久久久 | 中文字幕在线不卡精品视频99 | 国产精品96久久久久久AV网址 | 国产精品自在自线亚洲 | 大迪克黑人异族 | 扒开老师大腿猛进AAA片邪恶 | 乌克兰14一18处交见血 | 国产成人高清精品免费5388密 | 国产系列在线亚洲视频 | 夫妻日本换H视频 | 九九精彩视频在线观看视频 | 男人J桶进男人屁股过程 | 国产精彩视频在线 | 影888午夜理论不卡 樱桃熟了A级毛片 | 小寡妇水真多好紧 | 主播蜜汁丝袜精品自拍 | 麻豆第一区MV免费观看网站 | 超碰在线视频地址 | 精品国产手机视频在在线 | 亚洲AV久久无码精品九号软件 | 国产精品观看视频免费完整版 | 久久综合香蕉久久久久久久 | 2020久久精品永久免费 | 亚洲精品无码不卡在线播放he | 东北女人一级毛片 | 超碰久久国产vs | 国产成人免费片在线视频观看 | YELLOW免费观看完整视频 |