3月13日消息,谷歌宣布推出 MediaPipe Objectron,這是一種適用于日常物體的移動端實時3D目標檢測 pipeline,它能夠檢測 2D 圖像中的目標,并通過新創建 3D 數據集上訓練的機器學習模型來估計這些目標的姿態和大小。它在安卓、IOS 網頁等各種平臺上都能應用機器學習媒體模型,并加入了移動端試試 3D 檢測模型。目前 MediaPipe包含人臉檢測、手部檢測、頭發分割和視頻自動橫豎屏轉換等功能。
MediaPipe 是一個用于構建 pipeline 進而處理不同模態感知數據的跨平臺開源框架,Objectron 則在 MediaPipe 中實現,其能夠在移動設備上實時計算目標的定向 3D 邊界框。從單個圖像進行 3D 目標檢測。MediaPipe 可以在移動端上實時確認目標對象的位置、方向以及大小。整個模型非常精簡,速度也非常快,研究者將整套方案都開源了出來。
獲取真實的3D訓練數據
隨著依賴于 3D 傳感器(如 LIDAR)的自動駕駛行業發展普及,現在已有大量街道場景的 3D 數據,但對于日常生活中擁有更細顆粒度的目標來說,有標注的 3D 數據集就非常有限了。所以,為了解決此問題,谷歌團隊使用了 AR 會話(Session)數據開發了一種全新的數據 Pipeline。
此外,隨著 ARCore 以及 ARkit 的出現,數億體量的智能手機擁有了 AR 功能,并且能夠通過 AR 會話取獲取更多的信息,包括相機姿態、稀疏 3D 點云、光照估計以及平面區域估計。為了標記真實數據,團隊構建了一個全新的標注工具,并且與 AR 會話數據一起使用,該標注工具使標注者得以快速標記目標的 3D 邊界框。
該工具使用了分屏視圖來顯示 2D 的視頻幀,同時在其左側疊加 3D 邊界框,并在右側顯示 3D 點云,攝像機方位以及所檢測到的水平面。標注器在 3D 視圖中繪制 3D 邊界框,并通過查看 2D 視頻幀中的投影來驗證其位置。
左:帶標注的 3D 邊界框所形成的投影展示在邊界框頂部,更易于驗證標注;右:通過檢測到的目標表面以及稀疏點云數據,可以為不同的相機姿態標注真實世界中的 3D 邊界框。
AR 合成數據
之前常用的方法會根據合成數據補充真實數據,以提高預測的準確性。然而這樣的做法通常會導致質量低下、不真實的數據,且如果要執行圖像的真實感渲染,又需要更多的計算力。
研究者采用了另一種稱之為 AR 合成數據(AR Synthetic Data Generation)的方法,只要將對象放到 AR 系統的工作場景中,我們就能利用相機姿態估計、水平面檢測、光照估計生成物理上可能存在的位置及場景。這種方法能生成高質量合成數據,并無縫匹配實際背景。通過結合真實數據與 AR 合成數據,研究者能將模型的準確性提高約 10%。
3D 目標檢測的流程是什么樣的
對于 3D 目標檢測,研究者先構建了一個單階段模型 MobilePose,以預測單張 RGB 圖像中某個目標的姿態和物理大小。該模型的主干是一個編碼器-解碼器架構,其構建在 MobileNet V2 的基礎上。研究者應用了多任務學習方法,來從檢測與回歸的角度聯合預測目標的形狀,且在預測形狀的過程中,其只依賴于標注的分割圖像。
MobilePose-Shape 網絡在中間層會帶有形狀預測模塊。
在模型的訓練中,如果數據沒有標注形狀,那也是可行的。只不過借助檢測邊界框,研究者可以預測形狀中心與分布。
為了獲得邊界框的最終 3D 坐標,研究者利用了一種完善的姿態估計算法(EPnP),它可以恢復對象的 3D 邊界框,而無需知道對象維度這一先驗知識。給定 3D 邊界框,我們可以輕松計算對象的姿態和大小。
下圖顯示了網絡架構和后處理過程,該模型輕巧到可以在移動設備上實時運行(在 Adreno 650 mobile GPU 上以 26 FPS 的速度運行)。
3D 目標檢測的神經網絡架構與后處理過程。
模型的示例結果,其中左圖為估計邊界框的原始 2D 圖像,中間為帶高斯分布的目標檢測,最右邊為預測的分割 Mask。
在 MediaPipe 中進行檢測和追蹤
當模型對移動設備獲得的每一幀圖像進行計算的時候,它可能會遇到晃動的情況,這是因為每一幀對目標邊界框預測本身的模糊性造成的。為了緩解這個問題,研究者采用了檢測+追蹤的框架,這一框架近期被用于 2D 檢測和追蹤中。這個框架減少了需要在每一幀上運行網絡的要求,因此可以讓模型的檢測更為精確,同時保證在移動端上的實時性。它同時還能保持識別幀與幀之間的目標,確保預測的連貫性,減少晃動。
為了進一步提升這一 pipeline 的效率,研究者設置模型在每幾幀后再進行一次模型推理。之后,他們使用名為快速動作追蹤(instant motion tracking)和 Motion Stills 技術進行預測和追蹤。當模型提出一個新的預測時,他們會根據重疊區域對檢測結果進行合并。
為了鼓勵研究者和開發者基于這一 pipeline 進行試驗,谷歌目前已經將研究成果開源到了 MediaPipe 項目中,包括端到端的移動設備應用 demo,以及在鞋、椅子兩個分類中訓練好的模型。研究者希望這一解決方案能夠更好地幫助到社區,并產生新的方法、應用和研究成果。團隊也希望能夠擴大模型到更多類別中,進一步提升在移動端設備的性能表現。
責任編輯:gt
-
3D
+關注
關注
9文章
2875瀏覽量
107488 -
谷歌
+關注
關注
27文章
6164瀏覽量
105310
發布評論請先 登錄
相關推薦
評論