喜歡樂高、熟悉樂高的朋友們應該都是清楚,如今有些樂高產品完全是面向大人的,它們的復雜程度遠高于面向兒童的產品。以樂高千年隼號(Millennium Falcon)和帝國殲星艦(Imperial Star Destroyer)這兩款產品為例,它們的積木顆粒分別為 7541 個和 4784 個,不少人花費了數月時間才最終拼完。據說拼過這兩款積木的用戶最后都 “病” 了,癥狀表現為看到積木就頭疼、手不由自主發抖、容易犯嘔。
不想被一個玩具難倒了?那么這個新誕生的機器學習框架可以讓你更加直觀、輕松地拼完整個模型。
Autodesk、斯坦福大學和麻省理工學院的研究人員探討了將人類設計師創造的基于圖像的、分步驟的裝配手冊翻譯成機器可理解的指令的問題。研究人員將這個問題表述為一個連續的預測任務:在每個步驟中,該模型都會讀取手冊,定位要添加到當前形狀中的部件,并推斷出它們在三維空間的位置。這項任務帶來的挑戰是在手冊圖像和真實的三維物體之間建立「二維到三維」的對應關系,以及對未見過的三維物體進行三維姿態預測,因為在一個步驟中要添加的新部件可能是全新的小積木,也可能是由以前的步驟拼成的物體(例如一個人物模型,說明書通常是讓用戶先拼完人物的四肢和頭部,然后再將四肢和頭部與人物主體互相拼接在一起形成整體;而不是像 3D 打印,一步步從頭到腳慢慢成型)。
為了解決這兩個挑戰,研究人員提出了一個新的基于學習的框架,即 MEPNet(Manual-to-Executable-Plan Network),它從一連串的手冊圖像中重構拼裝步驟。其關鍵思想是整合神經的二維關鍵點檢測模塊和「二維到三維」投影算法,以實現高精度的預測和對未見過的組件的強概括性。通過測試發現,MEPNet 的表現優于現有方法。
研究人員表示,現有的將說明書步驟解析為機器可理解的指令的方法主要包括兩種形式,一個是基于搜索的方法,該方法簡單而準確,但計算成本高;另一個是基于學習的模型,速度快,但不善于處理未見過的 3D 形狀,而 MEPNet 結合了上述兩種方法。
除了可以用來拼樂高,在論文中研究人員還表示,他們的目標是創造幫助人們組裝復雜物體的機器,他們的應用范圍除了樂高的積木,還包括宜家的家具。因此利用這個框架,開發者有望開發出比普通家具說明更容易讓用戶理解的安裝手冊。
想測試 MEPNet 并且熟悉 Pytorch 的用戶可以在 Github 上找到項目的代碼 :https://github.com/Relento/lego_release
我十分懷疑,開發這個框架的研究員假借研究的名義偷偷玩樂高。
審核編輯 :李倩
-
機器學習
+關注
關注
66文章
8485瀏覽量
133973 -
開源框架
+關注
關注
0文章
32瀏覽量
9483 -
pytorch
+關注
關注
2文章
809瀏覽量
13737
原文標題:樂高、宜家說明書太難懂?Autodesk開源框架幫你解決
文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論