大家都喜歡玩游戲吧?因為游戲最大的吸引力是讓我們逃避現實、幻想一個遠離我們眼前現實的世界,掌控這個虛擬的現實世界。現在,我們可以想象一下,如果我們有能力創造自己的世界,那該多好了。 讓我們激動的這一天來了! 北美時間26號下午,GoogleGenie團隊的負責人Tim Rockt?schel非常興奮地宣布:Google DeepMindOpen Endedness團隊開發的基于互聯網視頻訓練的基礎世界模型(foundation world model)——Genie
(幽靈)發布了,它可以根據圖像提示生成無窮無盡的可控動作2D世界的各種變化。這個110億參數大模型Genie,能從一張圖片就能創造出可玩的虛擬世界,動作可控,這也預示著,AI已經真正殺到視頻游戲領域了。
什么是Genie(精靈)?
根據 Google DeepMind 的官方博客文章,Genie 是一個基礎世界模型,它是根據來自互聯網的視頻進行訓練的。該模型可以“從合成圖像、照片甚至草圖中生成無窮無盡的可玩(動作可控)世界”。 研究論文 “Genie:Generative Interactive Environments” 指出,Genie是第一個從未標記的互聯網視頻中以無監督方式訓練的生成式交互式環境。在大小方面,Genie 的參數為 11B,由時空視頻標記器(spatiotemporal videotokenizer)、自回歸動力學模型(autoregressive dynamics model)和簡單且可擴展的潛在動作模型(simple and scalable latent action model)組成。
這些技術規范允許 Genie 在生成的環境中逐幀運行,即使在沒有訓練、標注或任何其他特定領域要求的情況下也是如此。
Genie 能做什么的?
根據這篇研究論文,Genie是一種新型的生成式人工智能,它使任何人(甚至是兒童)都能夢想并進入類似于人類設計的模擬環境的生成世界。可以提示 Genie 生成一組不同的交互式和可控環境,盡管它是在純視頻數據上訓練的。
簡而言之,我們已經看到了許多生成式 AI 模型,它們使用語言、圖像甚至視頻生成創意內容。Genie 是一個突破,因為它可以從單個圖像提示中創建可玩的環境。
試著記住《哈利·波特與魔法石》中哈利和他的朋友們在前往格蘭芬多公共休息室的路上進入霍格沃茨城堡的場景。年輕的學生們看到一面墻上掛滿了畫作,每個角色都在他們的畫面中慢慢地移動,這些畫作栩栩如生。Genie能使靜止圖像栩栩如生,賦予我們一個自己的世界。
根據 Google DeepMind 的說法,Genie 可以收到它從未見過的圖像提示,這包括現實世界的照片、草圖,允許人們與他們想象的虛擬世界互動,這就是稱之為“基礎世界模型”。在培訓方面,研究論文強調,他們更關注2D平臺游戲和機器人技術的視頻。Genie 使用通用方法進行訓練,使其能夠在任何類型的域上運行,并且可以擴展到更大的 Internet 數據集。
為什么Genie很重要?
Genie 的突出之處在于它能夠從互聯網視頻中學習和重現游戲中角色的控制。這是值得注意的,因為互聯網視頻沒有關于視頻中執行的動作的標簽,甚至沒有關于應該控制圖像的哪一部分的標簽。
Google 博客文章寫道:“Genie不僅可以學習觀察的哪些部分通常是可控的,還可以推斷出在生成的環境中一致的各種潛在行為。請注意,相同的潛在動作如何在不同的提示圖像中產生相似的行為,“ 根據 Google DeepMind 的說法,該模型最獨特的方面是:它允許您從單個圖像創建一個全新的交互式環境。這開辟了許多可能性,尤其是創建和進入虛擬世界的新方法。為了證明這一點,研究人員使用文本到圖像模型Imagen 2創建了一個圖像,然后將其用作創建虛擬世界的提示。草圖也可以做同樣的事情。
有了 Genie,任何人都可以創建自己完全想象的虛擬世界。此外,該模型學習和開發新世界模型的能力標志著向通用人工智能代理(一個獨立的程序或實體,通過傳感器感知其周圍環境來與環境交互)的重大飛躍。 開啟另一個旅程:
審核編輯:劉清
-
谷歌
+關注
關注
27文章
6161瀏覽量
105304 -
人工智能
+關注
關注
1791文章
47183瀏覽量
238266 -
大模型
+關注
關注
2文章
2423瀏覽量
2645
原文標題:基礎世界模型Google Genie誕生了:根據提示生成無窮無盡的、可交互的2D世界
文章出處:【微信號:軟件質量報道,微信公眾號:軟件質量報道】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論