2 月16 日,OpenAI 發布最新文生視頻大模型 Sora ,并在官網發布由其生成的 48 個視頻樣例。 目前,Sora 仍處于測試階段,僅對部分評估人員、視覺藝術家、設計書和電影制作人開放訪問權限。
Sora 在視頻生成和模擬能力實現重大突破。基于通用視覺數據的模型 Sora 具有強大的功能,具體來看:
1)視頻生成和處理能力:生成長達 1 分鐘的視頻,遠超此前 Pika 的 7 秒、Runaway Gen2 的 18 秒,視頻畫面的表現和構圖效果更佳。并且,生成視頻具有3D 一致性,即可生成具有動態攝像機運動的視頻,隨著攝像機的移動和旋轉,人物和場景元素在 3D 空間中保持一致移動。
2)圖像生成能力:生成不同大小、分辨率最高可達 2048x2048 像素的圖片。3)模擬能力:在 3D 空間中模擬人類、動物、 自然環境的特征,生成視頻符合物理世界的規則。并且還能模擬數字世界、生成程序游戲。
【不僅是多模態,Sora 為世界模型的實現奠定基礎】
此次文生視頻模型 Sora 的發布是 OpenAI 繼文字、圖像之后,在內容生成領域的又一突破。同時,其強大的視頻生成和模擬能力標志著 AI 技術在多模態領域實現重大突破。該模型強大的功能有望進一步優化內容創作者的視頻制作流程,促進優質內容生產。并且,模型所具備的模擬物理世界和數字世界的能力或將加快世界模型的實現進程,推動游戲開發、虛擬現實等領域的發展。
Sora 采用 Transformer 架構,并用 patches 作為訓練和預測的基本單位。1)數據處理:類比于大語言模型將各種文本統一為 tokens, Sora 將不同的視頻和圖片等視覺數據壓縮在低維潛空間中,將其分解為統一的 patches,以此作為視頻大模型訓練和預測的基本單位。2) 計算架構 :Sora 采用的是 duffis ion transformer 架構 , 即基于 transformer 編碼器-解碼器的架構,對經過增加噪點處理的 patches 進行編碼,再通過解碼器逐步還原出原始 patches 的預測。隨著訓練數據的增加,樣本質量將顯著提升。
【關注價值重估下的兩大投資主線】
AI 多模態技術的出現,將各種內容形式與多種智能處理算法相結合,可實現不同內容形式間的相互轉化。按形式進行劃分,內容資產可分為文字、圖片、音視頻、游戲四大類。展望未來,隨著多模態技術不斷突破,文字、圖片、音視頻、游戲內容間的轉化門檻將逐步降低,AI 輔助內容生成的比例將逐漸提升,長期來看 AI 生成有望占據主導地位。內容資產有望迎來價值重估,建議關注內容資產以及生成內容資產的 AI 工具兩條投資主線:
1)內容資產:首推最低維的內容形式即文字類內容,且擁有內容數量多及質量高的公司彈性最大。文字作為最低維的內容被升維空間最大,有望全面受益于內容資產價值重估,而網絡文學的娛樂性最強,因此其商業化空間最大。
2)生成高維內容資產的生產工具價值更高。1)AI 視頻工具: 該領域海外公司表現更為突出,如 Runaway 的 Gen-1 和 Gen-2 、Pika Labs 的 Pika 1.0 、以及 OpenAI 最新發布的 Sora 。2)AI 音頻工具:具備 AI 歌聲進化功能的音樂社交 App 給麥,該功能能識別并抓取用戶的個性化音色,讓用戶實現對多語種、不同風格音樂的演唱, 用戶可授權 AI 用個人聲音合成新歌曲;Meta 推出 AI 聲音生成模型 Audio box ,實現根據文字或音頻生成音頻的功能。AI 游戲工具,通過模糊語音指令可實現數字資產的創建和細節調整,助力高度復雜的游戲開發。
【相關受益圖及參考標】
滬電股份---AI 帶動算力基建需求大漲,公司業績增長提速
長電科技---Q4 訂單總額恢復至去年同期,多領域增長動能強勁
中文在線---2023 年凈利同比預增 119%-129% 加碼 AI+IP 雙引擎戰略
免責聲明:本文匯陽投研團隊整理編輯,僅代表團隊觀點,任何投資建議不作為您投資的依據,您須獨立作出投資決策,風險自擔。請您確認自己具有相應的權利能力、行為能力、風險識別能力及風險承受能力,能夠獨立承擔***買賣依據。投資有風險,入市需謹慎!
審核編輯 黃宇
-
AI
+關注
關注
87文章
30728瀏覽量
268886 -
產業鏈
+關注
關注
3文章
1351瀏覽量
25693 -
Sora
+關注
關注
0文章
81瀏覽量
195
發布評論請先 登錄
相關推薦
評論