色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

關于語音驅(qū)動3D虛擬人性能介紹

lhl545545 ? 來源:與非網(wǎng) ? 作者:與非網(wǎng) ? 2020-11-25 16:26 ? 次閱讀

Speech2Video 是一種從語音音頻輸入合成人體全身運動(包括頭、口、臂等)視頻的任務,其產(chǎn)生的視頻應該在視覺上是自然的,并且與給定的語音一致。傳統(tǒng)的 Speech2Video 方法一般會使用專用設備和專業(yè)操作員進行性能捕獲,且大多數(shù)語音和渲染任務是由動畫師完成的,定制使用的成本通常比較昂貴。

近年來,隨著深度神經(jīng)網(wǎng)絡的成功應用,數(shù)據(jù)驅(qū)動的方法已經(jīng)成為現(xiàn)實。例如,SythesisObama 或 MouthEditing 通過使用 RNN 通過語音驅(qū)動嘴部運動來合成說話的嘴部。泰勒 提出使用音頻來驅(qū)動高保真圖形模型,該模型不僅可以將嘴部動畫化,而且還可以對面部的其他部分進行動畫處理以獲得更豐富的語音表達。

然而,嘴部運動的合成大部分是確定性的:給定發(fā)音,在不同的人和環(huán)境中嘴部的運動或形狀是相似的。但現(xiàn)實生活中,相同情況下的全身手勢運動具有更高的生成力和更多的變異性,這些手勢高度依賴于當前的上下文和正在執(zhí)行語音的人類。傳遞重要信息時,個性化的手勢會在特定時刻出現(xiàn)。因此,有用的信息僅稀疏地存在于視頻中,這為簡單的端到端學習算法 有限的錄制視頻中捕獲這種多樣性帶來了困難。

近日,百度提出了一種新的方法,將給定文字或音頻轉(zhuǎn)換為具有同步、逼真、富表現(xiàn)力的肢體語言的實感視頻。該方法首先使用遞歸神經(jīng)網(wǎng)絡(recursive neural network,RNN)從音頻序列生成 3D 骨骼運動,然后通過條件生成對抗網(wǎng)絡(GAN)合成輸出視頻。

為了使骨骼運動逼真并富有表現(xiàn)力,研究者將關節(jié) 3D 人體骨骼的知識和學習過的個性化語音手勢字典嵌入到學習和測試過程中。前者可以防止產(chǎn)生不合理的身體變形,而后者通過一些有意義的身體運動視頻幫助模型快速學習。為了制作富有運動細節(jié)的逼真高分辨率視頻,研究者提出一種有條件的 GAN,其中每個細節(jié)部分,例如頭和手,是自動放大過的以擁有自己的判別器。該方法與以前處理類似任務的 SOTA 方法相比效果更好。

方法

圖 1:Speech2Video 系統(tǒng) pipeline

如圖 1 所示,根據(jù)用于訓練 LSTM 網(wǎng)絡的內(nèi)容,系統(tǒng)的輸入是音頻或文本。考慮到文本到語音(TTS)和語音到文本(STT)技術都已經(jīng)成熟并且可商用,此處假定音頻和 text 是可互換的。即使從最先進的 STT 引擎中得到一些錯誤識別的單詞 / 字符,系統(tǒng)也可以容忍這些錯誤,LSTM 網(wǎng)絡的主要目的是將文本 / 音頻映射到身體形狀。錯誤的 STT 輸出通常是與真實發(fā)音相似的單詞,這意味著它們的拼寫也很可能是相似的。因此,它們最終將映射的身體形狀或多或少相似。

LSTM 的輸出是由 SMPL-X 參數(shù)化的一系列人體姿勢。SMPL-X 是一個人體、面部和手部的 3D 聯(lián)合模型,這一動態(tài)關節(jié) 3D 模型是由一個 2D 彩色骨架圖像序列可視化的。這些 2D 圖像被進一步輸入到 vid2vid 生成網(wǎng)絡中,以生成最終的現(xiàn)實人物圖像。

在成功同步語音和動作的同時,LSTM 大部分時間只能學習重復的人類動作,這會使視頻看起來很無聊。為了使人體動作更具表現(xiàn)力和變化性,研究者在一些關鍵詞出現(xiàn)時將特定姿勢加入 LSTM 的輸出動作中,例如,巨大、微小、高、低等。研究者建立了一個字典,將這些關鍵詞映射到它們相應的姿勢。

模特站在相機和屏幕的前面,當他 / 她在屏幕上閱讀腳本時,研究者會捕獲這些視頻。最后再要求模特擺一些關鍵詞的動作,例如巨大、微小、向上、向下、我、你等等。

人體模型擬合

研究者首先將這些 2D 關鍵點作為人體模型的表示,并訓練了 LSTM 網(wǎng)絡,但結果不能令人滿意。

最后采用了 SMPL-X,這是一種關節(jié)式 3D 人體模型。SMPL-X 使用運動學骨架模型對人體動力學進行建模,具有 54 個關節(jié),包括脖子、手指、手臂、腿和腳。

詞典構建和關鍵姿勢插入

研究者從錄制的視頻中手動選擇關鍵姿勢,并建立一個單詞 - 姿勢查詢字典。同樣,該姿勢表示為 106 個 SMPL-X 參數(shù)。關鍵姿勢可以是靜止的單幀姿勢或多幀運動,可以通過相同的方法將兩者插入到現(xiàn)有的人體骨骼視頻中。

訓練視頻生成網(wǎng)絡

研究者采用 vid2vid 提出的生成網(wǎng)絡,將骨架圖像轉(zhuǎn)換為真實的人像。

用于訓練 vid2vid 的示例圖像對。雙手均帶有特殊的色環(huán)標記。

運行時間和硬件方面,系統(tǒng)中最耗時和最耗內(nèi)存的階段是訓練 vid2vid 網(wǎng)絡。在 8 個 NVIDIA Tesla M40 24G GPU 集群上完成 20 個時期的訓練大約需要一周;測試階段要快得多,在單個 GPU 上生成一幀僅需約 0.5 秒。

結果

評估與分析

研究者將使用用戶研究的結果與 4 種 SOTA 方法進行比較,結果顯示,本文方法獲得了最佳的總體質(zhì)量得分。

此外,研究者使用 Inception 分數(shù)評估圖像生成結果,包括兩個方面:圖像質(zhì)量和圖像多樣性。

為了評估最終輸出的視頻,研究者在 Amazon Mechanical Turk(AMT)上進行了人類主觀測試,共有 112 名參與者。研究者向參與者展示了總共五個視頻,其中四個是合成視頻,兩個由真實人的音頻生成,兩個由 TTS 音頻生成;剩下的是一個真實人物的短片。參與者以李克特量表(從 1(強烈不同意)到 5(強烈同意))對這些視頻的質(zhì)量進行評分。其中包括:1)人體的完整性(沒有遺漏的身體部位或手指);2)視頻中人臉清晰;3)視頻中的人體動作(手臂,手,身體手勢)看起來自然流暢。4)身體的動作和手勢與聲音同步;5)視頻的整體視覺質(zhì)量。

總結

Speech2Video 是一種新穎的框架,可以使用 3D 驅(qū)動的方法生成逼真的語音視頻,同時避免構建 3D 網(wǎng)格模型。作者在框架內(nèi)建立了個性化關鍵手勢表,以處理數(shù)據(jù)稀疏性和多樣性的問題。更重要的是,作者利用 3D 骨骼約束來生成身體動力學,從而保證其姿勢在物理上是合理的。
責任編輯:pj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關推薦

    科大訊飛AI虛擬人交互平臺榮獲行業(yè)最高評級

    近日,科大訊飛的AI虛擬人交互平臺順利完成中國信通院人工智能研究所組織的大模型數(shù)字人基礎能力分級測試,并獲得最高等級L5認證,系國內(nèi)首批。
    的頭像 發(fā)表于 12-13 11:39 ?300次閱讀

    數(shù)字王國與AWS達成合作,推動自主虛擬人技術云端發(fā)展

    近日,數(shù)字王國與Amazon Web Services(AWS)達成了一項重要合作,雙方將攜手推動自主虛擬人及其技術向云端遷移。
    的頭像 發(fā)表于 10-09 16:38 ?421次閱讀

    發(fā)掘3D文件格式的無限潛力:打造沉浸式虛擬世界

    在當今數(shù)字化時代,3D技術的應用范圍日益廣泛,涵蓋電影后期制作、產(chǎn)品原型設計、虛擬現(xiàn)實(VR)、增強現(xiàn)實(AR)、游戲等眾多領域。而3D文件格式作為3D技術的核心組成部分,對于實現(xiàn)
    的頭像 發(fā)表于 09-26 18:14 ?1558次閱讀
    發(fā)掘<b class='flag-5'>3D</b>文件格式的無限潛力:打造沉浸式<b class='flag-5'>虛擬</b>世界

    微軟Azure AI語音服務革新:引入虛擬人形象,文本一鍵轉(zhuǎn)生動視頻

    微軟于8月23日宣布,在其領先的Azure AI語音服務中融入了一項革命性創(chuàng)新——虛擬人形象功能,此功能徹底顛覆了傳統(tǒng)交互方式,讓文本轉(zhuǎn)視頻的過程變得前所未有的直觀與生動。
    的頭像 發(fā)表于 08-23 16:25 ?731次閱讀

    使用NVIDIA Edify助力的服務創(chuàng)建3D資產(chǎn)和虛擬環(huán)境照明

    使用 NVIDIA Edify 助力的服務創(chuàng)建 3D 資產(chǎn)和虛擬環(huán)境照明,或是減半生成圖像時間。
    的頭像 發(fā)表于 08-02 15:22 ?541次閱讀

    奧比中光3D相機打造高質(zhì)量、低成本的3D動作捕捉與3D動畫內(nèi)容生成方案

    ? 在過去幾十年里,動作捕捉(MoCap)技術經(jīng)歷了顯著的發(fā)展,廣泛被應用于電影、游戲、虛擬現(xiàn)實、醫(yī)療等多個領域。近期,奧比中光合作客戶Moverse使用Orbbec Femto系列3D相機,打造出
    的頭像 發(fā)表于 06-25 16:37 ?1097次閱讀

    3D建模的重要內(nèi)容和應用

    3D建模是一種技術,通過計算機軟件創(chuàng)建虛擬三維模型,模擬現(xiàn)實世界中的物體或場景。這項技術廣泛應用于建筑設計、電影制作、游戲開發(fā)、工程仿真等領域。下面古河云科技將介紹一些與3D建模相關的
    的頭像 發(fā)表于 06-21 14:48 ?658次閱讀

    英倫科技10.1寸裸眼3D平板電腦的五大特點

    選擇英倫科技的裸眼3D平板電腦,就是選擇了一種全新的視覺體驗。它的裸眼3D視頻觀看功能、光場裸眼3D技術、卓越的硬件配置、豐富的軟件支持以及人性化的設計理念,都是您不容錯過的選擇。現(xiàn)在
    的頭像 發(fā)表于 06-12 15:15 ?446次閱讀
    英倫科技10.1寸裸眼<b class='flag-5'>3D</b>平板電腦的五大特點

    什么是光場裸眼3D

    光場裸眼3D技術,是一種無需任何輔助設備(如3D眼鏡或頭顯)即可產(chǎn)生真實三維效果的技術。它通過特殊的顯示設備,精確控制光線的方向和強度,使觀察者在不同的角度都能看到清晰、連續(xù)的立體圖像。這種技術的核心在于模擬人眼對真實世界的觀察
    的頭像 發(fā)表于 05-27 14:21 ?1174次閱讀
    什么是光場裸眼<b class='flag-5'>3D</b>?

    3D建模的特點和優(yōu)勢都有哪些?

    3D建模是一種用于創(chuàng)建三維對象的過程,它在許多領域都有著廣泛的應用,包括動畫、游戲開發(fā)、建筑設計、工程以及制造業(yè)等。下面古河云科技將介紹一些關于3D建模的內(nèi)容詳情,包括它的特點、優(yōu)勢以
    的頭像 發(fā)表于 05-13 16:41 ?2501次閱讀

    VR虛擬空間中的3D 技術

    隨著科技的飛速發(fā)展,虛擬空間已成為元宇宙的重要呈現(xiàn)方式。從游戲到工業(yè)設計,從電子商務到文旅體驗,3D相關技術在虛擬空間中發(fā)揮著舉足輕重的作用,決定著用戶們能否真正能體會到VR的沉浸式體驗。
    的頭像 發(fā)表于 04-29 09:36 ?1552次閱讀
    VR<b class='flag-5'>虛擬</b>空間中的<b class='flag-5'>3D</b> 技術

    抖音嚴打不當虛擬人物AI生成行為,優(yōu)化平臺生態(tài)環(huán)境

    據(jù)悉,去年8月抖音發(fā)布了《人工智能生成內(nèi)容的平臺規(guī)范及行業(yè)倡議》,強調(diào)禁止利用AI技術制作虛擬人物進行低質(zhì)量創(chuàng)作。今年3月27日,抖音安全中心又發(fā)布公告表示,發(fā)現(xiàn)少數(shù)賬號依然存在使用AI技術生成虛擬人物的違規(guī)行為。
    的頭像 發(fā)表于 03-27 14:54 ?672次閱讀

    Adobe Substance 3D整合AI功能:基于文本生成紋理、背景

    Substance 3D Stager是以Adobe Dimension為基礎改造而成,使用者可直觀地進行3D場景構建,包括模型、材質(zhì)和燈光等要素。借助其強大功能,能夠生成極具觀賞性的虛擬照片。
    的頭像 發(fā)表于 03-20 10:28 ?769次閱讀

    3D動畫原理:電阻

    電阻3D
    深圳崧皓電子
    發(fā)布于 :2024年03月19日 06:49:19

    搶灘賽道先機走出科創(chuàng)新路,布局AI+虛擬人驅(qū)動微美全息(WIMI.US)快速搶占市場新空間

    自從,隨著元宇宙概念的火熱,市場對于虛擬人的需求日益高漲。同時,隨著AI大模型的突破,虛擬人被賦予多種角色,如AI虛擬人主播、AI虛擬人員工等,各行各業(yè)都在經(jīng)歷一場由
    的頭像 發(fā)表于 02-02 11:06 ?379次閱讀
    搶灘賽道先機走出科創(chuàng)新路,布局AI+<b class='flag-5'>虛擬人</b><b class='flag-5'>驅(qū)動</b>微美全息(WIMI.US)快速搶占市場新空間
    主站蜘蛛池模板: 99久久久久精品国产免费麻豆| 窝窝色资源站| 成人精品视频在线观看| 99久久久免费精品国产| 国产在线精品视频免费观看| 国产精品亚洲高清一区二区| 国产精品线路一线路二| 全黄H全肉细节文短篇| 午夜性爽视频男人的天堂在线| 亚洲国产区中文在线观看| 一二三四在线播放免费观看中文版视频| 夜色55夜色66亚洲精品网站| 99久久精品久久久久久清纯| 久久久伊人影院| 日本亚洲欧洲免费旡码| 亚洲薄码区| free18sex性自拍裸舞| 国产成人免费a在线资源| 久久精品视频在线看15| 亚洲一区免费观看| 成人无码国产AV免费看| 奇米色偷偷| 一级毛片免费视频网站| 精品成人在线视频| 日本久久精品毛片一区随边看| chinese耄耋70老太性| 青草影院天堂男人久久| 成年人免费在线视频观看| 久久夜色噜噜噜亚洲AV0000| 久久66热在线视频精品| 丝瓜视频樱桃视频在线观看免费| 亚洲中文字幕国产综合| 久久yy99re66| 无码专区aaaaaa免费视频| 国产欧美一区二区三区久久 | 色一伦一情一区二区三区| 伊人影院亚洲| 国产精品久久久久婷婷五月色| 欧美亚洲日韩国码在线观看| 纵欲(高H)| 久久99国产综合精品AV蜜桃|