体检小说,色综合天天综合网国产国产人,最新国产区

來自UC Berkeley和MIT的研究人員開發了一種AI 算法，可以根據說話聲音來預測說話人將作出怎樣的肢體動作。所預測的動作十分自然、流暢，本文帶來技術解讀。

人在說話的時候，常常伴隨著身體動作，不管是像睜大眼睛這樣細微的動作，還是像手舞足蹈這樣夸張的動作。

最近，來自UC Berkeley和MIT的研究人員開發了一種AI算法，可以根據說話聲音來預測說話人將作出怎樣的肢體動作。

研究人員稱，只需要音頻語音輸入，AI就能生成與聲音一致的手勢。具體來說，他們進行的是人的獨白到手勢和手臂動作的“跨模態轉換”(cross-modal translation)。相關論文發表在CVPR 2019上。

研究人員收集了10個人144小時的演講視頻，其中包括一名修女、一名化學教師和5名電視節目主持人(Conan O’Brien, Ellen DeGeneres, John Oliver, Jon Stewart, 以及Seth Meyers)。

演講視頻數據集

他們使用現有的算法生成代表說話者手臂和手位置的骨架圖形。然后他們用這些數據訓練了自己的算法，這樣AI就可以根據說話者的新音頻來預測手勢。

圖1：從語音到手勢的轉換的示例結果。由下往上：輸入音頻、由我們的模型預測的手臂和手的姿態，以及由Caroline Chan等人在“Everybody Dance Now”論文中提出的方法合成的視頻片段。

研究人員表示，在定量比較中，生成的手勢比從同一說話者者隨機選擇的手勢更接近現實，也比從一種不同類型的算法預測的手勢更接近現實。

圖2：特定于說話者的手勢數據集

說話者的手勢也是獨特的，對一個人進行訓練并預測另一個人的手勢并不奏效。將預測到的手勢輸入到現有的圖像生成算法中，可以生成半真實的視頻。

研究團隊表示，他們的下一步是不僅根據聲音，還根據文字稿來預測手勢。該研究潛在的應用包括創建動畫角色、動作自如的機器人，或者識別假視頻中人的動作。

為了支持對手勢和語音之間關系的計算理解的研究，他們還發布了一個大型的個人特定手勢視頻數據集。

方法詳解：兩階段從語音預測視頻

給定原始語音，我們的目標是生成說話者相應的手臂和手勢動作。

我們分兩個階段來完成這項任務——首先，由于我們用于訓練的唯一信號是相應的音頻和姿勢檢測序列，因此我們使用L1回歸到2D關鍵點的序列堆棧來學習從語音到手勢的映射。

其次，為了避免回歸到所有可能的手勢模式的平均值，我們使用了一個對抗性鑒別器，以確保產生的動作相對于說話者的典型動作是可信的。

任何逼真的手勢動作都必須在時間上連貫流暢。我們通過學習表示整個話語的音頻編碼來實現流暢性，該編碼考慮了輸入語音的完整時間范圍s，并一次性(而不是遞歸地)預測相應姿勢的整個時間序列p。

我們的完全卷積網絡由一個音頻編碼器和一個1D UNet轉換架構組成的，如圖3所示。

圖3：語音到手勢的翻譯模型。

一個 convolutional audio encoder對2D譜圖進行采樣并將其轉換為1D信號。然后，平移模型G預測相應的2D姿勢序列堆棧。對真實數據姿勢的L1回歸提供了一個訓練信號，而一個對抗性辨別器D則確保預測的動作既具有時間一致性，又符合說話者的風格。

我們使用UNet架構進行轉換，因為它的bottleneck為網絡提供了過去和未來的時間上下文，而skip connections允許高頻時間信息通過，從而能夠預測快速移動。

定量和定性結果

圖4：我們訓練過的模型是特定于人的。對于每個說話者的音頻輸入(行)，我們應用所有其他單獨訓練的說話者模型(列)。顏色飽和度對應于待測集上的L1損耗值(越低越好)。對于每一行，對角線上的項都是顏色最淺的，因為模型使用訓練對象的輸入語音效果最好。

表1：在測試集上使用L1損失的語音到手勢轉換任務的定量結果(越低越好)

圖5：語音到手勢轉換的定性結果。我們展示了Dr. Kubinec(講師)和Conan O’Brien(節目主持人)的輸入音頻頻譜圖和預測手勢。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

語音

語音

+關注

關注
3

文章
385

瀏覽量
38062
鑒別器

鑒別器

+關注

關注
0

文章
8

瀏覽量
8772
AI算法

AI算法

+關注

關注
0

文章
251

瀏覽量
12278

原文標題：你說話時的肢體動作，AI僅憑聲音就能預測 | CVPR 2019

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

中國移動與南京大學合作研發高保真2D數字人說話系統

近日，中國移動宣布了一項重要合作成果——聯合南京大學團隊成功研發出高保真2D數字人說話驅動系統。作為全球用戶規模最大的通信運營商，中國移動每年的客戶服務運營成本居高不下。盡管智能語音客服已得到

發表于 12-13 11:32 ?349次閱讀

將AIC33的DIN和DOUT腳用短路的方式實現自環時，說話的聲音稍微大點的時候，會在聲音上疊加一個“噼啪”聲，為什么？

我將AIC33的DIN和DOUT腳用短路的方式實現自環時，說話的聲音稍微大點的時候，會在聲音上疊加一個“噼啪”聲，或則用嘴向MIC連續吹氣，自環后聽到的

發表于 11-07 07:42

將TPA31102D2板的音頻輸入與SPEAKER芯片連接時，說話聲很小失真很厲害，為什么？

直接將TPA31102D2板的音頻輸入與PC機耳機口連接，音質很好，聽不出什么失真，但是我將TPA31102D2板的音頻輸入與SPEAKER芯片連接時發現背景音樂聲音很清晰如振鈴還有就是歌曲的樂器聲，但是說話聲很小失真很厲害，想問下這個是不是他的speaker輸出濾波了導

發表于 11-07 06:01

一種創新的動態軌跡預測方法

本文提出了一種動態軌跡預測方法，通過結合歷史幀和歷史預測結果來提高預測的穩定性和準確性。它引入了歷史預測

發表于 10-28 14:34 ?441次閱讀

可以將一個TLV320AIC3101的輸入與輸出端口的左右聲道分開使用嗎？

，然后同時說話，想分別獲取這兩組聲音數據。 2.音頻回放也分開左右聲道，兩個應用程序分別播放不同的內容。請問能否實現？在哪一層作出改動更好？如何解決ALSA設備獨占的問題？感謝！

發表于 10-24 07:47

TLV3254能不能收聽到半徑8到10米的人說話的聲音？

能不能收聽到半徑8到10米的人說話的聲音，信噪比實在太低了，遠處的聽不清，增益縮小了又聽不到的遠處的聲音?

發表于 10-24 06:34

BitEnergy AI公司開發出一種新AI處理方法

BitEnergy AI公司，一家專注于人工智能（AI）推理技術的企業，其工程師團隊創新性地開發了一種名為線性復雜度乘法（L-Mul）的AI

發表于 10-22 15:15 ?403次閱讀

2024年芯片行業有多難？用數據說話

2024年芯片行業有多難？用數據說話

發表于 08-10 18:20 ?4345次閱讀

云知聲說話人識別引擎獲得HUAWEI COMPATIBLE證書及認證徽標的使用權

繼山海大模型獲得兩項華為昇騰技術認證后，近日，經華為綜合評測，云知聲說話人識別引擎成功通過與華為Atlas 800 推理服務器（型號：3000）、Atlas 300I Pro推理卡的相互兼容性測試，正式獲得HUAWEI COMPATIBLE證書及認證徽標的使用權。

發表于 05-27 18:12 ?783次閱讀

智慧場館解決方案，讓場館“會說話”！

在十四五規劃文件和數字經濟發展報告中，都有明確指出加快建設數字城市，數字中國，旨在深化改革，持續推進我國場館事業高質量發展。從傳統場館管理到智慧場館，數字化的發展讓我們實現了場館“會說話”的完美轉型

發表于 04-25 15:34 ?355次閱讀

未來之聲 | 人形機器人說話篇：無聲！

隨著一個個有關人形機器人的“核彈式”新聞的出現，機器人技術肉眼可見地快速發展。或許，與人們預想的“像人一樣

發表于 04-13 08:00 ?305次閱讀

NanoEdge AI的技術原理、應用場景及優勢

NanoEdge AI 是一種基于邊緣計算的人工智能技術，旨在將人工智能算法應用于物聯網（IoT）設備和傳感器。這種技術的核心思想是將數據處理和分析從云端轉移到設備本身，從而減少數據傳輸延遲、降低

發表于 03-12 08:09

使用NVIDIA Triton推理服務器來加速AI預測

這家云計算巨頭的計算機視覺和數據科學服務使用 NVIDIA Triton 推理服務器來加速 AI 預測。

發表于 02-29 14:04 ?593次閱讀

繼電器是一種根據什么來控制電路的

繼電器是一種電氣開關設備，其工作原理是通過控制一個較小電流或電壓的信號來開關一個較大電流或電壓的電路。它基于電磁感應的原理，利用電磁力使一對

發表于 02-05 11:01 ?2039次閱讀

讓“聾人”看到聲音行空板 —“AI助聽器”

世界上有各種各樣的殘障人士，這些人或不能說話，或聽不見聲音。聾人，是聽力因先天遺傳或后天人為因素而受損的殘疾人，也叫聽力障礙者，簡稱聽障人。

發表于 01-12 13:12 ?456次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

一種AI算法，可以根據說話聲音來預測說話人將作出怎樣的肢體動作

評論

中國移動與南京大學合作研發高保真2D數字人說話系統

將AIC33的DIN和DOUT腳用短路的方式實現自環時，說話的聲音稍微大點的時候，會在聲音上疊加一個“噼啪”聲，為什么？

將TPA31102D2板的音頻輸入與SPEAKER芯片連接時，說話聲很小失真很厲害，為什么？

一種創新的動態軌跡預測方法

可以將一個TLV320AIC3101的輸入與輸出端口的左右聲道分開使用嗎？

TLV3254能不能收聽到半徑8到10米的人說話的聲音？

BitEnergy AI公司開發出一種新AI處理方法

2024年芯片行業有多難？用數據說話

云知聲說話人識別引擎獲得HUAWEI COMPATIBLE證書及認證徽標的使用權

智慧場館解決方案，讓場館“會說話”！

未來之聲 | 人形機器人說話篇：無聲！

NanoEdge AI的技術原理、應用場景及優勢

使用NVIDIA Triton推理服務器來加速AI預測

繼電器是一種根據什么來控制電路的

讓“聾人”看到聲音行空板 —“AI助聽器”