午夜精品久久久,思99re久久这里只有精品首页,亚洲熟区

只聽聲音，就能知道一個人長什么樣？

是的。

大名鼎鼎的麻省理工CSAIL（人工智能實驗室），最近就發布了這樣一個令人驚訝的研究。只需要聽6秒的聲音片段，AI就能推斷出說話者的容貌。

詳細解釋之前，咱們一起試試先。

聽聽下面這段錄音，一共有六段。你能想象出來，說話的人長什么樣么？

怎么樣？你行么？

MIT研究人員，設計和訓練的神經網絡Speech2Face，就能通過短短的語音片段，推測出說話者的年齡、性別、種族等等多重屬性，然后重建說話人的面部。

下面就是AI聽聲識臉，給出的結果：

左邊一列是真實的照片，右邊一列是神經網絡根據聲音推斷出來的長相。

講真，這個效果讓我們佩服。

這篇論文也入圍了今年的學術頂級會議CVPR 2019。

當然這個研究也會引發一些隱私方面的擔憂。不過研究團隊在論文中特別聲明，這個神經網絡不追求完全精確還原單一個體的臉部圖像。

不同的語言也有影響。論文中舉了一個案例，同一男子分別說中文和英文，AI卻分別還原出了不同的面孔樣貌。當然，這也跟口音、發聲習慣等相關。

另外，研究團隊也表示，目前這套系統對還原白人和東亞人的面孔效果更好?？赡苡捎谟《群秃谌说臄祿^少，還原效果還有待進一步提高。

原理

從聲音推斷一個人的長相不是一種玄學，平時我們在打電話時會根據對方的聲音腦補出相貌特征。

這是因為，年齡、性別、嘴巴形狀、面部骨骼結構，所有這些都會影響人發出的聲音。此外，語言、口音、速度通常會體現出一個的民族、地域、文化特征。

AI正是根據語音和相貌的關聯性做出推測。

為此，研究人員提取了幾百萬個YouTube視頻，通過訓練，讓深度神經網絡學習聲音和面部的相關性，找到說話的人一些基本特征，比如年齡、性別、種族等，并還原出相貌。

而且在這個過程中，不需要人類標記視頻，由模型自我監督學習。這就是文章中所說的Speech2Face模型。

將電話另一端通過卡通人物的方式顯示在你的手機上，可能是Speech2Face未來的一種實際應用。

模型結構

Speech2Face模型是如何還原人臉的，請看下圖：

給這個網絡輸入一個復雜的聲譜圖，它將會輸出4096-D面部特征，然后使用預訓練的面部解碼器將其還原成面部的標準圖像。

訓練模塊在圖中用橙色部分標記。在訓練過程中，Speech2Face模型不會直接用人臉圖像與原始圖像進行對比，而是與原始圖像的4096-D面部特征對比，省略了恢復面部圖像的步驟。

在訓練完成后，模型在推理過程中才會使用面部解碼器恢復人臉圖像。

訓練過程使用的是AVSpeech數據集，它包含幾百萬個YouTube視頻，超過10萬個人物的語音-面部數據。

在具體細節上，研究使用的中每個視頻片段開頭最多6秒鐘的音頻，并從中裁剪出人臉面部趨于，調整到224×224像素。

△從原始圖像提取特征重建的人臉，以及從聲音推測的人臉

之前，也有人研究過聲音推測面部特征，但都是從人的聲音預測一些屬性，然后從數據庫中獲取最適合預測屬性的圖像，或者使用這些屬性來生成圖像。

然而，這種方法存在局限性，需要有標簽來監督學習，系統的魯棒性也較差。

由于人臉圖像中面部表情、頭部姿態、遮擋和光照條件的巨大變化，想要獲得穩定的輸出結果，Speech2Face人臉模型的設計和訓練變得非常重要。

一般從輸入語音回歸到圖像的簡單方法不起作用，模型必須學會剔除數據中許多不相關的變化因素，并隱含地提取人臉有意義的內部表示。

為了解決這些困難，模型不是直接得到人臉圖像，而是回歸到人臉的低維中間表示。更具體地說，是利用人臉識別模型VGG-Face，并從倒數第二層的網絡提取一個4096-D面部特征。

模型的pipeline由兩個主要部分組成：

1、語音編碼器

語音編碼器模塊是一個CNN，將輸入的語音聲譜圖轉換成偽人臉特征，并預測面部的低維特征，隨后將其輸入人臉解碼器以重建人臉圖像。

2、面部解碼器

面部解碼器的輸入為低維面部特征，并以標準形式（正面和中性表情）產生面部圖像。

在訓練過程中，人臉解碼器是固定的，只訓練預測人臉特征的語音編碼器。語音編碼器是作者自己設計和訓練的模型，而面部解碼器使用的是前人提出的模型。

將實驗結果更進一步，Speech2Face還能用于人臉檢索。把基于語音的人臉預測結果與數據庫中的人臉進行比較，系統將給出5個最符合的人臉照片。

不足之處

若根據語言來預測種族，那么一個人說不同的語言會導致不同的預測結果嗎？

研究人員讓一個亞洲男性分別說英語和漢語，結果分別得到了2張不同的面孔。

模型有時候也能正確預測結果，比如讓一個亞洲小女孩說英文，雖然恢復出的圖像和本人有很大差距，但仍可以看出黃種人的面部特征。

研究人員表示，這個小女孩并沒有明顯的口音特征，所以他們的模型還要進一步檢查來確定對語言的依賴程度。

在其他一些情況下，模型也會“翻車”。比如：變聲期之前的兒童，會導致模型誤判性別發生錯誤；口音與種族特征不匹配；將老人識別為年輕人，或者是年輕人識別為老人。

作者團隊

這個研究的作者，大部分來自MIT CSAIL。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

MIT

MIT

+關注

關注
3

文章
253

瀏覽量
23389
深度學習

深度學習

+關注

關注
73

文章
5500

瀏覽量
121118

原文標題：MIT腦洞研究！只聽6秒語音，就知道你長什么樣，效果好得不敢信

文章出處：【微信號：CAAI-1981，微信公眾號：中國人工智能學會】歡迎添加關注！文章轉載請注明出處。

如何提升人臉門禁一體機的識別準確率？

人臉門禁一體機作為現代安全管理的重要設備，廣泛應用于企業、學校、社區等多個場所。其高效便捷的特性讓人們可以快速通過門禁，然而，識別準確率的高低直接影響到使用體驗與安全性。為了提高人臉門禁一體機的識別

發表于 12-10 15:05 ?123次閱讀

如何提升人臉門禁一體機的識別<b class='flag-5'>準確率</b>？

電導率測定儀：功能全面，準確測量

在當今的水質監測領域，電導率測定儀作為一款高效、準確的測量設備，正發揮著越來越重要的作用。它不僅能夠準確測量溶液的電導率值，還具備自動溫度補償、一體式設計以及防水性能等特點，成為水質監

發表于 11-28 13:41 ?278次閱讀

KiCon演講回顧（四）：AI助力電子元件庫自動化提取

操作多、耗時、易出錯。技術要求：符號庫生成準確率>99%，封裝庫幾何精度0.01mm，識別準確率>99%。企業需求：廣東-香港-澳門地區對符號與封裝建模工具的需求，包括行業標準、平臺要求、庫可持續性等。 Footprintku AI：行業發展趨勢基于AI的元件

發表于 11-25 11:56 ?232次閱讀

微機保護裝置預警功能的準確率

異常狀態。微機保護裝置的預警功能準確率是衡量其性能的重要指標，它直接關系到裝置能否及時準確地檢測潛在的故障或異常情況，從而預防事故的發生。 準確率影響因素： 1.硬件性能：高精度的傳感器和強大的數據處理單元直

發表于 11-03 16:10 ?163次閱讀

SynSense時識科技與海南大學聯合研究成果發布

處理器Xylo和脈沖神經網絡技術實現超低功耗的實時癲癇檢測系統，結果顯示系統準確率高達93.3%，檢測延遲平均僅0.5秒，計算功耗僅為287.9微瓦。

發表于 10-23 14:40 ?298次閱讀

SynSense時識科技與海南大學聯合<b class='flag-5'>研究</b>成果發布

ai人工智能回答準確率高嗎

人工智能（AI）回答的準確率是一個相對的概念，會受到多個因素的影響，因此不能一概而論地說其準確率高或低。以下是對AI回答準確率及其影響因素的分析：一、AI回答準確率的現狀在某些特定

發表于 10-17 16:30 ?3006次閱讀

TLV320AIC23B為什么無法準確得到8K采樣率？

能否幫忙解釋下TLV320AIC23B 規格書中提到的這句話的解釋，我們理解是在usb mode 下，由于超采樣關系，無法準確得到8K采樣率，實際的采樣率應該為8.021k。目前我們AIC23B

發表于 10-09 10:15

NIUSB6009 采集準確率的問題？

NIUSB6009 采集準確率的問題？一、本人做一個中間繼電器電性能實驗的裝置 1、PLC帶動中間繼電器吸合和釋放，（吸合用時1.5秒，釋放用時1.5秒）周而復始的運動。 2、中間繼電器的觸頭負載

發表于 09-23 15:59

準確率高達97%!腦機接口讓漸凍癥患者重新“說話”

行業芯事行業資訊

電子發燒友網官方

發布于 :2024年08月16日 10:51:58

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

聽音辯貌?MIT最新研究!準確率驚人

評論

如何提升人臉門禁一體機的識別準確率？

電導率測定儀：功能全面，準確測量

KiCon演講回顧（四）：AI助力電子元件庫自動化提取

微機保護裝置預警功能的準確率

SynSense時識科技與海南大學聯合研究成果發布

ai人工智能回答準確率高嗎

TLV320AIC23B為什么無法準確得到8K采樣率？

NIUSB6009 采集準確率的問題？

準確率高達97%!腦機接口讓漸凍癥患者重新“說話”

如何快速檢測原理圖中的元器件與PLM系統的一致性，提高原理圖設計準確性

自動雨量監測系統（準確地預測降雨情況，提高預報的準確率）

谷歌AI預測洪災準確率提高，最多提前7天

在全志V853平臺上成功部署深度學習步態識別算法

機器學習和代謝圖譜相結合，早期卵巢癌檢測準確率高達93%

如何準確計算低電平分辨率編碼器TLE9243QK_BASE_BOARD的速度？