如何從混雜的背景噪音中過濾出特定的聲音,這一“經典雞尾酒會問題”有望在AI的幫助下得以解決。
因為我們的大腦可以專注于想聽到的內容,所以人耳可以準確地從嘈雜聲中分辨出特定的聲音。然而,基于機器的“聲源分離”技術多年來卻一直讓工程師們束手無策。麻省理工學院的研究人員正在利用MV(音樂短片)訓練神經網絡,以便更好地定位聲音來源。
該團隊的深度學習系統可以“直接通過一些未經標記的YouTube視頻進行學習,分辨出每種物體對應的聲音,”麻省理工學院研究人員Hang Zhao說道。他也曾是NVIDIA研究部門的實習生。
Zhao認為,該技術極具突破性,在語音、聽力學、音樂和機器人學領域均有廣泛的應用。
通過“刷視頻”來學習
麻省理工學院開發出了一種新方法,即通過YouTube視頻中的圖像和聲音來訓練深度神經網絡。他們的目標是讓神經網絡能夠精確定位視頻中圖像的位置(精確到像素級)。
該團隊將其系統稱為PixelPlayer,并通過YouTube上的MV對PixelPlayer進行了60個小時的訓練。到目前為止,該系統已經可以識別20多種樂器。
該團隊在麻省理工學院的計算機科學和人工智能實驗室 (Computer Science and Artificial Intelligence Lab) 開展了這項研究,共開發出了三個卷積神經網絡,它們可協同工作以生成相應結果。其中一個卷積神經網絡負責對視覺輸入進行編碼,一個負責對音頻輸入進行編碼,第三個則負責基于視覺和音頻輸入合成輸出。
PixelPlayer訓練數據集由714個YouTube視頻組成。“由于我們使用了四塊NVIDIA GPU,卷積神經網絡才能夠以非常快的速度處理數據,”Zhao表示,“它大約用了一天的時間便學會了。”
PixelPlayer是一個自我監督型(self-supervised)的系統。這意味著該系統不需要人類對樂器或樂器聲音進行任何標注,也可以識別出大號和小號等樂器的外觀、樂器聲音以及發聲方式。
吹響勝利的號角
對視頻中的聲源進行定位后,PixelPlayer即可分離出其波形。目前,PixelPlayer在識別兩種或三種不同樂器時表現最佳,但該團隊的目標是盡快擴大其識別范圍。在談到分離樂器聲音的過程時,Zhao說道:“我們正在努力將一個MP3文件分離為多個MP3文件。”
PixelPlayer在音樂領域有諸多用途。據Zhao介紹,音頻工程師可以應用此款AI工具增強某些音量較低的樂器聲音,或去除某種背景噪音。此外,它還可以幫助音頻工程師改善現場錄音或重新灌錄音樂的效果。
改善助聽器功能也是研究人員為“雞尾酒會問題”開發深度學習解決方案的目的。
不僅是音樂和聽力學領域,其應用范圍還可用于識別我們周圍的聲音。例如,聆聽森林中珍稀鳥類的鳴叫聲。“機器人也可以借助該系統理解周圍環境中的聲音。”Zhao補充道。
-
神經網絡
+關注
關注
42文章
4777瀏覽量
100974 -
人工智能
+關注
關注
1793文章
47535瀏覽量
239344 -
深度學習
+關注
關注
73文章
5511瀏覽量
121356
原文標題:讓音樂更悅耳:AI助力解決“雞尾酒會問題”
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論