想象一下你正在看一部恐怖電影:女主角在一個黑暗的地下室里,高度警惕。背景中播放著懸疑的音樂,而一些看不見的,邪惡的生物在陰影中爬行……然后——砰!打到了一個物體。
如果沒有強烈但恰到好處的音效,這樣的場景很難有那么吸引人和恐怖。通常,這些音效是由工作室里的Foley藝術家錄制的,他們使用大量可供選擇的物體來產生聲音。錄制玻璃破碎的聲音可能涉及實際反復打碎玻璃,例如,直到聲音與視頻剪輯非常匹配。
據悉,研究人員已經開發了一款自動化程序,可以分析視頻幀中的運動,并創建自己的人工聲音效果來匹配場景。在一項調查中,大多數被調查者表示他們相信這些假音效是真的。該模型名為AutoFoley,具體介紹發表在了6月25日出版的IEEE Transactions on Multimedia上面。
“自20世紀30年代以來,在后期制作中使用Foley藝術添加音效一直是電影和電視配樂的一個復雜部分,”參與創作AutoFoley的德克薩斯大學教授Jeff Prevost解釋道。“如果沒有一個真實的Foley配樂的控制層,,電影看起來既空洞又遙遠。然而,Foley聲音合成的過程也由此為電影的創作增加了大量的時間和成本。”
Prevost和他的博士生Sanchita Ghose被自動Foley系統的想法所吸引,開始創建了一個多層機器學習程序。他們創建了兩種不同的模型,可以在第一步中使用,包括識別視頻中的動作并確定合適的聲音。
第一個機器學習模型從快速移動動作片段的幀中提取圖像特征(如顏色和運動),以確定合適的聲音效果。
第二個模型來分析對象在不同幀中的時間關系。通過使用關系推理來比較不同時間段的不同幀,第二個模型可以預測視頻中發生的動作。
在最后一步,合成聲音以匹配其中一個模型預測的活動或運動。Prevost和Ghose使用AutoFoley為1000個短片創建聲音,這些短片捕捉了許多常見的動作,比如下雨、騎馬和滴答作響的時鐘。
分析顯示,毫不奇怪的是,AutoFoley最擅長于在不需要與視頻完全一致的情況下(例如,傾盆大雨、噼啪作響的大火)發出聲音。但是,當視覺場景包含隨時間變化的隨機動作(例如打字、雷雨)時,程序可能與視頻不同步。
接下來,Prevost和Ghose調查了57名當地大學生,他們認為哪些電影片段包括了原聲配樂。在評估第一個模型產生的聲音時,73%的受訪學生選擇了合成的AutoFoley剪輯作為原始片段,而不是真正的原始聲音片段。在評估第二個模型時,仍有66%的受訪者選擇了AutoFoley剪輯而不是原來的聲音剪輯。
“我們的方法的一個局限性是需要分類的主題出現在整個視頻幀序列中,”Prevost說,同時還指出AutoFoley目前依賴的Foley類別的數據集非常有限。不過,AutoFoley的專利仍處于早期階段,但Prevost說這些限制將在未來的研究中得到解決。
-
機器學習
+關注
關注
66文章
8408瀏覽量
132574
原文標題:又被AI騙了?人工智能欺騙人類相信合成的聲音效果是真實的
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論