加拿大創(chuàng)業(yè)公司 Dessa 開發(fā)出一個語音合成系統(tǒng) RealTalk,與以往基于語音輸入學習人聲的系統(tǒng)不同,它可以僅基于文本輸入生成完美逼近真人的聲音。不過,出于倫理、社會影響等方面的考慮,Dessa 并未公布該項目的研究細節(jié)、模型和數(shù)據(jù)集。
加拿大創(chuàng)業(yè)公司 Dessa 近日發(fā)布了一項新研究:利用其最新開發(fā)的 RealTalk 系統(tǒng),僅利用文本輸入即可生成完美逼近真人的聲音。其 demo 中展示了美國著名脫口秀喜劇演員、主持人 Joe Rogan 的聲音(Joe Rogan 就是那個讓馬斯克在節(jié)目中嗨了的主持人)。
所有音頻均為機器學習模型使用文本輸入生成的。音頻中包括換氣聲、「um」「ah」等詞語和噪聲。
視頻中,「Joe Rogan」用他一貫的語調(diào)和風格,談?wù)摵谛尚汕髑蜿牎⒖焖僬f繞口令,甚至模擬了一段「Joe Rogan 被人工智能研究者困在機器中」的情境……
Joe Rogan 本人在聽了模擬音頻后表示:「it's terrifyingly accurate」。有 twitter 網(wǎng)友評論道「你應(yīng)該和 AI Joe Rogan 來一次訪談,lol」……
Joe Rogan 發(fā) ins 表示:「我的立場就是驚訝地聳肩搖頭,然后接受它。未來越來越奇怪了,朋友們。」
復(fù)制 Rogan 聲音這一項目是由 Dessa 公司機器學習工程師 Hashiam Kadhim、Joe Palermo 和 Rayhane Mama 組成的團隊創(chuàng)造的,他們使用了一個文本轉(zhuǎn)語音的深度學習系統(tǒng) RealTalk,可以僅基于文本輸入生成逼真的語音。
是不是很瘋狂?Dessa 首席機器學習架構(gòu)師 Alex Krizhevsky (是的沒錯,他就是 AlexNet 的發(fā)明者)認為這是「我所看到的人工智能領(lǐng)域最酷也最恐怖的事件之一。與理論上 40100 年后才會出現(xiàn)的奇點不同,語音合成已經(jīng)成為現(xiàn)實。」也許大家和他的想法是一樣的。
這意味著什么?會產(chǎn)生什么社會影響?
想想看,Dessa 的工程師用 AI 合法地創(chuàng)建了 Joe Rogan 聲音的逼真復(fù)制品,多么不可思議。而且,該模型能夠復(fù)制任何人的聲音,只要能夠獲得足夠的訓練數(shù)據(jù)。
而作為構(gòu)建現(xiàn)實世界應(yīng)用的 AI 從業(yè)者,Dessa 也考慮到了這一點:這項技術(shù)會帶來什么影響?
很明顯,語音合成等技術(shù)的社會影響是巨大的。它會影響到每一個人:不管有錢沒錢,不管是企業(yè)還是政府。
目前,要創(chuàng)建像 RealTalk 這樣性能良好的模型需要技術(shù)知識、獨創(chuàng)性、計算能力和數(shù)據(jù)。所以,不是任何人都可以實現(xiàn)它。但是在接下來的幾年里(甚至更短的時間內(nèi)),技術(shù)可能會發(fā)展到只需要幾秒鐘的音頻就能復(fù)制出世界上任何人的聲音。
這樣就很恐怖了。
如果這種技術(shù)落入壞人之手,可能會發(fā)生下面的情況:
垃圾郵件發(fā)送者假冒你母親或者愛人來獲取你的個人信息;
以霸凌或騷擾為目的冒充別人;
冒充政府官員進入絕密區(qū)域;
利用政客的「audio deepfake」來操縱選舉或引發(fā)社會暴動;
……
除了消極影響之外,Dessa 也考慮了這項技術(shù)的積極一面。
如果這項技術(shù)被正確利用的話,則:
和語音助手說話的時候感覺很自然,就像與朋友聊天一樣。
可以定制語音應(yīng)用程序,比如,健身 app 里鼓勵大家鍛煉的個性化話語來自阿諾·施瓦辛格。
為只能通過文本-語音設(shè)備進行交流的人提供了一種交流選項,比如患有盧·格里克病(漸凍人癥,ALS)的人。
用任何語言為任意媒體文件自動配音。
正如牛津大學人類未來研究所在最近發(fā)布的一份報告《The Malicious Use of Artificial Intelligence》中所提到的那樣:人工智能領(lǐng)域的進步不僅擴大了現(xiàn)有威脅,還帶來了新的威脅。
如何從倫理方面考慮來構(gòu)建這個技術(shù),Dessa 還沒有完全得出答案。但未來幾年里,這項技術(shù)將不可避免地建立起來并應(yīng)用到現(xiàn)實世界中。因此,除了提高意識和承認問題以外,Dessa 表示希望這項研究能夠開啟關(guān)于語音合成技術(shù)的對話和討論。
每個人都應(yīng)該知道,隨著語音合成技術(shù)的發(fā)展,可能會發(fā)生什么樣的情況。正如 Deepfake 技術(shù)出現(xiàn)時我們看到的那樣,公眾意識和對話促使政府、政策制定者、立法者迅速采取行動并制定對策。
Dessa 在相關(guān)博客中表示:作為應(yīng)用人工智能公司,Dessa 的一個重要責任是,了解在研究領(lǐng)域探索 AI 和在現(xiàn)實中應(yīng)用 AI 有著巨大的差別。為了負責任地對待這種技術(shù),他們認為在開源該項目之前,應(yīng)該讓公眾首先意識到語音合成模型的影響。
也因此,Dessa 目前沒有公開研究細節(jié)、模型或數(shù)據(jù)集。
Dessa 表示后續(xù)將發(fā)布博客,介紹 RealTalk 的工作原理和構(gòu)建過程。
-
AI
+關(guān)注
關(guān)注
87文章
30763瀏覽量
268917 -
機器學習
+關(guān)注
關(guān)注
66文章
8408瀏覽量
132580 -
語音合成技術(shù)
+關(guān)注
關(guān)注
0文章
8瀏覽量
2484
原文標題:語音版deepfake出現(xiàn):從文本到逼真人聲,被模仿者高呼真得可怕
文章出處:【微信號:smartman163,微信公眾號:網(wǎng)易智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論