編者按:自換臉工具Deepfake風行全球后,人們開始意識到除了詐騙短信、詐騙電話,現在連視頻都能“詐騙”了。為了應對這種由新技術帶來的犯罪風險,近來研究人員一直在努力發掘虛假視頻和真實視頻的區別,而就在本月初,美國國防部正式宣布了紐約大學開發的一個檢測工具,他們找到了GAN生成視頻的一些明顯特征。
當時美國國防部把這項技術譽為人類對于AI的軍備競賽的一個開端,近日,這項技術的開發人員接受了媒體采訪。讓我們結合報道和論文,近距離看看他們的方法究竟怎樣。
Deepfake當前的缺陷是沒法找到足夠閉著眼睛的圖像
隨著2018年年中將近,美國大選活動也開始逐漸升溫,在諸多宣傳中,一種新形式的虛假信息開始在社交媒體上廣泛傳播。這種生成虛假視頻的技術叫做“Deepfake”,它能把視頻中的臉換成其他人的臉,同時保持臉部肌肉運動和諧,口型和聲音匹配。
結合政治宣傳,這意味著任何人都能“惡搞”候選人,制作他們“演講”“活動”的假視頻。
由于這項技術十分新穎,效果又格外出色,普通人如果不仔細看,可能無法分辨真實視頻和虛假視頻之間的區別。為了防范它背后的社會安全隱患,近日,紐約大學的研究人員找到了一種區分真假視頻的可靠方法,他們發現在虛假視頻中,人物的頭部動作和瞳孔顏色通常會很怪異,當人眨眼時,它的眼球會出現詭異運動。
什么是Deepfake?
既然要對抗虛假視頻,就讓我們先從Deepfake講起,下面是它的作品“案例”:
視頻中左側為真實視頻,右側是Deepfake的加工產品。它的工作機制類似各語言間的互相翻譯,先使用一種稱為深層神經網絡的機器學習系統來檢查一個人的面部運動,再合成目標人物的臉,讓后者作出類似的動作。
在生成逼真的視頻前,這個深層神經網絡需要大量目標任務圖像數據,圖像的數量和多元性決定了網絡的“學習”效果——數據越多,模擬效果就越逼真。
上圖是對神經網絡訓練、測試過程的細化圖解。看罷視頻,也許有人會有疑問:為什么Deepfake生成的假臉會這么自然?這是因為在訓練期間(Training Phase),我們會先把目標人物A的臉摳出來,定位好五官位置,訓練一個無論如何扭曲A的臉,最后都能生成正常A臉的網絡。
一旦上面的網絡訓練好,我們就可以往其中輸入B的臉。這時在神經網絡看來,B的臉其實就是經扭曲的A的臉,所以它會直接“糾正”。至于表情和口型等細節,這在訓練過程中就已經學會了,數據越多,效果越好,相信這點不難理解。
除了上述基礎內容,為了確保生成效果,我們還要關注清晰度、人臉識別效果、圖片融合等問題。
眨眼/不眨眼?
如果我們再去觀察上面這個視頻,相信不少細心的讀者會發現:在虛假視頻中,人物往往“雙眼無神”,幾乎不怎么眨眼。這正是目前Deepfake的一個弱點。
當然,這個弱點并非來自算法本身,更多的是它使用的數據集。健康成年人的眨眼頻率是2-10秒一次,一次眨眼耗費十分之一到十分之四秒。在真實演講視頻中,主講人眨眼是十分正常的現象,但虛假視頻里的假人幾乎個個是“不眨眼”大師。
把主持人的臉換成尼古拉斯·凱奇(對應視頻幀)
這是因為當訓練深層神經網絡時,我們用的是來自網絡的靜態圖像。即便是尼古拉斯·凱奇這樣的公眾人物,他的大多數照片都是睜眼的,除非為了某種藝術效果,攝影師也不會公布明星的閉眼照。這意味著數據集中的圖像沒法表示眼球的自然運動方式。
既然數據集中幾乎沒有眨眼圖像,那么Deepfake學會“眨眼”的概率就幾乎為零。但看到這里也許有人會有疑問,之前的視頻中明明也出現了眨眼鏡頭,這個依據是不是不可信?這就要聯系人類眨眼的頻率和速度。
上面是真假視頻中人物的眨眼記錄,研究人員統計了所有視頻中的真人眨眼頻率,并框定了一個范圍,他們發現Deepfake視頻中假人的眨眼頻率遠低于這個范圍。
如何檢測眨眼?
有了上述發現,整個“打假”問題就可以被簡化為“眨眼檢測”問題。
論文作者開發了一種檢測視頻中人物何時眨眼的方法。更具體地說,他們引入了兩個神經網絡,其中第一個網絡先掃描視頻的每一幀,檢測其中是否包含人臉,如果有,自動定位到眼部。之后,第一個網絡把眼部截圖輸入第二個網絡,由它利用眼睛的外觀、幾何特征和運動來判斷這是睜眼還是閉眼。
下面是第二個深層神經網絡LRCN的示意圖:
它包含三個模塊:特征提取、序列學習和狀態預測。
其中特征提取模塊(第二行)負責把輸入的眼部圖像轉成神經網絡可以“理解”的特征,這是個基于VGG16架構的CNN。序列學習模塊(第三行)由RNN和LSTM構成,LSTM-RNN的使用是為了增加模型的信息存儲量,避免在使用隨時間反向傳播(BPTT)算法時出現梯度消失。最后一個模塊——狀態預測,由全連接層構成,它輸入LSTM的輸出,并用一個概率預測是睜眼(0)還是閉眼(1)。
根據實驗結果,LRCN的準確率高達95%。
當然,雖然論文只介紹了判斷眨眼頻率的方法,到這里就結束了。但根據之前Siwei Lyu的介紹,他們團隊其實找到了一種更高效的技術,只是為了防止某些人惡意迭代Deepfake,這種方法暫時需要保密。
論文方法的缺陷
在接受媒體采訪時,Siwei Lyu自己也坦言,論文只提出了一種短期內的有效方法,它的“壽命”可能很短,破解方法也很簡單。
之前我們提到了,算法學不會眨眼,主要是因為沒有眨眼數據。換句話說,如果我們能提供大量不同眨眼階段的圖像,那么深層神經網絡學會眨眼只是時間問題。更有甚者,為了讓尼古拉斯·凱奇學會眨眼,我們不需要派狗仔去偷拍,收集自己的眼部數據就夠了。
此外,對于上面這類視頻,這種方法也沒法起作用。因為它不同于Deepfake的全臉移植,而是把假嘴和假聲音(這年頭合成聲音也能造假)移到真人臉上。
這是去年美國華盛頓大學研究團隊公布的一項成果,它不需要掃描大量的演講影音資料,也不需要分析不同人說出相同句子的嘴形,只需影音素材即可,成本和規模更小,制作耗時也更短(17小時)。
因此,全民“打假”依然任重道遠,這種方法只是當前邁出的第一步。未來,生成假視頻和檢測假視頻將成為日常生活中的常見博弈,但這應該不是所有人希望看到的。在鼓勵研究人員開發更靠譜的檢測方法的同時,我們應該呼吁停止濫用技術。
除了不要再制作某些低俗、違法視頻,電影工業也要把它用于正途,不要讓技術淪為摳圖流量明星的新“捷徑”。
-
神經網絡
+關注
關注
42文章
4771瀏覽量
100714 -
算法
+關注
關注
23文章
4607瀏覽量
92837 -
人臉識別
+關注
關注
76文章
4011瀏覽量
81859
原文標題:深度“打假”:通過眨眼檢測“deepfake”視頻
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論