編者按:近日,影視后期特效網站FXGuide在文章中介紹了一種用機器學習進行3D實時渲染的新方法,在手機中安裝相關軟件后,用戶可以實現臉部即時卡通化,或是把自己的動態表情轉移到別人的臉上。這項技術來自AI創企Pinscreen,但不久前,它的首席執行官/聯合創始人卻陷入了一場頗為轟動的學術丑聞……
SIGGRAPH是計算圖形學的年度頂級會議,發展至今,它已經成為全球最負盛名的的CG展示、學術研討會——除了論文展示環節,以電影、游戲為代表的工業界也會爭相展示最新技術,比如今年與會的暴雪娛樂和皮克斯,可想而知,它的熱鬧程度完全不亞于任何大型博覽會。
今年的SIGGRAPH將在8月12日召開,為期5天。作為計算圖形學最重要的會議,隨著近年來AI熱度的不斷上升,和計算機視覺一樣,SIGGRAPH的機器學習論文占比也屢破新高,這片圖形學的圣域大有“淪陷”趨勢。
而Pinscreen將在Real Time Live活動中展示的正是一項機器學習成果:paGAN。
學術造假丑聞
說到這家公司,就不得不提它的首席執行官/聯合創始人——黎顥。這是個在南加州大學任教的華人教授,他是SIGGRAPH的??停苍晃④泴W術搜索評為“過去5年計算機圖形學領域十大影響力學者”,在業內有相當的知名度和威望。
黎顥
但二十幾天前,他的前雇員Iman Sadeghi博士卻向他發起指控。在遞交給法院的報告中,Iman Sadeghi列出了黎顥的幾大罪狀:1)用人工繪制圖像假冒AI作品,并在SIGGRAPH上展示“成果”;2)用技術“成果”欺騙投資人;3)惡意解雇并毆打Sadeghi博士。
這個消息立即在學界引起軒然大波,畢竟如此惡劣的學術不端行為還是很少見的。但隨著輿論持續發酵,一些關于Sadeghi博士的負面消息也出現了:1)入職后基本不工作,老是不見人影;2)試圖搶奪公司財產,刪除重要數據;3)毆打勸阻的女員工。
當然,以上只是他們的一面之詞,最終結果還是要交給加州法院定奪。作為旁觀者,我們無需也無法作出判斷。綜觀此次Pinscreen的展示內容預告,我們發現它和訴訟報告中提到的很不一樣,所以覺得有介紹的必要。至于這個成果是不是“造假”得來的,還有待時間檢驗。
用paGAN實現3D實時渲染
在介紹技術前,我們先來看看paGAN的具體效果。
下圖的左側是FXGuide編輯Mike Seymour用iPhone拍攝的源視頻,右側是實時渲染CGI。可以發現,Pinscreen的成果確實可以在同一源視頻上進行數字化構圖,為真實人臉生成3D數字掩模。除了混合邊緣上的小調整,整個過程已經基本實現自動化。
在渲染過程中,皺紋等細節的處理通常比較困難。如上圖所示,雖然軟件沒能準確重現每一條皺紋及其深淺程度,但右圖中的皺紋還是非常連貫,沒有出現參差錯落的情況。根據Pinscreen的說法,這些都是自動生成的。
上圖是Sadeghi博士在訴訟報告中展示的學術造假示例。據網友實驗,Pinscreen當前版本的APP在處理肩部以下頭發時效果很差,對比Haley Dunphy那一頭金發(這是2017年提交給SIGGRAPH的成果),因此很多人認為他提出的“頭發為人工制作”的說法是可信的。
但去年這個效果似乎和Mike Seymour的最新實驗有很大差距,具體我們可以等新版軟件發布再去驗證。
1. 用單張jpeg構建面部
如果要生成卡通化的3D人臉,首先我們要構建3D模型。Pinscreen現在使用的技術是基于單張Jpeg圖像構建3D臉部模型,具體方法是靠“猜”,也就是先制作合理的3D網格,然后對輸入圖像和3D形狀執行形狀匹配和角度變換。
事實上,除了Pinscreen,其他公司也用機器學習實現了這一技術,它們的商業模式也基于這種創新。但Pinscreen的優勢是處理效果更好,目標更長遠——開發直接面向用戶的端到端解決方案。
2. 每秒1000幀的臉部跟蹤
獲得模型后,下一步就是追蹤人臉位置和細節狀態,保證模型的實時更新。據介紹,目前Pinscreen開發的最強大的臉部追蹤器是VGPT(Veli Goodo Pace Tracka),這也是他們即將在SIGGRAPH上實時演示的重要內容。
VGPY是一個基于深度學習的輕量級網絡,本身只有5M。不同于傳統追蹤器,它既不追蹤特征,也不追蹤標記,而是基于直接推斷。具體而言,人類的臉部大同小異,以往我們使用的方法是在上面標記一些關鍵特征點,然后在統計的基礎上利用特征點來定位對齊。但根據黎顥介紹,VGPY使用的是3D高精度頭部模型、微表情測量工具FACS等工具,速度比AAM算法快很多。
這個追蹤器的速度也十分驚人。如果是在顯卡為1080P的PC上,VGPY的幀數高達1000;如果是在手機上,它的速度也有60到90 fps。雖然是快速無標記追蹤,但VGPY可以始終保持高性能和高穩健性。當追蹤對象經過遮擋物時,它會在短時間內重新獲取面部并繼續工作。
3D人臉是左側圖像的,但臉部的動態是黎顥的(6個月前的成果)
3. paGAN
paGAN的全稱是Photoreal Avatar Generative Adversarial Network,它充當整個系統中的“渲染器”。
渲染通常是繪圖的最后一步。就目前的傳統方法來看,如果我們要對頭像或人進行建模、添加紋理、調節明暗和圖像渲染,大量高質量數據是必須的。這通常意味著準備多幅圖像,測量各個角度,進行高質量掃描,等到一切都準備好,我們才能在3D網格上添加各種紋理、凹凸貼圖,鏡面反射貼圖等。除了著色器,我們還需要一個高質量渲染算法。
雖然進程安排存在先后,但上述內容都息息相關,而現實中承擔這些工作的通常是經驗豐富的工作人員和藝術家。這也意味著誰投入資源多,誰就做得好,這種由技術門檻帶來的不公平給電影、游戲工業帶去了不少困擾。
為了解決這個問題,Pinscreen團隊跳過傳統方法,他們采取的第一種做法是不使用建模/紋理/照明和渲染管道,而是如下圖所示,直接將面部采樣點重新上色、復原、旋轉并放置在模擬的3D環境中,就像3D CGI頭一樣。
但這種方法失敗了,因為復原的頭像無法正確定位,也不能完全動畫化。由于實際上只是把照片投影在匹配的幾何體上,它只能在靜態時實現高保真。
經歷了失敗后,Pinscreen把目光轉向最先進的深度生成模型——GAN。這是一種非常特殊的深度學習網絡,它已經被證明能生成逼真的2D圖像。黎顥和他的團隊希望能用GAN代替傳統做法,實現正確角度“渲染”。
GAN是Ian Goofellow于2014年提出的一種神經網絡,它包含一個生成器G和一個判定器D。其中G從潛在空間隨機采樣,把采樣得到的樣本作為輸入,目標是輸出類似真實數據的數據;而D的輸入是G的輸出,它負責鑒定這個生成的偽數據和真實數據像不像,然后把分類結果饋送給G,讓它積累“作假”經驗。
當用于面部時,原始GAN的問題在于輸出的是個2D圖像,而且非常難控制。最后,Pinscreen團隊做出了取舍,他們為paGAN制定的目標是生成高度逼真的眼部和嘴部渲染。而根據最終結果,GAN確實在嘴部運動和舌頭運動上表現出色。
4. 重新定位
之前提到了,Pinscreen的3D臉部模型來自單張jepg,而它的表情則完全來自另一人,所以最后生成的表情動畫不會和jepg有什么外觀上的出入,十分自然,十分逼真。
如上圖所示,第一行是建模的圖像,第一列是表情來源,中間生成的表情都很自然。這里需要注意一點,Pinscreen的人臉追蹤器VGPY只檢測了圖中亞洲男子的微表情,它沒有對靜態圖像jepg做任何掃描,這意味著這些富有表現力的表情都是直接從表情源直接轉移到目標人臉上的。
其他細節
除了上文提到的內容,黎顥也用自己積累的經驗做了不少優化工作,比如paGAN面不僅能夠從任何角度“渲染”,也能根據所需的環境明暗條件進行渲染。
提起訴訟的Sadeghi博士是毛發渲染領域的專家,但如果本文演示圖片屬實,那么在他離職后,Pinscreen確實在頭發上也進步明顯。而根據黎顥的說法,他的團隊這次使用的是一個端到端的神經網絡新系統,可以始終根據訓練數據生成合理的頭發模型。
看到這里,相信很多人已經開始期待他們的新版APP。但大家請注意,以上圖像都是在PC上生成的,如果是手機,效果會差那么一點兒。
這是軟件在手機上的效果,考慮到硬件差距,這個效果其實完全可以接受。
生成3D手機視頻聊天頭像
具體效果
而開發了這項技術后,Pinscreen首先瞄準的目標是實現3D視頻通訊。黎顥認為,現如今3D游戲越來越多,而人們在其中扮演的也都是3D的角色,這說明3D是發展趨勢。未來,當技術發展得足夠成熟后,也許打開手機,我們面對不再是一個2D小人,而是一個立體化的真人形象。
-
自動化
+關注
關注
29文章
5677瀏覽量
80150 -
計算機視覺
+關注
關注
8文章
1703瀏覽量
46244 -
機器學習
+關注
關注
66文章
8460瀏覽量
133412
原文標題:深陷官司丑聞,這個華人創業者要在SIGGRAPH上展示什么?
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論