即將在6月美國鹽湖城舉行的計算機視覺頂級會議CVPR 2018,騰訊優圖的其中兩篇入選論文,由于其較高的應用價值,受到學術界和產業界的關注。
作為計算機視覺領域最高級別的會議之一的CVPR,其論文集通常代表著計算機視覺領域最新的發展方向和水平。
騰訊優圖多篇論文被CVPR2018收錄,其中基于尺度迭代深度神經網絡的圖像去模糊算法(“Scale-recurrentNetwork for Deep Image Deblurring”),介紹了AI技術在處理非特定場景圖片去模糊中的應用,和通過Facelet-Bank進行快速肖像處理(Facelet-BankforFastPortraitManipulation),介紹了用AI技術快速處理肖像的應用,這兩項技術,解決了長期困擾圖片處理中的一些難題,因為極大的應用價值而受到產業界和關注。
解密運動模糊:走向實用的非特定場景圖片去模糊技術
在慢速曝光或快速運動拍攝照片時,圖像模糊常常困擾著照片拍攝者。優圖實驗室的研究人員開發了可以恢復模糊圖像的有效新算法。
在此之前,圖像去模糊一直是圖像處理中困擾業界的難題。 圖像模糊產生的原因可能非常復雜。比如,相機晃動,失焦,拍攝物體高速運動等等。現有的圖片編輯軟件中的工具通常不盡如人意,例如,Photoshop CC中的“相機抖動還原”工具,只能處理簡單的相機平移抖動模糊。 這種類型的模糊在計算機視覺業內被稱為“均勻模糊”。而大部分模糊圖片并不是“均勻模糊”的,因而現有圖片編輯軟件的應用十分有限。
模糊的照片
去模糊后的照片
騰訊優圖實驗室的新算法,可以處理非特定場景中的圖片模糊。算法基于一種被稱為“動態模糊”的模糊模型假設。它為每個像素的運動單獨建模,因而可以處理幾乎所有類型的運動模糊。比如,上圖中,由于相機抖動而產生的平移和旋轉,每個人物的運動軌跡都不相同。經過騰訊優圖實驗室的新算法處理后,圖片已經恢復到幾乎完全清晰,甚至背景中的書籍上的字也清晰可辨。
據騰訊優圖實驗室的研究員介紹,騰訊優圖采用的方法采用的基本技術是深度神經網絡。在經歷了對數千對模糊/清晰的圖像組的處理訓練后,強大的神經網絡自動學習了如何將模糊的圖像結構清晰化。
盡管使用神經網絡進行圖片去模糊并不是一個新想法,但騰訊優圖實驗室別出心裁的將物理直覺結合進來以促進模型訓練。在騰訊優圖實驗室新算法的論文中,其網絡模仿了一種被稱為“由粗到精”的成熟的圖像恢復策略。該策略首先將模糊圖像縮小成多種尺寸,然后從比較容易恢復的較小而偏清晰的圖像出發,逐步處理更大尺寸的圖片。每一步中產生的清晰圖像則可以進一步引導更大的圖像的恢復,降低了網絡訓練的難度。
AI肖像藝術家:以干凈優雅的方式快速處理人像屬性
修改人像照片中的臉部屬性(不僅是美化)非常困難。藝術家通常需要對人像做很多層面上的處理才能使得修改后的圖像自然美觀。 AI可以接管這些復雜的操作嗎?
來自賈佳亞教授領導的騰訊優圖實驗室的研究人員提出了“自動人像操縱”的最新模型。借助此模型,用戶只需簡單地提供所需效果的高級描述,模型就會根據命令自動呈現照片,例如,使他變年輕/變老等。
完成這項任務,面臨的主要挑戰是,無法收集到“輸入-輸出”的樣本用于訓練。因此,無監督學習中流行的“生成對抗”網絡通常用于此任務。然而,優圖團隊提出的這種方法并不依賴于生成對抗網絡。它通過生成帶噪聲的目標來訓練神經網絡。由于深度卷積網絡的去噪效果,其網絡的輸出甚至優于所學習的目標。
“生成對抗網絡是一個強大的工具,但它很難優化,我們希望找到更簡單的方法來解決這個問題,我們希望這項工作不僅能減輕藝術家的負擔,還能減輕訓練模型的工程師的負擔。”騰訊的研究人員說。
據介紹,該模型的另一個吸引人的特點是它支持局部模型更新,也就是說,當切換不同的操作任務時,只需要替換模型的一小部分。這對系統開發人員十分友好。而且,從應用層面,也使得應用可以“增量更新”。
即使相片中的人臉沒有裁剪并且很好地對齊,該模型也可以隱式地參加正確的面部區域。在很多情況下,用戶僅僅將原始照片輸入給模型就足以產生高質量的結果。甚至將視頻一幀一幀地輸入模型中,也可以處理整段視頻中人臉的屬性。
附:除以上兩篇,騰訊優圖實驗室其余入選CVPR2018的文章簡介
1、ReferringImageSegmentationviaRecurrentRefinementNetworks
通過循環神經網絡進行指定圖像指定區域的語義分割
根據自然語言的描述來分割圖片的指定區域是一個充滿挑戰的問題。此前的基于神經網絡的方法通過融合圖像和語言的特征進行分割,但是忽略了多尺度的信息,這導致分割結果質量不高。對此,我們提出了一種基于循環卷積神經網絡的模型,在每一次迭代過程中加入底層卷積神經網絡的特征來使得網絡可以逐漸捕獲圖片不同尺度下的信息。我們可視化了模型的中間結果并且在所有的相關公開數據集中都達到了最佳水平。
2、Weakly SupervisedHuman Body Part Parsing via Pose-Guided Knowledge Transfer
通過由姿態引導的知識遷移進行弱監督及半監督的人體部位分割
人體部位解析,或稱人類語義部位分割,是許多計算機視覺任務的基礎。在傳統的語義分割方法中,我們需要提供手工標注的標簽,以便使用全卷積網絡(FCN)進行端到端的訓練。雖然過去的方法能達到不錯的效果,但它們的性能高度依賴于訓練數據的數量和質量。
在本文中,我們提出了一種獲得訓練數據的新方法,它可以使用容易獲得的人體關鍵點的數據來生成人體部位解析數據。我們的主要想法是利用人類之間的形態相似性,將一個人的部位解析結果傳遞給具有相似姿勢的另一個人。使用我們生成的結果作為額外的訓練數據,我們的半監督模型在PASCAL-Person-Part數據集上優于強監督的方法6個mIOU,并且達到了最好的人類部位解析結果。我們的方法具有很好的通用性。它可以容易地擴展到其他物體或動物的部位解析任務中,只要它們的形態相似性可以由關鍵點表示。我們的模型和源代碼將在之后公開。
3、Learning DualConvolutional Neural Networks for Low-Level Vision
基于雙層卷積神經網絡處理低層視覺的方法
本文提出了一個雙層卷積神經網絡來處理一些低層視覺問題,比如圖像超分辨率、保邊緣的圖像濾波、圖像去雨、圖像去霧等。這些低層視覺問題通常涉及到目標結果的結構和細節部分的估計。受此啟發,本文提出的雙層卷積神經網絡包含兩個分支,其中這兩個分支可端到端的估計目標結果的結構和細節信息。基于估計的結構和細節信息,目標結果可分別通過特定問題的成像模型來得到。本文所提出的雙層卷積神經網絡是一個一般性的框架,它可以利用現有的卷積神經網絡來處理相關低層視覺問題。大量的實驗結果表明,本文所提出的雙層卷積神經網絡可以應用于大多數低層視覺問題,并取得了較好的結果。
4、GeoNet:GeometricNeuralNetworkforJointDepthandSurfaceNormalEstimation
GeoNet:通過幾何神經網絡進行聯合的深度和平面法向量估計
在這篇論文中,我們提出了幾何神經網絡,用于同時預測圖片場景的深度和平面法向量。我們的模型基于兩個不同卷積神經網絡,通過對幾何關系的建模來循環迭代更新深度信息和平面法向量信息,這使得最后的預測結果有著極高的一致性和準確率。我們在NYU數據集上驗證了我們提出的幾何神經網絡,實驗結果表明我們的模型可以精確預測出幾何關系一致的深度和平面法向量。
5、Path AggregationNetwork for Instance Segmentation
通過路徑聚合網絡進行實例分割
在神經網絡中,信息傳遞的質量是非常重要的。在本文中,我們提出了路徑聚合神經網絡,旨在提升基于區域的實例分割框架中信息傳遞的質量。具體來講,我們構建了自下而上的通路來傳遞儲存在低層神經網絡層中精確的定位信息,縮短了底層網絡和高層網絡之間的信息傳輸距離,增強了整個特征層級的質量。我們展示了適應性特征池化,它連接了區域特征與所有的特征層級,進而使得所有有用的信息都能夠直接傳遞到后面的區域子網絡。我們增加了一個互補的分支去捕捉每個區域不同的特性,最終提升了掩膜的預測質量。
這些改進十分易于實現,而且增加了較少的額外計算量。這些改進幫助我們在2017 COCO實例分割競賽中取得第一名,在物體檢測競賽中取得第二名。而且我們的方法也在MVD和Cityscapes數據集中取得最好成績。
6、FSRNet:End-to-EndLearningFaceSuper-ResolutionwithFacialPriors
FSRNet:基于先驗信息的端到端訓練的人臉超分辨率網絡
本文由騰訊優圖實驗室與南京理工大學主導完成,并入選Spotlight文章。人臉超分辨率是一個特定領域的超分辨率問題,其獨特的人臉先驗信息可以用來更好超分辨率人臉圖像。本文提出一種新的端到端訓練的人臉超分辨率網絡,通過更好的利用人臉特征點熱度圖和分割圖等幾何信息,在無需人臉對齊的情況下提升非常低分辨率人臉圖像的質量。具體來說,本文首先構造一個粗粒度超分網絡恢復一個粗精度的高分辨率圖像。其次把該圖像分別送入一個細粒度超分編碼器和一個先驗信息估計網絡兩條分支。細粒度超分編碼器抽取圖像特征,而先驗網絡估計人臉的特征點和分割信息。最后兩條分支的結果匯合送入一個細粒度超分解碼器重構出最終的高分辨率圖像。
為了進一步生成更真實的人臉,本文提出人臉超分辨率生成對抗網絡,將對抗思想融入超分網絡中。另外,我們引入人臉對齊和人臉分割兩種相關任務,作為人臉超分的新的評估準則。這兩種準則克服了傳統準則(比如PSNR/SSIM)在數值和視覺質量不一致的問題。大量實驗顯示,本文提出的方法在處理非常低分辨率人臉圖像時,在數值和視覺質量兩方面都顯著優于以往超分方法。
7、Generative AdversarialLearning Towards Fast Weakly Supervised Detection
基于生成對抗學習的快速弱監督目標檢測
該論文提出一種面向快速弱監督目標檢測的生成對抗學習算法。近年來弱監督目標檢測領域有著大量的工作。在沒有人工標注包圍盒的情況下,現有的方法大多是多階段流程,其中包括了候選區域提取階段。這使得在線測試的速度比快速有監督目標檢測(如SSD、YOLO等)慢一個數量級。該論文通過一種新穎的生成對抗學習算法來加速。在這過程中,生成器是一個單階段的目標檢測器,引入了一個代理器來挖掘高質量的包圍盒,同時用判別器來判斷包圍盒的來源。最后算法結合了結構相似損失和對抗損失來訓練模型。實驗結果表明該算法取得了明顯的性能提升。
8、GroupCap: Group-based Image Captioning with Structured Relevance andDiversity Constraints
基于組群的帶結構化相關性和差異性約束的圖像自動描述
該論文提出了一種基于組群圖像結構化語義關聯性分析的圖像自動描述方法(GroupCap),對圖像間的語義相關性和差異性進行建模。具體而言,該論文首先利用深度卷積神經網絡提取圖像的語義特征并利用提出的視覺解析模型構建語義關聯結構樹,然后在結構樹基礎上采用三聯損失和分類損失對圖像間語義關聯性(相關性和差異性)進行建模,最后將關聯性作為約束來引導深度循環神經網絡生成文本。該方法新穎且有效,很好解決了當前圖像自動描述方法對于生成結果精確度不高且判別性不強的缺陷,并在圖像自動描述的多項指標上取得較高的性能。
-
神經網絡
+關注
關注
42文章
4771瀏覽量
100718 -
圖像
+關注
關注
2文章
1083瀏覽量
40449 -
模糊算法
+關注
關注
0文章
16瀏覽量
8740
原文標題:CVPR 2018:騰訊圖像去模糊、自動人像操縱最新研究
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論