AI Scholar Weekly是AI領域的學術專欄,致力于為你帶來最新潮、最全面、最深度的AI學術概覽,一網打盡每周AI學術的前沿資訊,文末還會不定期更新AI黑鏡系列小故事。
周一更新,做AI科研,每周從這一篇開始就夠啦!
本周關鍵詞:開源圖像分段數據標記軟件;深層卷積;SoTA人臉圖像編輯系統;實時3D物體識別。
還記得2018年Wider Challenge嗎?現在結果出來啦
大眾評判的基準和ImageNet與COCO舉辦的系列挑戰賽,都在逐步推進AI研究的發展。這些舉措不但激發了來自學術界和行業內外的學者與開發人員參與其中,還鼓勵他們更加深入地進行研究與開發,正是這樣的結果激勵了人臉(識別)與行人(檢測)這些行業舉辦頂級賽事。
該項挑戰的三項任務來自計算機視覺中一些長期存在的挑戰以及估計問題,其中包括人臉檢測,行人檢測和人物搜尋。
結果:挑戰總結及成功的解決方案
挑戰者將會得到關于以上三項任務的基礎數據集,在參與流程的知道小,挑戰者需要將他們的模型輸出結果上傳至公共評估服務器,該服務器分為驗證階段和最終測試階段,最終勝利的挑戰者將由模型的輸出表現來確定。
這篇研究論文對提交了有效結果的100多位挑戰者的研究思路進行了總結。在人臉檢測任務中,獲勝者通過整合多重人臉識別預測來設計了一個獨立檢測器。
在行人檢測競賽中,獲勝者提出了一個級聯的R-CNN模型與強大的附加結構,用來提高性能。而在人物搜尋競賽中,獲勝者設計了一個級聯模型,該模型使用了每個人的臉部特征以及身體特征。除此之外,該研究論文還介紹了前5位獲勝者的研究思路細節。
潛在應用與效果
WIDER challenge激勵了開發者與研究學者進一步去研究和解決計算機視覺中的關鍵問題。新的方法毋庸置疑會推動并構建有效的系統,使得人們在人臉檢測和物體檢測方向中解決一些更為嚴峻的問題。
原文:
https://arxiv.org/abs/1902.06854v1
用于學習多個視覺領域的深層卷積
深層可分離卷積已被證實非常適合進行標準卷積應用,其中包括圖像分類,自然語言處理和嵌入式視覺應用。這項研究則是首次在深層(卷積)中探索其在多領域中的應用,它是基于來自不同領域的共享跨道關系的假設。
為了能在不同領域中進行有效的知識傳送,研究人員引用softmax的門控機制,在視覺全能挑戰基準上進行了測試,他們采取的方法得分高于目前最新的傳統方法的得分。
潛在應用與效果
研究者提出的方法比較經典,易于拓展,可以以較少的算力來訓練和適應新的領域。深層卷積同樣也可以用來提高特定區域的精度。該方法可以應用于優化計算機視覺、情感分析、推薦系統等領域。
原文:
https://arxiv.org/abs/1902.00927v2
SC-FEGAN :新人臉編輯系統
SC-FEGAN 是一款高端人臉編輯系統。它基于CNN,使用用戶的草圖和顏色作為輸入,來生成并合成高質量的圖像,而用戶僅僅需要完成簡單的任務即可。
為了優化圖像不完美的邊緣,SC-FEGAN 加入了使用門控卷積的自由形式圖像修復(SN-patch GAN),此外,它還訓練了GAN與風格損失函數實現高質量的圖像編輯。根據這項研究,將SC-FEGAN 在結構和形狀的質量方面上述的圖像修復方法進行比較方向——使用自由形式的模型產生的效果更好。研究人員在celebA-HQ數據集上對該系統進行了分別的訓練。
潛在應用與效果
SC-FEGAN 只需一次通過,即可執行轉換和恢復大部分面積的面部圖像。它還允許用戶自主編輯圖像特征,比如發型、臉型、眼睛、嘴巴等等。SC-FEGAN具有推動面部識別應用工作的潛力。此外,它還能幫助生成我們非常需要的高質量的基礎圖像數據集。
原文:
https://arxiv.org/abs/1902.06838v1
非標記(Free Label)的快速、高質量注解
這篇新發布的研究報告介紹了一個新工具——Free Label,該工具的目標是幫助用戶獲得高質量的、可以很容易適應不同數據集和種類的注解。這項基于Web的工具,為圖像分類數據集快速、高質量的標注提供了一種典型的交互式界面。
為了達到精煉的語義分類,Free Label實現了區域生長分割(Region Growing Refinement,即RGR)算法。RGR可以是完全非監督式的,并且實現起來很簡單。不像其他相關算法,它的計算時間和參數化允許極快速的用戶交互。由于Free Label實現了一個模塊設計并且僅僅依賴于開源庫,因此很容易便能被獲取。它能夠被部署到一個本地或外部的服務器上,允許用戶通過私有或公有的方法來做注解。
潛在應用與效果
通過利用Free Label的模塊化結構來輕易標注圖像數據集,深度學習社區可以很大程度上從中獲益。Free Label也可以被調整去幫助對不同數據集的有效分類,此舉可以幫助開發更加精確和魯棒的模型。可以通過短視頻教程和一個有趣的、游戲版本的Free Label,去學習如何使用并合理地標注數據集。
原文:
https://arxiv.org/abs/1902.06806v1
代碼:
https://bitbucket.org/phil_dias/freelabel-wacv/src
LiDAR FlowNet:用GRU來估計動態流
研究者們最近提出了一個基于高級神經網絡2D Map預測方法的動態流LiDAR-FlowNet,它現在可以在來自上一個和目前框架下已存在的Map和未知的Map中估計動態流。
除此之外,為了取得高水平表現,他們已經設計了一個自監督的策略來訓練LiDAR FlowNet。這讓在2D LiDAR-FlowNet Map上預測下一個動態變得簡單明了起來。對于研究者和開發者來說,好消息是這項新方法的測試結果驗證了它的有效性。
潛在應用與效果
對人工智能和機器學習社區來說,LiDAR FlowNet能夠幫助我們找到一個更便宜的方式去實現高級LiDAR Map預測。這個舉措將會刺激所有動態規劃應用領域的潛在機會,從而推動整個領域的進步,例如真實世界中自動控制的設計和應用,自動駕駛汽車,角色動畫,建筑設計,游戲,分子生物等等。
原文:
https://arxiv.org/abs/1902.06919v1
PIXOR:來自點云的實時3D對象探測
新研究發現了一個新的單階段檢測器模型——PIXOR,可以從像素神經網絡預測解碼,從而輸出實時的、基于3D對象的估計。可以它想成一個為密集的基于3D對象檢測設計的完全卷積神經網絡。模型輸入描述包括鳥瞰的視野網絡結構以及一個模型優化方法,該方法是為在自動駕駛中取得平衡感,從而獲得高精確度和實時效率而設計的。
研究者在KITTI BEV目標檢測以及大規模3D機動車檢測基準上證實了PIXOR的有效性。結果顯示,對比最先進的卷積方法,PIXOR在超過28FPS運轉的同時,能提供高水平的效率和AP(平均精度,Average Precision)準確度。
潛在應用與效果
PIXOR通過增加LIDAR對象和面部識別,為魯棒的3D對象定位取得了更高的簡化度和更低的成本。模型有潛力去實現一些自動駕駛汽車的關鍵技術,比如實時3D屏重構,自定位和通過語義分析以及面對對象的語義理解讓機動車實時響應。
原文:
https://arxiv.org/abs/1902.06326v1
AI黑鏡——基于AI技術的人倫小故事
恐怖分子在哪里
在我們共享的線上工作區忽然蹦出了一些字符,不是聊天信息也不是筆記,是一個通知,“相關信息已被上傳至RECOG。”
憤怒的一刻——顯然,在我們的工作系統中插入這個程序已成定局。就像在星期五下午突然通知要加班一樣,對于一個我們沒有調查或調試權限的系統,我們當然不可能提出不同意見。同樣,在這個問題上,我們的意見并不重要。
盡管這個系統是否能得出有價值的結果還不得而知,但是它工作的方式已經確定了,RECOG可以從我們所有的任務和對話中學習。
之后,很多人的情緒開始從憤怒開始感到驚慌——RECOG的工作界面一直顯示“正在工作……”,從來不會拒絕響應。
我們要把RECOG訓練成一個目標識別和問題回答的系統。但它不是我們開發的系統,是政府把它從……不知道什么地方帶來的,也正因如此,這個東西的訪問權限設置非常謹慎。
我只知道我們的工作是,把其中的黑盒內容轉變成邏輯清晰的系統。
但是,我們無法查看它的大部分代碼,只能通過精心設計的問題測試它。
所以我們給它提供了大量的城市圖像。他們用綁在無人駕駛飛機上的高分辨率攝像機收集了好幾天的資料,為了了解這些圖像中的人是誰,或者至少了解他們的工作。
當時我們正在解決校準問題,從最簡單的問題“那里有多少男性穿著紅色夾克、戴著墨鏡?”,到復雜的問題“哪個熱狗攤最火爆?”系統的回應非常精彩,以至于有人忽然問出了那個問題。
那時只有我們三個人還在做這個項目。指令的來源無法追蹤,所以我不知道這個問題的具體內容,但我知道接下來發生了什么。
“工作……完成。找到匹配目標。”
在一張巨大的城市鳥瞰圖像中,一個小紅框迅速放大并填充了我們面前的顯示器。
人類概率:99%
男性概率:91%
罪犯概率:77%
恐怖分子概率:70%
問題是,是誰建立了這些類別?
我們之后都沒有再說話,各自回去工作,假裝什么都沒發生。
我之后聽說了RECOG犯了個大錯,那天它鎖定的人是個FBI探員,被派跟蹤并吸引國內的潛在恐怖分子現身。他當時正在去見一個他追蹤的人的路上。而這馬上被RECOG關注到了。
無論發生了什么,我們那天傍晚就接到電話,被告知接下來的這周我們可以休息了,而在那之后不久,我們又被告知接下來可以一直休息,因為他們把這個項目撤下來了。我猜他們認為這個項目已經不適合再交給我們做了。
但是,我一直想知道RECOG下一步會出現在哪里?
我一直想做一個鳥類識別的系統。雖然真實的鳥味道不好聞、很吵并且總需要被喂食,但鳥類的圖像是很美的。我的教授認為這個項目會很簡單,我只需要提供一個夏天的時間就能完成。
但現在,我卻在想,政府的這些步驟會給恐怖分子提供些什么?
在人類歷史上的一些特殊時期,人們經常會因為舉報——比如嫉妒的鄰居舉報或者腐敗的警察敲詐,被拖走并折磨至死。那么一個如果廉潔的機器所說的話,又會引發怎樣的事情呢?
-
檢測器
+關注
關注
1文章
865瀏覽量
47705 -
圖像分類
+關注
關注
0文章
90瀏覽量
11931 -
數據集
+關注
關注
4文章
1208瀏覽量
24723
原文標題:Wider Challenge結果爆出,實時3D對象探測技術發布 | AI一周學術
文章出處:【微信號:BigDataDigest,微信公眾號:大數據文摘】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論