本文的作者 Ross Taylor 和 Robert Stojnic 在今年一起啟動了一個名為“Paper with Code”的項目,將 AI 領域的一些研究論文和論文開源代碼結合展示,方便大家學習與研究。在推進這個項目的同時,通過分析網站的數據他們也有一些意外和有趣的收獲,用更綜合、全面的視野總結了下半年的發展現狀與熱點,哪些正在成為流行趨勢、哪些被廣泛使用。
在這篇文章中,作者為大家總結了 2018 年下半年機器學習領域被密切關注的成果,快來看看,這些你是不是都知道呢?
最流行的模型
BERT, vid2vid 和 graph_nets
10月,Google AI 團隊提出了一種深度雙向 Transformer 模型 (BERT),并發表了相關的論文。該模型在 11 個NLP 任務上取得了目前為止最佳的性能,Stanford Question Answering (SQuAD) 數據集也引起了學術界的強烈關注。隨后,Google AI 進一步開源了項目代碼,并在當月獲得了最多 Stars 數量,可見其熱門程度。
論文鏈接:https://arxiv.org/abs/1810.04805
GitHub 鏈接:https://github.com/google-research/bert
Nvidia 的 video-to-video synthesis 研究同樣是下半年一大熱點。該研究提出了一種新穎的生成模型 (GAN) 并在視頻合成任務中取得驚人的效果。眾所周知,GAN 是過去幾年里最受歡迎的深度學習模型之一,該研究團隊利用一種新穎的順序生成器架構,以及一些前景和背景先驗 (foreground-and-background priors) 等設計特征,解決了當前視頻合成研究中時間不連貫的問題,進而提高了最終的性能。同樣地,該項目代碼也被 Nvidia 團隊開源,并成為今年下半年第二大最受歡迎的項目。
論文鏈接:https://arxiv.org/abs/1808.06601
GitHub 鏈接:https://github.com/NVIDIA/vid2vid
同樣值得關注的是,Google DeepMind 團隊關于圖網絡 (graph_nets) 的最新研究。該研究得到廣泛關注的原因是,因為它為解決結構化數據提供了一種新的方向。該開源項目是 2018 下半年排名第三位的受歡迎項目。
論文鏈接:https://arxiv.org/abs/1806.01261v3
GitHub 鏈接:https://github.com/deepmind/graph_nets
最受歡迎的項目
DeOldify、BERT 和 Fast R-CNNs
下面來介紹下半年最受歡迎的三個開源項目。
首先是 DeOldify。這是一項使用生成對抗網絡 (GAN) 來修復黑白舊照片并為其重新上色的研究,在深度學習領域引發了極大的興趣和關注。該項目的作者是 Jason Antic,他借鑒了幾種 GAN 模型的實現,包括 self-attention GANs (SA-GANs)、progressively growing GANs (PG-GANs),來構建自己的模型,并采用兩種時間跨度的原則,最終得到了有意思的結果。
GitHub 鏈接:
https://github.com/jantic/DeOldify
其次是 BERT 的 pytorch 實現,作者是 Junseong Kim。該項目的代碼基于 The Annotated Transformer,代碼風格簡單易懂。
GitHub 鏈接:
https://github.com/codertimo/BERT-pytorch
最后一個項目是 Mask R-CNN 的 Keras/TensorFlow 實現,作者 Waleed Abdulla,這是今年下半年第三個熱門 GitHub 項目。在結構上,Mask R-CNN 基于特征金字塔網絡 (FPN) 和 ResNet101 為模型骨干,它可用于許多諸如 3D 建筑物重建,自動駕駛中的目標檢測,檢測地圖中的建筑物類型等應用。
GitHub 鏈接:
https://github.com/matterport/Mask_RCNN
最活躍的領域
NLP 和 GANs
通過查看 GitHub 上 Top50 的開源實現,我們會發現當前最熱門、最活躍的研究領域是自然語言處理 (NLP) 和生成對抗模型 (GANs)。在 GitHub 上,GANs 領域最受歡迎的開源項目有 vid2vid,DeOldify,CycleGAN 以及 faceswaps,而最熱門的 NLP 開源項目包括 BERT,HanLP,jieba,AllenNLP 以及 fastText。
每7篇新論文中,只有一篇論文附有代碼實現
希望研究者在發表論文的同時可以開源自己的代碼實現。在過去 5 年的時間里,我們處理了60000 多篇機器學習領域的論文,在這些論文中,只有 12% 的論文開源了它們的代碼,而過去 6 個月新發表的論文中,大約只有 15% (即每7篇新論文中只有1篇)附有代碼實現。這些數字都告訴我們還有更多的工作要做,但是一切也正朝著正確的方向發展!
每 20 分鐘就會出現一篇機器學習論文
從 7 月到現在,機器學習領域論文發表數量的增長率一直維持在每月 3.5% 左右,每年的增長率達到了 50%。這意味著,每月大約有 2200 篇新論文發表,按照這個趨勢,預計明年將有近 30000 篇新論文發表。
為了更好描述這是怎樣的一個趨勢,我們繪制了曲線圖與摩爾定律的趨勢圖進行比較。
最熱門的兩大深度學習框架
Tensorflow 和 PyTorch
以往每年大部分論文的代碼都是基于 Tensorflow 框架實現的,但是,今年 PyTorch 的火熱程度無法讓人忽視,PyTorch 社區的活躍度非常高。其他的框架,諸如 MXNet,Torch 和 Caffe2 在整個深度學習社區的活躍度和使用率相對就有些低了。 Tensorflow 和 PyTorch 這兩大框架都發生了很大的變化,TensorFlow 正朝著 eager execution 的方向發展,并集成了新的 Keras API,而 PyTorch 的改進旨在使用者能夠更輕松地構建自己的深度學習模型。
展望
整個領域都開始強調論文的可復現性,雖然目前的數字顯示,并不是都能做到,甚至我們還有一段路要走,但也正是如此,幫助大家明確了今后的工作的要求與方向。也希望出了研究人員外,有更多的人加入到開源社區中來。
此外,除了 Google 和 Facebook 這樣的大型巨頭公司外,獨立的 ML 社區 (indie ML community) 也將有助于推動論文復現、代碼開源等工作。如果,研究團隊和開發社區能更加緊密的聯系與合作,相信會產生更多有助于實際應用的機器學習工具,進而讓整個領域更加發揮更大的潛力,全速前進。
-
GaN
+關注
關注
19文章
1944瀏覽量
73653 -
機器學習
+關注
關注
66文章
8423瀏覽量
132752 -
nlp
+關注
關注
1文章
489瀏覽量
22052
原文標題:2018熱點總結:BERT最熱,GANs最活躍,每20分鐘就有一篇論文...
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論