劍橋大學數據科學家Marek Rei在個人博客上發布了2018年國際頂尖學術會議上發表的機器學習和NLP相關論文的數據統計。數據顯示,無論是頂會論文發表數量還是會議出席人數,都表明AI領域仍處于快速的增長期,“AI寒冬”并未到來。
2018年已過經去,各類盤點還在繼續。
近日,劍橋大學數據科學家Marek Rei在個人博客上更新了2018年國際頂尖學術會議上發表的機器學習和NLP相關論文的數據統計。
雖然2018年“AI寒冬”的警告不絕于耳,但Marek Rei的這份數據顯示,去年在AI相關領域,無論是頂會論文發表數量還是會議出席人數,都表明AI領域仍處于快速的增長期,2018年的統計數據打破了此前的多項紀錄。
最值得注意的是,今年的NeurIPS會議的門票在開票后僅11分38秒即告售罄,堪比春運火車票,令無數準備參會或圍觀大牛的熱心觀眾唏噓不已。
本文提供了關于這些統計數字的更精細的分類數據信息,一起來看看哪些作者和機構在特定的學術會議上發表的論文數最多。
今年的統計信息中涵蓋了下列會議/期刊:
ACL、EMNLP、NAACL、EACL、COLING、TACL、CL,CoNLL、NeurIPS、ICML、ICLR和AAAI。
上述會議/期刊基本涵蓋了全球最知名、級別最高的機器學習自然語言語言技術成果出處。與2017年的數據相比去掉了SemEval,因為該會議主要關注共享作者的論文,本次統計也沒有將合作成果的數據收錄在其他會議中。
今年的統計數據中新收錄了AAAI,這是一個規模較大的會議,之前的統計中未收錄。 NeurIPS(前NIPS)去年進行了更名,但為了保持一致性,在之前年份的數據內容中一律統一使用新名稱。
統計數據的抓取和分析是通過一系列腳本自動完成的,多年來,這些自動腳本一直在不斷改進。論文列表是通過在線程序抓取的,通常也附帶有作者信息。組織機構名稱需要直接從PDF中提取,這可能會導致一些錯誤。為此我已經采取各種方法來檢測和映射不同類型的機構名,來盡量避免這些錯誤。
這篇文章重點介紹了近年來發表論文數量最多的作者和機構,但這里要指出,不能將發表論文的數量作為研究領域中一味追求或獎勵的目標,而且論文數量的快速增長,并不代表研究質量的快速提高。
寫出一篇具有開創性意義的論文,要比發表10篇很快就被人遺忘的論文更了不起。此文的目的是為了給相關領域的人員提供一個更廣的視角,也可能為心懷優秀創意的新研究人員提供一些靈感。
關注每位作者在不同年份發表的論文數量,按照兩年為單位,Chris Dyer仍然顯得一枝獨秀,Yue Zhang和 Ming Zhou緊隨其后。
2012-2018年全球會議/期刊論文數量變化情況
先來看看2012-2018年間統計收錄的會議上的會議論文。大多數機器學習會議上發表的論文數量都呈現持續增長態勢,其中發表在AAAI和NeurIPS上的論文超過1000篇。 EMNLP和NAACL也逐年連創新高。ACL和COLING則變化不是很大。 EACL今年休會,TACL和CL的論文數量多年來保持相對平穩。
作者情況統計
接下來,看看2018年在這些會議上發表過論文的作者情況。有三位研究人員分別發表了22篇論文,論文數量排名并列第一,分別是:周明(微軟),格雷厄姆·紐比格(卡內基梅隆大學)和謝爾蓋·萊文(加州大學伯克利分校) 。緊隨其后的是張潼(曾供職騰訊AI,最近離職),孫茂松(清華大學)和Iryna Gurevych(達姆施塔特工業大學)。
再來看看2012-2018之間的發表論文總數,Chris Dyer(DeepMind)以97篇排名榜首。緊隨其后的是周明(微軟)、Yoshua Bengio(蒙特利爾大學),張岳(西湖大學)和Noah A.Smith(華盛頓大學)。大多數作者明顯更傾向于在自然語言處理或機器學習的核心會議,Percy Liang可能是個例外,在期刊和會議上發表的論文數量基本差不多。
還可以查看不同年份每位作者的論文數量。可以看到,Chris Dyer在2015-2016年間發表的論文數量增長驚人。
一作情況統計
接下來是關于論文第一作者的統計數據。論文的第一作者通常是那些實際操作、實驗并撰寫論文的大部分內容的人,是反映作者對論文成果貢獻度的重要指標之一。
在這項統計中,位列榜首的是Yi Tay(南洋理工大學),他是一名三年級博士生,在2018年的學術會議上共發表了10篇一作論文,令人印象深刻。第二名為朱澤園(Zeyuan Allen-Zhu),去年共發表6篇一作論文。排在之后的分別是Mikel Artetxe,Jiatao Gu(香港大學),Dinghan Shen(杜克大學)和Nathan Kallus(康奈爾大學)去年共發表5篇一作論文。
再來看看發表論文總數,李紀為(香儂科技)發表了 22 篇一作論文。其后是朱澤園(微軟)、Young-Bum Kim(亞馬遜)、Ryan Cotterell(劍橋大學)和 Ivan Vuli?(劍橋大學)。
組織機構發表論文情況
接下來是企業和研究機構發表論文的統計數據。與前兩年一樣,CMU在2018年發文數仍然位居第一,自然語言處理和機器學習主題之間的論文數量差距相對均勻。從企業方面來看,谷歌和微軟仍然是行業的領導者,清華大學、斯坦福大學、北京大學、麻省理工學院和加州大學伯克利分校都位列頂級機構之列。
從2012年至2018年的整個時段來看,排名實際上沒有太多變化。CMU仍然處高居第一,微軟和谷歌得而排名則換了個位置。普林斯頓大學、INRIA和杜克大學似乎專注于機器學習領域,幾乎沒有在NLP領域發表文章。相比之下,北京大學、中科院和愛丁堡大學似乎更重視NLP方向,沒有在NeurIPS /ICML上發表什么文章。
從時間分布來看,CMU在過去幾年內一直保持高產,并且仍在繼續增長。谷歌和微軟一直在爭奪企業界的榜首位置,但目前谷歌似乎取得了領先地位。清華、北大等中國大學目前的論文發表數量正在迅猛上漲。
論文研究話題的分布
最后是關于論文作者和組織機構發表論文主題的一些分類。我收集了與指定作者/組織機構相關的所有論文,全部小寫處理,加上標記,然后傳遞給LDA,再用t-SNE進行可視化,顯示出了他們的論文內容與圖中其他人內容的相似關系。結果如下:
-
機器學習
+關注
關注
66文章
8435瀏覽量
132887 -
自然語言處理
+關注
關注
1文章
619瀏覽量
13605 -
nlp
+關注
關注
1文章
489瀏覽量
22066
原文標題:機器學習和NLP頂會論文大王:周明、張潼、孫茂松等上榜
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論