近日,有網(wǎng)友在 reddit 上提出 Google AI 拒絕公開 Conceptual Captions 數(shù)據(jù)集(相關(guān)論文發(fā)表在 ACL 2018 上),谷歌除了發(fā)表相關(guān)論文以外還舉辦了使用該數(shù)據(jù)集的挑戰(zhàn)賽(比賽結(jié)果在 2018 年 NeurIPS 會議上公布)。這引發(fā)了網(wǎng)友對這種做法是對是錯(cuò)、學(xué)術(shù)會議同行評審是否應(yīng)該把論文復(fù)現(xiàn)作為重要考量因素等的激烈討論。
原帖主要內(nèi)容是:
谷歌曾在 ACL 2018 上發(fā)表了一篇數(shù)據(jù)集論文《Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning》,該數(shù)據(jù)集 Conceptual Captions 共有大約 330 萬張圖像。但他發(fā)現(xiàn)了幾個(gè)問題:
谷歌拒絕共享預(yù)訓(xùn)練模型,這使得基準(zhǔn)測試變得異常艱難:
https://github.com/google-research-datasets/conceptual-captions/issues/3;
拒絕共享與每張圖像相關(guān)的 Alt 文本(諷刺的是這篇論文的標(biāo)題中恰好有 Alt-text 一詞):
https://github.com/google-research-datasets/conceptual-captions/issues/6;
拒絕共享圖像/鏡像鏈接(盡管我認(rèn)為這關(guān)乎法律問題,但僅有該數(shù)據(jù)集的幾百張圖像,社區(qū)很難對比不同模型):
https://github.com/google-research-datasets/conceptual-captions/issues/1
發(fā)帖人表示對此很難過。他希望社區(qū)意識到數(shù)據(jù)集論文是一項(xiàng)重大責(zé)任,如果存在阻擋數(shù)據(jù)集共享的法律問題,那么可以基于私人數(shù)據(jù)發(fā)表論文,但是基于同樣的模型或整個(gè)數(shù)據(jù)集舉辦挑戰(zhàn)賽的行為不太好。
此帖發(fā)出后,引發(fā)了網(wǎng)友的大量討論。有網(wǎng)友認(rèn)為谷歌這么做沒什么問題,他們的任務(wù)是分享研究、把研究成果作為自己的優(yōu)勢,而不是相反。但評論中更多的是對這種行為的反對。
反對此類行為
網(wǎng)友_michaelx99 表示:
DeepMind 發(fā)表的好幾篇論文也是僅依靠論文本身完全無法復(fù)現(xiàn)。這讓我意識到發(fā)表在 arXiv 或企業(yè)網(wǎng)站上的「論文」并不是真正的發(fā)表,其主要目標(biāo)是表明該企業(yè)已經(jīng)具備了某種能力。我并不是說所有大企業(yè)在線發(fā)表的論文都這樣,但其中一些確實(shí)如此。
ModernShoe 表示:
我曾聽吳恩達(dá)談?wù)撋虡I(yè)如何利用 AI 盈利。他說企業(yè)應(yīng)該保護(hù)訓(xùn)練/測試數(shù)據(jù)集,而不是保護(hù)某個(gè)算法。或許這與數(shù)據(jù)集論文不公布數(shù)據(jù)集有某種關(guān)系?
網(wǎng)友 epic:
這種行為不利于科學(xué)和機(jī)器學(xué)習(xí)的發(fā)展。雖然我們理解谷歌不發(fā)布數(shù)據(jù)集的原因,但這種行為仍然是不好的。尤其是數(shù)據(jù)集論文,在沒有數(shù)據(jù)的情況下復(fù)現(xiàn)研究及其困難。有能力的組織和人們應(yīng)該作為表率來引領(lǐng)社區(qū),而不是相反。
網(wǎng)友SkinnyJoshPeck:
這是對機(jī)器學(xué)習(xí)和機(jī)器學(xué)習(xí)專家的海量需求的后果嗎?我在一家大企業(yè)工作,與機(jī)器學(xué)習(xí)科學(xué)家接觸較多,他們當(dāng)中一些人缺乏對科學(xué)方法的基本尊重,這令我非常驚訝。我認(rèn)為這并非技巧的缺乏(一些研究已經(jīng)發(fā)表),而是不明白「可觀的結(jié)果未必是準(zhǔn)確、有效的」。
我的大學(xué)專業(yè)是數(shù)學(xué),而且專門學(xué)習(xí)了代數(shù)。我了解表示論和代數(shù)幾何,因此我知道大多數(shù)模型和技術(shù)的底層數(shù)學(xué)基礎(chǔ),這些讓我對這些專家能夠坐在現(xiàn)在的崗位上感到驚訝。
復(fù)現(xiàn)性
網(wǎng)友GoAwayStupidAI:
復(fù)現(xiàn)性是科學(xué)的重要標(biāo)志。沒有相關(guān)數(shù)據(jù)、結(jié)果無法復(fù)現(xiàn)的研究都是垃圾。
網(wǎng)友kemfic:
論文就應(yīng)該是可復(fù)現(xiàn)的。如果不能,那么期刊就不應(yīng)該接收它們。
網(wǎng)友duckbill_principate:
讓我覺得困擾的不是共不共享模型、代碼或者數(shù)據(jù)集的問題,而是在這種事情發(fā)生的時(shí)候論文仍然被接收了。這某種程度上是同行評審的失敗,其責(zé)任則屬于我們每一個(gè)審稿人,因?yàn)檫@樣的論文往往是基于信任或權(quán)威而被接收的(我們知道盡管有雙盲評審,但我們不難推斷出某些論文一般會來自哪個(gè)研究組)。這更像是廣告而不是科學(xué)。
網(wǎng)友duckbill_principate:
在我實(shí)現(xiàn)的 20 多篇論文中,5 篇存在部分或完全影響研究結(jié)果驗(yàn)證的錯(cuò)誤/bug。而這些論文都是頂會上經(jīng)過同行評審的論文。
我認(rèn)為這是學(xué)術(shù)丑聞。
有些案例中問題被揪出來,作者進(jìn)行了修改。但即使是在這種比較好的場景中,修改數(shù)字后的論文(可能使用了全新的超參數(shù)搜索!)靜悄悄地出現(xiàn)在 arXiv 上,而發(fā)表在會議上的論文并沒有修改,更不會被撤回。為什么?大家都知道原因,也熟悉那些辯護(hù)理由:「盡管我們的結(jié)果不如預(yù)想中的好,但我們認(rèn)為這項(xiàng)技術(shù)非常棒,非常有前途……」不管是從數(shù)學(xué)角度,還是從沒有所謂的「當(dāng)前最優(yōu)結(jié)果」的論文不該被接收的角度,這種說法都非常糟糕。
網(wǎng)友 habanero_ass_fire 認(rèn)為:
OpenImages 的圖片是從網(wǎng)上獲得的,其他幾個(gè)比較知名的數(shù)據(jù)集也是如此。就法律意義上來看,圖片的作者擁有版權(quán),因此論文作者是不能共享這些圖片的。另外,無效的鏈接在現(xiàn)實(shí)中經(jīng)常發(fā)生。因此我對這種沒有公開數(shù)據(jù)集的行為沒有意見,只要他們能夠分享一個(gè)預(yù)訓(xùn)練模型即可;如果你可以依照論文訓(xùn)練出自己模型,即使沒有預(yù)訓(xùn)練模型也不會讓論文無效。
但這立刻遭到網(wǎng)友 duckbill_principate 的反駁:
如果你能夠訓(xùn)練出一個(gè)模型精確復(fù)現(xiàn),那沒問題。但如果你曾試圖復(fù)現(xiàn)論文時(shí)就會明白,實(shí)際情況往往是,即使那些發(fā)布了自己代碼且提供定義清晰且可用的數(shù)據(jù)集的論文,復(fù)現(xiàn)的結(jié)果也往往是不可預(yù)測的。他們是公布了自己的代碼和參數(shù),但卻可能沒有說明自己的訓(xùn)練過程;他們公布了訓(xùn)練代碼,但卻可能遺漏了部分自定義庫;他們使用了公共數(shù)據(jù)集,但卻沒有明確說明他們對這些數(shù)據(jù)集做了什么樣的預(yù)處理;他們公布了代碼、數(shù)據(jù)集,甚至也對此做了大量且詳盡的說明,但卻可能遺漏一些非常關(guān)鍵的內(nèi)容,等等不一而足。
事實(shí)是,如果沒有預(yù)訓(xùn)練模型,或者沒有對訓(xùn)練過程的完整描述,談復(fù)現(xiàn)性就是一個(gè)笑話。
正如網(wǎng)友所說,在沒有數(shù)據(jù)的情況下復(fù)現(xiàn)研究及其困難,尤其是數(shù)據(jù)集論文。
關(guān)于研究復(fù)現(xiàn)的討論由來已久,前段時(shí)間在某篇 CVPR 論文復(fù)現(xiàn)出現(xiàn)問題時(shí),大家更是對頂會/期刊論文復(fù)現(xiàn)性進(jìn)行了大量討論。不少人認(rèn)為論文復(fù)現(xiàn)也應(yīng)該作為同行評審中的重要部分。有網(wǎng)友表示「總體而言,論文評審過程不包含復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果。評審者不得不在很大程度上依靠作者的誠信」、「同行評審?fù)ǔ8P(guān)心論文中描述的方法。潛在的解決辦法是要求作者提交現(xiàn)成的實(shí)現(xiàn)(如通過 docker)。然而,在哪里運(yùn)行仍然是一個(gè)問題。也許 AWS 資源等可以從提交費(fèi)用中提取,供評審人員重新運(yùn)行模型。然后,問題是確保評審人員不會「濫用」資源進(jìn)行他們自己的實(shí)驗(yàn)等。在任何情況下,「通過計(jì)算的方法」進(jìn)行 DL 論文評審都很棘手」。
學(xué)術(shù)會議對研究復(fù)現(xiàn)也很重視。2017 年,ICML「機(jī)器學(xué)習(xí)復(fù)現(xiàn) Workshop」就對這一問題進(jìn)行過討論;2018 年,ICLR 舉辦了復(fù)現(xiàn)挑戰(zhàn)賽,旨在保證接收論文公布的結(jié)果是可靠的、可復(fù)現(xiàn)的。此外,為了鼓勵(lì)可復(fù)現(xiàn)性和高質(zhì)量論文的提交,ICML 2019 在論文提交上做出了一些重要改變,如鼓勵(lì)提交的論文附帶代碼,結(jié)果的可復(fù)現(xiàn)性和代碼的易用性將作為論文接收和進(jìn)一步?jīng)Q策的考慮因素。KDD 2019 的征稿通知中也表明:今年會議采取雙盲評審制度,論文接收結(jié)果公布之前投稿者不得將論文發(fā)布于 arXiv 等開放性平臺上。更重要的是,只有在論文中公開研究代碼和數(shù)據(jù)的論文才有資格競選「最佳論文獎」。
科學(xué)研究的復(fù)現(xiàn)性非常重要,機(jī)器學(xué)習(xí)社區(qū)一貫重視開放性、復(fù)現(xiàn)性,而這需要社區(qū)人們的維護(hù)。上述學(xué)術(shù)會議的變化無疑將促進(jìn)研究復(fù)現(xiàn)性,鼓勵(lì)研究人員更加審慎地對待自己的研究、更加開放地共享研究的具體細(xì)節(jié)。那么具備強(qiáng)悍研究能力和開發(fā)能力的大型企業(yè)會不會做好表率呢?
-
Google
+關(guān)注
關(guān)注
5文章
1766瀏覽量
57598 -
谷歌
+關(guān)注
關(guān)注
27文章
6172瀏覽量
105511 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24729
原文標(biāo)題:Google AI發(fā)數(shù)據(jù)集論文、辦挑戰(zhàn)賽卻拒絕開放數(shù)據(jù)集?結(jié)果被懟了……
文章出處:【微信號:aicapital,微信公眾號:全球人工智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論