近日微軟研究的 John Langford 討論了頂會到底應不應該提交代碼,因為不同研究主題與領域對代碼的需求不同,他表明代碼提交應該鼓勵,但并不能強制。作為 ICML 2019 的程序主席,Russ Salakhutdinov 表示他贊成 John Langford 的觀點,他們在 ICML 2019 的評審中也引入了代碼提交的選項。目前 ICML 2019 的評審結果已經出來了,那么你們提交代碼了嗎?
ICML、ICLR 和 NeurIPS 都在嘗試將實驗代碼和數據作為評審材料的一部分提交,它們鼓勵作者在評審或出版過程中提交代碼以幫助結果可復現。目前,研究結果的可復現性通過論文、workshop 和演講得到了很多討論,也受到越來越多的關注。
最基本的驅動因素當然是目前的研究結果缺少可復現性,很多優秀研究都沒有提供對應的代碼。對任何評審和出版來說,可復現性的缺失是一個嚴肅的問題。因為后來的研究者會基于先驅工作做一些新的東西,缺乏可復現性將有礙這一過程。
其實由于隨機初始化等機制缺乏可復現性,早期的神經網絡研究并不受歡迎。雖然,目前證明神經網絡的表征能力十分強大,但可復現性問題仍然存在。此外,研究中我們總會潛在懷疑前沿工作的結果是有一些水分,而提供可復現的代碼能在一定程度上排除這樣的質疑。
有了上面的觀點,John Langford 表明可復現性的支持者應該將其理解為一個重要的屬性,但并不是唯一的屬性。例如,我們相信即使研究結果很難復現,但社區也能看到 AlphaGoZero 的發布。對于研究社區而言,真正有價值的是展示什么是可能的,而不是展示將圍棋代碼應用到另一種游戲的可能性。真正有價值的是展示算法更多的可能性,盡管它可能連代碼都沒有發布。如果我們將可復現性作為絕對價值,那么我們很可能就錯過了這樣的研究成果。
一個重要的觀念是,機器學習至少有三種研究:
算法:這種研究的目標是發現一些更好的算法以解決各種學習問題,這是頂會上最典型的類型。
理論:該研究的目標是一般性地理解哪些學習算法是可能的,哪些是不可能的。雖然這些論文同樣可能提出算法,但它們通常并不要求一定要實現,這會浪費作者、評審者和讀者的時間。
應用:這一些研究的目標是解決特定的任務。AlphaGoZero 就是一個合理的例子,它在圍棋上用算法擊敗了世界冠軍。對于這類研究而言,由于計算量大、數據所有權等特點,編程的可復現性可能不切實際。
如果使用一種「放之四海皆準」的策略,要求每一篇論文都是可編程復現的,這種錯誤會降低研究社區的活力與創新。保證這三方面的研究的基本需求,將豐富社區的各種新思想。
如果我們從更廣泛的角度來考慮這個論點,你是否希望醫療健康條例以所有科學研究為基礎,包括那些不公開的數據?還是希望只以公共醫療領域的數據為基礎?后者等價于忽略大多數科學研究,只針對特定領域做決策會有更好的效果。
強制方法的替代是將代碼作為補充資料,附加材料在變化的評審過程中也能很好地追蹤、記錄。
在以前做機器學習研究時,論文不是雙盲的。社區因為評審公正性開始使用雙盲機制,無論是什么資歷的作者和論文都能被公平評審。同時社區并不限制論文在發布前公布到 arXiv 上或者公開討論,因為這會降低作者的研究效率。雙盲評審社區可能有不同觀念,但在 ML 領域這么做并沒分歧。
在以前做機器學習研究時,提交論文的頁數也有強制限制。對理論論文而言,證明部分不包括在內。我們后來改變了評審流程,允許(不要求)提交附錄,便于評審使用。這為作者/評審增加了更多選擇,獲得了所有人的支持。
說到復現,我們能為社區做什么?
如果評審能夠拿到底層代碼或者數據,是否能更好地做評審工作?
開放代碼對作者有好處嗎?
開發代碼對讀者有好處嗎?
如果準確無誤,答案無疑是「yes」。
對評審而言,不為他們添加負擔非常重要。評審可能缺乏計算資源、平臺或者個人時間,無法完全復現論文結果。因此,我們應該像附錄那樣查看代碼(和數據)提交,便于評審探究和使用。
對作者而言,放出代碼有兩個好處:提供額外的方法,說服善于質疑的評審;促進后續的工作也這么做,很多高引用量的論文都開放了源代碼。當然,許多情況下不太可能放出代碼或者對作者沒好處。例如一篇理論論文,很可能算法不是重點,或者因為數據所有權,代碼并不能完全公開。從此來看,我們應該有選擇的支持、鼓勵開放代碼。
對讀者而言,附加代碼(和數據)明顯增加了一篇論文的深度價值。一些讀者可能用不到,但一些會用到(代碼),在許多情況下這能極大的降低使用該論文的壁壘。
鼓勵研究者添加附加實現,這也是 ICML2019 程序主席 Kamalika Chaudhuri 和 Ruslan Salakhutdinov 今年的策略。
除了鼓勵外,我們需要進一步強制代碼提交嗎?考慮到一篇論文是否應該發布,持懷疑態度的審稿人肯定可以將可重復性的價值與其他價值進行權衡。因此有需要的話可以有附加代碼,但強制代替提交卻會降低其它價值。
我們應該少添加一些附加材料嗎?我看不到理由:附加的方法能純粹改進作者/評審/發布流程。不是每個人都能夠利用這些好處,但限制其他人利用這些好處就很不合情理了。
最后值得一提的是,今年 ICML 的代碼提交流程是個嘗試。我們希望所有的程序主席能夠作此嘗試,因為這是改進的開始。我們應該盡全力嘗試這樣的工作,評估得失,預期明年的調整。
-
神經網絡
+關注
關注
42文章
4774瀏覽量
100904 -
代碼
+關注
關注
30文章
4803瀏覽量
68752 -
機器學習
+關注
關注
66文章
8425瀏覽量
132773
原文標題:頂會論文應不應該提交代碼?應該,但不能強制
文章出處:【微信號:aicapital,微信公眾號:全球人工智能】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論