在生物醫(yī)學(xué)領(lǐng)域的論文中,AI已經(jīng)搜索出9%的高度重復(fù)圖像,0.59%的論文被認(rèn)為存在欺詐嫌疑。因圖像造假撤回的醫(yī)學(xué)論文,一年時(shí)間可能浪費(fèi)接近10億美元的研發(fā)成本。
“打擊論文造假,維護(hù)科研正義”。這不是一句喊口號(hào)的話。
今年6月,斯坦福大學(xué)微生物學(xué)家分析了2009-2016年發(fā)表在分子與細(xì)胞生物學(xué)(MCB)上的960篇論文,發(fā)現(xiàn)其中59篇(6.1%)含有“不適當(dāng)?shù)摹敝貜?fù)圖像,約有2%值得再去進(jìn)行圖像證偽。
不過,斯坦福大學(xué)微生物學(xué)家的工作完全依靠手動(dòng),五位研究人員靠十只手從近1000篇論文里總結(jié)出了這一成果。
現(xiàn)在,AI的介入讓論文中的可疑圖像被發(fā)現(xiàn)的概率大大提升,一個(gè)顯著的成果是,在生物醫(yī)學(xué)領(lǐng)域的論文中,AI已經(jīng)搜索出9%的圖像是高度重復(fù)的,0.59%的論文被認(rèn)為存在欺詐嫌疑。
用AI打擊論文圖像造假,仍有4000多篇醫(yī)學(xué)“問題論文”
使用AI來打擊論文圖像造假的工作是由紐約雪城大學(xué)(Syracuse University)機(jī)器學(xué)習(xí)研究員開發(fā)算法,他們分析了PubMed Open Access子集(PMOS)中截止到2015年發(fā)布的所有數(shù)據(jù),包含了760036篇文章、超過200萬的數(shù)據(jù)。
研究人員構(gòu)建了一個(gè)pipeline,以自動(dòng)檢測(cè)不適合圖像重用候選對(duì)象,在初步檢測(cè)之后,刪除了可能只是文本的圖像或表示為圖像的方程式,留下了大約200萬張圖片。
接著,研究人員發(fā)現(xiàn)每張圖像平均有大約1K高熵關(guān)鍵點(diǎn),這產(chǎn)生了大的相似度檢測(cè)問題,研究人員使用近似最近鄰算法來解決這個(gè)問題。之后,機(jī)器學(xué)習(xí)算法來估計(jì)是否顯示生物圖像。
檢測(cè)復(fù)制-移動(dòng)重用。A.癌變細(xì)胞和縮小部分的原始例子。B.關(guān)鍵點(diǎn)(高熵區(qū)域)的計(jì)算C.最近鄰匹配。D.集群關(guān)鍵點(diǎn)、跨集群匹配和仿射變換。
最后,使用人工來評(píng)估不當(dāng)重用。
算法檢測(cè)圖像區(qū)域重用,同時(shí)對(duì)旋轉(zhuǎn)、裁剪、調(diào)整大小和對(duì)比度變化具有魯棒性。總的來說,這項(xiàng)研究得出一個(gè)結(jié)論:在PubMed Open Access上,大約有0.59%的文章會(huì)被一致認(rèn)為是具有欺騙性的。也就是說,在760036篇文章里面,大約有4484篇文章涉嫌造假。
論文圖像篡改可能導(dǎo)致一年損失10億美元
學(xué)術(shù)研究論文中的圖像造假的禍害十分普遍。
兩個(gè)星期前,Science聯(lián)合撤稿觀察發(fā)布了一個(gè)“撤稿”報(bào)告,許多數(shù)字令人震驚:過去10年里學(xué)術(shù)期刊撤回的論文數(shù)量增加了10倍,撤稿率最高的國(guó)家中國(guó)排第7,撤稿最多的10位作者中,中國(guó)占了兩人。
Top 10撤稿作者(數(shù)據(jù)來自Science)
在撤稿觀察的數(shù)據(jù)庫(kù)中,有18000份研究論文被撤回(最早可追溯到20世紀(jì)70年代),其中,317篇被撤回論文進(jìn)行了圖像篡改,約占整體論文的1.7%。
賓夕法尼亞大學(xué)生物工程副教授Arjun Raj早在2012年就指出,平均一篇生物醫(yī)學(xué)研究論文背后的科學(xué)成本約為30萬美元至50萬美元。而柳葉刀報(bào)道稱,美國(guó)研究人員在當(dāng)年發(fā)表了近152000篇論文。
這樣推算,即使每篇論文成本30萬美元,美國(guó)研究人員在2012年發(fā)表的所有生物醫(yī)學(xué)科學(xué)論文的成本也將接近500億美元。
如果2%的論文因?yàn)閳D像偽造需要撤回,美國(guó)可能會(huì)在2012年浪費(fèi)接近10億美元。隨著全球科學(xué)產(chǎn)量每九年翻一番,照此計(jì)算,自2012年以來,因撤稿產(chǎn)生的負(fù)利潤(rùn)率可能會(huì)更大。
圖像篡改向來如此糟糕嗎?
有些研究人員認(rèn)為,這么多年來,論文圖像篡改問題一直在惡化。
來自美國(guó)研究誠(chéng)信辦公室(the United States Office of Research Integrity,ORI)的數(shù)據(jù)表明,在Photoshop發(fā)布后,他們所處理的涉及圖像處理的案件比例有所增加。
技術(shù)在打擊論文造假的過程中,一直是一場(chǎng)“貓鼠游戲”。AI除了檢測(cè)圖像區(qū)域重用,也成為對(duì)抗Photoshop的利器。
今年9月,Scientific Reports發(fā)表了一篇論文,文章指出,基于植物Rhus toxicondendron(毒性常春藤)的稀釋度非常高的順勢(shì)療法,至少與減輕疼痛的藥物(加巴噴丁)一樣有效。
不過,很快這篇介紹順勢(shì)療法的論文,被生物學(xué)家Enrico Bucci使用的一款軟件標(biāo)記出來錯(cuò)誤:在兩種不同的實(shí)驗(yàn)中,所建議的藥物濃度差別很大,而其圖表卻驚人地一致。
后來,論文作者回應(yīng)稱,他的的團(tuán)隊(duì)在準(zhǔn)備手稿時(shí)犯了一些無意的錯(cuò)誤,導(dǎo)致重復(fù)的圖像和重復(fù)的數(shù)據(jù)。
作者表示,文本和數(shù)字之間的差異是錯(cuò)別字的結(jié)果。該小組將要求Scientific Reports更新該文章并進(jìn)行更正。但也表示,“這不會(huì)以任何方式改變科學(xué)結(jié)論”。
AI距離自動(dòng)打擊論文造假還有多遠(yuǎn)?
然而,即使基于軟件的方法已經(jīng)被廣泛討論了近十年,使用此類應(yīng)用程序的公司還是很少用軟件發(fā)布他們的結(jié)果。
基于軟件的方法仍然需要人為的監(jiān)督支持。檢測(cè)圖像處理軟件的開發(fā)有可能增加掃描圖像期刊的數(shù)量。然而,需要注意的是,軟件的使用并不能消除對(duì)人為干預(yù)的需求。軟件的輸出必須由人來評(píng)估。
一個(gè)領(lǐng)域是軟件開發(fā)有可能對(duì)大型文章數(shù)據(jù)庫(kù)的圖像復(fù)制檢測(cè)產(chǎn)生巨大影響,使用視覺檢查技術(shù)不可能進(jìn)行這種大規(guī)模的比較。
AI來檢測(cè)論文圖像造假在未來可能有兩種形式。一是,公司可以為期刊編輯提供定制的應(yīng)用程序,然后編輯可以使用這些應(yīng)用程序?qū)磳l(fā)表的論文進(jìn)行分析,這可能類似于反抄襲軟件的工作方式。
而另一種方法是,圖像完整性分析公司將自己的人力和計(jì)算機(jī)資源分配給期刊進(jìn)行圖像完整性檢查。
隨著自動(dòng)化的圖像分析軟件演變?yōu)橐粋€(gè)企業(yè),那些造假的研究人員可能會(huì)發(fā)現(xiàn)他們的計(jì)量很難再“瞞天過海”。然后,也許會(huì)出現(xiàn)另一個(gè)更為復(fù)雜的工具,使得造假的圖像更難以被發(fā)現(xiàn),這場(chǎng)“貓鼠游戲”更能還將繼續(xù)。
-
算法
+關(guān)注
關(guān)注
23文章
4646瀏覽量
93716 -
AI
+關(guān)注
關(guān)注
87文章
32439瀏覽量
271617 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8460瀏覽量
133412
原文標(biāo)題:論文造假被AI抓:機(jī)器學(xué)習(xí)檢測(cè)出4000多論文造假,一年損失高達(dá)10億美元
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論