Nature重磅！造假者涼涼: 圖像查重工具來了，4小時狂掃3500篇SCI

2020-07-27由完顏翠琴發佈於科技

造假事件屢見不鮮

論文圖像查重軟件來了

2020年7月21日，《Nature》新聞版發佈一篇題為“Pioneering duplication detector trawls thousands of coronavirus preprints”的文章。文章標題指出，前沿的圖像重複檢測工具發現了數以千計存在重複的新冠預印本文章，但自動化軟件標記重複的圖像，也同樣存在很多錯誤的警報！

COVID-19疫情發生以來，大量研究論文陸續發表，但其中不乏存在優劣之分！為此，一位計算機科學家開發了自動程序以在研究論文中發現重複的圖像，並在全球新冠病毒預印本上運行他的軟件。到目前為止，他的努力成果喜憂參半，同時也存在一些爭議。

這個算法軟件是紐約雪城大學的Daniel Acuna教授、一位計算機科學家開發的。2018年他首次報告了算法，該算法可一次篩選識別成千上萬張論文匹配圖像，識別的內容包括翻轉，調整大小或旋轉的圖像。該軟件之所以具有開創性，是因為它可以大規模發現重複使用圖像。

再次之前，研究專家通常使用肉眼發現錯誤，或使用軟件檢查一或幾篇論文中少量圖像之間的匹配。

Acuna表示：“對於新冠的大流行我感到無助，為此我感到絕望，但我可以用自己獨特的方式做一些事情。”

目前，Acuna的程序仍處於試驗階段，並受到期刊和研究機構的測試。但是，針對COVID-19的研究似乎也很有用。今年6月，他從兩個用於冠狀病毒研究的關鍵存儲庫bioRxiv和medRxiv服務器上下載了3500個預印本，並使用他的專有軟件提取和比較了約21,000張圖像。

有爭議的結果

Acuna説，在四個小時內，該軟件就在21,000張圖像中發現了大約400個可能重複的圖像，且大多數結果都沒有問題！

他選擇了24篇他認為包含“有趣”重複圖像的論文，並於 7月在自己創建的網站上發佈了這些內容，同時在PubPeer上公開標記了這些問題。

問題一經公佈，立刻引起了轟動！

一部分論文的作者作者回應稱，Acuna的軟件發現了重複的圖像，他們將糾正錯誤。也有的作者回應：該錯誤已經在同行評審的作品版本中得到糾正。

芬蘭赫爾辛基大學的病毒學家Giuseppe Ballistreri寫道：“我認為，如果該工具證明是準確的，則應默認在PubMed中實施。”他同時也感謝Acuna所做的檢查。

但也有人持反對態度！

“鷹眼打假鬥士”Elisabeth Bik（伊麗莎白·比克）以能夠通過眼睛發現論文中的問題而聞名。她説：希望Acuna首先向她詢問他的一部分圖片重複問題。

同時Bik在PubPeer上寫道，該軟件“仍然需要人工監督，以確保它不會錯誤地將適當的重複標記為不合適”。對此，Acuna也表示同意：軟件標記的內容始終需要人來審核，並且尚無法根據上下文了解所獲取的內容是否有問題，他説。“我仍然認為這是有用的，因為它正在識別人類難以捉摸的東西。”

事實上，Acuna的軟件不是沒有錯誤！一些研究人員説，Acuna的軟件完全把他們的圖片弄錯了，並標記了相似但不匹配的圖像。例如，北卡羅來納州達勒姆市杜克大學的Priyamvada Acharya要求Acuna刪除他與別人合作的一篇論文，該論文被軟件檢測顯示了同一分子的相似觀點。“我們感謝您的意圖，並堅決支持這一努力。但是，需要對現實進行調整。必須由人類進行一些評估或策展，”他和合著者在一封信中寫道。反饋的結果是，Acuna從他的網站上刪除了大約三分之一的分析，並將該網站的列表設置為私人訪問，這樣，只有從他那裏獲得訪問密鑰的作者才能看到他的發現。

儘管存在一些爭議，但是這個工具無疑是巨大的進步！因為它可以在數千篇論文中發現重複的圖像！

總體而言，研究論文的自動篩選遠非完美，而且“仍然需要專家來解釋和理解”，德國海德堡的圖像完整性分析師Jana Christopher説，他回顧了Acuna為《自然》新聞小組的調查結果。她説，Acuna標記的某些重複項看起來有問題，但其他大部分發現都是沒問題的。她説，從更廣泛的意義上講，自動圖像檢查工作仍然過於專注於查找重複項，並且還不能採用所有形式的數據處理方法。

有待改進

Acuna説，軟件的一個問題是，目前通用的PDF文件格式會破壞自動化工具提取圖像的能力。比如，今年5月，Bik在自然雜誌上發表了一篇關於COVID-19的圖像複製推文，該圖像也出現在2月份的預印本中，但由於PDF問題，Acuna的軟件並未發現。研究自動化軟件以發現DNA和RNA序列錯誤的研究人員對PDF格式問題同樣提出了抱怨。

目前為止，新冠病毒相關論文有成千上萬的預印本，包括大量的論文，評論，信件和社論，許多研究人員擔心其中存在低質量的研究，錯誤，浪費的精力、機會主義甚至欺詐。科學家警告説，“質量低劣的研究將氾濫成災”，並且由於期刊試圖衝出同行評審的桎梏，評審請求被淹沒了。

據媒體網站Retraction Watch稱，已經從預印本服務器或期刊上撤回了20多項有關COVID-19的研究。該網站的記者本月在一篇論文中寫道，現在斷定此類工作正在以比其他文獻更高的速度被撤回還為時尚早。他們補充説，對COVID-19論文的更嚴格的審查意味着發現缺陷的頻率也可能更頻繁。

Acuna説，他打算繼續進行自動檢查，儘管他知道重複的圖像只是更廣泛關注的一小部分。他將繼續分析COVID-19預印本（現在在bioRxiv和medRxiv上為5500，並且不斷上升），發現問題後，Acuna首先將任何問題通知作者，只有在他們不回答時才公開關注。Acuna會將其圖像與數據庫PubMed上的大量研究論文進行比較，該研究論文可能會提取其他一些圖像重用實例。他説：“我喜歡作者意識到有人正在這樣做。”

所以，儘管存在缺陷，但這個論文圖像查重工具只會越來越完善，常規應用也只是時間問題，論文圖片造假，終將無處可藏！

由於微信平台算法改版，公號內容將不再以時間排序展示，如果大家想第一時間看到我們的推送，強烈建議星標我們。具體步驟為：

（1）點擊頁面最上方“臨牀科研與meta分析”，進入公眾號主頁

感謝支持，比心。（具體操作步驟見下方圖片）

【來源：臨牀科研與meta分析】

聲明：轉載此文是出於傳遞更多信息之目的。若有來源標註錯誤或侵犯了您的合法權益，請作者持權屬證明與本網聯繫，我們將及時更正、刪除，謝謝。郵箱地址：newmedia@xxcb.cn