審稿人更喜歡結論顯著的研究？是的。

2020-05-23 由由振山發佈於科技

圖片來源 Pixabay

來源 Discover Magazine

撰文 Neuroskeptic

翻譯頁一

審校戚譯引

在科學的交流和發表方式方面，人們最關心的問題之一就是發表偏倚（publication bias），即證實某一假設的結果往往比不證實某假設的結果更容易發表。

發表偏倚的出現有許多原因，但同行評審過程被普遍視為一個關鍵的驅動因素。人們普遍認為，同行評審人更喜歡“陽性的”結果（有統計顯著性差異）。

但審稿人對陽性結果的偏好是真實存在的嗎？最近發表的一項研究表明，這種偏好確實存在，但對研究發表的影響並不是很大。

研究人員瑪爾特•艾倫（Malte Elson）、馬庫斯·赫夫（Markus Huff）和索尼婭•伍茲（Sonja Utz）進行了一項巧妙的實驗，以確定統計顯著性對同行評審結果的影響。這些作者是 2015 年一個會議的組織者，參會的研究者要提交摘要，隨後這些摘要會經過同行評審。

艾倫等人創建了一個虛構的摘要，並將這份虛構的“投稿”與真實投稿放在一起，給會議的同行評審人評審。每個評審專家被隨機分配到這個摘要的一個版本，要麼有顯著差異性結果，要麼沒有顯著差異性結果；在其它方面，這項虛構研究的細節是相同的。這項研究最終的樣本量為 127 名評審專家（n=127）。

作者們還在文章中討論了這個有點不尋常的實驗的倫理問題。

這項研究發現，具有統計顯著性差異的摘要版本比不具有統計顯著性差異的摘要版本獲得了更高的“總體推薦”分數。在滿分為 10 分的情況下，兩者之間的差異約為 1 分，具有統計顯著性差異，儘管差異不大（p=0.039）。

論文作者總結：

我們觀察到一些證據，表明（審稿人）對有顯著差異性的結果有較小的偏倚。不過，至少就這次會議而言，其影響似乎並沒有大到足以對該摘要的接受率產生可見的影響。

該實驗還測試了審稿人對原創性研究和重複性研究的偏好（所以總共有四個虛構的摘要版本）。結果表明，審稿人對這兩種研究沒有偏好。

圖片來源：Elson et al. 2020

因此這項研究表明，至少在這次會議上，審稿人確實更喜歡陽性結果。但正如作者提到的，很難推斷該結論是否適用於其它情況。

例如，這次會議的摘要被限制在 300 個詞以內。在其它情況下，特別是在期刊文章評審中，審稿人可以獲得更多信息，以作出更全面的判斷。在僅有 300 個詞的情況下，本研究中的審稿人可能會更關注結果，因為沒有太多其它東西可以作為評判參考。

另一方面，作者指出，2015 年那次會議的與會者可能對發表偏倚問題有高於常人的認識，因此更有可能對陰性結果給予公正的評判。

開展本研究的會議背景也值得一提，該研究領域分支（及其當時的領導）在開放科學的理想和實踐方面可以説是相當進步的。這是事實。畢竟筆者作為一個使用化名的博客作者，也受邀到會議上進行演講，僅僅因為寫過關於開放科學的文章。

以前只有少數研究使用類似的實驗設計來調查同行評審的偏倚，而且發現的偏倚通常更大。1982 年的一篇論文發現，一份心理學雜誌對顯著差異性結果存在很強的偏倚，2010 年對一份醫學雜誌的研究也得到了同樣的結果。

作者總結，他們提交虛構摘要的方法可能在同行評審研究中有用：

我們希望這項研究鼓勵心理學家，作為個人和在機構層面（通過協會、期刊、會議），對同行評審進行實驗研究，我們使用的實驗方法可以作為這類研究的藍圖。我們認為這類研究是逐步建立一個嚴謹的同行評審過程知識庫的必要過程。

相關論文：

https://journals.sagepub.com/doi/full/10.1177/2515245919895419

原文鏈接：

https://www.discovermagazine.com/the-sciences/do-peer-reviewers-prefer-significant-results