知乎日報:因為一個程序 bug,可能有數萬份的 fMRI 論文作廢?
作為一名現代顱相學 (fMRI) 從業人員,嘗試用通俗的語言解釋一下這件事:
1.這篇論文到底講了什麼?
在科學研究中,一個效應是否存在,通常會設定一個統計學標準,達到這個標準就認為結果顯著(陽性結果)。對於 fMRI 數據,有兩種常用的標準,一種我們稱之為 A(基於 voxel 激活強度),另一種我們稱之為 B(基於 cluster 大小)。對於 B,又有兩種主要的參數設置方法,一種是 X(用 voxel 水平 p<.01 界定 cluster),一種是 Y(用 voxel 水平 p<.001 界定 cluster)。這篇文章主要質疑的是 B+X(基於 cluster 大小的閾限,用 voxel 水平 p<.01 界定 cluster)。作者找到了一批理論上講不應該得到顯著結果的數據(靜息態 fMRI+ 隨機生成實驗組),使用幾種常用的數據分析軟件作分析,發現如果採用 B+X 的思路分析,虛報結果的概率很高,可以達到 70%(基線水平應該是 5%)。如果使用 B+Y,也會有偏差,但沒那麼大。
2.是因為程序的 bug 嗎?
不是。這是一個統計學問題,不是程序問題。所謂的「程序 bug」,是論文中提到某個數據分析軟件(AFNI)的某個函數(3dClusterSim)存在 bug。這個軟件確實用得不少,但也只是市面上多款軟件中的一個而已。上面説的假陽性的問題,對於其它軟件也同樣存在,背後的原因是,方法 B 有一些前提假設,但是真實數據可能並不滿足這些假設,導致偏差。在 B+X 的情況下,這種誤差尤其明顯。
3.40000 篇論文都受到影響嗎?
不是。論文作者之一 Thomas Nichols 最近寫了一篇博客,表示很後悔拋出 40000 這個數字:Entries for Wednesday 06 July 2016, Neuroimaging Statistics Tips & Tools. 40000 其實是 PubMed 上搜到的所有 fMRI 相關論文的數量,其中大概 15000 篇使用的是方法 B,而使用 B+X 的大概是 3500 篇。這篇論文提到的問題,主要影響這 3500 篇。
4.3500 篇論文裏有 70% 都不靠譜嗎?
不是。這是對於推論統計的一個常見誤解:假陽性概率 70%,並不意味着得到的陽性結果有 70% 都是假的。70% 是一個條件概率,意思是當真實效應不存在時,得到顯著結果的概率:P(結果顯著|真實效應不存在)。一篇論文的顯著結果是否是假的,這是另一個條件概率:P(真實效應不存在|結果顯著)。二者之間不能劃等號。對於真實的研究情境,我們不知道真實效應是否存在的先驗概率,只能做合理的猜測;如果一項研究有大量先期結果的支持,做出來的效應量很強,那麼即使用了 B+X,也可能是可靠的。
總結一下就是,這篇論文確實指出了 fMRI 數據分析中的一個重要問題,但是因為作者和雜誌一些不當的表述方式,被希望抓人吸引眼球的媒體利用,將其影響力放大了若干量級,製造出了一個聳人聽聞的大新聞。