別再SOTA了,那叫“微調”!Science發文炮轟論文灌水
金磊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
AI算法的發展,真有那麼迅猛嗎?
為了一探究竟,來自MIT的研究人員,便對81種AI算法做了橫測,結果令人大跌眼鏡:
沒有明確證據表明,這些算法在10年內,對任務效果有明顯改善。
人工智能在某些領域的進步引人注目,但這並不是真正的進步。
“是微調,不是核心創新”
MIT研究人員橫測的對象,是81種剪枝算法。
這類算法簡單來説,就是對神經網絡的連接做“修修剪剪”,以此來提高效率。
然而,這種算法的發展現狀,正如Science發文作者Matthew Hutson所説:
很多科研工作者就在此之上,做了些許“微調”,然後就宣稱自己的算法具有優勢。
因此,MIT的研究人員便對這些算法做了元分析,還提出了一種框架——ShrinkBench,用來促進剪枝算法的標準化評估。
真正的好算法,需要經得起考驗,那麼結果又如何呢?
第一輪考驗:剪枝 vs 架構
研究人員基於ImageNet,繪製了剪枝後模型的準確率和壓縮/加速水平,以及沒有做過剪枝、不同架構的相同指標,結果如下圖所示。
但剪枝的效果,通常不如換個架構效果來得好。
第二輪考驗:“同行”算法比較
這一維度的考慮,是因為研究人員發現,許多工作都高舉“SOTA”旗幟,然而比較的對象卻不全。
很明顯的現象就是,缺少與2010年之前提出的算法的比較,甚至都沒有跟其它號稱SOTA的算法做對比,如下圖所示。
在81篇論文中,ImageNet和VGG-16的組合最為常見,並且,在前六種最常見的組合中,有三種涉及MNIST。
但MNIST與其它主流圖像分類數據集有很大的區別:它的圖像是灰度的,大部分是由0組成,用簡單的模型進行分類,準確率就可以達到99%以上。
還有五花八門的度量指標,啥也不説了,直接上圖。
研究一作Davis Blalock表示:
這些改進都是所謂的“微調”,而不是科研人員聲稱的“核心創新”,甚至有些改進方法可能根本就不存在。
於是乎,MIT的研究人員便開發了一套方便開發、標準化評價神經網絡的剪枝方法。
正如另一位作者John Guttag所説:
如果你不能衡量某種東西,就很難讓它往好的方向發展。
好了,現在要是再想在剪枝算法上,稍微搞個小進展就水一篇論文,可能不再那麼容易了。
Science發文炮轟水論文
最近,Science也針對“水論文”一事發表文章,認為人工智能領域中的許多分支,其發展都是不穩定的:
2019年,對搜索引擎中使用的信息檢索算法進行的一項元分析,得出了一個“高水位線”(high-water mark),然而,它早在2009年就有了;
同樣是2019年,另外一項研究復現了7個神經網絡推薦系統,結果,其中6個系統的表現,還沒有多年前開發的更簡單的非神經網絡算法好;
今年2月,卡內基梅隆大學的計算機科學家Zico Kolter在arXiv發表論文,他發現早期的對抗訓練方法PGD,只需要用簡單的小技巧增強一下,就能達到目前所謂更新、更復雜方法的效果;
今年3月,康奈爾大學的計算機科學家Kevin Musgrave,在arXiv上發表了一篇論文研究了損失函數,在一項涉及圖像檢索的任務中,他對其中十幾個算法進行了平等的比較,結果發現,與這些科研工作者的説辭恰巧相反,自2006年以來,準確率就沒有提高過。
炒作浪潮一直存在。
反觀那些經久不衰的算法,像LSTM,自1997年被提出後,在語言翻譯任務中取得了重大突破。
如果LSTM得到適當的訓練,它的性能就能和20年後(現在)的算法相當。
類似的還有像2014年提出的GAN,大幅提高了生成圖像的能力。在2018年的一篇報告稱,只要有足夠的計算量,原有的GAN方法可以與後來的方法相媲美。
那麼,如今這種論文灌水背後的原因,又是什麼呢?
其中一個因素,便是MIT研究人員所指出的評估標準問題——數據集不同、調整方法不同、性能指標和基線都不同,這種比較是不可行的。
而另外一個原因,便是AI領域的爆炸性增長,論文數量遠超有經驗的審稿人數,評審人員應當堅持跟一個合理、科學的基準,做更好的比較。
比論文灌水更可怕的,是造假
以為學術亂象只有這些?
不,還有一股“造假風”。
5月20日,國外網友便曝出了一個學術造假大事件:
8篇文章,不同作者,不同醫院,不同癌症種類,不同蛋白表達,愣是完全一樣的結果,發了8篇論文。
如此喪心病狂的造假,簡直讓人看得窒息。
而且從文章署名來看,從一線醫生到主任副主任醫師、醫院副院長,還有多篇是國家自然科學基金資助。
如此造假,簡直不簡單。
網友也表示:
突破了我對學術造假的所有認知。
其弟子“黃同學”論文造假、冒充北大學生,也一併上了熱搜。
……
如此學術亂象,你怎麼看?