美國《科學》雜誌:人工智能領域很多引人注目的進展並不真實

人工智能似乎變得越來越聰明。

多數算法改進缺乏創新性

麻省理工學院(MIT)計算機科學專業的研究生戴維斯布拉洛克(Davis Blalock)表示,有些算法改進來自微調,而不是發明者聲稱的核心創新,而且有些改進可能根本不存在。

Blalock 和他的同事比較了幾十種改進神經網絡的方法。「我們梳理了50篇論文,但是我們仍然不知道最先進的技術到底是什麼。」

研究人員評估了81種剪枝算法,這些剪枝算法主要是裁剪一些不必要的連接以提高神經網絡效率。

所有人都都變着法説自己的算法是最好的, 但他們很少進行公允的有説服力的比較ーー當研究人員把這些算法放在同一標準下評估時,10年的時間,並沒有什麼顯著的改善。

以剪枝算法為例,質疑這些論文主要原因有以下幾點:

缺乏一個完備的比較。2010年之前的算法沒有加入評估,最近的更新也沒有,對比較多的是VGG、ResNet這些經典架構,而最新的EfficientNet則很少。

你用了ImageNet,好我用CIFAR;什麼你也用CIFAR,RseNet架構?那我用CIFAR和VGG。。

數據集和神經網絡架構都不統一,得出的結論實在很難讓人信服。

評價指標不一致,結果描述不完整。

僅從效率和準確率無法評估出模型的對比效果。只有一篇論文使用了標準差來評估整體的趨勢。

還有一點就是大家用的數據預處理方法、超參數的調整策略,使用的框架,剪枝和微調介入的時期等都沒有統一,這些都會導致結果的不同。

比如同樣的算法,有些PyTorch的實現就比TensorFlow的好,當然反過來也有可能。

水論文到底在玩什麼把戲?

今年三月份在MLSys上公佈的結果讓 Blalock 的博士導師,麻省理工學院的計算機科學家 John Guttag 感到驚訝,

「這種不平衡的比較本身就可以解釋為什麼停滯不前了」。這是老一套了,對吧?

從當前主流的機器學習架構來看,機器學習算法的收益主要來自其結構、損失函數或優化策略的根本性變化。

卡內基梅隆大學的計算機科學家 Zico Kolter 研究圖像識別模型,該模型被訓練後可以對黑客的「對抗性攻擊」免疫。

一種早期的對抗性訓練方法投影梯度下降法(PGD) ,現在一些更復雜的方法看似超越了PGD,但是在二月份的 arXiv 論文中,Kolter 和他的同事們發現,只需要一個簡單的技巧來增強PGD,所有這些方法的效果都差不多。

論文灌水成風,但剪枝算法建議別發了

網友對如今AI論文灌水之風也是頗有微詞,比如NIPS2018入選千篇。

知乎網友@Xiang Wang提出,論文要麼跟實際貼合提升業務,要麼就是理論創新,但是很多論文兩者都沒有做到,純用捏造,實在是尷尬。

即使新方法並不比舊方法好到哪裏去,每隔一段時間也會有一個新的算法實現應用上的突破, 「這幾乎就像一個風險投資組合,其中一些東西並沒有真正發揮作用,但一些業務卻表現出色」。

一些工業界看起來很好的效果可能是因為該領域的爆炸性增長,論文數量超過了有經驗的審稿人。評審人員時間緊任務重,只與基準進行比較,很容易得出偏見性的結論。

今年早些時候,Blalock 的合著者,麻省理工學院的研究員 Jose Gonzalez Ortiz,發佈了一款名為 ShrinkBench 的軟件,該軟件是基於PyTorch並且是開源的,它使得比較剪枝算法變得更加容易,以後再發這類的論文可要注意了!

參考鏈接:

https://www.zhihu.com/question/59002888)

https://www.sciencemag.org/news/2020/05/eye-catching-advances-some-ai-fields-are-not-real)

https://proceedings.mlsys.org/static/paper_files/mlsys/2020/73-Paper.pdf

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 1588 字。

轉載請註明: 美國《科學》雜誌:人工智能領域很多引人注目的進展並不真實 - 楠木軒