參與:魔王
近日,一篇 Science 社論文章梳理了近年來 AI 各子領域的進展,發現看似紅紅火火的領域實際上毫無進展。在人工智能技術風起雲湧的今天,這篇文章的觀點或許值得我們思考。
人工智能看似越來越聰明:芯片越來越快,數據越來越多,算法性能也比之前更好。但是一些改進來自於微調,而不是其創造者所説的核心創新,甚至有些改進根本不存在,MIT 計算科學與人工智能實驗室博士 Davis Blalock 如是説。
Blalock 及其同事對比了數十種神經網絡改進方法,發現「看完五十篇論文,愈發不明白當前最優性能是什麼樣了」。
他們一共評估了 81 種剪枝算法,即通過修剪不必要的連接提高神經網絡效率的方法。所有這些算法都聲稱自己具備更優秀的表現,但是它們甚至很少得到恰當的對比。這項研究將它們進行對比評估後,發現在過去十年中沒有明確證據可以表明算法性能出現提升。
相關研究《What is the State of Neural Network Pruning?》令 Blalock 的導師、MIT 計算機科學家 John Guttag 感到震驚,他表示,不公平的對比或許可以解釋這一停滯現象。「老話説得好,如果你無法衡量一件事,就很難讓它變得更好。」
近年來,研究人員發現多個 AI 子領域的進展實則「搖搖欲墜」。
2019 年,一項針對搜索引擎所用信息檢索算法的元分析發現,「高水位線早在 2009 年就已確立」。
2019 年的另一項研究在 18 種推薦算法中僅成功復現了 7 種,而且其中 6 個在性能上無法超越多年前開發的更簡單的非神經算法。
而在今年三月的一篇 arXiv 論文《A Metric Learning Reality Check》中,康奈爾大學計算機科學家 Kevin Musgrave 對損失函數進行了評估。他以公平的方式在圖像檢索任務中對十幾種損失函數進行對比,發現與損失函數發明者所聲稱的相反,自 2006 年以來模型準確率並未因此得到提升。Musgrave 表示:「總是會有這樣的炒作。」
CMU 計算機科學家 Zico Kolter 表示,機器學習算法的性能提升來自於架構、損失函數或優化策略的基礎改變,而對它們進行微調也能帶來性能提升。Kolter 致力於研究免受「對抗攻擊」影響的圖像識別模型。早期的對抗訓練方法叫做投影梯度下降(PGD),即在真實和欺騙性樣本上訓練模型,該方法後來似乎被一些更復雜的方法超越。
但在今年 2 月的一篇 arXiv 論文《Overfitting in adversarially robust deep learning》中,Kolter 及其同事發現,在使用簡單的 trick 對這些方法進行增強後,所有方法的性能幾乎相同。
「這個結果令人吃驚,我們之前從未發現過這一點。」Kolter 的博士生 Leslie Rice 表示。Kolter 稱該研究表明 PGD 這類創新很難實現,也很難出現實質性的改進。「很顯然,PGD 就是正確的算法,這是顯而易見的,但人們想要找到更復雜的解決方案。」
另外一些重要的算法改進似乎經受住了時間的考驗。1997 年長短期記憶(LSTM)的誕生帶來了極大突破。在經過恰當訓練後,LSTM 與其誕生二十年後看似更先進的架構性能相當。
另一個機器學習突破出現在 2014 年,它就是生成對抗網絡(GAN)。2018 年的一篇論文《Are GANs Created Equal? A Large-Scale Study》稱,只要有充足的計算量,原版 GAN 方法的能力可與近年來的新方法媲美。
Kolter 表示,研究人員更願意開發新算法並進行微調,使之超越原有的 SOTA 結果。原有的方法看起來沒那麼新穎,因此「更難據此寫出論文」。
Guttag 認為,即使算法的發明者也很難全面地對比自己的工作與其他方法,因為萬一其突破並不像他們以為的那樣呢。「太認真地對比會有風險」,而且實現難度頗大:AI 研究者使用不同的數據集、調試方法、性能度量指標和基線。「要做到一一對應的比較很不現實。」
一些誇大的性能表述可能要歸因於該領域的爆炸式發展,論文數量比有經驗的評審還要多。「其中大量論文讀起來是種煎熬,」Blalock 説道。他敦促審稿人使用更多的對比方法來進行評判,並表示更好的工具或許能起到一定的幫助。今年初,Blalock 的共同作者、MIT 研究人員 Jose Gonzalez Ortiz 推出了一款名為 ShrinkBench 的軟件,可以更便捷地比較剪枝算法。
研究人員指出,即使新方法本質上不如舊方法好,但它們實現的調整説不定也可以用到之前的方法上。偶爾也會出現真正突破性的新算法。「這很像是一個風險投資組合,」Blalock 説道。「即使一些投資不賺錢,但總有能夠獲得回報的。」