圖神經網絡越深，表現就一定越好嗎？

數十層甚至數百層神經網絡的應用，是深度學習的重要標誌之一。但現實情況卻遠非如此：比如今年被視作機器學習領域最火熱的研究方向之一——圖神經網絡，大多數都只運用了寥寥幾層網絡。

一般思路里，我們會認為圖神經網絡越深，效果就會越好。然而，日前帝國理工學院教授Michael Bronstein 發出了靈魂拷問：圖神經網絡的深度，真的會帶來優勢嗎？

“深度圖神經網絡”是否被誤用了？或者説，我們是否應該重新審視以前認為“圖神經網絡越深，效果就會越好”的思路，説不定“深度”反而對基於圖的深度學習不利呢？

眾所周知，深度圖神經網絡的訓練過程非常艱難。除了研究者們能夠在深層神經體系結構中觀察到的典型難點外（比如大量參數導致反向傳播梯度消失和過度擬合），還有一些圖特有的難點，例如“過度平滑”：由於應用了多個圖卷積層，節點特徵趨於收斂到同一向量並逐漸變得難以區分。這個現象最早在GCN模型中觀察到，其作用類似於低通濾波器。另一個圖所特有的現象是“信息瓶頸”，會將信息從指數級數量的臨域“過度擠壓”到大小固定的向量中。

近日來，人們致力於解決圖神經網絡中的深度問題，希望圖神經網絡能有更好的表現，至少能避免“名義上是深度學習、實際上圖神經網絡卻只應用了兩層”的尷尬。

解決之道分為兩派：第一類是正則化技術（regularisation techniques），例如 DropEdge 方法，結點特徵之間的成對距離歸一化（PairNorm）或結點均值和方差歸一化（NodeNorm）；第二類是架構調整，包括各類殘差連接，例如知識跳躍或仿射殘差連接。

雖然這些方法可以訓練出具有數十層深度圖神經網絡（這是一項壯舉，並非不可能實現），但卻沒有產生令人滿意的效果。更糟糕的是，使用深度結構體系通常會導致性能的倒退。下表顯示了一個典型的實驗評估結果，比較了node-wise分類任務上不同深度的圖神經網絡的表現。

此表顯示了深度圖神經網絡架構在CoauthorsCS引文網絡的結點分類任務上的一般結果。深度越深，基線（帶有殘差連接的GCN）的表現越差，性能也從88.18％急劇下降至39.71％。使用NodeNorm技術的神經網絡架構隨着深度的增加會變得更好，但是性能卻開始下降（雖然僅是從89.53％降低到87.40％）。總體而言，64層深層架構獲得的最佳結果（87.40％）還不如簡單的基線（88.18％）。此外，我們注意到NodeNorm規則化可以改善淺層2層架構的性能（從88.18％增至89.53％）。上表源自論文《 Effective training strategies for deep graph neural networks》

從上表可以清晰看到，我們很難區分神經網絡的“優勢”是從深度網絡架構獲得的，還是從訓練此類神經網絡的“技巧”所獲得的。上述示例中的NodeNorm還改進了僅有兩層的淺層架構，從而實現了最佳性能。因此，我們無法確定在其他條件均相同的情況下，更深層數的圖神經網絡是否會表現得更好。

這些結果與基於網格結構數據的傳統深度學習形成了鮮明的對比。在傳統深度學習中，“超深度”架構能帶來性能上的突破，在當今也得到了廣泛應用。

接下來，作者嘗試從以下幾個方面來探索文章開頭所提出的問題：圖神經網絡的深度越深，真的優勢越大嗎？不過作者也表示，他目前也沒有一個明確的答案，希望下面這些探討能夠對大家的思考有所啓發。

1、圖結構

因為網格屬於特殊圖，目前也有一些案例可以説明深度對這類圖有益。除網格圖外，研究發現深度結構對一些象徵結構的幾何圖（如分子、點雲、網格等）是有促進作用的。為什麼這些圖與常用於評估圖神經網絡的引文網絡（如Cora、PubMed與CoauthorsCS）如此不同呢？其中一個差異是引文網絡就像直徑小的“小世界”（ small world），在這個“小世界”裏，任意節點都可以在短短几步跳到其他節點。因此，感受野只需具備幾層卷積層即能夠覆蓋整個圖，再增加層數也無更大助益。另一方面，在計算機視覺中，感受野成倍增長，需要更多層數來建立一個能捕捉圖中物體背景的感受野。

在上圖頂部的“小世界”圖中，只需幾步就能從一個節點跳到其他任意節點，因此鄰域的數量以及相應的圖卷積濾波器的感受野呈指數快速增長。我們可以看到，從紅色節點到任意節點僅需兩跳（不同顏色表示從紅色節點開始到達各個節點的圖層）。另一方面，在上圖底部的網格圖上，我們看到感受野呈多項式增長，因此需要更多的層數才能形成大小相同的感受野。

如上圖所示，鄰域呈指數增長，並出現了“信息瓶頸”現象：來自許多個領域的大量信息不得不被擠壓成單個的節點特徵向量，結果導致信息無法傳播，且模型性能下降。

2、遠程問題vs.短程問題

作者認為在探討深度與圖深度學習的關係時會涉及到遠程與短程信息的處理。比方説，社交網絡的預測只依賴本地領域節點的短程信息，無法添加遠程信息進行改善，因此多運用淺層GNN進行預測。另一方面，分子圖往往需要用到遠程信息，因為分子的化學性質可能由其相斥的原子組合決定。深度GNN可能會被應用於處理遠程信息，但如果圖結構導致感受野呈指數增長，信息瓶頸現象則會阻止遠程信息的有效傳播。這也是為什麼深度模型的性能無法提高。

3、理論侷限性

深度結構除了能使感受野更廣，還能使計算機視覺基於簡單特徵合成複雜特徵。研究者通過將卷積神經網絡從人臉圖像學到的特徵可視化，發現簡單的幾何圖元逐漸變得越來越複雜，並最終能形成完成的面部結構。這個現象表明傳説中的“祖母神經元”（grandmother neuron）很可能真實存在。

這些將簡單特徵合成為複雜特徵的方法，對圖來説看似天方夜譚。比方説，無論神經網絡的層數有多深，都無法基於邊緣角/線合成一個三角形。另一方面，研究表明，必須設定最小深度，才能使用通過網絡的消息來計算圖的屬性。目前人們無法確定哪些圖的屬性可以通過淺層GNN計算、哪些必須通過深層模型計算、哪些又是任何類型的GNN都根本無法計算的。雷鋒網

以下是卷積神經網絡基於人臉圖像學習到的人臉特徵示例。大家可以注意到：隨着圖層的加深，圖像特徵逐漸變得更復雜，人臉結構也更加齊全。

圖源自Matthew Stewart的一篇博文：https://towardsdatascience.com/advanced-topics-in-deep-convolutional-neural-networks-71ef1190522d

4、深度與豐富度

圖深度學習與計算機視覺相反的一點在於：在計算機視覺中，底層網格是固定的，而在圖深度學習中，圖結構是一個非常重要的考慮要素。標準圖神經網絡無法定位的一些複雜高階信息（如motifs 和substructure counts），我們有可能設計出更精細的信息傳遞機制來解決。比方説，研究人員可以選擇配備多跳濾波器（multi-hop filters）的淺層網絡，而不是運用簡單的單跳卷積（1-hop convolutions）深度結構。

Michael Bronstein在他最近發表的一篇關於可伸縮初始類圖神經網絡（Scalable inception-like graph neutral networks, SIGN）的論文裏，詳盡講解了如何使用具備多個預計算濾波器（multiple pre-computed filters）的單層線性圖卷積結構，並展示了該網絡與更復雜數十倍的模型想比，性能不相上下。有趣的是，計算機視覺採取的方法與圖深度學習截然相反：早期使用大型濾波器（高達11×11）的淺層卷積神經網絡（CNN）結構（比如AlexNet），後來都被使用小型濾波器（一般為3×3）的深度結構所取代了。

5、評估雷鋒網

目前評估圖神經網絡的常見方法，遭到了Oleksandr Shchur和Stephan Günnemann小組成員的嚴重質疑。他們聚焦於常見基準的缺陷，並指出簡單模型和複雜模型在相同條件下的表現相差無幾。

我們觀察到的一些與深度結構相關的現象（包括性能隨深度加深而降低），可能僅是因為小型數據集的過度擬合。全新的 Open Graph Benchmark能為大規模圖像提供嚴格的訓練和測試數據拆分方法，在一定程度上解決了上述的一些問題。作者認為，研究者需要精心設計實驗過程，以便更好地瞭解深度對圖深度學習是否有用、以及在什麼時候能發揮作用。雷鋒網

via：https://towardsdatascience.com/do-we-need-deep-graph-neural-networks-be62d3ec5c59