「萬字長文」圖神經網絡的解釋性綜述

圖神經網絡的可解釋性是目前比較值得探索的方向，今天解讀的2021最新綜述，其針對近期提出的 GNN 解釋技術進行了系統的總結和分析，歸納對比了該問題的解決思路。作者還為GNN解釋性問題提供了標準的圖數據集和評估指標，將是這一方向非常值得參考的一篇文章。

fig1論文標題：Explainability in Graph Neural Networks: A Taxonomic Survey論文地址：https://arxiv.org/pdf/2012.15445.pdf2萬字長文，建議收藏慢慢看~

0.Abstract1. Introduction2. 總體框架3.方法介紹3.1 基於梯度/特徵的方法（Gradients/Features-Based Methods）3.2 基於擾動的方法（Perturbation-Based Methods）3.3 基於代理的方法（Surrogate Methods）3.4 分解方法（Decomposition Methods）4. 模型級方法5. 評估模型5.1. Datasets5.1.1. Synthetic data5.1.2 Sentiment graph data5.1.3 Molecule data5.2 Evaluation Metrics5.2.1 Fidelity/Infidelity5.2.2 Sparsity5.2.3 Stability5.2.4 Accuracy6. Conclusion參考文獻

0.Abstract

近年來，深度學習模型的可解釋性研究在圖像和文本領域取得了顯著進展。然而，在圖數據領域，既沒有針對GNN可解釋性的統一處理方法，也不存在標準的 benchmark 數據集和評估準則。在這篇論文中，作者對目前的GNN解釋技術從統一和分類的角度進行了總結，闡明瞭現有方法的共性和差異，併為進一步的方法發展奠定了基礎。此外，作者專門為GNN解釋技術生成了 benchmark 圖數據集，並總結了當前用於評估GNN解釋技術的數據集和評估方法。

1. Introduction

解釋黑箱模型是十分必要的：如果沒有對預測背後的底層機制進行推理，深層模型就無法得到完全信任，這就阻礙了深度模型在與公平性、隱私性和安全性有關的關鍵應用程序中使用。為了安全、可信地部署深度模型，需要同時提供準確的預測和人類能領會的解釋，特別是對於跨學科領域的用户。

深層模型的解釋技術通常從研究其預測背後的潛在關係着手，解釋技術大致可分為兩類：

1）input-dependent explanations（依賴輸入的解釋方法）

該類方法從特徵的角度出發，提供與輸入相關的解釋，例如研究輸入特徵的重要性得分，或對深層模型的一般行為有高水平的理解。論文 [10]，[11]，[18]通過研究梯度或權重，分析預測結果相對於輸入特徵的敏感程度。論文 [12]，[13]，[19] 通過將隱藏特徵映射到輸入空間，從而突出重要的輸入特徵。[14] 通過遮蔽不同的輸入特徵，觀察預測的變化，以識別重要的特徵。

2）input-independent explanations（獨立於輸入的解釋方法）

與依賴特徵的解釋方法不同，該類方法從模型角度出發，提供獨立於輸入的解釋，例如研究輸入 patterns，使某類的預測得分最大化。論文[17]，[22]通過探究隱藏神經元的含義，進而理解的整個預測過程。論文[23]，[24]，[25]，[26] 對近期的方法進行了較為系統的評價和分類。然而，這些研究只關注圖像和文本領域的解釋方法，忽略了深度圖模型的可解釋性。

GNN 的可解釋性

與圖像和文本領域相比，對圖模型解釋性的研究較少，然而這是理解深度圖神經網絡的關鍵。近年來，人們提出了幾種解釋 GNN 預測的方法，如XGNN[41]、gnexplainer[42]、PGExplainer[43]等。這些方法是從不同的角度提供了不同層次的解釋。但至今仍然**缺乏標準的數據集和度量來評估解釋結果。**因此，需要對GNN解釋技術和其評估方法進行系統的研究。

本文

本研究提供了對不同GNN解釋技術的系統研究，目的對不同方法進行直觀和高水平的解釋，論文貢獻如下：

對現有的深度圖模型的解釋技術進行了系統和全面的回顧。提出了現有GNN解釋技術的新型分類框架，總結了每個類別的關鍵思想，並進行了深刻的分析。詳細介紹了每種GNN解釋方法，包括其方法論、優勢、缺點，與其他方法的區別。總結了GNN解釋任務中常用的數據集和評價指標，討論了它們的侷限性，並提出了幾點建議。通過將句子轉換為圖，針對文本領域構建了三個人類可理解的數據集。這些數據集即將公開，可以直接用於GNN解釋任務。名詞解釋：Explainability versus Interpretability

在一些研究中，“explainability” 和 “interpretability”被交替使用。本文作者認為這兩個術語應該被區分開來，遵循論文[44]來區分這兩個術語。如果一個模型本身能夠對其預測提供人類可理解的解釋，則認為這個模型是 "interpretable"。注意，這樣的模型在某種程度上不再是一個黑盒子。例如，一個決策樹模型就是一個 "interpretable“的模型。同時，"explainable "模型意味着該模型仍然是一個黑盒子，其預測有可能被一些事後解釋技術所理解。

2. 總體框架

目前存在一系列針對深度圖模型解釋性問題的工作，這些方法關注圖模型的不同方面，並提供不同的觀點來理解這些模型。它們一般都會從幾個問題出發實現對圖模型的解釋：哪些輸入邊更重要？哪些輸入節點更重要？哪些節點特徵更重要？什麼樣的圖模式會最大限度地預測某個類？為了更好地理解這些方法，本文為GNNs的不同解釋技術提供了分類框架，結構如圖1所示。根據提供什麼類型的解釋，解釋性技術被分為兩大類：實例級方法和模型級方法。本文接下來的部分將針對圖1的各個分支展開講解，並作出對比。

圖1 GNN 解釋性方法分類框架

1）實例級方法

實例級方法與特徵工程的思想有些類似，旨在找到輸入數據中最能夠影響預測結果的部分特徵，為每個輸入圖提供 input-dependent 的解釋。給定一個輸入圖，實例級方法旨在探究影響模型預測的重要特徵實現對深度模型的解釋。根據特徵重要性分數的獲得方式，作者將實例級方法分為四個不同的分支：

基於梯度/特徵的方法[49]，[50]，採用梯度或特徵值來表示不同輸入特徵的重要程度。基於擾動的方法[42]，[43]，[51]，[52]，[53]，監測在不同輸入擾動下預測值的變化，從而學習輸入特徵的重要性分數。基於分解的方法[49]，[50]，[54]，[55]，首先將預測分數，如預測概率，分解到最後一個隱藏層的神經元。然後將這樣的分數逐層反向傳播，直到輸入空間，並將分解分數作為重要性分數。基於代理的方法[56]，[57]，[58]，首先從給定例子的鄰居中抽取一個數據集的樣本。接下來對採樣的數據集合擬合一個簡單且可解釋的模型，如決策樹。通過解釋代理模型實現對原始預測的解釋。2）模型級方法

模型級方法直接解釋圖神經網絡的模型，不考慮任何具體的輸入實例。這種 input-independent 的解釋是高層次的，能夠解釋一般性行為。與實例級方法相比，這個方向的探索還比較少。現有的模型級方法只有XGNN[41]，它是基於圖生成的，通過生成 graph patterns使某一類的預測概率最大化，並利用 graph patterns 來解釋這一類。

總的來説，這兩類方法從不同的角度解釋了深度圖模型。實例級方法提供了針對具體實例的解釋，而模型級方法則提供了高層次的見解和對深度圖模型工作原理的一般理解。

fig1"Type "表示提供什麼類型的解釋，"Learning "表示是否涉及學習過程，"Task "表示每種方法可以應用於什麼任務（GC表示圖分類，NC表示節點分類），"Target "表示解釋的對象（N表示節點，E表示邊，NF表示節點特徵，Walk表示圖遊走），"Black-box "表示在解釋階段是否將訓練好的GNNs作為黑盒處理，"Flow "表示解釋的計算流程，"Design "表示解釋方法是否有針對圖數據的具體設計。

3.方法介紹

3.1 基於梯度/特徵的方法（Gradients/Features-Based Methods）

採用梯度或特徵來解釋深度模型是最直接的解決方案，在圖像和文本任務中被廣泛使用。其關鍵思想是將梯度或隱藏的特徵圖值作為輸入重要性的近似值。一般來説，在這類方法中，梯度或特徵值越大，表示重要性越高。需要注意的是，梯度和隱藏特徵都與模型參數高度相關，那麼這樣的解釋可以反映出模型所包含的信息。本文將介紹最近提出的幾種方法，包括：SA[49]、Guided BP[49]、CAM[50]和Grad-CAM[50]。這些方法的關鍵區別在於梯度反向傳播的過程以及如何將不同的隱藏特徵圖結合起來。

1）SA

SA[49]直接採用梯度的平方值作為不同輸入特徵的重要性得分。輸入特徵可以是圖節點、邊或節點特徵。它假設絕對梯度值越高，説明相應的輸入特徵越重要。雖然它簡單高效，但有幾個侷限性：1）SA方法只能反映輸入和輸出之間的敏感程度，不能很準確地表達重要性(敏感度不等於重要性)。2）還存在飽和問題[59]。即在模型性能達到飽和的區域，其輸出相對於任何輸入變化的變化都是十分微小的，梯度很難反映輸入的貢獻程度。

2）Guided BP

Guided BP[49]與SA有着相似的思想，但修改了反向傳播梯度的過程。由於負梯度很難解釋，Guided BP只反向傳播正梯度，而將負梯度剪成零。因此Guided BP與SA有着相同的侷限性。

3）CAM

CAM [50] 將最後一層的節點特徵映射到輸入空間，從而識別重要節點。它要求GNN模型採用全局平均池化層和全連接層作為最終分類器。CAM將最終的節點嵌入，通過加權求和的方式組合不同的特徵圖，從而獲得輸入節點的重要性分數。權重是從與目標預測連接的最終全連接層獲得的。該方法非常簡單高效，但仍有幾大限制：1）CAM對GNN結構有特殊要求，限制了它的應用和推廣。2）它假設最終的節點嵌入可以反映輸入的重要性，這是啓發式的，可能不是真的。3）它只能解釋圖分類模型，不能應用於節點分類任務中。

4）Grad-CAM

Grad-CAM [50] 通過去除全局平均池化層的約束，將CAM擴展到一般圖分類模型。同樣，它也將最終的節點嵌入映射到輸入空間來衡量節點重要性。但是，它沒有使用全局平均池化輸出和全連接層輸出之間的權重，而是採用梯度作為權重來組合不同的特徵圖。與CAM相比，Grad-CAM不需要GNN模型在最終的全連接層之前採用全局平均池化層。但它也是基於啓發式假設，無法解釋節點分類模型。

3.2 基於擾動的方法（Perturbation-Based Methods）

基於擾動的方法[14]，[15]，[60]被廣泛用於解釋深度圖像模型。其根本動機是研究不同輸入擾動下的輸出變化。當重要的輸入信息被保留（沒有被擾動）時，預測結果應該與原始預測結果相似。論文 [14]，[15]，[60]學習一個生成器來生成掩碼，以選擇重要的輸入像素來解釋深度圖像模型。然而，這種方法不能直接應用於圖模型，圖數據是以節點和邊來表示的，它們不能調整大小以共享相同的節點和邊數，結構信息對圖來説至關重要，可以決定圖的功能。

fig3圖2 基於擾動方法的一般流程

基於擾動的方法採用不同的掩碼生成算法來獲得不同類型的掩碼。需要注意的是，掩碼可以對應節點、邊或節點特徵。在這個例子中，我們展示了一個節點特徵的軟掩碼，一個邊的離散掩碼和一個節點的近似離散掩碼。然後，將掩碼與輸入圖結合起來，得到一個包含重要輸入信息的新圖，遮蔽掉不需要的信息。最終將新圖輸入到訓練好的GNN中，評估掩碼並更新掩碼生成算法。本文將介紹幾種基於擾動的方法，包括：GNNExplainer[42]、PGExplainer[43]、ZORRO[51]、GraphMask[52]，Causal Screening[53]。直觀地講，掩碼捕捉到的重要輸入特徵應該傳達關鍵的語義意義，從而得到與原圖相似的預測結果。這些方法的區別主要在於三個方面：掩碼生成算法、掩碼類型和目標函數。

軟掩碼包含[0，1]之間的連續值，掩碼生成算法可以直接通過反向傳播進行更新。但軟掩碼存在 "introduced evidence "的問題[14]，即掩碼中任何非零或非一的值都可能給輸入圖引入新的語義或新的噪聲，從而影響解釋結果。同時，離散掩碼只包含離散值0和1，由於沒有引入新的數值，可以避免 "introduced evidence "問題。但是，離散掩碼總是涉及到不可微的問題，如採樣。主流的解決方法是策略梯度技術[61]。論文[45]，[62]，[63]提出採用重參數化技巧，如Gumbel-Softmax估計和稀疏鬆弛，來逼近離散掩碼。需要注意的是，輸出的掩碼並不是嚴格意義上的離散掩碼，而是提供了一個很好的近似值，這不僅可以實現反向傳播，而且在很大程度上緩解了”introduced evidence“的問題。

接下來將詳細的介紹目前存在的幾種基於擾動的解釋性方法，我們可以重點關注它們的作用對象（節點或邊或節點特徵），以及它們的掩碼生成算法、掩碼類型和目標函數。

1）GNNExplainer

GNNExplainer [42] 學習邊和節點特徵的軟掩碼，通過掩碼優化來解釋預測。軟掩碼被隨機初始化，並被視為可訓練變量。然後通過元素點乘將掩碼與原始圖結合。最大化原始圖的預測和新獲得的圖的預測之間的互信息來優化掩碼。但得到的掩碼仍然是軟掩碼，因此無法避免 "introduced evidence"問題。此外，掩碼是針對每個輸入圖單獨優化的，因此解釋可能缺乏全局視角。

2）PGExplainer

PGExplainer[43]學習邊的近似離散掩碼來解釋預測。它訓練一個參數化的掩碼預測器來預測邊掩碼。給定一個輸入圖，首先通過拼接節點嵌入來獲得每個邊的嵌入，然後預測器使用邊嵌入來預測邊掩碼。預測器使用邊嵌入來預測每個邊被選中的概率（被視為重要性分數）。通過重參數化技巧對近似的離散掩碼進行採樣。最後通過最大化原始預測和新預測之間的相互信息來訓練掩碼預測器。需要注意的是，即使採用了重參數化技巧，得到的掩碼並不是嚴格意義上的離散掩碼，但可以很大程度上緩解 "introduced evidence"的問題。由於數據集中的所有邊都共享相同的預測器，因此解釋可以提供對訓練好的GNN的全局理解。

3）GraphMask

GraphMask[52]是一種事後解釋GNN各層中邊重要性的方法。與PGExplainer類似，它訓練一個分類器來預測是否可以丟棄一條邊而不影響原來的預測。然而，GraphMask為每一層GNN獲取邊掩碼，而PGExplainer只關注輸入空間。此外，為了避免改變圖結構，被丟棄的邊被可學習的基線連接所取代，基線連接是與節點嵌入相同維度的向量。需要注意的是，採用二進制Concrete分佈[63]和重參數化技巧來近似離散掩碼。此外，分類器使用整個數據集通過最小化一個散度項來訓練，用於衡量網絡預測之間的差異。與PGExplainer類似，它可以很大程度上緩解 "introduced evidence"問題，並對訓練後的GNN進行全局理解。

3）ZORRO

ZORRO[51]採用離散掩碼來識別重要的輸入節點和節點特徵。給定一個輸入圖，採用貪心算法逐步選擇節點或節點特徵。每一步都會選擇一個fidelity score最高的節點或一個節點特徵。通過固定所選節點/特徵，並用隨機噪聲值替換其他節點/特徵，來衡量新的預測與模型原始預測的匹配程度。由於不涉及訓練過程，因此避免了離散掩碼的不可微限制。此外，通過使用硬掩碼，ZORRO不會受到 "introduced evidence "問題的影響。然而，貪婪的掩碼選擇算法可能導致局部最優解釋。此外，由於掩碼是為每個圖形單獨生成的，因此解釋可能缺乏全局的理解。

4）Causal Screening

Causal Screening[53]研究輸入圖中不同邊的因果歸因。它為 explanatory subgraph 確定一個邊掩碼。關鍵思想是：研究在當前 explanatory subgraph 中增加一條邊時預測的變化，即所謂的因果效應。對於每一步，它都會研究不同邊的因果效應，並選擇一條邊添加到子圖中。具體來説，它採用個體因果效應(ICE)來選擇邊，即測量在子圖中添加不同邊後的互信息(原圖與解釋子圖的預測之間)差異。與ZORRO類似，Causal Screening是一種貪心算法，不需要任何訓練過程就能生成離散掩碼。因此，它不會受到 "introduced evidence "問題的困擾，但可能缺乏全局性的理解，而停留在局部最優解釋上。

3.3 基於代理的方法（Surrogate Methods）

由於輸入空間和輸出預測之間的複雜和非線性關係，深度模型的解釋具有挑戰性。代理方法能夠為圖像模型提供實例級解釋。其基本思想是化繁為簡，既然無法解釋原始深度圖模型，那麼採用一個簡單且可解釋的代理模型來近似複雜的深層模型，實現輸入實例的鄰近區域預測。需要注意的是，這些方法都是假設輸入實例的鄰近區域的關係不那麼複雜，可以被一個較簡單的代理模型很好地捕獲。然後通過可解釋的代理模型的來解釋原始預測。將代理方法應用到圖域是一個挑戰，因為圖數據是離散的，包含拓撲信息。那麼如何定義輸入圖的相鄰區域，以及什麼樣的可解釋代理模型是合適的，都是不清楚的。

fig4圖3 代理模型的一般框架

給定一個輸入圖及其預測，它們首先對一個局部數據集進行採樣，以表示目標數據周圍的關係。然後應用不同的代理方法來擬合局部數據集。需要注意的是，代理模型一般都是簡單且可解釋的ML模型。最後，代理模型的解釋可以看作是對原始預測的解釋。本文將介紹最近提出的幾種代理方法，包括：GraphLime[56]、RelEx[57]和PGM-Explainer[58]。這些方法的一般流程如圖3所示。為了解釋給定輸入圖的預測，它們首先獲得一個包含多個相鄰數據對象及其預測的局部數據集。然後擬合一個可解釋模型來學習局部數據集。來自可解釋模型的解釋被視為原始模型對輸入圖的解釋。不同代理模型關鍵的區別在於兩個方面：如何獲得局部數據集和選擇什麼代理模型。

1）GraphLime

GraphLime[56]將LIME[64]算法擴展到深度圖模型，並研究不同節點特徵對節點分類任務的重要性。給定輸入圖中的一個目標節點，將其N-hop 鄰居節點及其預測值視為局部數據集，其中N的合理設置是訓練的GNN的層數。然後採用非線性代理模型HSIC Lasso[65]來擬合局部數據集。根據HSIC Lasso中不同特徵的權重，可以選擇重要的特徵來解釋HSIC Lasso的預測結果。這些被選取的特徵被認為是對原始GNN預測的解釋。但是，GraphLime只能提供節點特徵的解釋，卻忽略了節點和邊等圖結構，而這些圖結構對於圖數據來説更為重要。另外，GraphLime是為了解釋節點分類預測而提出的，但不能直接應用於圖分類模型。

2）RelEx

RelEx[57]結合代理方法和基於擾動的方法的思想，研究節點分類模型的可解釋性。給定一個目標節點及其計算圖(N-hop鄰居)，它首先從計算圖中隨機採樣連接的子圖，獲得一個局部數據集，並將這些子圖喂入訓練好的GNN，以獲得其預測結果。從目標節點開始，它以BFS的方式隨機選擇相鄰節點。採用GCN模型作為代理模型來擬合局部數據集。與GraphLime不同，RelEx中的代理模型是不可解釋的。訓練後，它進一步應用前述基於擾動的方法，如生成軟掩碼或Gumbel-Softmax掩碼來解釋預測結果。該過程包含了多個步驟的近似，比如使用代理模型來近似局部關係，使用掩碼來近似邊的重要性，從而使得解釋的説服力和可信度降低。由於可以直接採用基於擾動的方法來解釋原有的深度圖模型，因此沒有必要再建立一個不可解釋的深度模型作為代理模型來解釋。

3）PGM-Explainer

PGM-Explainer[58]建立了一個概率圖形模型，為GNN提供實例級解釋。局部數據集是通過隨機節點特徵擾動獲得的。具體來説，給定一個輸入圖，每次PGM-Explainer都會隨機擾動計算圖中幾個隨機節點的節點特徵。然後對於計算圖中的任何一個節點，PGM-Explainer都會記錄一個隨機變量，表示其特徵是否受到擾動，以及其對GNN預測的影響。通過多次重複這樣的過程，就可以得到一個局部數據集。通過Grow-Shrink(GS)算法[66]選擇依賴性最強的變量來減小局部數據集的大小。最後採用可解釋的貝葉斯網絡來擬合局部數據集，並解釋原始GNN模型的預測。PGM-Explainer可以提供有關圖節點的解釋，但忽略了包含重要圖拓撲信息的圖邊。此外，與GraphLime和RelEx不同的是，PGM-Explainer可以同時用於解釋節點分類和圖形分類任務。

3.4 分解方法（Decomposition Methods）

分解方法是另一種比較流行的解釋深度圖像分類器的方法，它通過將原始模型預測分解為若干項來衡量輸入特徵的重要性。然後將這些項視為相應輸入特徵的重要性分數。這些方法直接研究模型參數來揭示輸入空間中的特徵與輸出預測之間的關係。需要注意的是，這些方法要求分解項之和等於原始預測得分。由於圖包含節點、邊和節點特徵，因此將這類方法直接應用於圖域是具有挑戰性的。很難將分數分配給不同的邊，圖數據邊包含着重要的結構信息，不容忽視。

圖5 分解方法的一般流程

本文將介紹最近提出的幾種用於解釋深層圖神經網絡泛讀分解方法，包括：Layerwise Relevance Propagation（LRP）[49]、[54]、Excitation BP[50]和GNN-LRP[55]。這些算法的主要思想是建立分數分解規則，將預測分數分配到輸入空間。這些方法的一般流程如圖4所示。以反向傳播的方式逐層分發預測得分，直到輸入層。從輸出層開始，將模型的預測結果作為初始目標分數。然後將分數進行分解，並按照分解規則分配給上一層的神經元。通過重複這樣的過程，直到輸入空間，它們可以得到節點特徵的重要性分數，這些分數可以組合起來表示邊重要性、節點重要性和遊走重要性。但是這些算法都忽略了深度圖模型中的激活函數。不同分解方法的主要區別在於分數分解規則和解釋的目標。

1）LRP

LRP[49]，[54]將原來的LRP算法[67]擴展到深度圖模型。它將輸出的預測分數分解為不同的節點重要性分數。分數分解規則是基於隱藏特徵和權重製定的。對於一個目標神經元，其得分表示為上一層神經元得分的線性近似。目標神經元激活貢獻度較高的神經元獲得的目標神經元得分比例較大。為了滿足保守屬性，在事後解釋階段將鄰接矩陣作為GNN模型的一部分，這樣在分數分配時就可以忽略它，否則，鄰接矩陣也會收到分解後的分數，從而使保守屬性失效。由於LRP是直接根據模型參數開發的，所以其解釋結果更具有可信度。但它只能研究不同節點的重要性，不能應用於圖結構，如子圖和遊走。該算法需要對模型結構有全面的瞭解，這就限制了它對非專業用户的應用，如跨學科研究人員。

2）Excitation BP

Excitation BP[50]與LRP算法有着相似的思想，但它是基於全概率法則開發的。它定義了當前層中一個神經元的概率等於它輸出給下一層所有連接神經元的總概率。那麼分數分解規則可以看作是將目標概率分解為幾個條件概率項。Excitation BP的計算與LRP中的z+規則高度相似。因此它與LRP算法有着相同的優點和侷限性。

3）GNN-LRP

GNN-LRP[55]研究了不同圖遊走的重要性。由於在進行鄰域信息聚合時，圖遊走對應於消息流，因此它對深層圖神經網絡更具有一致性。得分分解規則是模型預測的高階泰勒分解。研究表明，泰勒分解（在根零處）只包含T階項，其中T是訓練的GNN的層數。那麼每個項對應一個T階圖遊走，可以視為其重要性得分。由於無法直接計算泰勒展開給出的高階導數，GNN-LRP還遵循反向傳播過程來逼近T階項。GNN-LRP中的反向傳播計算與LRP算法類似。然而，GNN-LRP不是將分數分配給節點或邊，而是將分數分配給不同的圖遊走。它記錄了層與層之間的消息分發過程的路徑。這些路徑被認為是不同的遊走，並從它們對應的節點上獲得分數。雖然GNN-LRP具有堅實的理論背景，但其計算中的近似值可能並不準確。由於每個遊走都要單獨考慮，計算複雜度很高。此外，對於非專業人員來説，它的使用也具有挑戰性，尤其是對於跨學科領域。

4. 模型級方法

與實例級方法不同，模型級方法旨在提供一般性的見解和高層次的理解來解釋深層圖模型。它們研究什麼樣的輸入圖模式可以導致GNN的某種行為，例如最大化目標預測。輸入優化[16]是獲得圖像分類器模型級解釋的一個熱門方向。但是，由於圖拓撲信息的離散性，它不能直接應用於圖模型，從而使GNN在模型層面的解釋更具挑戰性。它仍然是一個重要但研究較少的課題。據我們所知，現有的解釋圖神經網絡的模型級方法只有XGNN[41]。

1）XGNN

XGNN[41]提出通過圖生成來解釋GNN。它不是直接優化輸入圖，而是訓練一個圖生成器，使生成的圖能夠最大化目標圖預測。然後，生成的圖被視為目標預測的解釋，並被期望包含判別性的圖模式。在XGNN中，圖形生成被表述為一個強化學習問題。對於每一步，生成器都會預測如何在當前圖中增加一條邊。然後將生成的圖輸入到訓練好的GNN中，通過策略梯度獲得反饋來訓練生成器。此外，還加入了一些圖規則，以鼓勵解釋既有效又能被人類理解。XGNN是一個生成模型級解釋的通用框架，因此可以應用任何合適的圖生成算法。該解釋是通用的，並且提供了對訓練的GNNs的全局理解。然而XGNN只證明了其在解釋圖分類模型方面的有效性，XGNN是否可以應用於節點分類任務還不得而知，這是未來研究中需要探索的重要方向。

5. 評估模型

由於缺乏 ground truths，因此不容易對解釋方法的結果進行評估，作者討論並分析了幾種常用的數據集和度量標準。

5.1. Datasets

需要選擇合適的數據集來評估不同的解釋技術，並且希望數據是直觀的，易於可視化的。應該在數據實例和標籤之間藴含人類可以理解的理由，這樣專家就可以驗證這些理由是否被解釋算法識別。為了評估不同的解釋技術，通常採用幾種類型的數據集，包括合成數據、情感圖數據和分子數據。

5.1.1. Synthetic data

利用現有的合成數據集來評估解釋技術[42]，[43]。在這樣的數據集中，包含了不同的 graph motifs，可以通過它們確定節點或圖的標籤。數據實例和數據標籤之間的關係由人類定義。即使經過訓練的GNNs可能無法完美地捕捉到這樣的關係，但graph motifs 可以作為解釋結果的ground truths 的合理近似值。這裏我們介紹幾種常見的合成數據集。

BA-shapes：它是一個節點分類數據集，有4個不同的節點標籤。對於每個圖形，它包含一個基礎圖（300個節點）和一個類似房子的5節點 motif。需要注意的是，基礎圖是由Barabasi-Albert（BA）模型獲得的，它可以生成具有優先附加機制的隨機無標度網絡[68]。motif 被附加到基圖上，同時添加隨機邊。每個節點根據其是否屬於基礎圖或motif 的不同空間位置進行標註。

BA-Community：這是一個有8個不同標籤的節點分類數據集。對於每個圖，它是通過組合兩個隨機添加邊的BA-shapes圖獲得的。節點標籤由BA-shapes圖的成員資格及其結構位置決定。

Tree-Cycle：它是一個有兩個不同標籤的節點分類數據集。對於每個圖，它由深度等於8的基平衡樹圖和6節點週期 motif 組成。這兩部分是隨機連接的。基圖中節點的標籤為0，否則為1。

Tree-Grids：它是一個有兩個不同標籤的節點分類數據集。它與 Tree-Cycle 數據集相同，只是Tree-Grids數據集採用了9節點網格 motifs 而不是週期 motifs 。

BA-2Motifs：它是一個具有2種不同圖標籤的圖形分類數據集。有800個圖，每個圖都是通過在基礎BA圖上附加不同的motif來獲得的，如house-like motif 和 five-node cycle motif。不同的圖是根據motif 的類型來標註的。

在這些數據集中，所有節點特徵都被初始化為全1向量。訓練好的GNNs模型要捕捉圖結構來進行預測。然後根據每個數據集的構建規則，我們可以分析解釋結果。例如，在BA-2Motifs數據集中，我們可以研究解釋是否能夠捕獲motif結構。然而，合成數據集只包含圖和標籤之間的簡單關係，可能不足以進行綜合評估。

5.1.2 Sentiment graph data

由於人類只有有限的領域知識，傳統的圖數據集在理解上具有挑戰性，因此需要構建人類可理解的圖數據集。文本數據具有人類可理解的語義的單詞和短語組成，因此可以成為圖解釋任務的合適選擇，解釋結果可以很容易地被人類評估。因此我們基於文本情感分析數據構建了三個情感圖數據集，包括SST2[69]、SST5[69]和Twitter[70]數據集。

fig7圖5 文本情感圖

對於每個文本序列，將其轉換為一個圖，每個節點代表一個單詞，而邊則反映不同單詞之間的關係。作者採用Biaffine解析器[71]來提取詞的依賴關係。圖5中展示了生成的情感圖的一個例子。生成的圖是有向的，但邊標籤被忽略了，因為大多數GNNs不能捕獲邊標籤信息。用BERT[72]來學習單詞嵌入，並將這種嵌入作為圖節點的初始嵌入。建立一個模型，採用預訓練好的BERT作為特徵提取器，採用一層平均池化的GCN作為分類器。最後預訓練的BERT為每個詞提取768維的特徵向量，作為情感圖數據中的節點特徵。

作者建立了三個情感圖數據集，分別為Graph-SST2、Graph-SST5和Graph-Twitter ，並即將公開，可以直接用於研究不同的可解釋技術。這些數據集的統計和屬性如表2所示。為了驗證本文生成的情感數據集具有可解釋信息，作者分別再新生成的情感數據集和原始數據集進行實驗。作者展示了兩層GNNs在這些數據集上的預測精度，包括GCNs、GATs和GINs。還展示了使用原始句子數據集的預訓練的BERT[72]的微調精度。結果表明，與原始句子數據集相比，作者構建的情感圖數據集可以達到具有競爭力的性能這些數據集是實現圖模型解釋的合理選擇。根據不同詞的語義和情感標籤，我們可以研究可解釋方法是否能識別出具有關鍵意義的詞以及不同詞之間的關係

5.1.3 Molecule data

分子數據集也被廣泛用於解釋任務，如MUTAG[73]、BBBP和Tox21[74]。這類數據集中的每個圖對應一個分子，其中節點代表原子，邊是化學鍵。分子圖的標籤一般由分子的化學功能或性質決定。採用這樣的數據集進行解釋任務需要領域知識，例如什麼化學基團對其官能性更具有鑑別性。例如，在數據集MUTAG中，不同的圖形是根據它們對細菌的誘變作用來標註的。例如，已知碳環和NO2化學基團可能導致誘變效應[73]，那麼可以研究可解釋方法是否能識別出對應類別的 patterns

（在不同的領域中，不同的局部結構是具有區分力的，可解釋方法是否能夠識別這些模式？）

5.2 Evaluation Metrics

即使可視化的結果可以讓人理解解釋性方法是否合理，但由於缺乏 ground truths，這種評估並不完全可信。為了比較不同的解釋性方法，我們需要研究每個輸入樣例的結果，這很耗時。因此評估度量對於研究可解釋方法至關重要。好的度量方法應該從模型的角度來評估預測結果，比如解釋是否忠實於模型[75]，[76]。作者將介紹最近提出的幾種針對解釋性問題的評估度量方法。

5.2.1 Fidelity/Infidelity

首先，從模型的預測結果上分析解釋性方法的性能，解釋應該忠於模型，解釋方法應該識別對模型重要的輸入特徵。為了評估這一點，最近提出了Fidelity[50]度量方法。關鍵思想在於如果解釋技術所識別的重要輸入特徵（節點/邊/節點特徵）對模型具有判別力，那麼當這些特徵被移除時，模型的預測結果應該會發生顯著變化。因此，Fidelity被定義為原始預測與遮蔽掉重要輸入特徵後的新預測之間的精度之差[50]，[77]，即衡量兩種預測結果的差異性。

可解釋方法可以看作是一個硬重要性映射，其中元素為 0（表示特徵不重要）或1（表示特徵重要）。對於現有方法，例如ZORRO[51] 和 Causal Screening[53] 等方法，生成的解釋是離散掩碼，可以直接作為重要性映射。對於 GNNExplainer[42] 和 GraphLime[56] 等方法，重要性分數是連續值，那麼可以通過歸一化和閾值化得到重要性地映射。最後，預測精度的Fidelity得分可以計算為:

其中是圖的原始預測，是圖的數量。表示去掉重要輸入特徵的補全掩碼，是將新圖輸入訓練好的GNN 時的預測值。指示函數如果和相等則返回1，否則返回0。注意，指標研究的是預測精度的變化。通過對預測概率的關注，概率的Fidelity可以定義為:

其中，代表基於互補掩碼，保留的特徵得到的新圖。需要注意的是，監測的是預測概率的變化，比更敏感。對於這兩個指標來説，數值越高，説明解釋結果越好，識別出的判別特徵越多。

Fidelity度量通過去除重要節點/邊/節點特徵來研究預測變化。相反，Infidelity度量通過保留重要的輸入特徵和去除不重要的特徵來研究預測變化。直觀地講，重要特徵應該包含判別信息，因此即使去掉不重要的特徵，它們也應該導致與原始預測相似的預測。從形式上看，度量Infidelity可以計算為：

其中是根據映射保留的重要特徵時的新圖，是新的預測值。需要注意的是，對於和來説，數值越低，説明去掉的特徵重要信息越少，這樣解釋結果越好

5.2.2 Sparsity

從輸入圖數據的角度來分析解釋性方法的性能，解釋性方法應該是稀疏的，這意味着它們應該捕捉最重要的輸入特徵，而忽略不相關的特徵，可以用稀疏度（Sparsity）指標衡量這樣個特性。具體來説，它衡量的是被解釋方法選擇為重要特徵的分數[50]。形式上，給定圖和它的硬重要性映射，稀疏度度量可以計算為：

其中表示中識別的重要輸入特徵（節點/邊/節點特徵）的數量，表示原始圖中特徵的總數。請注意，數值越高表示解釋方法越稀疏，即往往只捕捉最重要的輸入信息。

5.2.3 Stability

好的解釋應該是穩定的。當對輸入施加小的變化而不影響預測時，解釋應該保持相似。最近提出的穩定性度量標準來衡量一個解釋方法是否穩定[78]。給定一個輸入圖，它的解釋被認為是真實標籤。然後對輸入圖進行小的改變，比如附加新的節點/邊，得到一個新的圖。需要注意的是，和需要有相同的預測。然後得到的解釋，表示為。通過比較和之間的差異，我們可以計算出穩定性得分。請注意，數值越低表示解釋技術越穩定，對噪聲信息的魯棒性越強。

5.2.4 Accuracy

針對合成數據集提出了精度度量方法[42]、[78]。在合成數據集中，即使不知道GNN是否按照我們預期的方式進行預測，但構建這些數據集的規則，如 graph motifs，可以作為 ground truths 的合理近似。然後對於任何輸入圖，我們都可以將其解釋與這樣的 ground truths進行比較。例如，在研究重要邊的時候，可以研究解釋中的重要邊與 ground truths 的邊的匹配率。這種比較的常用指標包括一般精度、F1得分、ROC-AUC得分。匹配率數值越高，説明解釋結果越接近於 ground truths，認為是較好的解釋方法。

6. Conclusion

圖神經網絡近來被廣泛研究，但對圖模型的可解釋性的探討還比較少。為了研究這些黑箱的潛在機制，人們提出了幾種解釋圖模型的方法，包括XGNN、GNNExplainer等。這些方法從不同的角度和動機來解釋圖模型，但是缺乏對這些方法的全面研究和分析。在這項工作中，作者對這些方法進行了系統全面的調研。首先對現有的GNN解釋方法進行了系統的分類，並介紹了每一類解釋方法背後的關鍵思想。然後詳細討論了每一種解釋方法，包括方法、內涵、優勢和缺點，還對不同的解釋方法進行了綜合分析。並且介紹和分析了常用的數據集和GNN解釋方法的評價指標。最後從文本數據出發，建立了三個圖形數據集，這些數據集是人類可以理解的，可以直接用於GNN解釋任務。

參考文獻

[10] K. Simonyan, A. Vedaldi, and A. Zisserman, “Deep inside convolutional networks: Visualising image classification models and saliency maps,” arXiv preprint arXiv:1312.6034, 2013.[11] D. Smilkov, N. Thorat, B. Kim, F. Viegas, and M. Wattenberg, “Smoothgrad: removing noise by adding noise,” arXiv preprint arXiv:1706.03825, 2017.[12] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba, “Learning deep features for discriminative localization,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 2921–2929.[13] R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, and D. Batra, “Grad-cam: Visual explanations from deep networks via gradient-based localization,” in 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017, pp. 618–626.[14] P. Dabkowski and Y. Gal, “Real time image saliency for black box classifiers,” in Advances in Neural Information Processing Systems, 2017, pp. 6967–6976.[15] H. Yuan, L. Cai, X. Hu, J. Wang, and S. Ji, “Interpreting image classifiers by generating discrete masks,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.[17] C. Olah, A. Satyanarayan, I. Johnson, S. Carter, L. Schubert, K. Ye, and A. Mordvintsev, “The building blocks of interpretability,” Distill, 2018, https://distill.pub/2018/building-blocks.[18] F. Yang, S. K. Pentyala, S. Mohseni, M. Du, H. Yuan, R. Linder, E. D. Ragan, S. Ji, and X. Hu, “Xfake: explainable fake news detector with visualizations,” in The World Wide Web Conference, 2019, pp. 3600–3604.[19] M. Du, N. Liu, Q. Song, and X. Hu, “Towards explanation of dnnbased prediction with guided feature inversion,” in Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2018, pp. 1358–1367.[22] H. Yuan, Y. Chen, X. Hu, and S. Ji, “Interpreting deep models for text analysis via optimization and regularization methods,” in AAAI-19: Thirty-Third AAAI Conference on Artificial Intelligence. Association for the Advancement of Artificial Intelligence, 2019.[23] M. Du, N. Liu, and X. Hu, “Techniques for interpretable machine learning,” Communications of the ACM, vol. 63, no. 1, pp. 68–77, 2019.[24] A. Rai, “Explainable ai: From black box to glass box,” Journal of the Academy of Marketing Science, vol. 48, no. 1, pp. 137–141, 2020.[25] F. K. Dosilovi ˇ c, M. Br ciˇ c, and N. Hlupi c, “Explainable artificial intelligence: A survey,” in 2018 41st International convention on information and communication technology, electronics and microelectronics (MIPRO). IEEE, 2018, pp. 0210–0215. [26] C. Molnar, Interpretable Machine Learning, 2019, https:// christophm.github.io/interpretable-ml-book/.[41] H. Yuan, J. Tang, X. Hu, and S. Ji, “XGNN: Towards model-level explanations of graph neural networks,” ser. KDD ’20. New York, NY, USA: Association for Computing Machinery, 2020, p. 430–438. [Online]. Available: https://doi.org/10.1145/3394486.3403085[42] Z. Ying, D. Bourgeois, J. You, M. Zitnik, and J. Leskovec, “Gnnexplainer: Generating explanations for graph neural networks,” in Advances in neural information processing systems, 2019, pp. 9244– 9255.[43] D. Luo, W. Cheng, D. Xu, W. Yu, B. Zong, H. Chen, and X. Zhang, “Parameterized explainer for graph neural network,” in Advances in neural information processing systems, 2020.[44] C. Rudin, “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead,” Nature Machine Intelligence, vol. 1, no. 5, pp. 206–215, 2019.[45] J. Chen, L. Song, M. J. Wainwright, and M. I. Jordan, “Learning to explain: An information-theoretic perspective on model interpretation,” in International Conference on Machine Learning, ser. Proceedings of Machine Learning Research, vol. 80. PMLR, 2018, pp. 882–891.[46] U. Alon, “Network motifs: theory and experimental approaches,” Nature Reviews Genetics, vol. 8, no. 6, pp. 450–461, 2007.[47] R. Milo, S. Shen-Orr, S. Itzkovitz, N. Kashtan, D. Chklovskii, and U. Alon, “Network motifs: simple building blocks of complex networks,” Science, vol. 298, no. 5594, pp. 824–827, 2002.[48] U. Alon, An introduction to systems biology: design principles of biological circuits. CRC press, 2019.[49] F. Baldassarre and H. Azizpour, “Explainability techniques for graph convolutional networks,” in International Conference on Machine Learning (ICML) Workshops, 2019 Workshop on Learning and Reasoning with Graph-Structured Representations, 2019.[50] P. E. Pope, S. Kolouri, M. Rostami, C. E. Martin, and H. Hoffmann, “Explainability methods for graph convolutional neural networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 10 772–10 781.[51] Anonymous, “Hard masking for explaining graph neural networks,” in Submitted to International Conference on Learning Representations, 2021, under review. [Online]. Available: https: //openreview.net/forum?id=uDN8pRAdsoC[52] M. S. Schlichtkrull, N. De Cao, and I. Titov, “Interpreting graph neural networks for nlp with differentiable edge masking,” arXiv preprint arXiv:2010.00577, 2020.[53] Anonymous, “Causal screening to interpret graph neural networks,” in Submitted to International Conference on Learning Representations, 2021, under review. [Online]. Available: https: //openreview.net/forum?id=nzKv5vxZfge[54] R. Schwarzenberg, M. Hubner, D. Harbecke, C. Alt, and L. Hennig, ¨ “Layerwise relevance visualization in convolutional text graph classifiers,” arXiv preprint arXiv:1909.10911, 2019.[55] T. Schnake, O. Eberle, J. Lederer, S. Nakajima, K. T. Schutt, K.-R. ¨ Muller, and G. Montavon, “Higher-order explanations of graph ¨ neural networks via relevant walks,” 2020.[56] Q. Huang, M. Yamada, Y. Tian, D. Singh, D. Yin, and Y. Chang, “Graphlime: Local interpretable model explanations for graph neural networks,” arXiv preprint arXiv:2001.06216, 2020.[57] Y. Zhang, D. Defazio, and A. Ramesh, “Relex: A model-agnostic relational model explainer,” arXiv preprint arXiv:2006.00305, 2020.[58] M. N. Vu and M. T. Thai, “Pgm-explainer: Probabilistic graphical model explanations for graph neural networks,” in Advances in neural information processing systems, 2020.[59] A. Shrikumar, P. Greenside, and A. Kundaje, “Learning important features through propagating activation differences,” in International Conference on Machine Learning, 2017, pp. 3145–3153.[60] J. Chen, L. Song, M. Wainwright, and M. Jordan, “Learning to explain: An information-theoretic perspective on model interpretation,” in Proceedings of the 35th International Conference on Machine Learning, ser. Proceedings of Machine Learning Research, J. Dy and A. Krause, Eds., vol. 80. Stockholmsmassan, Stockholm ¨ Sweden: PMLR, 10–15 Jul 2018, pp. 883–892. [Online]. Available: http://proceedings.mlr.press/v80/chen18j.html[61] R. S. Sutton, D. McAllester, S. Singh, and Y. Mansour, “Policy gradient methods for reinforcement learning with function approximation,” Advances in neural information processing systems, vol. 12, pp. 1057–1063, 1999.[62] E. Jang, S. Gu, and B. Poole, “Categorical reparameterization with gumbel-softmax,” in International Conference on Learning Representations, 2016.[63] C. Louizos, M. Welling, and D. P. Kingma, “Learning sparse neural networks through l 0 regularization,” arXiv preprint arXiv:1712.01312, 2017.[64] M. T. Ribeiro, S. Singh, and C. Guestrin, “” why should i trust you?” explaining the predictions of any classifier,” in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining, 2016, pp. 1135–1144.[65] M. Yamada, W. Jitkrittum, L. Sigal, E. P. Xing, and M. Sugiyama, “High-dimensional feature selection by feature-wise kernelized lasso,” Neural computation, vol. 26, no. 1, pp. 185–207, 2014.[66] D. Margaritis and S. Thrun, “Bayesian network induction via local neighborhoods,” Advances in neural information processing systems, vol. 12, pp. 505–511, 1999.[67] S. Bach, A. Binder, G. Montavon, F. Klauschen, K. Muller, and ¨ W. Samek, “On pixel-wise explanations for non-linear classifier decisions by layer-wise relevance propagation,” PLoS ONE, vol. 10, no. 7, p. e0130140, 2015.[68] R. Albert and A.-L. Barabasi, “Statistical mechanics of complex networks,” Reviews of modern physics, vol. 74, no. 1, p. 47, 2002.[69] R. Socher, A. Perelygin, J. Wu, J. Chuang, C. D. Manning, A. Y. Ng, and C. Potts, “Recursive deep models for semantic compositionality over a sentiment treebank,” in Proceedings of the 2013 conference on empirical methods in natural language processing, 2013, pp. 1631–1642.[70] L. Dong, F. Wei, C. Tan, D. Tang, M. Zhou, and K. Xu, “Adaptive recursive neural network for target-dependent twitter sentiment classification,” in Proceedings of the 52nd annual meeting of the association for computational linguistics (volume 2: Short papers), 2014, pp. 49–54.[71] M. Gardner, J. Grus, M. Neumann, O. Tafjord, P. Dasigi, N. Liu, M. Peters, M. Schmitz, and L. Zettlemoyer, “Allennlp: A deep semantic natural language processing platform,” arXiv preprint arXiv:1803.07640, 2018.[72] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “Bert: Pretraining of deep bidirectional transformers for language understanding,” arXiv preprint arXiv:1810.04805, 2018.[73] A. K. Debnath, R. L. Lopez de Compadre, G. Debnath, A. J. Shusterman, and C. Hansch, “Structure-activity relationship of mutagenic aromatic and heteroaromatic nitro compounds. correlation with molecular orbital energies and hydrophobicity,” Journal of medicinal chemistry, vol. 34, no. 2, pp. 786–797, 1991.[74] Z. Wu, B. Ramsundar, E. N. Feinberg, J. Gomes, C. Geniesse, A. S. Pappu, K. Leswing, and V. Pande, “Moleculenet: a benchmark for molecular machine learning,” Chemical science, vol. 9, no. 2, pp. 513–530, 2018.[75] A. Jacovi and Y. Goldberg, “Towards faithfully interpretable nlp systems: How should we define and evaluate faithfulness?” arXiv preprint arXiv:2004.03685, 2020.[76] S. Wiegreffe and Y. Pinter, “Attention is not not explanation,” arXiv preprint arXiv:1908.04626, 2019.[77] S. Hooker, D. Erhan, P.-J. Kindermans, and B. Kim, “A benchmark for interpretability methods in deep neural networks,” in Advances in Neural Information Processing Systems, 2019, pp. 9737–9748.[78] B. Sanchez-Lengeling, J. Wei, B. Lee, E. Reif, P. Wang, W. W. Qian, K. McCloskey, L. Colwell, and A. Wiltschko, “Evaluating attribution for graph neural networks,” Advances in Neural Information Processing Systems, vol. 33, 2020.

舉報/反饋