當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - ICML2020 | 对比图神经网络解释器

發布時間：2024/7/5 编程问答 76 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 - ICML2020 | 对比图神经网络解释器小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理：方尹，浙江大學在讀博士，研究方向：圖表示學習。

Contrastive Graph Neural Network Explanation

動機與貢獻
本文主要關注圖神經網絡的解釋性問題，這樣的解釋有助于提升GNN的可信度，能夠更好的理解輸入中的哪些部分對預測結果的影響最大。本文主要的貢獻有三個：

1）提出了Distribution Compliant Explanation (DCE)主張，要求做模型解釋所用到的數據要和訓練數據服從相同的分布，即具有一致性；

2）基于DCE，他們提出了一種方法，Contrastive GNN Explanation (CoGE)，用于解釋GNN在圖分類問題中的預測結果;

3）在真實數據集和合成數據集上證明了這種方法的有效性。

相關工作

之前已經有過一些用于解釋網絡的方法：

1）Occlusion: 它是通過遮擋一個節點或者一條邊，通過這樣做對預測結果的影響大小，來判斷該節點或邊的重要性程度。

2）GNNExplainer: 通過最大化預測結果和子圖結構之間的互信息，找到最重要的結構和特征。

3）Image attribution methods: 計算每個節點的相關性得分，并把這個相關性得分反向傳播到輸入層，以得到節點和輸入之間的相關性。

DCE主張

以上提到的方法中有一些是基于圖像的方法，它們考察的是像素而不是邊。如果直接遷移到GNN上來會有一些弊端。直接移除邊可能會得到disconnected graph. 而且很小的擾動也會導致圖的拓撲結構發生很大的變化，從而導致模型的預測結果的變化，不利于判斷到底哪些節點或者邊對模型預測起關鍵性作用。

因此文章中提出，做模型解釋的時候用到的數據必須和訓練數據的分布具有一致性，而不能使用拓撲結構差異很大的數據。

模型與算法

根據DCE，文章提出了一種對比的方法，一個圖的graph embedding遠離和它具有不同label的圖，靠近和它具有相同label的圖，是因為圖中某些parts在起作用。

這里用到了最優傳輸距離OT，圖2展示了如何計算第一張圖和第二張圖之間的OT.首先給每個節點分配了一個權重，并且保證每個圖的所有節點的權重之和為1，每個source node都要把自己的權重傳輸給target nodes, target nodes可以有一個或多個。每一個權重表示它們的最大容量，就是target nodes接收到的權重不能大于它本身的最大容量。一個傳輸過程的cost是傳輸權重乘以兩節點的表示之間的距離。這里node embedding之間距離用L2距離計算。最優運輸就是找到全局的最優權重分配，在這個過程中可能會涉及到某些節點的次優選擇，比如圖2中，節點2沒有把所有權重都傳輸到節點4，即使他倆的node embedding是相同的，不會有cost. OT使得我們能夠在節點的粒度上去對比兩個圖的表示。

Source node的權重也可以是不相等的，如果要最小化OT，那么在target圖中沒有對應項的節點的權重就會比較低。如節點2的對應項是4，2有對應項，1和3沒有，那么1和3的權重就會比2低。若節點有對應項，source node和target node之間的距離為0，如果要最小化OT，其他source node的權重就會比較低。同理，如果要最大化OT，那么在target圖中有對應項的節點的權重就會比較低。（讓其他不為0的項更大）

CoGE的基本思想就是同時最大化具有相同label的圖之間的OT和最小化不同label的圖之間的OT,并尋找其中具有最小權重的那些節點，那些點就是explanation nodes.

第一部分是最大化同一類圖之間的OT，又因為在最大化OT時，在target圖中有對應項的節點的權重比較低，如圖中2的權重比較低，去找其中具有最小權重的節點，就是在找有對應項的節點，相當于在找兩個圖中的共性，這些節點解釋了為什么兩個圖可以被歸為一類；

第二部分是最小化不同類圖之間的OT，在最小化OT時，在target圖中沒有對應項的節點的權重比較低，比如圖中1和3，去找其中具有最小權重的節點就是在找沒有對應項的節點，相當于在找兩個圖中的特性，這些節點解釋了為什么兩個圖不是同一類。

CoGE就是要同時做這兩件事，可以歸納為公式1：

第一項損失，這里d指的是G和H兩個不同類別的圖之間的OT，其中G是權重不是均等的，H的權重是均等的，計算出G和所有不同類別的圖之間的OT，選出其中最相似的k個，取平均；第二項損失是k個最相似的相同類別的圖之間OT的平均。因為要最大化同一類圖之間的OT，所以第二項損失前面取負號。第三項損失是一個懲罰項，它計算的是G和均等權重的G之間的OT，它懲罰了偏離均等權重的情況，因此會使w只做出有實質性好處的微小調整。

實驗與結果

文章在兩個用于圖形分類的真實數據集上做了explanation：

1、MUTAG標記了4337個化學分子的誘變性，圖3中顏色越淺表明該節點越重要，CoGE方法將NO2識別為最重要的，一些文獻已表明NO2確實是具有誘變性的，但是NO2也存在于一些非誘變的圖中；CoGE同時也發現O旁邊的C對誘變性的判別也很重要。CO和NO2的組合僅存在于誘變的實例中，不具有誘變性的化學分子不會同時含有這兩個結構。

2、REDDIT-BINARY是一個論壇討論數據集。節點是用戶，邊是對另一個用戶評論的響應，兩個label分別為Q&A和discussion。如圖4所示，CoGE認為中心節點以及與中心節點相連的節點對分類起重要作用。事實上，Q&A是大多數用戶向極少數的專家提問并且得到答復。而Online Discussion具有深度比較大的樹狀結構。

3、本文還在一個合成數據集CYCLIQ上進行了實驗。這是一個用于二分類的數據集，它的label是圖里是含有環或含有團。這個問題中正確的explanation應是包含在團或者環結構中的邊。邊的重要性是邊兩頭的節點的重要性之和。

4、explanation的準確性定義如下，用CoGE選出x條最重要的邊，找出在這x條邊中有多少條在環或者團中，計算兩者的比例。實驗的baseline是random guessing, 基于節點的occlusion（通過移除或遮擋一些節點，計算它對實驗結果的影響）,sensitivity analysis（反向傳播）,GNNExplainer.由表1，解釋團的準確率大于解釋環的，CoGE產生了最好的結果，對于兩種類別來說，準確率都比其他方法高出10%。圖1展示了隨機抽取的某個示例，CoGE很準確的找到了包含在團中的邊。

Ablation Study

本文又在同樣的合成數據集上研究了每個損失項的重要性程度，選擇不同的Loss進行實驗。對比第一行和第三行可以看到，第一項損失其實具有更多的解釋性。在它的基礎上，其他兩項的加入讓它的性能有一定的提高。

除此之外，用歐式距離代替OT距離，計算node embedding的加權平均值之間的歐式距離。這樣會導致準確率下降，但還是優于baseline.

Conclusion

1）討論了GNN的特殊性。圖的拓撲結構很重要，少量的修改就會導致圖脫離了已知的數據分布。

2）提出了DCE主張：explanation用到的數據應該與訓練數據分布保持一致。

3）提出了一種新的解釋方法CoGE,它遵循DCE.并且實驗結果表明它具有有效性和參數選擇的魯棒性。

4）Future work: 將該方法擴展到node classification上，更深入的理解explanation和對抗攻擊之間的聯系。

歡迎有興趣的同學閱讀原文。

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 - ICML2020 | 对比图神经网络解释器的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：领域应用 | 企业效益最大化的秘密：知识
下一篇：论文浅尝 - ICLR2020 | 具有