日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - ICML2020 | 对比图神经网络解释器

發布時間:2024/7/5 编程问答 76 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 - ICML2020 | 对比图神经网络解释器 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理:方尹,浙江大學在讀博士,研究方向:圖表示學習。


Contrastive Graph Neural Network Explanation

動機與貢獻
本文主要關注圖神經網絡的解釋性問題,這樣的解釋有助于提升GNN的可信度,能夠更好的理解輸入中的哪些部分對預測結果的影響最大。本文主要的貢獻有三個:

1)提出了Distribution Compliant Explanation (DCE)主張,要求做模型解釋所用到的數據要和訓練數據服從相同的分布,即具有一致性;

2)基于DCE,他們提出了一種方法,Contrastive GNN Explanation (CoGE),用于解釋GNN在圖分類問題中的預測結果;

3)在真實數據集和合成數據集上證明了這種方法的有效性。

相關工作

之前已經有過一些用于解釋網絡的方法:

1)Occlusion: 它是通過遮擋一個節點或者一條邊,通過這樣做對預測結果的影響大小,來判斷該節點或邊的重要性程度。

2)GNNExplainer: 通過最大化預測結果和子圖結構之間的互信息,找到最重要的結構和特征。

3)Image attribution methods: 計算每個節點的相關性得分,并把這個相關性得分反向傳播到輸入層,以得到節點和輸入之間的相關性。

DCE主張

以上提到的方法中有一些是基于圖像的方法,它們考察的是像素而不是邊。如果直接遷移到GNN上來會有一些弊端。直接移除邊可能會得到disconnected graph. 而且很小的擾動也會導致圖的拓撲結構發生很大的變化,從而導致模型的預測結果的變化,不利于判斷到底哪些節點或者邊對模型預測起關鍵性作用。

因此文章中提出,做模型解釋的時候用到的數據必須和訓練數據的分布具有一致性,而不能使用拓撲結構差異很大的數據。

模型與算法

根據DCE,文章提出了一種對比的方法,一個圖的graph embedding遠離和它具有不同label的圖,靠近和它具有相同label的圖,是因為圖中某些parts在起作用。

這里用到了最優傳輸距離OT,圖2展示了如何計算第一張圖和第二張圖之間的OT.首先給每個節點分配了一個權重,并且保證每個圖的所有節點的權重之和為1,每個source node都要把自己的權重傳輸給target nodes, target nodes可以有一個或多個。每一個權重表示它們的最大容量,就是target nodes接收到的權重不能大于它本身的最大容量。一個傳輸過程的cost是傳輸權重乘以兩節點的表示之間的距離。這里node embedding之間距離用L2距離計算。最優運輸就是找到全局的最優權重分配,在這個過程中可能會涉及到某些節點的次優選擇,比如圖2中,節點2沒有把所有權重都傳輸到節點4,即使他倆的node embedding是相同的,不會有cost. OT使得我們能夠在節點的粒度上去對比兩個圖的表示。

Source node的權重也可以是不相等的,如果要最小化OT,那么在target圖中沒有對應項的節點的權重就會比較低。如節點2的對應項是4,2有對應項,1和3沒有,那么1和3的權重就會比2低。若節點有對應項,source node和target node之間的距離為0,如果要最小化OT,其他source node的權重就會比較低。同理,如果要最大化OT,那么在target圖中有對應項的節點的權重就會比較低。(讓其他不為0的項更大)

?

CoGE的基本思想就是同時最大化具有相同label的圖之間的OT和最小化不同label的圖之間的OT,并尋找其中具有最小權重的那些節點,那些點就是explanation nodes.

第一部分是最大化同一類圖之間的OT,又因為在最大化OT時,在target圖中有對應項的節點的權重比較低,如圖中2的權重比較低,去找其中具有最小權重的節點,就是在找有對應項的節點,相當于在找兩個圖中的共性,這些節點解釋了為什么兩個圖可以被歸為一類;

第二部分是最小化不同類圖之間的OT,在最小化OT時,在target圖中沒有對應項的節點的權重比較低,比如圖中1和3,去找其中具有最小權重的節點就是在找沒有對應項的節點,相當于在找兩個圖中的特性,這些節點解釋了為什么兩個圖不是同一類。

CoGE就是要同時做這兩件事,可以歸納為公式1:

第一項損失,這里d指的是G和H兩個不同類別的圖之間的OT,其中G是權重不是均等的,H的權重是均等的,計算出G和所有不同類別的圖之間的OT,選出其中最相似的k個,取平均;第二項損失是k個最相似的相同類別的圖之間OT的平均。因為要最大化同一類圖之間的OT,所以第二項損失前面取負號。第三項損失是一個懲罰項,它計算的是G和均等權重的G之間的OT,它懲罰了偏離均等權重的情況,因此會使w只做出有實質性好處的微小調整。

實驗與結果

文章在兩個用于圖形分類的真實數據集上做了explanation:

1、MUTAG標記了4337個化學分子的誘變性,圖3中顏色越淺表明該節點越重要,CoGE方法將NO2識別為最重要的,一些文獻已表明NO2確實是具有誘變性的,但是NO2也存在于一些非誘變的圖中;CoGE同時也發現O旁邊的C對誘變性的判別也很重要。CO和NO2的組合僅存在于誘變的實例中,不具有誘變性的化學分子不會同時含有這兩個結構。

2、REDDIT-BINARY是一個論壇討論數據集。節點是用戶,邊是對另一個用戶評論的響應,兩個label分別為Q&A和discussion。如圖4所示,CoGE認為中心節點以及與中心節點相連的節點對分類起重要作用。事實上,Q&A是大多數用戶向極少數的專家提問并且得到答復。而Online Discussion具有深度比較大的樹狀結構。

3、本文還在一個合成數據集CYCLIQ上進行了實驗。這是一個用于二分類的數據集,它的label是圖里是含有環或含有團。這個問題中正確的explanation應是包含在團或者環結構中的邊。邊的重要性是邊兩頭的節點的重要性之和。

4、explanation的準確性定義如下,用CoGE選出x條最重要的邊,找出在這x條邊中有多少條在環或者團中,計算兩者的比例。實驗的baseline是random guessing, 基于節點的occlusion(通過移除或遮擋一些節點,計算它對實驗結果的影響),sensitivity analysis(反向傳播),GNNExplainer.由表1,解釋團的準確率大于解釋環的,CoGE產生了最好的結果,對于兩種類別來說,準確率都比其他方法高出10%。圖1展示了隨機抽取的某個示例,CoGE很準確的找到了包含在團中的邊。

Ablation Study

本文又在同樣的合成數據集上研究了每個損失項的重要性程度,選擇不同的Loss進行實驗。對比第一行和第三行可以看到,第一項損失其實具有更多的解釋性。在它的基礎上,其他兩項的加入讓它的性能有一定的提高。

除此之外,用歐式距離代替OT距離,計算node embedding的加權平均值之間的歐式距離。這樣會導致準確率下降,但還是優于baseline.

Conclusion

1)討論了GNN的特殊性。圖的拓撲結構很重要,少量的修改就會導致圖脫離了已知的數據分布。

2)提出了DCE主張:explanation用到的數據應該與訓練數據分布保持一致。

3)提出了一種新的解釋方法CoGE,它遵循DCE.并且實驗結果表明它具有有效性和參數選擇的魯棒性。

4)Future work: 將該方法擴展到node classification上,更深入的理解explanation和對抗攻擊之間的聯系。

歡迎有興趣的同學閱讀原文。

?


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 - ICML2020 | 对比图神经网络解释器的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。