日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Yoshua Bengio等图神经网络的新基准Benchmarking Graph Neural Networks(代码已开源)

發(fā)布時間:2025/3/8 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Yoshua Bengio等图神经网络的新基准Benchmarking Graph Neural Networks(代码已开源) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

最近GNN備受關(guān)注,相信大家也都能感受到。但是,一旦我們開始閱讀相關(guān)論文,開展相關(guān)的實驗時,會發(fā)現(xiàn)一些問題。

我們一般會從節(jié)點分類數(shù)據(jù)集cora, citeseer, pubmed,圖分類數(shù)據(jù)集PROTEINS, NCI1, NCI109等入手,這些數(shù)據(jù)集相對都比較小,數(shù)據(jù)集小不是什么問題,問題是當(dāng)我們復(fù)現(xiàn)已提出的相關(guān)模型并進行訓(xùn)練和測試時,發(fā)現(xiàn)這些模型并沒有太大的差別,換句話說有些模型是150分的水平,有模型是98分的水平,放在100分的卷子里面,都是優(yōu)秀的模型;再者說我們用微積分(復(fù)雜的模型)雖然也能解決三角形面積問題,但是顯得過于復(fù)雜,那么讓微積分解決曲面面積(較復(fù)雜的網(wǎng)絡(luò))優(yōu)勢就突出來了。除了數(shù)據(jù)集,我們再來看看實驗,在一些論文里面,實驗的數(shù)據(jù)的分割方式很獨特,訓(xùn)練方式,超參數(shù),損失函數(shù),學(xué)習(xí)率的變化等與對比基準(zhǔn)模型完全不同,或者沒有提到,看到源碼時采發(fā)現(xiàn),但是作者們竟然直接比較了起來,然后還發(fā)表了。。。總結(jié)一下大概有兩點:目前存在的問題有數(shù)據(jù)集小,模型表現(xiàn)差異性小;實驗對比不規(guī)范。

今天介紹的這篇論文題目為Benchmarking Graph Neural Networks ,在2020年3月2日由 Vijay Prakash Dwivedi,Chaitanya K. Joshi, Thomas Laurent,Yoshua Bengio, Xavier Bresson等人發(fā)布在arxiv上。

下面先看看摘要

摘要:圖神經(jīng)網(wǎng)絡(luò)(GNN)已成為分析和學(xué)習(xí)圖數(shù)據(jù)的標(biāo)準(zhǔn)工具包。它們已成功應(yīng)用于很多領(lǐng)域,包括化學(xué),物理,社會科學(xué),知識圖譜,推薦系統(tǒng)和神經(jīng)科學(xué)。隨著領(lǐng)域的發(fā)展,識別跨圖大小通用的體系結(jié)構(gòu)和機制變得至關(guān)重要,這使我們能夠處理更大,更復(fù)雜的數(shù)據(jù)集和領(lǐng)域。不幸的是,在缺乏統(tǒng)一的實驗設(shè)置和大型數(shù)據(jù)集的情況下,衡量新GNN的有效性和比較模型的難度越來越大。在本文中,我們提出了一個可復(fù)現(xiàn)的GNN基準(zhǔn)框架,為研究人員提供了添加新數(shù)據(jù)集和模型的便利。我們將此基準(zhǔn)框架應(yīng)用于數(shù)學(xué)建模,計算機視覺,化學(xué)和組合問題等新穎的中型圖形數(shù)據(jù)集,以在設(shè)計有效的GNN時建立關(guān)鍵操作。精確地,圖卷積,各向異性擴散,殘差連接和規(guī)范化層是用于開發(fā)健壯且可擴展的GNN的通用構(gòu)件。

本文主要的貢獻:

1.用PyTorch和DGL在GitHub上發(fā)布了一個基線框架,簡單容易上手,鏈接:https://github.com/graphdeeplearning/benchmarking-gnns

或者掃描二維碼,下面閱讀原文也可以打開;

2.提出了一系列中等規(guī)模的數(shù)據(jù)集,包括數(shù)學(xué)建模,計算機視覺,組合優(yōu)化,化學(xué)等領(lǐng)域;

3.確定了GNN關(guān)鍵部件的有效性,如異性擴散,殘差連接,正則化等;

4.論文沒有對已有的模型進行ranking,而是固定參數(shù)來確定GNN重要的機制;

5.好安裝,易上手,可復(fù)現(xiàn)。

數(shù)據(jù)集

首先,我們看看公布的數(shù)據(jù)集,有以下6個數(shù)據(jù)集:

以上數(shù)據(jù)集分別是MNIST, CIFAR10,ZINC,PATTERN and CLUSTER , TSP,進行的任務(wù)是依次分類(acc),回歸(溶解度性能指標(biāo)預(yù)測, MAE),節(jié)點分類(acc),邊分類(acc)

本文的主要動機是提出足夠大的數(shù)據(jù)集,以便在各種GNN架構(gòu)之間觀察到差異。盡管小型數(shù)據(jù)集對于快速發(fā)展新想法很有用,但從長遠來看,它們會限制GNN模型的發(fā)展,因為新的GNN模型會按照小型測試集進行設(shè)計,而不是尋找更通用的體系結(jié)構(gòu)。?另外,普遍采用的CORA和TU數(shù)據(jù)集的另一個問題是缺乏實驗結(jié)果的可重復(fù)性。大多數(shù)發(fā)表的論文沒有使用相同的trainvalidation-test拆分。此外,即使對于相同的分割,由于數(shù)據(jù)集太小,GNN的性能在常規(guī)的10倍交叉驗證中也表現(xiàn)出較大的標(biāo)準(zhǔn)偏差。本文提出的每個數(shù)據(jù)集都包含至少12 000個圖,規(guī)模中等。

本文進行實驗的模型有MLP, GCN, GAT, GaphSAGE, DiffPool, GIN, MoNet-Gaussian Mixture Model, GatedGCN等。驗證了殘差連接,Batch Normalization, Graph Size Normalization等模塊的作用。

實驗

作者首先用以上模型在之前的圖分類數(shù)據(jù)集上進行了實驗,紅藍黑加粗的顏色分別代表第一,第二,第三的表現(xiàn)。

可以看出來,上面的結(jié)果標(biāo)準(zhǔn)偏差相當(dāng)大,因為數(shù)據(jù)量小,按照交叉驗證的思路,不同的分割方式會導(dǎo)致實驗結(jié)果有很大的不同,這側(cè)面反應(yīng)了所有GNN的統(tǒng)計性能相似。另外,作者還報告了這些實驗的第二次運行結(jié)果,采用相同的10倍拆分,但是不同的初始化方式,結(jié)果有較大的變化。這都可以歸因于數(shù)據(jù)集的尺寸小和梯度下降優(yōu)化器的不確定。還可以觀察到,對于DD和Proteins數(shù)據(jù)集,MLP基線有時甚至比GNN還要好.

接著,作者在自己提出的數(shù)據(jù)集上一一進行了實驗

SuperPixel數(shù)據(jù)集的圖形分類

原始MNIST和CIFAR10圖像使用超像素轉(zhuǎn)換為Graph,超像素代表圖像中強度均勻的小區(qū)域,可以使用SLIC技術(shù)提取,下面是提取的結(jié)果:

很多同學(xué)都很好奇,連接矩陣怎么來?這個其實也簡單,主要你要想明白要定義的關(guān)系是怎么樣的

文中采取的方式是采樣k個最鄰近的點,用上面的公式W來計算,可以看做是距離的度量,當(dāng)然也可以有不同的定義方式,參考昨天的推送。其他的數(shù)據(jù)集參考論文細(xì)節(jié),這里就不再一一展開了...

下面是部分實驗結(jié)果

關(guān)于顏色Red: the best model, Violet: good models. Bold indicates the best model between residual and non-residual connections (both models are bold if they perform equally。

TSP數(shù)據(jù)集邊分類

近年來,利用機器學(xué)習(xí)來解決NP-hard組合優(yōu)化問題(COP)一直是研究的重點。最近提出的基于COP的基于深度學(xué)習(xí)的求解器將GNN與經(jīng)典圖搜索相結(jié)合,可直接從問題實例(表示為圖)中預(yù)測近似解。考慮深入研究的旅行推銷員問題(TSP):給定2D歐幾里得圖,就需要找到具有最小總邊沿權(quán)重(旅行長度)的最優(yōu)節(jié)點序列(稱為旅行)。TSP的多尺度性質(zhì)使其成為一項具有挑戰(zhàn)性的圖形任務(wù),需要對本地節(jié)點鄰域以及全局圖形結(jié)構(gòu)進行推理。為了從搜索組件中分離出GNN架構(gòu)的影響,作者將TSP設(shè)置為二分類任務(wù),with the groundtruth value for each?edge belonging to the TSP tour given by Concord.

更多的實驗請參考論文細(xì)節(jié)

本文的想要告訴我們什么?

  • 與圖形無關(guān)的NN(MLP)在小型數(shù)據(jù)集上的表現(xiàn)與GNN相同

  • 對于較大的數(shù)據(jù)集,GNN改進了與圖無關(guān)的NN

  • 最簡單形式的GNN表現(xiàn)較差

  • 各向同性GNN架構(gòu)在原始GCN上有所改進。GraphSage證明了在圖卷積層中使用中心節(jié)點信息的重要性。GIN采用了中心節(jié)點特征以及一個新的分類器層,該分類器層在所有中間層均與卷積特征相連。DiffPool考慮了一種可學(xué)習(xí)的圖形池化操作,其中在每個分辨率級別使用GraphSage。除CLUSTER外,這三個各向同性的GNN可以顯著提高所有數(shù)據(jù)集的GCN性能。

  • 各向異性的GNN是有效的。除了PATTERN以外,各向異性模型,例如GAT,MoNet和GatedGCN均能獲得最佳結(jié)果。另外,注意到,GatedGCN在所有數(shù)據(jù)集上的性能始終都很好。注:各向同性的GNN大多依賴于相鄰特征的簡單總和,各向異性的GNN采用復(fù)雜的機制(GAT的稀疏關(guān)注機制,GatedGCN的邊緣門)。

  • 殘差連接能夠提升模型的性能

  • 正則化能夠提升模型的性能

結(jié)論

在本文中,作者提出了一個基準(zhǔn)框架,以促進圖神經(jīng)網(wǎng)絡(luò)的研究,并解決文獻中的實驗不一致問題。論文確認(rèn)目前普遍使用的小型TU數(shù)據(jù)集不適合研究該領(lǐng)域模型,并在框架內(nèi)引入六個中等規(guī)模的數(shù)據(jù)集。對圖形的多個任務(wù)進行的實驗表明:i)隨著轉(zhuǎn)向更大的數(shù)據(jù)集,圖形結(jié)構(gòu)非常重要;ii)GCN是GNN的最簡單的各向同性版本,無法學(xué)習(xí)復(fù)雜的圖結(jié)構(gòu);iii)自節(jié)點信息,層次結(jié)構(gòu),注意力機制,邊緣門和更好的讀出功能是改善GCN的關(guān)鍵結(jié)構(gòu);iv)GNN可以使用殘差連接來更深地擴展,并且可以使用歸一化層來提高性能。最后一點,基準(zhǔn)測試基礎(chǔ)架構(gòu)利用PyTorch和DGL,是完全可復(fù)現(xiàn)的,并向GitHub上的用戶開放,供大家嘗試新模型并添加數(shù)據(jù)集。

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機器學(xué)習(xí)在線手冊深度學(xué)習(xí)在線手冊AI基礎(chǔ)下載(pdf更新到25集)本站qq群1003271085,加入微信群請回復(fù)“加群”獲取一折本站知識星球優(yōu)惠券,請回復(fù)“知識星球”喜歡文章,點個在看

總結(jié)

以上是生活随笔為你收集整理的Yoshua Bengio等图神经网络的新基准Benchmarking Graph Neural Networks(代码已开源)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。