日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

在西瓜数据集上训练_训练时间和参数量百倍降低,直接使用标签进行预测,性能竟超GNN...

發(fā)布時間:2025/4/5 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 在西瓜数据集上训练_训练时间和参数量百倍降低,直接使用标签进行预测,性能竟超GNN... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
將傳統(tǒng)標(biāo)簽傳播方法與簡單模型相結(jié)合即在某些數(shù)據(jù)集上超過了當(dāng)前最優(yōu) GNN 的性能,這是康奈爾大學(xué)與 Facebook 聯(lián)合提出的一項研究。這種新方法不僅能媲美當(dāng)前 SOTA GNN 的性能,而且參數(shù)量也少得多,運行時更是快了幾個數(shù)量級。

選自arXiv,作者:Qian Huang等,機器之心編譯,機器之心編輯部。

圖神經(jīng)網(wǎng)絡(luò)(GNN)是圖學(xué)習(xí)方面的主要技術(shù)。但是我們對 GNN 成功的奧秘以及它們對于優(yōu)秀性能是否必然知之甚少。近日,來自康奈爾大學(xué)和 Facebook 的一項研究提出了一種新方法,在很多標(biāo)準直推式節(jié)點分類(transductive node classification)基準上,該方法超過或媲美當(dāng)前最優(yōu) GNN 的性能。

這一方法將忽略圖結(jié)構(gòu)的淺層模型與兩項簡單的后處理步驟相結(jié)合,后處理步利用標(biāo)簽結(jié)構(gòu)中的關(guān)聯(lián)性:(i) 「誤差關(guān)聯(lián)」:在訓(xùn)練數(shù)據(jù)中傳播殘差以糾正測試數(shù)據(jù)中的誤差;(ii) 「預(yù)測關(guān)聯(lián)」:平滑測試數(shù)據(jù)上的預(yù)測結(jié)果。研究人員將這一步驟稱作 Correct and Smooth (C&S),后處理步驟通過對早期基于圖的半監(jiān)督學(xué)習(xí)方法中的標(biāo)準標(biāo)簽傳播(LP)技術(shù)進行簡單修正來實現(xiàn)。

該方法在多個基準上超過或接近當(dāng)前最優(yōu) GNN 的性能,而其參數(shù)量比后者小得多,運行時也快了幾個數(shù)量級。例如,該方法在 OGB-Products 的性能超過 SOTA GNN,而其參數(shù)量是后者的 1/137,訓(xùn)練時間是后者的 1/100。該方法的性能表明,直接將標(biāo)簽信息納入學(xué)習(xí)算法可以輕松實現(xiàn)顯著的性能提升。這一方法還可以融入到大型 GNN 模型中。

  • 論文地址:https://arxiv.org/pdf/2010.13993.pdf
  • GitHub 地址:https://github.com/CUAI/CorrectAndSmooth

圖神經(jīng)網(wǎng)絡(luò)的缺陷

繼神經(jīng)網(wǎng)絡(luò)在計算機視覺和自然語言處理領(lǐng)域的巨大成功之后,圖神經(jīng)網(wǎng)絡(luò)被用來進行關(guān)系數(shù)據(jù)的預(yù)測。這些模型取得了很大進展,如 Open Graph Benchmark。新型 GNN 架構(gòu)的許多設(shè)計思想是從語言模型(如注意力)或視覺模型(如深度卷積神經(jīng)網(wǎng)絡(luò))中的新架構(gòu)改編而來。但是,隨著這些模型越來越復(fù)雜,理解其性能收益成為重要挑戰(zhàn),并且將這些模型擴展到大型數(shù)據(jù)集的難度有所增加。

新方法:標(biāo)簽信息 + 簡單模型

而這篇論文研究了結(jié)合更簡單的模型能夠達到怎樣的性能,并重點了解在圖學(xué)習(xí)特別是在直推式節(jié)點分類中,有哪些提高性能的機會。

研究者提出了一個簡單的 pipeline(參見圖 1),它包含 3 個主要部分:

  • 基礎(chǔ)預(yù)測(base prediction),使用忽略圖結(jié)構(gòu)(如 MLP 或線性模型)的節(jié)點特征完成;
  • 校正步驟,這一步將訓(xùn)練數(shù)據(jù)的不確定性傳播到整個圖上,以校正基礎(chǔ)預(yù)測;
  • 平滑圖預(yù)測結(jié)果。
  • 步驟 2 和 3 只是后處理步驟,它們使用經(jīng)典方法進行基于圖的半監(jiān)督學(xué)習(xí),即標(biāo)簽傳播。

    通過對這些經(jīng)典 idea 進行改進和新的部署,該研究在多個節(jié)點分類任務(wù)上實現(xiàn)了 SOTA 性能,超過大型 GNN 模型。在該框架中,圖結(jié)構(gòu)不用于學(xué)習(xí)參數(shù),而是用作后處理機制。這種簡單性使模型參數(shù)和訓(xùn)練時間減少了幾個數(shù)量級,并且可以輕松擴展到大型圖中。此外,該方法還可以與 SOTA GNN 結(jié)合,實現(xiàn)一定程度的性能提升。

    該方法性能提升的主要來源是直接使用標(biāo)簽進行預(yù)測。這并不是一個新想法,但很少用于 GNN。該研究發(fā)現(xiàn),即使是簡單的標(biāo)簽傳播(忽略特征)也能在許多基準測試中取得出色的效果。這為結(jié)合以下兩種預(yù)測能力來源提供了動力:一個來源于節(jié)點特征(忽略圖結(jié)構(gòu)),另一個來源于在預(yù)測中直接使用已知標(biāo)簽。

    具體而言,該方法首先使用一個基于節(jié)點特征的基礎(chǔ)預(yù)測器,它不依賴于任何圖學(xué)習(xí)。然后,執(zhí)行兩種類型的標(biāo)簽傳播 (LP):一種通過建模相關(guān)誤差來校正基礎(chǔ)預(yù)測;一種用來平滑最終預(yù)測。研究人員將這兩種方法的結(jié)合稱作 Correct and Smooth(C&S,參見圖 1)。LP 只是后處理步驟,該 pipeline 并非端到端訓(xùn)練。此外,圖只在后處理步驟中使用,在前處理步驟中用于增強特征,但不用于基礎(chǔ)預(yù)測。這使得該方法相比標(biāo)準 GNN 模型訓(xùn)練更快速,且具備可擴展性。

    該研究還利用兩種 LP 和節(jié)點特征的優(yōu)勢,將這些互補信號結(jié)合起來可以獲得優(yōu)秀的預(yù)測結(jié)果。

    實驗

    為了驗證該方法的有效性,研究者使用了 Arxiv、Products、Cora、Citeseer、Pubmed、Email、Rice31、US County 和 wikiCS 九個數(shù)據(jù)集。

    節(jié)點分類的初步結(jié)果

    下表 2 給出了相關(guān)實驗結(jié)果,研究者得出了以下幾點重要發(fā)現(xiàn)。首先,利用本文提出的 C&S 模型,LP 后處理步驟會帶來巨大增益(如在 Products 數(shù)據(jù)集上,MLP 的基礎(chǔ)預(yù)測準確率由 63% 提升至 84%);其次,具有 C&S 框架的 Plain Linear 模型的性能在很多情況下優(yōu)于 plain GCN,并且無可學(xué)習(xí)參數(shù)的方法 LP 的性能通常也媲美于 GCN。這些結(jié)果表明,通過簡單使用特征在圖中直接合并關(guān)聯(lián)往往是更好的做法;最后,C&S 模型變體在 Products、Cora、Email、Rice31 和 US County 等 5 個數(shù)據(jù)集上的性能通常顯著優(yōu)于 SOTA。在其他數(shù)據(jù)集上,表現(xiàn)最佳的 C&S 模型與 SOTA 性能之間沒有太大的差距。

    使用更多標(biāo)簽進一步提升性能

    下表 4 展示了相關(guān)結(jié)果,強調(diào)了兩點重要發(fā)現(xiàn)。其一,對于想要在很多數(shù)據(jù)集上實現(xiàn)良好性能的直推式節(jié)點分類實驗而言,實際上并不需要規(guī)模大且訓(xùn)練成本高的 GNN 模型;其二,結(jié)合傳統(tǒng)的標(biāo)簽傳播方法和簡單的基礎(chǔ)預(yù)測器能夠在這些任務(wù)上優(yōu)于圖神經(jīng)網(wǎng)絡(luò)。

    更快的訓(xùn)練速度,性能超過現(xiàn)有 GNN

    與 GNN 或其他 SOTA 解決方案相比,本文中的 C&S 模型需要的參數(shù)量往往要少得多。如下圖 2 所示,研究者繪制了 OGB-Products 數(shù)據(jù)集上參數(shù)與性能(準確率)的變化曲線圖。

    除了參數(shù)量變少之外,真正的增益之處在于訓(xùn)練速度更快了。由于研究者在基礎(chǔ)預(yù)測中沒有使用圖結(jié)構(gòu),與其他模型相比,C&S 模型在保持準確率相當(dāng)?shù)耐瑫r往往實現(xiàn)了訓(xùn)練速度的數(shù)量級提升。

    具體而言,與 OGB-Products 數(shù)據(jù)集上的 SOTA GNN 相比,具有線性基礎(chǔ)預(yù)測器的 C&S 框架表現(xiàn)出更高的準確率,并且訓(xùn)練時長減至 1/100,參數(shù)量降至 1/137。

    性能可視化

    為了更好地理解 C&S 模型的性能,研究者將 US County 數(shù)據(jù)集上的預(yù)測結(jié)果進行了可視化操作,具體如下圖 3 所示。正如預(yù)期的一樣,對于相鄰 county 提供相關(guān)信息的節(jié)點而言,殘差關(guān)聯(lián)往往會予以糾正。

    總結(jié)

    以上是生活随笔為你收集整理的在西瓜数据集上训练_训练时间和参数量百倍降低,直接使用标签进行预测,性能竟超GNN...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。