日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICLR最高分论文揭秘模型泛化,GNN是潜力股

發布時間:2024/7/5 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ICLR最高分论文揭秘模型泛化,GNN是潜力股 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | Jerry Qiu
編 | 小軼

我們都知道,人類在很多任務上都可以很好地完成“外推”,例如:

啊不——我是說——例如,我們學會兩位數的加減乘除后,就可以輕松將其推廣至任意大整數的四則運算:

從數學的角度來講,外推其實是與內插并列的一個概念。想必大家對多項式插值、樣條插值等插值方法不陌生。通過已知的、離散的數據點,在范圍內推求新數據點,即稱為內插(Interpolation)。而如果我們在已知數據在范圍外推求新數據點,則是外推(Extrapolate)

在通用人工智能被廣泛討論的今天,我們不禁發問,神經網絡能像人類一樣完成外推嗎?即神經網絡在訓練分布的支撐集[1]之外,會如何表現?前輩們對于這一問題已經進行了一定的探究。然而令人困惑的是,他們對神經網絡的外推給出了截然不同的結論。

早期的工作表明,多層感知機(Multi-layer Perceptron,MLP)在學習簡單的多項式函數時不能很好地外推[2,3]。然而近期的?些工作則表明,在部分具有挑戰性的算法任務上(例如求解數學方程、預測物理系統的時間演化),圖神經網絡(Graph Neural Network,GNN)具有很好的泛化能力,能夠將訓練結果推廣至比訓練集更大的圖上[4,5,6]

多層感知機與圖神經網絡截然相反的表現引人深思:什么樣的網絡,在什么樣的條件下才會具有較強的外推能力呢?

今天給大家分享的這篇論文便研究了這一問題。該文在ICLR'21的review階段獲得了最高的平均得分。審稿人們紛紛贊其見解之深刻,在神經網絡外推能力的分析上邁出了重要的一步。

論文題目

How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks

論文鏈接:

https://arxiv.org/pdf/2009.11848.pdf

Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞 【1231】 下載論文PDF~

論文概述

為了解釋為何不同神經網絡的外推能力不盡相同,論文作者詳細探究了使用梯度下降訓練的神經網絡是如何外推的。直覺上來說,神經網絡在訓練分布之外的表現是任意的、不可預料的[7],但事實上,如果網絡用梯度下降算法進行訓練,則它的外推能力是有規律可循的

在我們評價神經網絡的外推能力前,我們需要先確定一個指標來衡量它。為此,論文作者定義了外推誤差這一概念。一個模型的外推誤差越小,則其外推能力越強。作者基于此討論了MLP和GNN的具備外推能力的條件。

外推誤差

在機器學習中,我們通常都希望在訓練集上學習一個函數,訓練目標是使滿足。注意,這里是訓練分布的支撐集,且只是的一個子集。

然而由于種種因素的限制,神經網絡一般難以學到完美符合要求的函數,而只能得出一個與存在差距的函數,從而我們定義外推誤差如下:

不難看出,外推誤差就是函數在訓練分布支撐集之外的誤差上界

MLP

多層感知機是結構最簡單的神經網絡,也是眾多復雜網絡架構(例如GNN)的組成部分。

收斂至線性

作者發現,使用ReLU激活函數、過參數化的MLP在訓練分布外,總是沿著從原點出發的各個方向都收斂為線性函數,如下圖所示。

圖中灰色部分是MLP需要學習的非線性函數,藍色部分是MLP在訓練分布內學得的結果,黑色部分是MLP在訓練分布外的表現

作者也從理論上給出了雙層ReLU MLP收斂速率的證明,發現這種收斂常常出現在靠近訓練數據的位置,這表明ReLU MLPs在大多數非線性任務上的外推能力都較弱

MLPs外推誤差小的條件

同時作者也發現,當目標函數為線性函數時,MLPs的外推表現較好。然而MLPs能否成功地進行外推,還取決于訓練數據的幾何形狀。如果訓練分布的支撐集包括了各個方向(例如包含原點的超立方體),則MLPs的外推誤差較小。這一條件聽起來可能無法理解,不妨一睹作者給出的數學定義:

Suppose the target function is for some . Suppose the training data is sampled from a distribution whose support contains subset , where for any non-zero , there exists so that .

即MLPs 外推誤差小的條件是:訓練數據是從支撐集中采樣得到的,它包含一個子集,滿足:對于任意的維向量,存在正數使得屬于,我們不難發現,顯然這個需要包含原點。

作者給出了MLP學習線性目標函數的示例(灰色部分是MLP需要學習的線性函數,藍色部分是訓練分布,黑色部分是MLP在訓練分布外的表現):

由于圖上已經說得比較清楚,筆者嘗試換個角度給出說明:假定數據分布定義在一個矩形區域內(藍色部分),左一的原點在矩形區域內,此時訓練數據自然是包含從原點出發的各個方向的,可以看出這時MLP外推效果較好;左二的原點在矩形的邊上,那么從原點出發的紅色箭頭的反方向就沒有訓練數據,MLP外推開始出現了一些偏差;右二的原點在矩形的角上,MLP外推的偏差也較大;右一中,數據分布定義在一條經過原點的線上,使得訓練分布之外的部分有明顯的外推誤差。

GNN

圖神經網絡在多項非線性算法任務上表現出不錯的外推能力,例如圖算法、符號數學等。作者基于前文關于MLP的結論,繼續探究GNN的外推效果。

作者猜想,如果編碼適當的非線性至GNN的架構和輸入表示中,讓MLP組件僅學習線性函數,那么GNN就能在動態規劃任務中順利外推,獲得較小的外推誤差。

編碼非線性至架構

以最短路問題為例,著名的的Bellman-Ford算法中的更新式如下:

而使用最小值聚合(min-aggregation)的GNN架構的節點表示如下:

不難發現以上兩式十分相似。因此, 如果我們讓GNN中的MLP模塊學習線性函數,則GNN就可以模擬Bellman-Ford算法。由于我們已知MLP在線性任務上外推能力較強,因此使用最小值聚合的GNN也可以在這個最短路問題上具備較強的外推能力。

編碼非線性至輸入表示

對于某些任務,改變輸入表示,會更容易達到好的外推能力。在這種情況下,我們可以將目標函數分解嵌入(Embedding)和一個模型外推效果較好的目標函數,使得,就可以有助于外推。

作者在動態規劃中的多體問題上驗證了這一觀點(多體問題:預測多個物體在引力作用下隨時間的演化情況)。作者對輸入表示進行了轉換,使得MLP只需學習線性函數。與轉換前MLP需要學習非線性函數相比,平均絕對百分比誤差(Mean Average Percentage Error)大大下降。

總結

本論文是麻省理工CSAIL實驗室研究生Keyulu Xu繼ICLR 2020論文 What can Neural Networks Reason About? 之后的又一力作。論文兼具嚴謹的理論推導及有力的實驗驗證,甚至有一位審稿人直言40頁的附錄太長沒看。

作為一篇數理性較強的研究,它的行文也做到了較高的流暢性和易讀性。適逢GNN大紅大紫之時,作者高屋建瓴,對GNN的外推能力提出了新的觀點,對社區做出了可觀的貢獻,確實令人欽佩。

最后,愿大家都能在學術領域中勇闖無人之境!

Boldly go where no one has gone before. ——《Star Trek》

后臺回復關鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會

獲取ACL、CIKM等各大頂會論文集!

?

[1]Support (mathematics): https://en.wikipedia.org/wiki/Support_(mathematics)

[2]Barnard E, Wessels L F A. Extrapolation and interpolation in neural network classifiers[J]. IEEE Control Systems Magazine, 1992, 12(5): 50-53.

[3]Haley P J, Soloway D. Extrapolation limitations of multilayer feedforward neural networks[C]// IJCNN International Joint Conference on Neural Networks. IEEE, 1992, 4: 25-30.

[4]Battaglia P, Pascanu R, Lai M, et al. Interaction networks for learning about objects, relations and physics[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. 2016: 4509-4517.

[5]Veli?kovi? P, Ying R, Padovano M, et al. Neural Execution of Graph Algorithms[C]//International Conference on Learning Representations. 2019.

[6] Lample G, Charton F. Deep Learning For Symbolic Mathematics[C]//International Conference on Learning Representations. 2019.

[7]Zhang C, Bengio S, Hardt M, et al. Understanding deep learning requires rethinking generalization[J]. arXiv preprint arXiv:1611.03530, 2016.

總結

以上是生活随笔為你收集整理的ICLR最高分论文揭秘模型泛化,GNN是潜力股的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。