相较神经网络,大名鼎鼎的傅里叶变换,为何没有一统函数逼近器?
?作者?|?杜偉、陳萍
來源?|?機器之心
其實,針對不同類型的任務,我們可以有選擇性地使用傅里葉變換或神經網絡。
函數逼近(function approximation)是函數論的一個重要組成部分,涉及的基本問題是函數的近似表示問題。函數逼近的需求出現在很多應用數學的分支學科中,尤其是計算機科學。具體而言,函數逼近問題要求我們在定義明確的類中選擇一個能夠以特定于任務的方式匹配(或逼近)目標函數的函數。
目前,領域內可以實現函數逼近的方式有很多,比如傅里葉變換以及近年來新興的神經網絡。這些函數逼近器在實現過程中采用的方法各有不同,效果也各有差異。
近日,reddit 上的一個熱議帖子「對傅里葉變換和神經網絡作為函數逼近器進行了比較」。
發帖者認為,這是一個基礎性問題。ta 提出了疑問,「如果神經網絡的主要前提是全局函數逼近器,那么與傅里葉變換等其它也被證明能逼近任何函數的逼近器相比有哪些優勢?為什么整個監督學習沒有變成計算傅里葉系數的領域之一?」
原貼地址:https://www.reddit.com/r/MachineLearning/comments/ryw53x/d_fourier_transform_vs_nns_as_function/
網友紛紛對以上問題給出了他們的解讀。
傅里葉變換、神經網絡,應按需使用
在網友眾多的回答中,一位網友的回答可謂是高贊,收獲 208 點贊量。ta 的回答是這樣的:
高贊回答部分截圖
大多數研究都證明了這一點,即傅里葉級數是連續函數的通用逼近器。(快速)傅里葉變換(FFT)可用于從均勻間隔的數據中快速計算傅里葉級數,盡管也存在非均勻 FFT。FFT 具有以下特性:如果模型足夠平滑,它們會得到光譜收斂,這意味著誤差呈指數遞減(你可以通過系數的赫爾德條件看到這一點)。雖然傅里葉級數需要周期性,但對其模型的擴展包括切比雪夫變換 / 切比雪夫多項式,它們具有相似的光譜收斂性,但在 [-1,1] 上,它們是非周期函數。
神經網絡收斂速度達不到指數級,甚至在最優的情況下,也很少達到線性收斂速度,那么為什么很多研究都使用神經網絡方法呢?首先,我們以計算科學來說,很多研究都使用擬譜法、譜元素等。甚至多項式也是大量函數的通用逼近器(參考魏爾施特拉斯逼近定理)。
我們回到剛才的問題,為什么是神經網絡?答案是因為所有這些通用逼近器都是一維的(也有一些專門為低維設計的逼近器,例如球諧函數,但它們適用于非常特殊的情況)。你可以通過張量積將一維通用逼近器變為多維,但是如果將其寫出來,你會看到會發生以下現象,一維通用逼近器:
a0 + a1*sin(x) + b1*cos(x) + a2*sin(2x) + b2*cos(2x) + ...二維通用逼近器,其形式如下:
a0 + a1*sin(x) + b1*cos(x) + c1*sin(y) + d1*cos(y) + a2*sin(2x) + b2*cos(2x) + c2*sin(2y) + d2*cos(2y) + e2*sin(x)*cos(y) + ...通過對上述公式進行研究發現,當進入更高維度時,必須為更高階項的每個組合添加新的項。組合以階乘或近似指數的方式增長。例如一個表達形式有 161,700 個項,這也僅表示 100 維輸入擴展的三階交叉項。使用這種近似器永遠不會完全表示具有數千個像素的大圖像。
這種相對于輸入大小呈現指數增長的方式就是所謂的維度災難。神經網絡的經驗證明了多項式成本增長與輸入大小的關系,這就是為什么神經網絡被用于這些大數據問題的原因。
但這是否意味著傅里葉級數可以更好地解決足夠小、足夠平滑的問題?確實如此!這就是為什么基于物理的神經網絡和傅里葉神經算子在 3 維情況下無法與優秀的 PDE 求解器競爭。事實上,在論文《Universal Differential Equations for Scientific Machine Learning》中,該研究展示了如何以特定方式將 CNN + 通用逼近器混合到 ODE(通用微分方程)中,以自動發現 PDE 離散化,論文表明,對于特定情況,傅里葉通用逼近器比神經網絡效果更好。出于這個原因,DiffEqFlux.jl 包括經典基礎層和張量積工具,也就是說,它們必須在正確的上下文中使用。請記住,譜收斂要求被逼近的函數是平滑的,當違反這一點時,你仍然可以獲得收斂,但速度很慢。
神經網絡是一種工具,傅里葉級數是一種工具,切比雪夫系列也是一種工具。當它們以符合其理論特性的方式使用時,你可以提高性能。?
補充一點關于吉布斯現象。如果假設一個函數是平滑的,那么每個點都會影響域中的其他任何地方。你可以通過查看泰勒級數的收斂性來考慮這一點,隨著獲得越來越多的導數正確,近似值越來越接近原始函數。當假設無限多的導數時,每條數據的影響實際上是全局的。當你有一個不連續性時,這不再是正確的,所以吉布斯現象是一種在這個假設被打破的點附近引入的畸變。這是一個非常高級的描述,但你可以將其引入光譜分析,因為它是誤差界限需要做出平滑假設的地方。
傅里葉變換輕松處理音頻信號,但面對高維數據效率低下
網友 @hillac 認為,傅里葉變換被認為是具有集合核的卷積神經網絡(CNN)。經過數據預訓練的傅里葉變換可以實現很好地逼近。當你觀察圖像上訓練的 CNN 的傾斜內核時,它們會讓人聯想到傅里葉變換中發現的不同頻率的觸發函數。對于大多數應用來說,傅里葉變換的速度比 CNN 快,所以,如果數據易于處理,則可以使用傅里葉變換。
神經網絡可以被訓練用于更好地逼近任意數據,因為它不會像傅里葉變換那樣對數據攜帶的信息做出相同假設。因此,雖然傅里葉變換可以輕松地將音頻信號分解為信息高度密集的表示,但如果嘗試將它用于文本數據,則效果會很差。
另一位網友 @wavefield 表示,傅里葉變換不近似值。它是信息到傅里葉域的轉換,仍然包含原始信號中的所有信息,這也是為何能夠逆計算的原因。應該看到,某些神經網絡運算更容易在傅里葉域中學習。
這一觀點獲得了贊同。我們可以通過找到用于表示的頻率子集來將傅里葉變換轉換為近似值。如果使用損失函數(L1)的話,這可以高效地完成。
還有網友 @visualard 總結了傅里葉變換與 CNN 的其他特征。
傅里葉分析是在全局信號上計算的,而 CNN 的一個優點是它們可以檢測局部模式。有時將整個信號分解為多個部分,然后再對信號中的全局「thing」做出決策會更有意義。
有人更是指出,傅里葉變換對高維數據效率非常低下。對此,使用隨機傅里葉特征是一種解決方案,它類似于僅訓練最后一層的隨機單隱藏層神經網絡。
對于傅里葉變換和神經網絡作為函數逼近器的異同與優劣,各位讀者可在留言區給出自己的觀點。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的相较神经网络,大名鼎鼎的傅里叶变换,为何没有一统函数逼近器?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 科研实习 | 北京大学前沿中心王鹤老师具
- 下一篇: 不限量套餐将取消 难道是为5G套餐作准