當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习可以与大数据分手吗？

發(fā)布時間：2024/7/5 pytorch 36 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习可以与大数据分手吗？小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

小夕：hi，路人~你知道機(jī)器學(xué)習(xí)中數(shù)據(jù)的維度太高會帶來什么問題嗎？

路人己：此時，如果樣本量不足，會容易過擬合啊~

小夕：為什么呢？

路人己：這還有為什么？

小夕：(￣?￣)

…

路人己：不對啊，你的標(biāo)題不是深度學(xué)習(xí)與大數(shù)據(jù)嗎？怎么問起這個來了？

小夕：不要急哦，在小夕帶你深度解析“為什么高維數(shù)據(jù)會帶來災(zāi)難？”后，一切將迎刃而解啦。

對于一些已經(jīng)實踐過機(jī)器學(xué)習(xí)算法的同學(xué)，一般都會知道上面路人己的說法。但是有沒有同學(xué)去探究過這個現(xiàn)象背后的原因呢？也就是說，為什么訓(xùn)練樣本(數(shù)據(jù))的維度太高的情況下，會導(dǎo)致很難訓(xùn)練出滿意的機(jī)器學(xué)習(xí)模型呢？

簡潔來說，兩大原因：Bellman的維數(shù)災(zāi)難和Hadamard的不適定問題。

Bellman的維數(shù)災(zāi)難

我們知道，從概率統(tǒng)計的觀點來看，數(shù)據(jù)的每個特征都可以認(rèn)為是一個服從某種分布的隨機(jī)變量。（因此一個具有m個樣本、每個樣本有n維的數(shù)據(jù)集就可以認(rèn)為是一個n維隨機(jī)變量的m個采樣點）

基于上述理解，小夕以該n維隨機(jī)變量服從高斯分布為例進(jìn)行講解。(高斯分布就是正態(tài)分布)

高中時，我們接觸的高斯分布的形狀一般是這樣的（偷了個懶，從《模式分類》上找了個圖：

?這是兩個一維高斯分布的情況（請自行刪去一個...），可以看到，大部分?jǐn)?shù)據(jù)都集中在某點的兩側(cè)（該點即該隨機(jī)變量的期望μ，99.7%的數(shù)據(jù)集中在(μ-3σ, μ+3σ)的范圍內(nèi)）

容易想象到，二維的時候是這樣的（兩個二維高斯分布）：

也就是立體的看，是座尖峰。如果投影到二維平面上，也就是從上往下看的話，是一個圓（上圖的底部已畫出）。可以看到，大部分?jǐn)?shù)據(jù)都集中在圓心的不遠(yuǎn)處。

而三維呢？可以想象到，比圓升高一維，那就是球啦。

?大部分?jǐn)?shù)據(jù)依然很集中！集中在球心不遠(yuǎn)處。

四維呢？甚至五維呢？看二維和三維的情況，到了四、五維的時候也應(yīng)該是一個圓圓的、球球的東西，這個東西被稱為“超球”。（同樣的道理，直線->平面->超平面；二次曲線（雙曲線）->二次曲面->超二次曲面）

如果100維呢？依然是這樣嗎？？？出！問！題！了！

當(dāng)維數(shù)足夠高時，會產(chǎn)生空空間現(xiàn)象(empty space phenomenon)，即高維空間的本質(zhì)是稀疏空間。

因此，當(dāng)維數(shù)顯著增加時，樣本集的分布會越來越多的向高斯函數(shù)的邊界（也就是3σ以外）移動！而不再是集中在中間了！換句話說，對于高維的樣本集，大部分?jǐn)?shù)據(jù)將分布在超球的外殼，而不是超球的球心！

顯然，這就導(dǎo)致高維情況下，我們的機(jī)器學(xué)習(xí)模型很難去描述該空間的“形狀”和“各個點的密度”（本來在低維情況下通過期望μ和標(biāo)準(zhǔn)差σ很好描述的高密度區(qū)域，到了高維情況卻可能完全沒有了樣本！而本來密度很低的遼闊區(qū)域卻散布著樣本集的大部分！你讓我如何去描述嘛！沒有描述就沒法分類和識別啊喂）

所以，還抱有一絲幻想的話，就要大量增加數(shù)據(jù)樣本！才有可能去描述如此空虛的空間！以怎樣的速率增加呢？以指數(shù)數(shù)量級！但是，僅僅是大量增加樣本就可以嗎？問題真的如此簡單？

還有更加嚴(yán)重的災(zāi)難!

Hadamard的不適定問題

這部分講解會用到一點點泛函分析中的知識。泛函分析可以簡單理解為在無限維空間上，研究函數(shù)的函數(shù)的數(shù)學(xué)學(xué)科。但是沒有學(xué)過的同學(xué)也不用擔(dān)心，下面小夕會將其強(qiáng)扯到我們熟悉的機(jī)器學(xué)習(xí)問題上。

Hadamard提出在某些情況下，求解線性算子方程Af=F，f∈F的問題（接地氣的類比：這里的A可以認(rèn)為是手頭的樣本集，F可以認(rèn)為是我們要擬合的自然模型，也就是數(shù)據(jù)的真實分布模型，而f可以認(rèn)為是我們要根據(jù)樣本集來訓(xùn)練的機(jī)器學(xué)習(xí)模型），即使方程存在唯一解，如果方程右邊有一個微小變動，也會導(dǎo)致解有很大的變化！即導(dǎo)致不適定問題。而我們根據(jù)高維數(shù)據(jù)集來估計機(jī)器學(xué)習(xí)模型的場景正符合這個場景！也就是會產(chǎn)生不適定問題！

這意味著什么呢？意味著如果我們手頭的樣本集的規(guī)模并沒有大到可以描述自然模型，也就是并沒有滿足大數(shù)據(jù)的定義（精確的定義見這篇文章），那么，哪怕我們的數(shù)據(jù)集只是跟自然模型差一點點了，就差一點點就可以完全描述自然模型了，那！也！不！行！這將導(dǎo)致解有很大的變化！也就是將導(dǎo)致我們訓(xùn)練出的機(jī)器學(xué)習(xí)模型f將會有很大的變化！或者說有很大的誤差！也就是說訓(xùn)練出的模型對于未知數(shù)據(jù)的表現(xiàn)會很差勁！即攻城獅口中的過擬合了！

結(jié)論

高維情況下，Bellman維數(shù)災(zāi)難中提到的空空間問題使得高維空間非常難以描述，哪怕使用非常多的樣本勉強(qiáng)描述了，Hadamard提到的不適定問題依然將導(dǎo)致高維數(shù)據(jù)訓(xùn)練出的機(jī)器學(xué)習(xí)模型效果很差（即泛化能力很弱），出現(xiàn)所謂的過擬合。

所以在高維情形下的唯一解是？

嚴(yán)格意義上的大數(shù)據(jù)。（注意不是媒體口中的假大數(shù)據(jù)，嚴(yán)格意義上的大數(shù)據(jù)，其規(guī)模和復(fù)雜度必須達(dá)到可以描述自然模型的程度）

所以

深度學(xué)習(xí)意味著什么呢？意味著作為機(jī)器學(xué)習(xí)模型的神經(jīng)網(wǎng)絡(luò)很深很復(fù)雜。

神經(jīng)網(wǎng)絡(luò)很深很復(fù)雜意味著什么呢？意味著要訓(xùn)練的參數(shù)很多。

參數(shù)很多意味著什么呢？意味著數(shù)據(jù)的維度很高。

維度很高意味著什么呢？意味著本文所講的結(jié)論。

參考文獻(xiàn)：

畢華, 梁洪力, 王玨. 重采樣方法與機(jī)器學(xué)習(xí)[J]. 計算機(jī)學(xué)報, 2009,32(5): 862-877.

Duda R O,?杜達(dá), Hart P E, et al.?模式分類[M].?機(jī)械工業(yè)出版社, 2003.

Bellman R. Adaptive control processes: a guided tour[J]. 1961.

總結(jié)

以上是生活随笔為你收集整理的深度学习可以与大数据分手吗？的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：最全BAT前端开发面试80题：算法+ht
下一篇：自然场景人脸检测技术实践