日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习可以与大数据分手吗?

發(fā)布時間:2024/7/5 pytorch 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度学习可以与大数据分手吗? 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

小夕:hi,路人~你知道機(jī)器學(xué)習(xí)中數(shù)據(jù)的維度太高會帶來什么問題嗎?

路人己:此時,如果樣本量不足,會容易過擬合啊~

小夕:為什么呢?

路人己:這還有為什么?

小夕:( ̄? ̄)



路人己:不對啊,你的標(biāo)題不是深度學(xué)習(xí)與大數(shù)據(jù)嗎?怎么問起這個來了?

小夕:不要急哦,在小夕帶你深度解析“為什么高維數(shù)據(jù)會帶來災(zāi)難?”后,一切將迎刃而解啦。

對于一些已經(jīng)實踐過機(jī)器學(xué)習(xí)算法的同學(xué),一般都會知道上面路人己的說法。但是有沒有同學(xué)去探究過這個現(xiàn)象背后的原因呢?也就是說,為什么訓(xùn)練樣本(數(shù)據(jù))的維度太高的情況下,會導(dǎo)致很難訓(xùn)練出滿意的機(jī)器學(xué)習(xí)模型呢?

?

簡潔來說,兩大原因:Bellman的維數(shù)災(zāi)難和Hadamard的不適定問題。

Bellman的維數(shù)災(zāi)難

我們知道,從概率統(tǒng)計的觀點來看,數(shù)據(jù)的每個特征都可以認(rèn)為是一個服從某種分布的隨機(jī)變量。(因此一個具有m個樣本、每個樣本有n維的數(shù)據(jù)集就可以認(rèn)為是一個n維隨機(jī)變量的m個采樣點)

?

基于上述理解,小夕以該n維隨機(jī)變量服從高斯分布為例進(jìn)行講解。(高斯分布就是正態(tài)分布)

?

高中時,我們接觸的高斯分布的形狀一般是這樣的(偷了個懶,從《模式分類》上找了個圖:

?

?這是兩個一維高斯分布的情況(請自行刪去一個...),可以看到,大部分?jǐn)?shù)據(jù)都集中在某點的兩側(cè)(該點即該隨機(jī)變量的期望μ,99.7%的數(shù)據(jù)集中在(μ-3σ, μ+3σ)的范圍內(nèi))

?

容易想象到,二維的時候是這樣的(兩個二維高斯分布):

??

也就是立體的看,是座尖峰。如果投影到二維平面上,也就是從上往下看的話,是一個圓(上圖的底部已畫出)。可以看到,大部分?jǐn)?shù)據(jù)都集中在圓心的不遠(yuǎn)處。

?

而三維呢?可以想象到,比圓升高一維,那就是球啦。

?

?大部分?jǐn)?shù)據(jù)依然很集中!集中在球心不遠(yuǎn)處。

?

四維呢?甚至五維呢?看二維和三維的情況,到了四、五維的時候也應(yīng)該是一個圓圓的、球球的東西,這個東西被稱為“超球”。(同樣的道理,直線->平面->超平面;二次曲線(雙曲線)->二次曲面->超二次曲面)

?

如果100維呢?依然是這樣嗎???出!問!題!了!

?

當(dāng)維數(shù)足夠高時,會產(chǎn)生空空間現(xiàn)象(empty space phenomenon),即高維空間的本質(zhì)是稀疏空間。

?

因此,當(dāng)維數(shù)顯著增加時,樣本集的分布會越來越多的向高斯函數(shù)的邊界(也就是3σ以外)移動!而不再是集中在中間了!換句話說,對于高維的樣本集,大部分?jǐn)?shù)據(jù)將分布在超球的外殼,而不是超球的球心!

?

顯然,這就導(dǎo)致高維情況下,我們的機(jī)器學(xué)習(xí)模型很難去描述該空間的“形狀”和“各個點的密度”(本來在低維情況下通過期望μ和標(biāo)準(zhǔn)差σ很好描述的高密度區(qū)域,到了高維情況卻可能完全沒有了樣本!而本來密度很低的遼闊區(qū)域卻散布著樣本集的大部分!你讓我如何去描述嘛!沒有描述就沒法分類和識別啊喂)

?

所以,還抱有一絲幻想的話,就要大量增加數(shù)據(jù)樣本!才有可能去描述如此空虛的空間!以怎樣的速率增加呢?以指數(shù)數(shù)量級!但是,僅僅是大量增加樣本就可以嗎?問題真的如此簡單?

?

還有更加嚴(yán)重的災(zāi)難!

?

Hadamard的不適定問題

這部分講解會用到一點點泛函分析中的知識。泛函分析可以簡單理解為在無限維空間上,研究函數(shù)的函數(shù)的數(shù)學(xué)學(xué)科。但是沒有學(xué)過的同學(xué)也不用擔(dān)心,下面小夕會將其強(qiáng)扯到我們熟悉的機(jī)器學(xué)習(xí)問題上。

?

Hadamard提出在某些情況下,求解線性算子方程Af=F,f∈F的問題(接地氣的類比:這里的A可以認(rèn)為是手頭的樣本集,F可以認(rèn)為是我們要擬合的自然模型,也就是數(shù)據(jù)的真實分布模型,而f可以認(rèn)為是我們要根據(jù)樣本集來訓(xùn)練的機(jī)器學(xué)習(xí)模型),即使方程存在唯一解,如果方程右邊有一個微小變動,也會導(dǎo)致解有很大的變化!即導(dǎo)致不適定問題。而我們根據(jù)高維數(shù)據(jù)集來估計機(jī)器學(xué)習(xí)模型的場景正符合這個場景!也就是會產(chǎn)生不適定問題!

?

這意味著什么呢?意味著如果我們手頭的樣本集的規(guī)模并沒有大到可以描述自然模型,也就是并沒有滿足大數(shù)據(jù)的定義(精確的定義見這篇文章),那么,哪怕我們的數(shù)據(jù)集只是跟自然模型差一點點了,就差一點點就可以完全描述自然模型了,那!也!不!行!這將導(dǎo)致解有很大的變化!也就是將導(dǎo)致我們訓(xùn)練出的機(jī)器學(xué)習(xí)模型f將會有很大的變化!或者說有很大的誤差!也就是說訓(xùn)練出的模型對于未知數(shù)據(jù)的表現(xiàn)會很差勁!即攻城獅口中的過擬合了!

結(jié)論

高維情況下,Bellman維數(shù)災(zāi)難中提到的空空間問題使得高維空間非常難以描述,哪怕使用非常多的樣本勉強(qiáng)描述了,Hadamard提到的不適定問題依然將導(dǎo)致高維數(shù)據(jù)訓(xùn)練出的機(jī)器學(xué)習(xí)模型效果很差(即泛化能力很弱),出現(xiàn)所謂的過擬合。

?

所以在高維情形下的唯一解是?

?

嚴(yán)格意義上的大數(shù)據(jù)。(注意不是媒體口中的假大數(shù)據(jù),嚴(yán)格意義上的大數(shù)據(jù),其規(guī)模和復(fù)雜度必須達(dá)到可以描述自然模型的程度)

所以

深度學(xué)習(xí)意味著什么呢?意味著作為機(jī)器學(xué)習(xí)模型的神經(jīng)網(wǎng)絡(luò)很深很復(fù)雜。

神經(jīng)網(wǎng)絡(luò)很深很復(fù)雜意味著什么呢?意味著要訓(xùn)練的參數(shù)很多。

參數(shù)很多意味著什么呢?意味著數(shù)據(jù)的維度很高。

維度很高意味著什么呢?意味著本文所講的結(jié)論。

?

參考文獻(xiàn):

畢華, 梁洪力, 王玨. 重采樣方法與機(jī)器學(xué)習(xí)[J]. 計算機(jī)學(xué)報, 2009,32(5): 862-877.

Duda R O,?杜達(dá), Hart P E, et al.?模式分類[M].?機(jī)械工業(yè)出版社, 2003.

Bellman R. Adaptive control processes: a guided tour[J]. 1961.

總結(jié)

以上是生活随笔為你收集整理的深度学习可以与大数据分手吗?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。