深度学习可以与大数据分手吗?
小夕:hi,路人~你知道機(jī)器學(xué)習(xí)中數(shù)據(jù)的維度太高會帶來什么問題嗎?
路人己:此時,如果樣本量不足,會容易過擬合啊~
小夕:為什么呢?
路人己:這還有為什么?
小夕:( ̄? ̄)
…
路人己:不對啊,你的標(biāo)題不是深度學(xué)習(xí)與大數(shù)據(jù)嗎?怎么問起這個來了?
小夕:不要急哦,在小夕帶你深度解析“為什么高維數(shù)據(jù)會帶來災(zāi)難?”后,一切將迎刃而解啦。
對于一些已經(jīng)實踐過機(jī)器學(xué)習(xí)算法的同學(xué),一般都會知道上面路人己的說法。但是有沒有同學(xué)去探究過這個現(xiàn)象背后的原因呢?也就是說,為什么訓(xùn)練樣本(數(shù)據(jù))的維度太高的情況下,會導(dǎo)致很難訓(xùn)練出滿意的機(jī)器學(xué)習(xí)模型呢?
?
簡潔來說,兩大原因:Bellman的維數(shù)災(zāi)難和Hadamard的不適定問題。
Bellman的維數(shù)災(zāi)難
我們知道,從概率統(tǒng)計的觀點來看,數(shù)據(jù)的每個特征都可以認(rèn)為是一個服從某種分布的隨機(jī)變量。(因此一個具有m個樣本、每個樣本有n維的數(shù)據(jù)集就可以認(rèn)為是一個n維隨機(jī)變量的m個采樣點)
?
基于上述理解,小夕以該n維隨機(jī)變量服從高斯分布為例進(jìn)行講解。(高斯分布就是正態(tài)分布)
?
高中時,我們接觸的高斯分布的形狀一般是這樣的(偷了個懶,從《模式分類》上找了個圖:
?
?這是兩個一維高斯分布的情況(請自行刪去一個...),可以看到,大部分?jǐn)?shù)據(jù)都集中在某點的兩側(cè)(該點即該隨機(jī)變量的期望μ,99.7%的數(shù)據(jù)集中在(μ-3σ, μ+3σ)的范圍內(nèi))
?
容易想象到,二維的時候是這樣的(兩個二維高斯分布):
??
也就是立體的看,是座尖峰。如果投影到二維平面上,也就是從上往下看的話,是一個圓(上圖的底部已畫出)。可以看到,大部分?jǐn)?shù)據(jù)都集中在圓心的不遠(yuǎn)處。
?
而三維呢?可以想象到,比圓升高一維,那就是球啦。
?
?大部分?jǐn)?shù)據(jù)依然很集中!集中在球心不遠(yuǎn)處。
?
四維呢?甚至五維呢?看二維和三維的情況,到了四、五維的時候也應(yīng)該是一個圓圓的、球球的東西,這個東西被稱為“超球”。(同樣的道理,直線->平面->超平面;二次曲線(雙曲線)->二次曲面->超二次曲面)
?
如果100維呢?依然是這樣嗎???出!問!題!了!
?
當(dāng)維數(shù)足夠高時,會產(chǎn)生空空間現(xiàn)象(empty space phenomenon),即高維空間的本質(zhì)是稀疏空間。
?
因此,當(dāng)維數(shù)顯著增加時,樣本集的分布會越來越多的向高斯函數(shù)的邊界(也就是3σ以外)移動!而不再是集中在中間了!換句話說,對于高維的樣本集,大部分?jǐn)?shù)據(jù)將分布在超球的外殼,而不是超球的球心!
?
顯然,這就導(dǎo)致高維情況下,我們的機(jī)器學(xué)習(xí)模型很難去描述該空間的“形狀”和“各個點的密度”(本來在低維情況下通過期望μ和標(biāo)準(zhǔn)差σ很好描述的高密度區(qū)域,到了高維情況卻可能完全沒有了樣本!而本來密度很低的遼闊區(qū)域卻散布著樣本集的大部分!你讓我如何去描述嘛!沒有描述就沒法分類和識別啊喂)
?
所以,還抱有一絲幻想的話,就要大量增加數(shù)據(jù)樣本!才有可能去描述如此空虛的空間!以怎樣的速率增加呢?以指數(shù)數(shù)量級!但是,僅僅是大量增加樣本就可以嗎?問題真的如此簡單?
?
還有更加嚴(yán)重的災(zāi)難!
?
Hadamard的不適定問題
這部分講解會用到一點點泛函分析中的知識。泛函分析可以簡單理解為在無限維空間上,研究函數(shù)的函數(shù)的數(shù)學(xué)學(xué)科。但是沒有學(xué)過的同學(xué)也不用擔(dān)心,下面小夕會將其強(qiáng)扯到我們熟悉的機(jī)器學(xué)習(xí)問題上。
?
Hadamard提出在某些情況下,求解線性算子方程Af=F,f∈F的問題(接地氣的類比:這里的A可以認(rèn)為是手頭的樣本集,F可以認(rèn)為是我們要擬合的自然模型,也就是數(shù)據(jù)的真實分布模型,而f可以認(rèn)為是我們要根據(jù)樣本集來訓(xùn)練的機(jī)器學(xué)習(xí)模型),即使方程存在唯一解,如果方程右邊有一個微小變動,也會導(dǎo)致解有很大的變化!即導(dǎo)致不適定問題。而我們根據(jù)高維數(shù)據(jù)集來估計機(jī)器學(xué)習(xí)模型的場景正符合這個場景!也就是會產(chǎn)生不適定問題!
?
這意味著什么呢?意味著如果我們手頭的樣本集的規(guī)模并沒有大到可以描述自然模型,也就是并沒有滿足大數(shù)據(jù)的定義(精確的定義見這篇文章),那么,哪怕我們的數(shù)據(jù)集只是跟自然模型差一點點了,就差一點點就可以完全描述自然模型了,那!也!不!行!這將導(dǎo)致解有很大的變化!也就是將導(dǎo)致我們訓(xùn)練出的機(jī)器學(xué)習(xí)模型f將會有很大的變化!或者說有很大的誤差!也就是說訓(xùn)練出的模型對于未知數(shù)據(jù)的表現(xiàn)會很差勁!即攻城獅口中的過擬合了!
結(jié)論
高維情況下,Bellman維數(shù)災(zāi)難中提到的空空間問題使得高維空間非常難以描述,哪怕使用非常多的樣本勉強(qiáng)描述了,Hadamard提到的不適定問題依然將導(dǎo)致高維數(shù)據(jù)訓(xùn)練出的機(jī)器學(xué)習(xí)模型效果很差(即泛化能力很弱),出現(xiàn)所謂的過擬合。
?
所以在高維情形下的唯一解是?
?
嚴(yán)格意義上的大數(shù)據(jù)。(注意不是媒體口中的假大數(shù)據(jù),嚴(yán)格意義上的大數(shù)據(jù),其規(guī)模和復(fù)雜度必須達(dá)到可以描述自然模型的程度)
所以
深度學(xué)習(xí)意味著什么呢?意味著作為機(jī)器學(xué)習(xí)模型的神經(jīng)網(wǎng)絡(luò)很深很復(fù)雜。
神經(jīng)網(wǎng)絡(luò)很深很復(fù)雜意味著什么呢?意味著要訓(xùn)練的參數(shù)很多。
參數(shù)很多意味著什么呢?意味著數(shù)據(jù)的維度很高。
維度很高意味著什么呢?意味著本文所講的結(jié)論。
?
參考文獻(xiàn):
畢華, 梁洪力, 王玨. 重采樣方法與機(jī)器學(xué)習(xí)[J]. 計算機(jī)學(xué)報, 2009,32(5): 862-877.
Duda R O,?杜達(dá), Hart P E, et al.?模式分類[M].?機(jī)械工業(yè)出版社, 2003.
Bellman R. Adaptive control processes: a guided tour[J]. 1961.
總結(jié)
以上是生活随笔為你收集整理的深度学习可以与大数据分手吗?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最全BAT前端开发面试80题:算法+ht
- 下一篇: 自然场景人脸检测技术实践