机器学习笔记:为什么要对数据进行归一化处理?
機(jī)器學(xué)習(xí)筆記:為什么要對(duì)數(shù)據(jù)進(jìn)行歸一化處理?
rocling
于 2019-06-22 17:03:39 發(fā)布
7090
?收藏 9
分類專欄: 人工智能 文章標(biāo)簽: 機(jī)器學(xué)習(xí) 歸一化
版權(quán)
人工智能
專欄收錄該內(nèi)容
130 篇文章8 訂閱
訂閱專欄
轉(zhuǎn)自:https://zhuanlan.zhihu.com/p/27627299
在喂給機(jī)器學(xué)習(xí)模型的數(shù)據(jù)中,對(duì)數(shù)據(jù)要進(jìn)行歸一化的處理。
為什么要進(jìn)行歸一化處理,下面從尋找最優(yōu)解這個(gè)角度給出自己的看法。
例子
假定為預(yù)測(cè)房?jī)r(jià)的例子,自變量為面積,房間數(shù)兩個(gè),因變量為房?jī)r(jià)。
那么可以得到的公式為:
其中代表房間數(shù),代表變量前面的系數(shù)。
其中代表面積,代表變量前面的系數(shù)。
首先我們祭出兩張圖代表數(shù)據(jù)是否均一化的最優(yōu)解尋解過程。
未歸一化:
歸一化之后
為什么會(huì)出現(xiàn)上述兩個(gè)圖,并且它們分別代表什么意思。
我們?cè)趯ふ易顑?yōu)解的過程也就是在使得損失函數(shù)值最小的theta1,theta2。
上述兩幅圖代碼的是損失函數(shù)的等高線。
我們很容易看出,當(dāng)數(shù)據(jù)沒有歸一化的時(shí)候,面積數(shù)的范圍可以從0~1000,房間數(shù)的范圍一般為0~10,可以看出面積數(shù)的取值范圍遠(yuǎn)大于房間數(shù)。
影響
這樣造成的影響就是在畫損失函數(shù)的時(shí)候,
數(shù)據(jù)沒有歸一化的表達(dá)式,可以為:
造成圖像的等高線為類似橢圓形狀,最優(yōu)解的尋優(yōu)過程就是像下圖所示:
而數(shù)據(jù)歸一化之后,損失函數(shù)的表達(dá)式可以表示為:
其中變量的前面系數(shù)幾乎一樣,則圖像的等高線為類似圓形形狀,最優(yōu)解的尋優(yōu)過程像下圖所示:
從上可以看出,數(shù)據(jù)歸一化后,最優(yōu)解的尋優(yōu)過程明顯會(huì)變得平緩,更容易正確的收斂到最優(yōu)解。
這也是數(shù)據(jù)為什么要?dú)w一化的一個(gè)原因。
————————————————
版權(quán)聲明:本文為CSDN博主「rocling」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/rocling/article/details/93339564
總結(jié)
以上是生活随笔為你收集整理的机器学习笔记:为什么要对数据进行归一化处理?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python实现双向最大匹配法
- 下一篇: 单防区扩展模块怎么用_Zens推出模块化