當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习笔记：为什么要对数据进行归一化处理？

發(fā)布時(shí)間：2025/4/16 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习笔记：为什么要对数据进行归一化处理？小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

機(jī)器學(xué)習(xí)筆記：為什么要對(duì)數(shù)據(jù)進(jìn)行歸一化處理？

rocling

于 2019-06-22 17:03:39 發(fā)布

7090
?收藏 9
分類專欄：人工智能文章標(biāo)簽：機(jī)器學(xué)習(xí) 歸一化
版權(quán)

人工智能
專欄收錄該內(nèi)容
130 篇文章8 訂閱
訂閱專欄
轉(zhuǎn)自：https://zhuanlan.zhihu.com/p/27627299

在喂給機(jī)器學(xué)習(xí)模型的數(shù)據(jù)中，對(duì)數(shù)據(jù)要進(jìn)行歸一化的處理。

為什么要進(jìn)行歸一化處理，下面從尋找最優(yōu)解這個(gè)角度給出自己的看法。

例子
假定為預(yù)測(cè)房?jī)r(jià)的例子，自變量為面積，房間數(shù)兩個(gè)，因變量為房?jī)r(jià)。

那么可以得到的公式為：

其中代表房間數(shù)，代表變量前面的系數(shù)。

其中代表面積，代表變量前面的系數(shù)。

首先我們祭出兩張圖代表數(shù)據(jù)是否均一化的最優(yōu)解尋解過程。

未歸一化：

歸一化之后

為什么會(huì)出現(xiàn)上述兩個(gè)圖，并且它們分別代表什么意思。

我們?cè)趯ふ易顑?yōu)解的過程也就是在使得損失函數(shù)值最小的theta1,theta2。

上述兩幅圖代碼的是損失函數(shù)的等高線。

我們很容易看出，當(dāng)數(shù)據(jù)沒有歸一化的時(shí)候，面積數(shù)的范圍可以從0~1000，房間數(shù)的范圍一般為0~10，可以看出面積數(shù)的取值范圍遠(yuǎn)大于房間數(shù)。

影響
這樣造成的影響就是在畫損失函數(shù)的時(shí)候，

數(shù)據(jù)沒有歸一化的表達(dá)式，可以為：

造成圖像的等高線為類似橢圓形狀，最優(yōu)解的尋優(yōu)過程就是像下圖所示：

而數(shù)據(jù)歸一化之后，損失函數(shù)的表達(dá)式可以表示為：

其中變量的前面系數(shù)幾乎一樣，則圖像的等高線為類似圓形形狀，最優(yōu)解的尋優(yōu)過程像下圖所示：

從上可以看出，數(shù)據(jù)歸一化后，最優(yōu)解的尋優(yōu)過程明顯會(huì)變得平緩，更容易正確的收斂到最優(yōu)解。

這也是數(shù)據(jù)為什么要?dú)w一化的一個(gè)原因。
————————————————
版權(quán)聲明：本文為CSDN博主「rocling」的原創(chuàng)文章，遵循CC 4.0 BY-SA版權(quán)協(xié)議，轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接：https://blog.csdn.net/rocling/article/details/93339564

總結(jié)

以上是生活随笔為你收集整理的机器学习笔记：为什么要对数据进行归一化处理？的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： python实现双向最大匹配法
下一篇：单防区扩展模块怎么用_Zens推出模块化