python array按行归一化_机器学习 第40集:特征不归一化有什么危害?特征归一化公式是什么?( 含有笔记、代码、注释 )...
特征不歸一化有什么危害?特征歸一化公式是什么?
① 例如,我用一個(gè)人身高(cm)與腳碼(尺碼)大小來作為特征值,類別為男性或者女性。我們現(xiàn)在如果有5個(gè)訓(xùn)練樣本,分布如下:
A [(179,42),男] B [(178,43),男] C [(165,36)女] D [(177,42),男] E [(160,35),女]
② 很容易看到第一維身高特征是第二維腳碼特征的4倍左右,那么在進(jìn)行距離度量的時(shí)候,我們就會(huì)偏向于第一維特征。
注:這樣造成倆個(gè)特征并不是等價(jià)重要的,最終可能會(huì)導(dǎo)致距離計(jì)算錯(cuò)誤,從而導(dǎo)致預(yù)測(cè)錯(cuò)誤。
注:例如,來了一個(gè)測(cè)試樣本 F(167,43),來預(yù)測(cè)他是男性還是女性,我們采取k=3來預(yù)測(cè)。
注:下面是用歐式距離分別算出F離訓(xùn)練樣本的歐式距離,選取最近的3個(gè),多數(shù)類別就是我們最終的結(jié)果,計(jì)算如下:
注:由計(jì)算可得,最近的前三個(gè)分別是C,D,E三個(gè)樣本,那么由C,E為女性,D為男性,女性多于男性得到我們要預(yù)測(cè)的結(jié)果為女性。
注:這樣問題就來了,一個(gè)女性的腳43碼的可能性,遠(yuǎn)遠(yuǎn)小于男性腳43碼的可能性。
注:算法會(huì)預(yù)測(cè) F 為女性是因?yàn)橛捎诟鱾€(gè)特征量綱的不同,在這里導(dǎo)致了身高的重要性已經(jīng)遠(yuǎn)遠(yuǎn)大于腳碼了,這是不客觀的。
注:我們應(yīng)該讓每個(gè)特征都是同等重要的,這也是我們要?dú)w一化的原因!
特征歸一化公式是什么?
① 特征歸一化公式如下:
Python基礎(chǔ)積累(numpy)
numpy創(chuàng)建矩陣
import運(yùn)行結(jié)果:
[ 2 23 4]
int32
運(yùn)行結(jié)果:
[[2 3 4]
[3 4 5]]
注:生成2行3列的矩陣。
a運(yùn)行結(jié)果:
[[0. 0. 0. 0.]
[0. 0. 0. 0.]
[0. 0. 0. 0.]]
注:生成3行4列的全零矩陣。
a運(yùn)行結(jié)果:
[[1 1 1 1]
[1 1 1 1]
[1 1 1 1]]
注:創(chuàng)建全一數(shù)據(jù),同時(shí)指定數(shù)據(jù)類型,http://np.int默認(rèn)為int32。
a運(yùn)行結(jié)果:
[[0. 0. 0. 0.]
[0. 0. 0. 0.]
[0. 0. 0. 0.]]
注:創(chuàng)建全空數(shù)組,其實(shí)每個(gè)值都是接近于零的數(shù)。
a運(yùn)行結(jié)果:
[10 12 14 16 18 20]
注:創(chuàng)建連續(xù)數(shù)組,數(shù)據(jù)為10-20之間,步長為2。
b運(yùn)行結(jié)果:
[[10 12 14]
[16 18 20]]
注:使用reshape改變上述數(shù)據(jù)的形狀。
a運(yùn)行結(jié)果:
[ 1. 1.47368421 1.94736842 2.42105263 2.89473684 3.36842105
3.84210526 4.31578947 4.78947368 5.26315789 5.73684211 6.21052632
6.68421053 7.15789474 7.63157895 8.10526316 8.57894737 9.05263158
9.52631579 10. ]
[[ 1. 1.47368421 1.94736842 2.42105263]
[ 2.89473684 3.36842105 3.84210526 4.31578947]
[ 4.78947368 5.26315789 5.73684211 6.21052632]
[ 6.68421053 7.15789474 7.63157895 8.10526316]
[ 8.57894737 9.05263158 9.52631579 10. ]]
注:linspace(1,10,20) 開始端1,結(jié)束端10,且分割成20個(gè)數(shù)據(jù),生成線性矩陣。
注:reshape使得線性矩陣改為五行四列的矩陣。
"?每天積累一點(diǎn)點(diǎn)?"
總結(jié)
以上是生活随笔為你收集整理的python array按行归一化_机器学习 第40集:特征不归一化有什么危害?特征归一化公式是什么?( 含有笔记、代码、注释 )...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SpaceX 猎鹰 9 号火箭将 O3b
- 下一篇: websocket python爬虫_p