日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

归一化处理方法

發(fā)布時(shí)間:2023/12/14 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 归一化处理方法 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)據(jù)歸一化問(wèn)題是數(shù)據(jù)挖掘中特征向量表達(dá)時(shí)的重要問(wèn)題,當(dāng)不同的特征成列在一起的時(shí)候,由于特征本身表達(dá)方式的原因而導(dǎo)致在絕對(duì)數(shù)值上的小數(shù)據(jù)被大數(shù)據(jù)“吃掉”的情況,這個(gè)時(shí)候我們需要做的就是對(duì)抽取出來(lái)的features vector進(jìn)行歸一化處理,以保證每個(gè)特征被分類器平等對(duì)待。下面我描述幾種常見(jiàn)的Normalization Method,并提供相應(yīng)的python實(shí)現(xiàn)(其實(shí)很簡(jiǎn)單):

1、(0,1)標(biāo)準(zhǔn)化:

這是最簡(jiǎn)單也是最容易想到的方法,通過(guò)遍歷feature vector里的每一個(gè)數(shù)據(jù),將Max和Min的記錄下來(lái),并通過(guò)Max-Min作為基數(shù)(即Min=0,Max=1)進(jìn)行數(shù)據(jù)的歸一化處理:

?

LaTex:{x}_{normalization}=\frac{x-Min}{Max-Min}

Python實(shí)現(xiàn):

def MaxMinNormalization(x,Max,Min):x = (x - Min) / (Max - Min);return x;

找大小的方法直接用np.max()和np.min()就行了,盡量不要用python內(nèi)建的max()和min(),除非你喜歡用List管理數(shù)字。

?

2、Z-score標(biāo)準(zhǔn)化:

這種方法給予原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。經(jīng)過(guò)處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,這里的關(guān)鍵在于復(fù)合標(biāo)準(zhǔn)正態(tài)分布,個(gè)人認(rèn)為在一定程度上改變了特征的分布,關(guān)于使用經(jīng)驗(yàn)上歡迎討論,我對(duì)這種標(biāo)準(zhǔn)化不是非常地熟悉,轉(zhuǎn)化函數(shù)為:

?

LaTex:{x}_{normalization}=\frac{x-\mu }{\sigma }

Python實(shí)現(xiàn):

def ?Z_ScoreNormalization(x,mu,sigma):x = (x - mu) / sigma;return x;

這里一樣,mu(即均值)用np.average(),sigma(即標(biāo)準(zhǔn)差)用np.std()即可。
?

?

3、Sigmoid函數(shù)

Sigmoid函數(shù)是一個(gè)具有S形曲線的函數(shù),是良好的閾值函數(shù),在(0, 0.5)處中心對(duì)稱,在(0, 0.5)附近有比較大的斜率,而當(dāng)數(shù)據(jù)趨向于正無(wú)窮和負(fù)無(wú)窮的時(shí)候,映射出來(lái)的值就會(huì)無(wú)限趨向于1和0,是個(gè)人非常喜歡的“歸一化方法”,之所以打引號(hào)是因?yàn)槲矣X(jué)得Sigmoid函數(shù)在閾值分割上也有很不錯(cuò)的表現(xiàn),根據(jù)公式的改變,就可以改變分割閾值,這里作為歸一化方法,我們只考慮(0, 0.5)作為分割閾值的點(diǎn)的情況:

?

?

LaTex:{x}_{normalization}=\frac{1}{1+{e}^{-x}}

Python實(shí)現(xiàn):

def sigmoid(X,useStatus):if useStatus:return 1.0 / (1 + np.exp(-float(X)));else:return float(X);

這里useStatus管理是否使用sigmoid的狀態(tài),方便調(diào)試使用。

函數(shù)的基本性質(zhì):

  • 定義域:(?∞,+∞)(?∞,+∞)
  • 值域:(?1,1)(?1,1)
  • 函數(shù)在定義域內(nèi)為連續(xù)和光滑函數(shù)
  • 處處可導(dǎo),導(dǎo)數(shù)為:f′(x)=f(x)(1?f(x))f′(x)=f(x)(1?f(x))
  • 最早Logistic函數(shù)是皮埃爾·弗朗索瓦·韋呂勒在1844或1845年在研究它與人口增長(zhǎng)的關(guān)系時(shí)命名的。廣義Logistic曲線可以模仿一些情況人口增長(zhǎng)(P)的 S 形曲線。起初階段大致是指數(shù)增長(zhǎng);然后隨著開(kāi)始變得飽和,增加變慢;最后,達(dá)到成熟時(shí)增加停止。

    二、 Sigmoid函數(shù)與邏輯回歸

    Sigmoid函數(shù)之所以叫Sigmoid,是因?yàn)楹瘮?shù)的圖像很想一個(gè)字母S。這個(gè)函數(shù)是一個(gè)很有意思的函數(shù),從圖像上我們可以觀察到一些直觀的特性:函數(shù)的取值在0-1之間,且在0.5處為中心對(duì)稱,并且越靠近x=0的取值斜率越大。

    機(jī)器學(xué)習(xí)中一個(gè)重要的預(yù)測(cè)模型邏輯回歸(LR)就是基于Sigmoid函數(shù)實(shí)現(xiàn)的。LR模型的主要任務(wù)是給定一些歷史的{X,Y},其中X是樣本n個(gè)特征值,Y的取值是{0,1}代表正例與負(fù)例,通過(guò)對(duì)這些歷史樣本的學(xué)習(xí),從而得到一個(gè)數(shù)學(xué)模型,給定一個(gè)新的X,能夠預(yù)測(cè)出Y。LR模型是一個(gè)二分類模型,即對(duì)于一個(gè)X,預(yù)測(cè)其發(fā)生或不發(fā)生。但事實(shí)上,對(duì)于一個(gè)事件發(fā)生的情況,往往不能得到100%的預(yù)測(cè),因此LR可以得到一個(gè)事件發(fā)生的可能性,超過(guò)50%則認(rèn)為事件發(fā)生,低于50%則認(rèn)為事件不發(fā)生

    從LR的目的上來(lái)看,在選擇函數(shù)時(shí),有兩個(gè)條件是必須要滿足的:
    1. 取值范圍在0~1之間。
    2. 對(duì)于一個(gè)事件發(fā)生情況,50%是其結(jié)果的分水嶺,選擇函數(shù)應(yīng)該在0.5中心對(duì)稱。

    從這兩個(gè)條件來(lái)看,Sigmoid很好的符合了LR的需求。關(guān)于邏輯回歸的具體實(shí)現(xiàn)與相關(guān)問(wèn)題,可看這篇文章Logistic函數(shù)(sigmoid函數(shù)) - wenjun’s blog,在此不再贅述。

    ?

    總結(jié)

    以上是生活随笔為你收集整理的归一化处理方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。