日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

漫谈特征缩放

發(fā)布時間:2025/3/8 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 漫谈特征缩放 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

說起"煉丹"最耗時的幾件事,首先就能想到的就是數(shù)據(jù)清洗,特征工程,還有調(diào)參.特征工程真的是老生常談了,但是特征工程又是最重要的一環(huán),這一步做不好怎么調(diào)參也沒用.在特征工程中,做特征縮放是非常重要的,如下圖所示:

我們可以看到,在沒做特征縮放前,用kmeans跑出的聚類結(jié)果就如圖所示,以y=0為分界線,上面是一類,下面是一類,相當(dāng)?shù)碾x譜.主要原因就是y值的取值范圍很大,從-4000~4000,而x軸只有-5~20,熟悉kmeans算法都清楚該算法中距離度量用的是歐式距離,因此x軸的數(shù)值就變得無關(guān)緊要.所以數(shù)據(jù)預(yù)處理沒做好,很多模型都將不生效.值得注意的是,scaling在數(shù)據(jù)預(yù)處理中并不是強(qiáng)制的,習(xí)慣用樹模型的朋友們也很清楚對樹模型而言,scaling對效果毫無影響.但是對于一些對距離敏感的算法影響就比較大了,如KNN,SVM,PCA,NN等.

Scaling的目的很簡單,一方面是使得每列特征“范圍”更接近,另一方面是讓計算變得更加簡單,如梯度下降在特征縮放后,將縮放的更快,效果更好,所以對于線性回歸,邏輯回歸,NN都需要做特征縮放:

特征縮放有很多種,我們介紹最常見的4種:

  • StandardScaler
  • RobustScaler
  • MinMaxScaler
  • MaxAbsScaler

1、StandardScaler

這種scale方法大家最熟悉了,通過減去均值再除以方差進(jìn)行標(biāo)準(zhǔn)化.需要注意的是異常值對于這種scale方法的傷害是毀滅性的,因為異常值影響均值.如果你的數(shù)據(jù)是正太分布或接近正太分布,并且沒有特別異常的值,可以使用該方法進(jìn)行縮放.

讓我們看下該縮放方法,對有偏態(tài)分布的數(shù)據(jù)會產(chǎn)生什么影響.

我們發(fā)現(xiàn),對偏態(tài)分布的數(shù)據(jù)縮放后并沒有改變其分布.我們對數(shù)據(jù)做次log再縮放呢?

from sklearn.preprocessing import StandardScaler import numpy as np df_log = np.log(df) df_scale = StandardScaler().fit_transform(df_log)

我們發(fā)現(xiàn)log使得數(shù)據(jù)接近正態(tài)分布,StandardScaler使得數(shù)據(jù)變成了標(biāo)準(zhǔn)正態(tài)分布,這種方法往往表現(xiàn)的更好并且降低了異常值的影響.

2、RobustScaler

from sklearn.preprocessing import RobustScaler

RobustScaler是基于中位數(shù)的縮放方法,具體是減去中位數(shù)再除以第3分位數(shù)和第一分位數(shù)之間的差值.如下所示:

因為該縮放方法用了分位點(diǎn)的差值,所以它降低了異常值的影響,如果你發(fā)現(xiàn)數(shù)據(jù)有異常值,并且懶得去修正它們,就用這種縮放方法吧.我們對比下異常值對StandardScaler和RobustScaler的影響.

我們很容易發(fā)現(xiàn)StandardScaler使得異常值更接近均值了,但是在RobustScaler后,異常值還是顯得比較異常.

3、MinMaxScaler

from sklearn.preprocessing import MinMaxScaler

MinMaxScaler使得數(shù)據(jù)縮放到0~1之間,縮放由最小值和最大值決定,因此會受到異常值影響.并且對新出現(xiàn)的最大最小值并不友好.

4、MaxAbsScaler

from sklearn.preprocessing import MaxAbsScaler

該縮放方法不會破壞數(shù)據(jù)的稀疏性,也不會改變數(shù)據(jù)的分布,僅僅把數(shù)據(jù)縮放到了-1~1之間.MaxAbsScaler就是讓每個數(shù)據(jù)Xi/|Xmax|,值得注意的是,該方法對異常值也相當(dāng)敏感.

總結(jié)一下:

StandardScaler: 不適用于有異常值的數(shù)據(jù);使得均值為0. RobustScaler: 適用于有異常值的數(shù)據(jù). MinMaxScaler: 不適用于有異常值的數(shù)據(jù);使得數(shù)據(jù)縮放到0~1. MaxAbsScaler: 不適用于有異常值的數(shù)據(jù);使得數(shù)據(jù)縮放到-1~1.

漫談特征縮放

總結(jié)

以上是生活随笔為你收集整理的漫谈特征缩放的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: free黑人多人性派对hd | 芭乐视频色 | 久久精品99久久 | 欧美精品高清 | 三级av在线免费观看 | 国语对白清晰刺激对白 | 99久久久无码国产精品不卡 | 毛片资源 | 欧美一级久久久 | 国产大片黄| 日产精品久久久一区二区 | 蜜桃精品噜噜噜成人av | 日韩中文字幕av在线 | 国产 日韩 欧美 综合 | 一本久久综合亚洲鲁鲁五月天 | 中文字幕二 | 天天曰天天干 | 日韩精品中文在线 | 国产精品久久99 | 亚洲国内自拍 | 欧美日韩视频免费观看 | 在线国产91 | 中文字幕一区视频 | 日韩一级二级视频 | 97热久久 | 精品国产va久久久久久久 | 国产精品久久久久久久久绿色 | 亚洲国产精品久久AV | 久久免费在线视频 | 亚洲国产电影在线观看 | 亚洲视频六区 | 中文字幕欧美专区 | 少妇一区二区三区四区 | 久久九精品 | 极品白嫩少妇无套内谢 | 青娱乐毛片 | 1000部啪啪| 五月婷婷丁香花 | 日韩一区二区a片免费观看 伊人网综合在线 | 精品久久久久久久久久久久 | 国产调教视频在线观看 | www.四虎在线| 在线观看99| 日日舔夜夜操 | 国产一级不卡毛片 | 黄色大片免费的 | 日韩性欧美 | 青青操免费 | 激情xxx | 牛牛免费视频 | 夜色成人网 | 欧美成人激情视频 | 亚洲精品一区二区三区精华液 | 成人动漫视频在线观看 | 麻豆精品在线看 | 国产伦精品一区二区三区免费迷 | 欧美成在线视频 | 五月天国产精品 | 亚洲中文字幕一区 | 婷婷色小说 | 欧美日韩1区 | 国产精品96久久久久久 | 国产福利不卡 | 日本美女毛茸茸 | 日韩一区久久 | 久久久99精品 | 伊人日日夜夜 | 国产毛片基地 | 最新中文字幕av专区 | 91日本精品 | 国产精品久久久久久无人区 | 少妇偷人精品无码人妻 | 骚视频在线观看 | 91色网站 | 91久久久久久久 | 无遮挡无掩盖网站 | 久久精品福利 | 光棍影院手机版在线观看免费 | 色乱码一区二区三区网站 | 欧美群妇大交乱 | 久久99激情 | 精品无码国产污污污免费网站 | 亚洲图片在线播放 | 日韩欧美在线观看一区二区 | 亚洲20p | 国产男男gay体育生网站 | 欧美日本三级 | 成人亚洲国产 | 米奇7777狠狠狠狠视频 | 日本草草影院 | 超碰公开在线观看 | 色偷偷网| 日本久久爱 | 国产ts丝袜人妖系列视频 | 免费在线中文字幕 | 狠狠五月| 欧美激情精品久久久久 | 高清乱码毛片 | 日韩av一区二区三区 |