日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据平台】sklearn库特征工程之数据预处理

發布時間:2025/4/16 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据平台】sklearn库特征工程之数据预处理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、背景:

通過特征提取,我們能得到未經處理的特征,這時的特征可能有以下問題:

  • 不屬于同一量綱:即特征的規格不一樣,不能夠放在一起比較。無量綱化可以解決這一問題。
  • 信息冗余:對于某些定量特征,其包含的有效信息為區間劃分,例如學習成績,假若只關心“及格”或不“及格”,那么需要將定量的考分,轉換成“1”和“0”表示及格和未及格。二值化可以解決這一問題。
  • 定性特征不能直接使用:某些機器學習算法和模型只能接受定量特征的輸入,那么需要將定性特征轉換為定量特征。最簡單的方式是為每一種定性值指定一個定量值,但是這種方式過于靈活,增加了調參的工作。通常使用啞編碼的方式將定性特征轉換為定量特征:假設有N種定性值,則將這一個特征擴展為N種特征,當原始特征值為第i種定性值時,第i個擴展特征賦值為1,其他擴展特征賦值為0。啞編碼的方式相比直接指定的方式,不用增加調參的工作,對于線性模型來說,使用啞編碼后的特征可達到非線性的效果。
  • 存在缺失值:缺失值需要補充。
  • 信息利用率低:不同的機器學習算法和模型對數據中信息的利用是不同的,之前提到在線性模型中,使用對定性特征啞編碼可以達到非線性的效果。類似地,對定量變量多項式化,或者進行其他的轉換,都能達到非線性的效果。

  我們使用sklearn中的preproccessing庫來進行數據預處理,可以覆蓋以上問題的解決方案。


2、代碼:

# -*- coding: utf-8 -*- ''' Created on 2017年12月15日 @author: Jason.F @summary: sklearn特征工程 '''from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.preprocessing import MinMaxScaler from sklearn.preprocessing import Normalizer from sklearn.preprocessing import Binarizer from sklearn.preprocessing import OneHotEncoder from numpy import vstack, array, nan from sklearn.preprocessing import Imputer from sklearn.preprocessing import PolynomialFeatures #導入IRIS數據集 iris = load_iris() #特征矩陣 iris.data #目標向量 iris.target#數據預處理 #1:無量綱化,使不同規格的數據轉換到同一規格 #1.1:標準化,標準化的前提是特征值服從正態分布,標準化后,其轉換成標準正態分布。 StandardScaler().fit_transform(iris.data) #1.2:區間縮放法,利用了邊界值信息,將特征的取值區間縮放到某個特點的范圍,如縮放到[0, 1]區間 MinMaxScaler().fit_transform(iris.data) #1.3:歸一化:依照特征矩陣的行處理數據,其目的在于樣本向量在點乘運算或其他核函數計算相似性時,擁有統一的標準 #歸一化,返回值為歸一化后的數據 Normalizer().fit_transform(iris.data)#2:對定量特征二值化,定量特征二值化的核心在于設定一個閾值,大于閾值的賦值為1,小于等于閾值的賦值為0。 Binarizer(threshold=3).fit_transform(iris.data)#3:對定性特征啞編碼,使用preproccessing庫的OneHotEncoder類對數據進行啞編碼 OneHotEncoder().fit_transform(iris.target.reshape((-1,1)))#4:缺失值計算,使用preproccessing庫的Imputer類對數據進行缺失值計算 #缺失值計算,返回值為計算缺失值后的數據 #參數missing_value為缺失值的表示形式,默認為NaN #參數strategy為缺失值填充方式,默認為mean(均值) Imputer().fit_transform(vstack((array([nan, nan, nan, nan]), iris.data)))#5:數據變換,常見的數據變換有基于多項式的、基于指數函數的、基于對數函數的 #多項式轉換 #參數degree為度,默認值為2 pndata=PolynomialFeatures().fit_transform(iris.data) print (pndata[0:2])

3、標準化和歸一化區別

標準化是依照特征矩陣的列處理數據,其通過求z-score的方法,將樣本的特征值轉換到同一量綱下,公式如下:

歸一化是依照特征矩陣的行處理數據,其目的在于樣本向量在點乘運算或其他核函數計算相似性時,擁有統一的標準,也就是說都轉化為“單位向量”。規則為l2的歸一化公式如下:

4、總結:

功能說明
StandardScaler無量綱化標準化,基于特征矩陣的列,將特征值轉換至服從標準正態分布
MinMaxScaler無量綱化區間縮放,基于最大最小值,將特征值轉換到[0, 1]區間上
Normalizer歸一化基于特征矩陣的行,將樣本向量轉換為“單位向量”
Binarizer二值化基于給定閾值,將定量特征按閾值劃分
OneHotEncoder啞編碼將定性數據編碼為定量數據
Imputer缺失值計算計算缺失值,缺失值可填充為均值等
PolynomialFeatures多項式數據轉換多項式數據轉換
FunctionTransformer自定義單元數據轉換使用單變元的函數來轉換數據

總結

以上是生活随笔為你收集整理的【数据平台】sklearn库特征工程之数据预处理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产自产在线视频 | 这里只有精品视频在线 | 一区二区三区小视频 | 国内黄色片 | 国产成人精 | 亚洲黄色在线视频 | 欧美成人黄色小视频 | 中文字幕女同 | 久久久69 | 成人欧美一区二区三区白人 | 久久国产成人精品 | 精品久久电影 | 特一级黄色片 | 亚洲电影影音先锋 | 日日干日日干 | 成 人 免费 黄 色 | 久久精品波多野结衣 | 日韩欧美在线中文字幕 | 色综合99久久久无码国产精品 | 日韩熟女精品一区二区三区 | 欧美熟妇7777一区二区 | 变态另类一区二区 | 亚洲久热 | 久久国产精品久久久久久电车 | 在线观看免费黄视频 | 能免费看18视频网站 | 一区二区三区国产 | 99色综合| 欧美激情二区三区 | 国产av无码专区亚洲av毛片搜 | 日本三级中国三级99人妇网站 | 国产露脸150部国语对白 | 亚洲欧洲一级 | 亚洲精品一区二区三区不卡 | 东北熟女一区二区三区 | 久久久少妇 | 成年人免费视频观看 | 99久久久国产 | 久久日韩精品 | 久久中文字 | 狼人av在线 | 四虎免费久久 | av日韩不卡 | 国产九色在线 | 午夜黄色福利 | 欧美动态色图 | 国自产拍偷拍精品啪啪一区二区 | 欧美成人免费一级 | 加勒比在线免费视频 | 欧美另类极品videosbest最新版本 | 亚洲欧美日韩不卡 | 日本一区二区三区电影在线观看 | 天堂av在线免费 | 亚洲第一成人av | 欧美一级性片 | 超碰在线免费公开 | 一区二区三区视频在线 | 成人免费毛片免费 | 美国色综合| 手机成人在线 | 中文字幕av片 | 亚洲自拍偷拍一区二区 | 精品国产va久久久久久久 | 免费国产视频在线观看 | 国产精品23p | 激情拍拍拍 | 中文字幕在线播放一区二区 | 在线亚洲成人 | 国产911| 黄色一级播放 | 红猫大本营在线观看的 | 免费观看国产精品视频 | 美女又爽又黄免费 | 伦理黄色片 | 欧美性大战久久久 | aaaaa毛片 | 国产精品av在线播放 | 视频一区二区中文字幕 | 欧美国产在线一区 | 国产精品国产三级国产普通话对白 | 亚洲一卡二卡三卡四卡 | 日韩久久影视 | 朝鲜女人性猛交 | 国产91精品ai换脸 | 久久我不卡 | 婷婷激情丁香 | 国产盗摄视频在线观看 | 欧美乱妇狂野欧美视频 | 影音先锋成人网 | 成人免费视频一区 | 少女视频的播放方法 | 顶级嫩模啪啪呻吟不断好爽 | 亚洲一线av| 国产成人精品av在线观 | av黄色在线观看 | 欧美日韩一区二区在线 | 污的网站 | 欧美美女一区二区三区 | 欧美日韩精品在线 |