sklearn特征的选择
生活随笔
收集整理的這篇文章主要介紹了
sklearn特征的选择
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
特征工程
數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,而模型和算法只是逼近這個上 限而已。根據(jù)特征使用方案,有計劃地獲取、處理和監(jiān)控數(shù)據(jù)和特征的工作稱之為特征工程,目的是 最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用。
根據(jù)特征選擇的形式又可以將特征選擇方法分為3種:
用sklearn中的feature_selection庫來進行特征選擇
- Filter:
過濾法:按照發(fā)散性或者相關(guān)性對各個特征進行評分,設(shè)定閾值或者待選擇閾值的 個數(shù),選擇特征。
- Wrapper:
包裝法:根據(jù)目標(biāo)函數(shù)(通常是預(yù)測效果評分),每次選擇若干特征,或者排 除若干特征。
- Embedded:
嵌入法:先使用某些機器學(xué)習(xí)的算法和模型進行訓(xùn)練,得到各個特征的權(quán)值 系數(shù),根據(jù)系數(shù)從大到小選擇特征。類似于Filter方法,但是是通過訓(xùn)練來確定特征的優(yōu) 劣。
采用iris數(shù)據(jù)集,iris數(shù)據(jù)集有四個特征
['sepal length (cm)','sepal width (cm)','petal length (cm)','petal width (cm)']Filter過濾法
- 方差選擇法 VarianceThreshold
使用方差選擇法,先要計算各個特征的方差?
總結(jié)
以上是生活随笔為你收集整理的sklearn特征的选择的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jieba的使用
- 下一篇: tensorflow从入门到放弃(二)