利用python对包含离散型特征和连续型特征的数据进行预处理
生活随笔
收集整理的這篇文章主要介紹了
利用python对包含离散型特征和连续型特征的数据进行预处理
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
對數據預處理是進行數據分析的基礎環節,數據預處理質量的高低往往能夠對實驗結果產生很大的影響,現在UCI上的人口調查收入數據集為例,演示如何使用python對該數據集進行預處理。該數據集中每個樣本同時包含離散型特征和連續型特征。在進行預處理之前,將原數據集中的訓練集部分和測試集部分合并,剔除了包含空值的樣本后剩余45222個樣本,將標簽“>50K”記為1,“<=50K”記為0,并剔除了與抽樣有關的特征fnlwgt。
相關文件的百度云下載地址為 鏈接:https://pan.baidu.com/s/18B7FB-oWETlcLmoF2Gg9vQ 密碼:g4nd
從數據格式說明文件中我們可以知道數據集中每個字段的含義,我們可以看到:
總結
以上是生活随笔為你收集整理的利用python对包含离散型特征和连续型特征的数据进行预处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 提高软件测试效率的方法探讨
- 下一篇: python输入的n打印n行杨辉三角_新