python 数据挖掘 培训视频下利用Pandas进行数据清洗
在許多數據分析工作中,數據中經常會有缺失數據情況。Pandas的目標之?就是盡量輕松地處理缺失數據。
01
檢測與處理缺失值
Pandas對象的所有描述性統計默認都不包括缺失數據。對于數值數據,Pandas使用浮點值NaN表示缺失數據。
1
缺失值的檢測與統計
函數isnull可以直接判斷該列中的哪個數據為NaN。
【例4-1】利用isnull檢測缺失值。
在Pandas中,缺失值表示為NA,它表示不可用(not available)。在統計應用中,NA數據可能是不存在的數據,或者存在卻沒有觀察到的數據(例如數據采集中發生了問題)。當清洗數據用于分析時,最好直接對缺失數據進行分析,以判斷數據采集問題或缺失數據可能導致的偏差。Python內置的None值也會被當做NA處理。
【例4-2】Series中的None值處理。
2
缺失值的統計
【例4-3】利用isnull.sum統計缺失值。
另外,通過info方法,也可以查看DataFrame每列數據的缺失情況。
【例4-4】用info方法查看DataFrame的缺失值。
02
缺失值的處理
1
刪除缺失值
在缺失值的處理方法中,刪除缺失值是常用的方法之一。通過dropna方法可以刪除具有缺失值的行。
dropna方法的格式:
dropna(axis= 0, how=‘any’, thresh= None, subset= None, inplace= False)
dropna的參數及其使用說明見表4-1。
▍表4-1 dropna的參數及其使用說明
對于Series,dropna返回一個僅含非空數據和索引值的Series。
【例4-5】Series的dropna用法。
當然,也可以通過布爾型索引達到這個目的。
【例4-6】布爾型索引選擇過濾非缺失值。
對于DataFrame對象,dropna默認丟棄任何含有缺失值的行。
【例4-7】DataFrame對象的dropna默認參數使用。
傳入how=‘all’將只丟棄全為NA的那些行。
【例4-8】傳入參數all。
如果用同樣的方式丟棄dataframe的列,只需傳入axis = 1即可。
【例4-9】dropna中的axis參數應用。
可以?thresh參數,當傳入thresh = N時,表示要求一行至少具有N個非NaN才能保留。
【例4-10】dropna中的thresh參數應用。
2
填充缺失值
直接刪除缺失值的樣本并不是一個很好的方法,因此可以用一個特定的值替換缺失值。缺失值所在的特征為數值型時,通常利用其均值、中位數和眾數等描述其集中趨勢的統計量來填充;缺失值所在特征為類別型數據時,則選擇眾數來填充。Pandas庫中提供了缺失值替換的方法fillna。
fillna的格式如下,參數及其說明見表4-2。
pandas.DataFrame.fillna(value= None,method= None,asxi= None,inplace= False,limit= None)
▍表4-2 fillna參數及其說明
通過一個常數調用fillna就會將缺失值替換為那個常數值,如df.fillna(0)用零代替空缺值,也可以通過一個字典調用fillna,就可以實現對不同的列填充不同的值。
【例4-11】通過字典形式填充缺失值。
fillna默認會返回新對象,但也可以通過參數inplace = True對現有對象進行就地修改。對reindex有效的那些插值方法也可用于fillna。
【例4-12】fillna中method的應用。
可以利用fillna實現許多別的功能。比如可以傳入Series 的平均值或中位數。
【例4-13】用Series的均值填充。
【例4-14】DataFrame中用均值填充。
3
數據值替換
數據值替換是將查詢到的數據替換為指定數據。在Pandas中通過replace進行數據值的替換。
【例4-15】replace替換數據值。
也可以同時對不同值進行多值替換,參數傳入的方式可以是列表也可以是字典格式。傳入列表是第一個列表為被替換的值,第二個列表中是對應替換的值。
【例4-16】replace傳入列表實現多值替換。
【例4-17】replace傳入字典實現多值替換。
4
利用函數或映射進行數據轉換
在數據分析中,經常需要進行數據的映射或轉換,在Pandas中可以自定義函數,然后通過map方法實現。
【例4-18】map方法映射數據。
5
異常數據檢測
異常值是指數據中存在的數值明顯偏離其余數據的值。異常值的存在會嚴重干擾數據分析的結果,因此經常要檢驗數據中是否有輸入錯誤或含有不合理的數據。在利用簡單的數據統計方法中一般常用散點圖、箱線圖和3σ法則。
1
散點圖方法
通過數據分布的散點圖發現異常數據。
【例4-19】利用散點圖檢測異常值。
2
箱線圖分析
箱線圖利用數據中的五個統計量(最小值、下四分位數、中位數、上四分位數和最大值)來描述數據,它也可以粗略地看出數據是否具有對稱性、分布的分散程度等信息。
【例4-20】利用箱線圖分析異常值。
3
3σ法則
若數據服從正態分布,在3σ原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值,因為在正態分布的假設下,距離平均值3σ之外的值出現的概率小于0.003。因此根據小概率事件,可以認為超出3σ之外的值為異常數據。
【例4-21】利用3σ法則檢測異常值。
03
視頻講解
04
參考書籍
《Python數據數據挖掘與機器學習-微課視頻版》
ISBN:9787302572992
魏偉一 編著
定價:59.8 元
內容簡介
本書內容豐富,循序漸進,以數據挖掘框架為主線,系統地介紹了數據挖掘技術的基本原理、方法和實踐應用,全面反映了數據挖掘的理論體系和應用的最新進展。課程既討論數據挖掘的基本理論知識和框架體系結構,又介紹了數據挖掘算法的Python實現與應用,強調了理論與實踐相結合,基礎知識與前沿發展相結合。本書可作為計算機數據科學相關專業高年級本科生、碩士研究生的軟件挖掘教材,同時也可以作為對Python數據挖掘感興趣讀者的自學參考書。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.
總結
以上是生活随笔為你收集整理的python 数据挖掘 培训视频下利用Pandas进行数据清洗的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ISIS的vsys(虚拟系统)
- 下一篇: js逆向 签名参数解析 驾考数据科目一科