日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python 数据挖掘 培训视频下利用Pandas进行数据清洗

發布時間:2023/12/29 python 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python 数据挖掘 培训视频下利用Pandas进行数据清洗 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在許多數據分析工作中,數據中經常會有缺失數據情況。Pandas的目標之?就是盡量輕松地處理缺失數據。

01

檢測與處理缺失值

Pandas對象的所有描述性統計默認都不包括缺失數據。對于數值數據,Pandas使用浮點值NaN表示缺失數據。

1

缺失值的檢測與統計

函數isnull可以直接判斷該列中的哪個數據為NaN。

【例4-1】利用isnull檢測缺失值。

在Pandas中,缺失值表示為NA,它表示不可用(not available)。在統計應用中,NA數據可能是不存在的數據,或者存在卻沒有觀察到的數據(例如數據采集中發生了問題)。當清洗數據用于分析時,最好直接對缺失數據進行分析,以判斷數據采集問題或缺失數據可能導致的偏差。Python內置的None值也會被當做NA處理。

【例4-2】Series中的None值處理。

2

缺失值的統計

【例4-3】利用isnull.sum統計缺失值。

另外,通過info方法,也可以查看DataFrame每列數據的缺失情況。

【例4-4】用info方法查看DataFrame的缺失值。

02

缺失值的處理

1

刪除缺失值

在缺失值的處理方法中,刪除缺失值是常用的方法之一。通過dropna方法可以刪除具有缺失值的行。

dropna方法的格式:

dropna(axis= 0, how=‘any’, thresh= None, subset= None, inplace= False)

dropna的參數及其使用說明見表4-1。

▍表4-1 dropna的參數及其使用說明

對于Series,dropna返回一個僅含非空數據和索引值的Series。

【例4-5】Series的dropna用法。

當然,也可以通過布爾型索引達到這個目的。

【例4-6】布爾型索引選擇過濾非缺失值。

對于DataFrame對象,dropna默認丟棄任何含有缺失值的行。

【例4-7】DataFrame對象的dropna默認參數使用。

傳入how=‘all’將只丟棄全為NA的那些行。

【例4-8】傳入參數all。

如果用同樣的方式丟棄dataframe的列,只需傳入axis = 1即可。

【例4-9】dropna中的axis參數應用。

可以?thresh參數,當傳入thresh = N時,表示要求一行至少具有N個非NaN才能保留。

【例4-10】dropna中的thresh參數應用。

2

填充缺失值

直接刪除缺失值的樣本并不是一個很好的方法,因此可以用一個特定的值替換缺失值。缺失值所在的特征為數值型時,通常利用其均值、中位數和眾數等描述其集中趨勢的統計量來填充;缺失值所在特征為類別型數據時,則選擇眾數來填充。Pandas庫中提供了缺失值替換的方法fillna。

fillna的格式如下,參數及其說明見表4-2。

pandas.DataFrame.fillna(value= None,method= None,asxi= None,inplace= False,limit= None)

▍表4-2 fillna參數及其說明

通過一個常數調用fillna就會將缺失值替換為那個常數值,如df.fillna(0)用零代替空缺值,也可以通過一個字典調用fillna,就可以實現對不同的列填充不同的值。

【例4-11】通過字典形式填充缺失值。

fillna默認會返回新對象,但也可以通過參數inplace = True對現有對象進行就地修改。對reindex有效的那些插值方法也可用于fillna。

【例4-12】fillna中method的應用。

可以利用fillna實現許多別的功能。比如可以傳入Series 的平均值或中位數。

【例4-13】用Series的均值填充。

【例4-14】DataFrame中用均值填充。

3

數據值替換

數據值替換是將查詢到的數據替換為指定數據。在Pandas中通過replace進行數據值的替換。

【例4-15】replace替換數據值。

也可以同時對不同值進行多值替換,參數傳入的方式可以是列表也可以是字典格式。傳入列表是第一個列表為被替換的值,第二個列表中是對應替換的值。

【例4-16】replace傳入列表實現多值替換。

【例4-17】replace傳入字典實現多值替換。

4

利用函數或映射進行數據轉換

在數據分析中,經常需要進行數據的映射或轉換,在Pandas中可以自定義函數,然后通過map方法實現。

【例4-18】map方法映射數據。

5

異常數據檢測

異常值是指數據中存在的數值明顯偏離其余數據的值。異常值的存在會嚴重干擾數據分析的結果,因此經常要檢驗數據中是否有輸入錯誤或含有不合理的數據。在利用簡單的數據統計方法中一般常用散點圖、箱線圖和3σ法則。

1

散點圖方法

通過數據分布的散點圖發現異常數據。

【例4-19】利用散點圖檢測異常值。

2

箱線圖分析

箱線圖利用數據中的五個統計量(最小值、下四分位數、中位數、上四分位數和最大值)來描述數據,它也可以粗略地看出數據是否具有對稱性、分布的分散程度等信息。

【例4-20】利用箱線圖分析異常值。

3

3σ法則

若數據服從正態分布,在3σ原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值,因為在正態分布的假設下,距離平均值3σ之外的值出現的概率小于0.003。因此根據小概率事件,可以認為超出3σ之外的值為異常數據。

【例4-21】利用3σ法則檢測異常值。

03

視頻講解

04

參考書籍

《Python數據數據挖掘與機器學習-微課視頻版》

ISBN:9787302572992

魏偉一 編著

定價:59.8 元

內容簡介

本書內容豐富,循序漸進,以數據挖掘框架為主線,系統地介紹了數據挖掘技術的基本原理、方法和實踐應用,全面反映了數據挖掘的理論體系和應用的最新進展。課程既討論數據挖掘的基本理論知識和框架體系結構,又介紹了數據挖掘算法的Python實現與應用,強調了理論與實踐相結合,基礎知識與前沿發展相結合。本書可作為計算機數據科學相關專業高年級本科生、碩士研究生的軟件挖掘教材,同時也可以作為對Python數據挖掘感興趣讀者的自學參考書。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

總結

以上是生活随笔為你收集整理的python 数据挖掘 培训视频下利用Pandas进行数据清洗的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。