日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

        歡迎訪問 生活随笔!

        生活随笔

        當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

        编程问答

        Pandas数据探索分析,分享两个神器!

        發布時間:2024/9/15 编程问答 33 豆豆
        生活随笔 收集整理的這篇文章主要介紹了 Pandas数据探索分析,分享两个神器! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

        在使用 pandas 進行數據分析時,進行一定的數據探索性分析(EDA)是必不可少的一個步驟,例如常見統計指標計算、缺失值、重復值統計等。

        使用 df.describe() 等函數進行探索當然是常見操作,但若要進行更完整、詳細的分析缺則略顯不足。

        本文就將分享兩個用于數據探索的 pandas 插件。

        pandas_profiling

        首先要介紹的是pandas_profiling,它擴展了pandas DataFrame的功能,這也是在之前多篇文章中提到的插件。

        只需使用pip install pandas_profiling即可安裝,在導入數據之后使用df.profile_report()一行命令即可快速生成描述性分析報告👇

        可以看到,除了之前我們需要的一些描述性統計數據,該報告還包含以下信息:

        • 類型推斷:檢測數據幀中列的數據類型。

        • 要點:類型,唯一值,缺失值

        • 分位數統計信息,例如最小值,Q1,中位數,Q3,最大值,范圍,四分位數范圍

        • 描述性統計數據,例如均值,眾數,標準偏差,總和,中位數絕對偏差,變異系數,峰度,偏度

        • 最常使用的值

        • 直方圖

        • 相關性矩陣

        • 缺失值矩陣,計數,熱圖和缺失值樹狀圖

        • 文本分析:了解文本數據的類別(大寫,空格),腳本(拉丁,西里爾字母)和塊(ASCII)

        進一步我們還以將該報告保存為html格式,方便后續的查看,感興趣的讀者可以自行嘗試。

        sweetviz

        第二個值得一用的是 sweetviz,同樣是一個開源 Python 庫,可生成美觀、高密度的可視化,只需兩行代碼即可啟動 EDA。

        該插件圍繞快速可視化目標值和比較數據集而構建。它的目標是幫助快速分析目標特征、訓練與測試數據以及其他此類數據特征任務。

        安裝方法同上,執行pip install sweetviz即可。使用方法也是類似,導入數據后只需兩行代碼即可輸出分析報告

        import?sweetviz?as?sv report?=?sv.analyze(df) report.show_html()

        和 pandas_profiling 不一樣的是,現在我們只能得到一個html文件,打開即可看到相關 EDA 報告👇

        可以看到,自動生成的報告主要有以下幾個部分

      1. 目標分析

        • 顯示目標值,例如泰坦尼克號數據集中的“幸存”,與其他特征的關系)

        可視化和比較

        • 不同的數據集(例如訓練與測試數據)

        • 組內特征(例如男性與女性)

        混合型聯想

        • Sweetviz 無縫集成了數值(Pearson 相關)、分類(不確定系數)和分類-數值(相關比)數據類型的關聯,為所有數據類型提供最大的信息。

        類型推斷

        • 自動檢測數字、分類和文本特征,可選擇手動覆蓋

        概要信息

        • 類型、唯一值、缺失值、重復行、最常見值

        • 數值分析:最小值/最大值/范圍、四分位數、平均值、眾數、標準偏差、總和、中值絕對偏差、變異系數、峰態、偏度

        從上面的介紹我們也能看出,兩個 EDA 的插件側重點有所不同,我們在實際使用時也應該根據數據特征與分析目標靈活使用!

        推薦閱讀

        牛逼!Python常用數據類型的基本操作(長文系列第①篇)

        牛逼!Python的判斷、循環和各種表達式(長文系列第②篇)

        牛逼!Python函數和文件操作(長文系列第③篇)

        牛逼!Python錯誤、異常和模塊(長文系列第④篇)

        總結

        以上是生活随笔為你收集整理的Pandas数据探索分析,分享两个神器!的全部內容,希望文章能夠幫你解決所遇到的問題。

        如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。