當前位置：首頁 > 编程语言 > python >内容正文

python

数据分析常用Python库：数值计算、可视化、机器学习等领域

發布時間：2024/7/5 python 27 豆豆

生活随笔收集整理的這篇文章主要介紹了数据分析常用Python库：数值计算、可视化、机器学习等领域小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

鏡像pip安裝

阿里云 http://mirrors.aliyun.com/pypi/simple/
中國科技大學 https://pypi.mirrors.ustc.edu.cn/simple/
豆瓣(douban) http://pypi.douban.com/simple/
清華大學 https://pypi.tuna.tsinghua.edu.cn/simple/
中國科學技術大學 http://pypi.mirrors.ustc.edu.cn/simple/
例如：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xgboost
如果出現“You are using pip version 10.0.1, however version 20.0.2 is available.”問題

python -m pip install -U pip

常用庫

一、數值計算

NumPy支持多維數組與矩陣運算，也針對數組運算提供大量的數學函數庫。通常與SciPy和Matplotlib一起使用，支持比Python更多種類的數值類型，其中定義的最重要的對象是稱為ndarray的n維數組類型，用于描述相同類型的元素集合，可以使用基于0的索引訪問集合中元素。

SciPy在NumPy庫的基礎上增加了眾多的數學、科學及工程計算中常用的庫函數,如線性代數、常微分方程數值求解、信號處理、圖像處理、稀疏矩陣等，可進行插值處理、信號濾波，以及使用C語言加速計算。

Pandas基于NumPy的一種工具，為解決數據分析任務而生。納入大量庫和一些標準的數據模型，提供高效地操作大型數據集所需的工具及大量的能快速便捷處理數據的函數和方法，為時間序列分析提供很好的支持，提供多種數據結構，如Series、Time-Series、DataFrame和Panel。

二、數據可視化

Matplotlib第一個Python可視化庫，有許多別的程序庫都是建立在其基礎上或者直接調用該庫，可以很方便地得到數據的大致信息，功能非常強大，但也非常復雜。

Seaborn利用了Matplotlib，用簡潔的代碼來制作好看的圖表。與Matplotlib最大的區別為默認繪圖風格和色彩搭配都具有現代美感。

ggplot基于R的一個作圖庫ggplot2，同時利用了源于《圖像語法》（The Grammar of Graphics）中的概念，允許疊加不同的圖層來完成一幅圖，并不適用于制作非常個性化的圖像，為操作的簡潔度而犧牲了圖像的復雜度。

Bokeh跟ggplot一樣，Bokeh也基于《圖形語法》的概念。與ggplot不同之處為它完全基于Python而不是從R處引用。長處在于能用于制作可交互、可直接用于網絡的圖表。圖表可以輸出為JSON對象、HTML文檔或者可交互的網絡應用。Bokeh也支持數據流和實時數據，為不同的用戶提供了3種控制水平：最高的控制水平用于快速制圖，主要用于制作常用圖像；中等控制水平與Matplotlib一樣允許開發人員控制圖像的基本元素（例如分布圖中的點）；最低的控制水平主要面向開發人員和軟件工程師。沒有默認值，需要定義圖表的每一個元素。

Plotly可以通過Python notebook使用，與Bokeh一樣致力于交互圖表的制作，但提供在別的庫中幾乎沒有的幾種圖表類型，如等值線圖、樹形圖和三維圖表。

pygal與Bokeh和Plotly一樣，提供可直接嵌入網絡瀏覽器的可交互圖像。與其他兩者的主要區別在于可將圖表輸出為SVG格式，所有的圖表都被封裝成方法，且默認的風格也很漂亮，用幾行代碼就可以很容易地制作出漂亮的圖表。

geoplotlib用于制作地圖和地理相關數據的工具箱。可用來制作多種地圖，比如等值區域圖、熱度圖、點密度圖。必須安裝Pyglet（一個面向對象編程接口）方可使用。

missingno用圖像的方式快速評估數據缺失的情況，可根據數據的完整度對數據進行排序或過濾，或者根據熱度圖或樹狀圖對數據進行修正。

三、數據庫管理

MySQL-python又稱MySQLdb，是Python連接MySQL最流行的一個驅動，很多框架也基于此庫進行開發。只支持Python 2.x，且安裝時有許多前置條件。由于該庫基于C語言開發，在Windows平臺上的安裝非常不友好，經常出現失敗的情況，現在基本不推薦使用，取代品為衍生版本。

mysqlclient完全兼容MySQLdb，同時支持Python 3.x，是Django ORM的依賴工具，可使用原生SQL來操作數據庫，安裝方式與MySQLdb一致。

PyMySQL純Python實現的驅動，速度比MySQLdb慢，最大的特點為安裝方式簡潔，同時也兼容MySQL-python。

SQLAlchemy一種既支持原生SQL，又支持ORM的工具。ORM是Python對象與數據庫關系表的一種映射關系，可有效提高寫代碼的速度，同時兼容多種數據庫系統，如SQLite、MySQL、PostgreSQL，代價為性能上的一些損失。

四、自動化運維

jumpsever跳板機一種由Python編寫的開源跳板機（堡壘機）系統，實現了跳板機的基本功能，包含認證、授權和審計，集成了Ansible、批量命令等。支持WebTerminal Bootstrap編寫，界面美觀，自動收集硬件信息，支持錄像回放、命令搜索、實時監控、批量上傳下載等功能，基于SSH協議進行管理，客戶端無須安裝agent。主要用于解決可視化安全管理，因完全開源，容易再次開發。

Magedu分布式監控系統一種用Python開發的自動化監控系統，可監控常用系統服務、應用、網絡設備，可在一臺主機上監控多個不同服務，不同服務的監控間隔可以不同，同一個服務在不同主機上的監控間隔、報警閾值可以不同，并提供數據可視化界面。

Magedu的CMDB一種用Python開發的硬件管理系統，包含采集硬件數據、API、頁面管理3部分功能，主要用于自動化管理筆記本、路由器等常見設備的日常使用。由服務器的客戶端采集硬件數據，將硬件信息發送至API，API負責將獲取的數據保存至數據庫中，后臺管理程序負責對服務器信息進行配置和展示。

任務調度系統一種由Python開發的任務調度系統，主要用于自動化地將一個服務進程分布到其他多個機器的多個進程中，一個服務進程可作為調度者依靠網絡通信完成這一工作。

Python運維流程系統一種使用Python語言編寫的調度和監控工作流的平臺，內部用于創建、監控和調整數據管道。允許工作流開發人員輕松創建、維護和周期性地調度運行工作流，包括了如數據存儲、增長分析、Email發送、A/B測試等諸多跨多部門的用例。

五、機器學習

Scikit-Learn基于NumPy和SciPy，是專門為機器學習建造的一個Python模塊，提供了大量用于數據挖掘和分析的工具，包括數據預處理、交叉驗證、算法與可視化算法等一系列接口。Sklearn的基本功能可分為6個部分：分類回歸聚類數據降維模型選擇數據預處理其中集成了大量分類、回歸和聚類的算法，包括支持向量機、邏輯回歸、樸素貝葉斯、隨機森林、Gradient Boosting、K-means和DBSCAN等。

Orange3是一個基于組件的數據挖掘和機器學習軟件套裝，支持Python進行腳本開發。它包含一系列的數據可視化、檢索、預處理和建模技術，具有一個良好的用戶界面，同時也可以作為Python的一個模塊使用。用戶可通過數據可視化進行數據分析，包括統計分布圖、柱狀圖、散點圖，以及更深層次的決策樹、分層聚簇、熱點圖、MDS（多維度分析）、線性預測等，并可使用Orange自帶的各類附加功能組件進行NLP、文本挖掘、構建網絡分析、推斷高頻數據集和關聯規則數據分析。

XGBoost是專注于梯度提升算法的機器學習函數庫，因其優良的學習效果及高效的訓練速度而獲得廣泛的關注。XGBoost支持并行處理，比起同樣實現了梯度提升算法的Scikit-Learn庫，其性能提升10倍以上。XGBoost可以處理回歸、分類和排序等多種任務。

NuPIC是專注于時間序列的一個機器學習平臺，其核心算法為HTM算法，相比于深度學習，其更為接近人類大腦的運行結構。HTM算法的理論依據主要是人腦中處理高級認知功能的新皮質部分的運作原理。NuPIC可用于預測及異常檢測，適用面非常廣，僅要求輸入時間序列即可。

**Milk（Machine Learning Toolkit）**是Python中的一個機器學習工具包。Milk注重提升運行速度與降低內存占用，因此大部分對性能敏感的代碼都是使用C++編寫的，為了便利性在此基礎上提供Python接口。重點提供監督分類方法，如SVMs、KNN、隨機森林和決策樹，也支持無監督學習算法，如K-means和密切關系傳播。

六、深度學習

**Caffe（Convolutional Architecture for Fast Feature Embedding）**是一個以表達式、速度和模塊化為核心的深度學習框架，具備清晰、可讀性高和快速的特性，在視頻、圖像處理方面應用較多。Caffe中的網絡結構與優化都以配置文件形式定義，容易上手，無須通過代碼構建網絡；網絡訓練速度快，能夠訓練大型數據集與State-of-the-art的模型；模塊化的組件可以方便地拓展到新的模型與學習任務上。

Theano誕生于2008年，是一個高性能的符號計算及深度學習庫，被認為是深度學習庫的始祖之一，也被認為是深度學習研究和應用的重要標準之一。其核心是一個數學表達式的編譯器，專門為處理大規模神經網絡訓練的計算而設計。Theano很好地整合了NumPy，可以直接使用NumPy的ndarray，使得API接口學習成本大為降低；其計算穩定性好，可以精準地計算輸出值很小的函數，如log(1+x)；可動態地生成C或者CUDA代碼，用來編譯成高效的機器代碼。

TensorFlow是相對高階的機器學習庫，其核心代碼使用C++編寫，并支持自動求導，使得用戶可以方便地設計神經網絡結構，不需要親自編寫C++或CUDA代碼，也無須通過反向傳播求解梯度。由于底層使用C++語言編寫，運行效率得到了保證，并簡化了線上部署的復雜度。除了核心代碼的C++接口以外，TensorFlow還有官方的Python、Go和Java接口以外，用戶可以在一個硬件配置較好的機器中用Python進行實驗，并在資源比較緊張的嵌入式環境或需要低延遲的環境中用C++部署模型。TensorFlow不只局限于神經網絡，其數據流式圖還支持非常自由的算法表達，也可以輕松實現深度學習以外的機器學習算法。

Keras是一個高度模塊化的神經網絡庫，使用Python實現，并可以同時運行在TensorFlow和Theano上。Keras專精于深度學習，其提供了到目前為止最方便的API，用戶僅需將高級的模塊拼在一起便可設計神經網絡，大大降低了編程開銷（code overhead）與理解開銷（cognitive overhead）。Keras同時支持卷積網絡和循環網絡，支持級聯的模型或任意的圖結構的模型，從CPU上計算切換到GPU加速無須任何代碼的改動。簡化了編程的復雜度的同時，在性能上絲毫不遜色于TensorFlow和Theano。

總結

以上是生活随笔為你收集整理的数据分析常用Python库：数值计算、可视化、机器学习等领域的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： R语言第四讲之R语言数据类型
下一篇： Python基础（七）--模块和包