當前位置：首頁 > 编程语言 > python >内容正文

python

python numpy pandas 书全_用Python做数据分析，Numpy，Pandas，matp

發布時間：2024/7/5 python 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 python numpy pandas 书全_用Python做数据分析，Numpy，Pandas，matp 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

該樓層疑似違規已被系統折疊?隱藏此樓查看此樓

用Python做數據分析，Numpy，Pandas，matplotlib是怎么也繞不開的三個包，我最開始學習pandas是看的《利用Python進行數據分析》，看了好幾遍，不是從頭到尾看了好幾遍，是順著看、挑著看、精讀略讀強行讀，一直沒堅持完整過一遍。

后來發現了廣受好評的《10分鐘搞定pandas》。這是官方出品的，于是我馬上動手跟著做，才發現作者就是個標題黨，花了一個多小時才過完一遍。我覺得書名應該是《(每天)10分鐘(一周)搞定pandas》。標題黨歸標題黨，內容還是很好的，就是我覺得還是有點偏長，尤其對于像我這樣學習自制力極差的同學。

所以這篇文章，我總結了我認為的Pandas最常用的功能，供大家學習借鑒。

導入包

import pandas as pd

import numpy as np

導入數據

#默認utf-8，gbk對中文的支持更好

pd.read_csv(filename,encoding='gbk')

#key是列名，value是數據,從字典導入數據需要指定index

dict1 = {'a':1,'b':2}

df = pd.DataFrame(dict1,index=[0])

查看數據

#行數、列數

df.shape[0]

df.shape[1]

#前幾行，后幾行，默認為5

df.head()

df.tail(3)

#數據匯總統計

df.describe()

#數據概況

df.info()

#列名

df.columns

#數據類型

df.dtypes

#各列平均值

df.mean()

數據選取

#按列名查看某列

df[col_name]

df.col_name

#查列名看多列

df[[col1,col2]]

#按索引查看某行,第一行：

df.iloc[0]

#按索引查看某行某列，三行四列那個元素

df.iloc[2,3]

數據合并

#按行拼接

pieces = [df[2:20],df[23:30],df[35:40]]

下面這句replace知乎一直報未知錯誤(醉了，我在整篇文章中用二分法試出來兩句)，只能截圖

#按列拼接

left = pd.DataFrame({'key': ['foo', 'bar'], 'col1': [1, 2]})

right = pd.DataFrame({'key': ['foo', 'bar'], 'col2': [4, 5]})

pd.merge(left,right,on='key')

#增加一列

df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D'])

extra = df.iloc[-1]

data = df.append(extra)

數據清理 (注意: 修改DataFrame要賦值)

#檢查是否空值，返回布爾值(True,False)

df.isnull()

#返回各列空值的個數

df.isnull().sum()

#處理空值，用x替換空值

df = df.fillna(x)

#刪除包含空值的行

df = df.dropna()

#刪除包含空值的列

df = df.dropna(axis=1)

數據處理

#選擇某列大于1的行

df[df[colname]>1]

#選擇某列包含x或者y字段的行,pandas有很多字符串處理函數

df[df[colname].str.contains(x|y)]

下面這句replace知乎一直報未知錯誤(再次醉了)，只能截圖

#轉換數據類型

df.num = df.num.astype(float)

#查看某列的唯一值的個數

df.colname.value_counts()

#按照某列排序(默認升序)

df.sort_values(by = colname,ascending=True)

#應用函數，簡單的可以用lambda

df.apply(lambda x:x.max()-x.min())

#復雜的可以先定義好函數

def func():

pass

df.apply(func)

#也可以用numpy自帶的，例如cumsum累加

df.apply(np.cumsum)

分組聚合

#準備數據

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',

'foo', 'bar', 'foo', 'foo'],

'B' : ['one', 'one', 'two', 'three',

'two', 'two', 'one',

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的python numpy pandas 书全_用Python做数据分析，Numpy，Pandas，matp的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： sqlite 数据量_向SQLite批量
下一篇： python控制条件语句_Python条

python

python numpy pandas 书 全_用Python做数据分析，Numpy，Pandas，matp

總結

python numpy pandas 书全_用Python做数据分析，Numpy，Pandas，matp