python numpy pandas 书 全_用Python做数据分析,Numpy,Pandas,matp
該樓層疑似違規已被系統折疊?隱藏此樓查看此樓
用Python做數據分析,Numpy,Pandas,matplotlib是怎么也繞不開的三個包,我最開始學習pandas是看的《利用Python進行數據分析》,看了好幾遍,不是從頭到尾看了好幾遍,是順著看、挑著看、精讀略讀強行讀,一直沒堅持完整過一遍。
后來發現了廣受好評的《10分鐘搞定pandas》。這是官方出品的,于是我馬上動手跟著做,才發現作者就是個標題黨,花了一個多小時才過完一遍。我覺得書名應該是《(每天)10分鐘(一周)搞定pandas》。標題黨歸標題黨,內容還是很好的,就是我覺得還是有點偏長,尤其對于像我這樣學習自制力極差的同學。
所以這篇文章,我總結了我認為的Pandas最常用的功能,供大家學習借鑒。
導入包
import pandas as pd
import numpy as np
導入數據
#默認utf-8,gbk對中文的支持更好
pd.read_csv(filename,encoding='gbk')
#key是列名,value是數據,從字典導入數據需要指定index
dict1 = {'a':1,'b':2}
df = pd.DataFrame(dict1,index=[0])
查看數據
#行數、列數
df.shape[0]
df.shape[1]
#前幾行,后幾行,默認為5
df.head()
df.tail(3)
#數據匯總統計
df.describe()
#數據概況
df.info()
#列名
df.columns
#數據類型
df.dtypes
#各列平均值
df.mean()
數據選取
#按列名查看某列
df[col_name]
df.col_name
#查列名看多列
df[[col1,col2]]
#按索引查看某行,第一行:
df.iloc[0]
#按索引查看某行某列,三行四列那個元素
df.iloc[2,3]
數據合并
#按行拼接
pieces = [df[2:20],df[23:30],df[35:40]]
下面這句replace知乎一直報未知錯誤(醉了,我在整篇文章中用二分法試出來兩句),只能截圖
#按列拼接
left = pd.DataFrame({'key': ['foo', 'bar'], 'col1': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'bar'], 'col2': [4, 5]})
pd.merge(left,right,on='key')
#增加一列
df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D'])
extra = df.iloc[-1]
data = df.append(extra)
數據清理 (注意: 修改DataFrame要賦值)
#檢查是否空值,返回布爾值(True,False)
df.isnull()
#返回各列空值的個數
df.isnull().sum()
#處理空值,用x替換空值
df = df.fillna(x)
#刪除包含空值的行
df = df.dropna()
#刪除包含空值的列
df = df.dropna(axis=1)
數據處理
#選擇某列大于1的行
df[df[colname]>1]
#選擇某列包含x或者y字段的行,pandas有很多字符串處理函數
df[df[colname].str.contains(x|y)]
下面這句replace知乎一直報未知錯誤(再次醉了),只能截圖
#轉換數據類型
df.num = df.num.astype(float)
#查看某列的唯一值的個數
df.colname.value_counts()
#按照某列排序(默認升序)
df.sort_values(by = colname,ascending=True)
#應用函數,簡單的可以用lambda
df.apply(lambda x:x.max()-x.min())
#復雜的可以先定義好函數
def func():
pass
df.apply(func)
#也可以用numpy自帶的,例如cumsum累加
df.apply(np.cumsum)
分組聚合
#準備數據
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
'foo', 'bar', 'foo', 'foo'],
'B' : ['one', 'one', 'two', 'three',
'two', 'two', 'one',
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的python numpy pandas 书 全_用Python做数据分析,Numpy,Pandas,matp的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: sqlite 数据量_向SQLite批量
- 下一篇: python控制条件语句_Python条