日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

pandas: DataFrame在数据处理时一些常用的操作汇总

發(fā)布時(shí)間:2023/12/20 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 pandas: DataFrame在数据处理时一些常用的操作汇总 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

對(duì)自己在數(shù)據(jù)處理中經(jīng)常使用卻經(jīng)常忘記的一些操作匯總。我用的多,大家應(yīng)該用的也很多,有需要的可以轉(zhuǎn)載follow。

1.dataframe數(shù)據(jù)篩選:loc,iloc,ix,at,iat

loc:需要用行列的標(biāo)簽進(jìn)行索引。

iloc:需要用行列索引進(jìn)行索引。

ix:功能更強(qiáng)大一些,結(jié)合了以上兩種方法,既可以用標(biāo)簽,又可以用索引。

at:根據(jù)指定行index及列l(wèi)abel,快速定位DataFrame的元素,選擇列時(shí)僅支持列名。

iat:與at的功能相同,只使用索引參數(shù)。

2.pandas 排序sort_index,sort_values

series:?
一組數(shù)組(列表或元組),series除了一組數(shù)據(jù)外還包括一組索引(即只有行索引),索引可自行定義也可利用Series(),自動(dòng)生成索引;?
dataframe:?
是表格型數(shù)據(jù),既有行索引又有列索引,每列數(shù)據(jù)可以為不同類(lèi)型數(shù)據(jù)(數(shù)值、字符串、布爾型值),可利用DataFrame(其他數(shù)據(jù),dataframe屬性)指定dataframe的屬性創(chuàng)建dataframe。

sort_index和sort_values 都可以對(duì)Series, dataframe,panel進(jìn)行排序

DataFrame.sort_index(axis=0,?level=None,?ascending=True,?inplace=False,?kind='quicksort',na_position='last',?sort_remaining=True,?by=None)

inplace:是否替換原數(shù)據(jù)

Series.sort_index(axis=0,?level=None,?ascending=True,?inplace=False,?kind='quicksort',na_position='last',?sort_remaining=True)

DataFrame.sort_values(by,?axis=0,?ascending=True,?inplace=False,?kind='quicksort',na_position='last')

na_position:nan排序的位置

Series.sort_values(axis=0,?ascending=True,?inplace=False,?kind='quicksort',na_position='last')

可以看到對(duì)Series的排序沒(méi)有by參數(shù)。

3.數(shù)據(jù)探索函數(shù)

3.1基本統(tǒng)計(jì)特征函數(shù)

統(tǒng)計(jì)特征函數(shù)用于計(jì)算數(shù)據(jù)的均值、方差、標(biāo)準(zhǔn)差、分位數(shù)、相關(guān)系數(shù)和協(xié)方差等,這些統(tǒng)計(jì)特征能反映出數(shù)據(jù)的整體分布。本小節(jié)介紹的統(tǒng)計(jì)特征函數(shù)主要作為Pandas的對(duì)象DataFrame或Series的方法出現(xiàn)。

sum():計(jì)算數(shù)據(jù)樣本的總和(按列計(jì)算)

mean():計(jì)算數(shù)據(jù)樣本的算術(shù)平均數(shù)

var():計(jì)算數(shù)據(jù)樣本的方差

std():計(jì)算數(shù)據(jù)樣本的標(biāo)準(zhǔn)差

corr(method):計(jì)算數(shù)據(jù)樣本的Spearman(Pearson)相關(guān)系數(shù)矩陣,method參數(shù)為計(jì)算方法,pearson等。,、均為Series,這種格式計(jì)算兩個(gè)Series之間的相關(guān)系數(shù)。

cov():計(jì)算數(shù)據(jù)樣本的協(xié)方差矩陣。,,均為Series,這種格式計(jì)算兩個(gè)Series之間的協(xié)方差。

skew():樣本值的偏度(三階矩)。

kurt():樣本值的峰度(四階矩)。

describe():給出樣本的基本描述(基本統(tǒng)計(jì)量入均值、標(biāo)準(zhǔn)差等)。

SeriesGroupBy.value_counts(normalize=False,?sort=True,?ascending=False,?bins=None,dropna=True):分組之后計(jì)數(shù)。

3.2拓展統(tǒng)計(jì)特征函數(shù)

主要有累積計(jì)算(cum)和滾動(dòng)計(jì)算(pd.rolling_),如下:

cumsum():依次給出前個(gè)數(shù)的和。

cumprod():依次給出前個(gè)數(shù)的積。

summax():依次給出前個(gè)數(shù)的最大值。

summin():依次給出前個(gè)數(shù)的最小值。

rolling_sum():計(jì)算數(shù)據(jù)樣本的總和(按列計(jì)算)

rolling_mean():數(shù)據(jù)樣本的算術(shù)平均數(shù)。

cum系列函數(shù)是作為DataFrame或Series對(duì)象的方法而出現(xiàn)的,命令格式為D.cumsum(),而rolling_系列是pandas的函數(shù),格式為pd.rolling_mean(D,k),意思是每k列計(jì)算依次均值,滾動(dòng)計(jì)算。

3.3統(tǒng)計(jì)作圖函數(shù)

plot():繪制線(xiàn)性二維圖,折線(xiàn)圖。

使用格式:plt.plot(x,y,S),S為繪制時(shí)圖形的類(lèi)型、樣式和顏色。

D.plot(kind='box'),這里使用的是Dataframe或Series對(duì)象內(nèi)置的方法作圖,默認(rèn)以index為橫坐標(biāo),每列數(shù)據(jù)為縱坐標(biāo)自動(dòng)作圖,通過(guò)kind參數(shù)指定作圖類(lèi)型,支持line、bar、barh、hist、box、kde、area\pie(餅圖)等,同時(shí)也能接收plt.plot()中接收的參數(shù)。因此,如果數(shù)據(jù)已經(jīng)被加載為Pandas中的對(duì)象,那么以這種方式作圖是比較簡(jiǎn)潔的。

pie():繪制餅形圖。plt.pie(size)

hist():繪制二維條形直方圖,可以顯示數(shù)據(jù)的分配情形。plt.hist(x,y)

boxplot():繪制樣本數(shù)據(jù)的箱型圖。D.boxplot()/D.plot(kind='box')

plot(logy=True):繪制y軸的對(duì)數(shù)圖形

plot(yerr=error):繪制誤差條形圖

4.python主要的數(shù)據(jù)預(yù)處理函數(shù)

interpolate(Scipy):一維、高維數(shù)據(jù)插值?

unique(Pandas/Numpy):去除數(shù)據(jù)中重復(fù)的元素,得到單值元素列表,它是對(duì)象的方法名

isnull/notnull(Pandas):判斷是否空值和非空值

isna():Detect missing values (NaN in numeric arrays, None/NaN in object arrays)

PCA(Scikit-Learn):主成分分析

?

總結(jié)

以上是生活随笔為你收集整理的pandas: DataFrame在数据处理时一些常用的操作汇总的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。