日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pandas 基础用法

發(fā)布時(shí)間:2023/12/10 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 pandas 基础用法 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

pandas 是一個(gè)基于 Numpy 構(gòu)建, 強(qiáng)大的數(shù)據(jù)分析工具包

主要功能

  • 獨(dú)特的數(shù)據(jù)結(jié)構(gòu) DataFrame, Series
  • 集成時(shí)間序列功能
  • 提供豐富的數(shù)學(xué)運(yùn)算操作
  • 靈活處理缺失數(shù)據(jù)

Series 一維數(shù)組

Series 是一種類似于一維數(shù)組的對(duì)象, 由一組數(shù)據(jù)和一組與之相關(guān)的數(shù)據(jù)標(biāo)簽(索引)組成

創(chuàng)建方式

pd.Series([4, 7 ,5, -3]) pd.Series([4, 7 ,5, -3], index=['a', 'b', 'c', 'd']) pd.Series({'a':1, 'b', 2}) pd.Series(0, index=['a', 'b', 'c', 'd'])# 獲取值數(shù)組 sr = pd.Series([4, 7 ,5, -3]) sr.value# 獲取索引數(shù)組 sr = pd.Series([4, 7 ,5, -3]) sr.index

Series 支持array的特性(下標(biāo))

  • 從 ndarry 創(chuàng)建 Series
  • 與標(biāo)量直接運(yùn)算
  • 兩個(gè) Series 運(yùn)算
  • 索引
  • 切片
  • 通用函數(shù) np.abs(sr)
  • 布爾值過濾 sr[sr>0]

Series 支持字典的特性(標(biāo)簽)

  • 從字典創(chuàng)建 Series Series(dict)
  • in 運(yùn)算
  • 鍵索引

整數(shù)索引

如果索引是整數(shù), 則根據(jù)下標(biāo)取值時(shí)總是面向標(biāo)簽的.
此時(shí)可通過 loc方法(將索引解釋為標(biāo)簽)和iloc方法(將索引解釋為下標(biāo))

Series 數(shù)據(jù)計(jì)算

sr1 = pd.Series([12,23,34], index=['c', 'a', 'd']) sr2 = pd.Series([11,20,10], index=['d', 'c', 'a']) print(sr1 + sr2) # 相關(guān)計(jì)算方法 add, sub, div, mul

pandas 在進(jìn)行兩個(gè) Series 對(duì)象運(yùn)算時(shí), 會(huì)按索引進(jìn)行對(duì)齊然后計(jì)算.

數(shù)據(jù)對(duì)齊

若兩個(gè) Series 對(duì)象的索引不完全相同, 則結(jié)果的索引是兩個(gè)操作數(shù)索引的并集. 如果只有一個(gè)對(duì)象在某索引下有值, 則結(jié)果中該索引的值為NaN.

缺失數(shù)據(jù)處理辦法

sr1.add(sr2, fill_value=0) 填充缺失的值 dropna() 過濾掉值為NaN的行 fillna() 填充缺失數(shù)據(jù) isnull() 返回布爾數(shù)組, 缺失值對(duì)應(yīng)為True notnull() 返回buer數(shù)據(jù), 缺失值對(duì)應(yīng)為False# 過濾缺失數(shù)據(jù) sr.dropna() sr[data.notnull()]

DataFrame

DataFrame 是一個(gè)表格型的數(shù)據(jù)結(jié)構(gòu), 含有一組有序的列. 可以看做是 Series 組成的字典, 并且公用一個(gè)索引.

創(chuàng)建 DataFrame 的方法有很多種

# 手動(dòng)創(chuàng)建 pd.DataFrame({'one':[1,2,3,4], 'two':[4,3,2,1]}) pd.DataFrame({'one':pd.Series([1,2,3], index=['a','b', 'c']), 'two':pd.Series([1,2,3,4], index=['a','b','c','d'])# 從csv文件讀取與寫入 df.read_csv('filename.csv') df.to_csv()

常用屬性

  • index 獲取索引
  • T 轉(zhuǎn)置
  • columns 獲取列索引
  • values 獲取值數(shù)組
  • describe() 獲取快速統(tǒng)計(jì)

索引和切片

DataFrame 是一個(gè)二維數(shù)據(jù)類型, 所以有行索引和列索引, 可以通過標(biāo)簽和位置兩種方法進(jìn)行索引和切片

  • loc 索引方法和 iloc 下標(biāo)方法
    • 使用方法: 逗號(hào)隔開, 前面是行索引, 后面是列索引
    • 行/列索引部分可以是常規(guī)索引, 切片, 布爾值索引, 花式索引任意搭配

數(shù)據(jù)對(duì)齊與缺失數(shù)據(jù)

DataFrame 對(duì)象在運(yùn)算時(shí), 同樣會(huì)進(jìn)行數(shù)據(jù)對(duì)齊, 其行索引和列索引分別對(duì)齊

處理缺失數(shù)據(jù)的相關(guān)方法

  • dropna(axis=0, where='any', ...)
  • fillna()
  • isnull()
  • notnull()

pandas 常用方法

  • mean(axis=0, skipna=False) 對(duì)列(行)求平均值
  • sum(axis=1) 對(duì)列(行)求和
  • sort_index(axis, ..., ascending) 對(duì)列(行)索引排序
  • sort_values(by, axis, ascending) 按某一列(行)的值排序
  • apply(func, axis=0) 將自定義函數(shù)應(yīng)用在各行或各列上, func可返回標(biāo)量或Series
  • NumPy 的通用函數(shù)同樣適用于pandas
  • applymap(func) 將函數(shù)應(yīng)用在 DataFrame 各個(gè)元素上
  • map(func) 將函數(shù)應(yīng)用在 Series 各個(gè)元素上

時(shí)間處理

pandas基于dateutil來處理時(shí)間對(duì)象

  • dateutil.parser.parse() dateutil 原生時(shí)間處理方法
  • pd.to_datetime() pandas 成組處理時(shí)間對(duì)象
  • data_range() 產(chǎn)生時(shí)間對(duì)象數(shù)組
    • start 開始時(shí)間
    • end 結(jié)束時(shí)間
    • periods 時(shí)間長度
    • freq 時(shí)間頻率, 默認(rèn)為'D', 可選為H(our), W(eek), B(usiness), S(emi-)M(onth), (min)T(es), S(econd), A(year)
時(shí)間序列

時(shí)間序列是以時(shí)間對(duì)象為索引的Series或DataFrame, datetime對(duì)象作為索引時(shí)是存儲(chǔ)在DatetimeIndex對(duì)象中的.

時(shí)間序列的特色功能:

  • 傳入"年"或"年月"作為切片方式
  • 傳入日期范圍作為切片方式
  • 豐富的函數(shù)支持: resample(), strftime(), ...

文件處理

  • read_csv 和 read_table 函數(shù)
    • sep 制定分隔符, 可用正則表達(dá)式如'\s+'
    • header = None 指定文件無列名
    • name 指定列名
    • index_col 指定某列為索引
    • skip_row 指定跳過某些行
    • na_values 指定某些字符串表示缺失值
    • parse_dates 指定某些列是否被解析為日期, 類型為布爾值或列表
  • to_csv 函數(shù)
    • sep 指定文件函數(shù)
    • na_rep 指定缺失值轉(zhuǎn)換的字符串, 默認(rèn)為空字符串
    • header=False 不輸出列名一行
    • index=False 不輸出行索引一列
    • columns 指定輸出的列, 傳入列表

轉(zhuǎn)載于:https://www.cnblogs.com/haoxi/p/9363501.html

總結(jié)

以上是生活随笔為你收集整理的pandas 基础用法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。