當前位置：首頁 > 编程语言 > python >内容正文

python

Python—实训day7下—Pandas统计分析基础

發布時間：2023/12/18 python 26 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python—实训day7下—Pandas统计分析基础小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1讀寫不同數據源的數據

1.1讀寫文本文件

1.1.1文件讀取

文本文件（txt文件）是一種由若干行字符構成的計算機文件，它是一種典型的順序文件。使用read_table來讀取文本文件：

pandas.read_table(filepath_or_buffer, sep=’\t’, header=’infer’, names=None, index_col=None, dtype=None, engine=None, nrows=None)

csv是一種逗號分隔的文件格式，因為其分隔符不一定是逗號，又被稱為字符分隔文件，文件以純文本形式存儲表格數據（數字和文本）。使用read_csv函數來讀取csv文件：

pandas.read_csv(filepath_or_buffer, sep=’,’, header=’infer’, names=None, index_col=None, dtype=None, engine=None, nrows=None)

read_table和read_csv常用參數及其說明。

read_table和read_csv函數中的sep參數是指定文本的分隔符的，如果分隔符指定錯誤，在讀取數據的時候，每一行數據將連成一片。

header參數是用來指定列名的，如果是None則會添加一個默認的列名。

encoding代表文件的編碼格式，常用的編碼有utf-8、utf-16、gbk、gb2312、gb18030等。如果編碼指定錯誤數據將無法讀取，IPython解釋器會報解析錯誤。

import pandas as pd data = pd.read_table(r'F:\Desktop\2020.09.21-30廣東海洋大學實訓\9.23Pandas統計分析基礎\meal_order_info.csv', encoding='gbk', sep=',') info = pd.read_csv(r'F:\Desktop\2020.09.21-30廣東海洋大學實訓\9.23Pandas統計分析基礎\meal_order_info.csv', encoding='gbk')

注：pands.read_table中參數encoding默認的編碼是“utf-8”，但meal_order_info.csv文件的編碼格式是“gbk”，所以需要進行encoding參數的設置。一般情況下，編碼格式不是“utf-8"的話，先試試是不是”gbk“的，不是再接著試utf-16、gb2312、gb18030這幾個編碼格式。

1.1.2文件存儲

文本文件的存儲和讀取類似，結構化數據可以通過pandas中的to_csv函數實現以csv文件格式存儲文件。

DataFrame.to_csv(path_or_buf=None, sep=’,’, na_rep=”, columns=None, header=True, index=True,index_label=None,mode=’w’,encoding=None)

info.to_csv(r'F:\Desktop\2020.09.21-30廣東海洋大學實訓\9.23Pandas統計分析基礎\info.csv', encoding='gbk')

有時候保存出來的數據是亂碼的情況，這時就需要設置下encoding這個參數。

1.2讀寫Excel文件

1.2.1Excel文件讀取

pandas提供了read_excel函數來讀取“xls”“xlsx”兩種Excel文件。

pandas.read_excel(io, sheetname=0, header=0, index_col=None, names=None, dtype=None)

detail = pd.read_excel(r'F:\Desktop\2020.09.21-30廣東海洋大學實訓\9.23Pandas統計分析基礎\meal_order_detail.xlsx')

1.2.2Excel文件存儲

將文件存儲為Excel文件，可以使用to_excel方法。其語法格式如下。

DataFrame.to_excel(excel_writer=None, sheet_name=None’, na_rep=”, header=True, index=True, index_label=None, mode=’w’, encoding=None)

to_csv方法的常用參數基本一致，區別之處在于指定存儲文件的文件路徑參數名稱為excel_writer，并且沒有sep參數，增加了一個sheet_name參數用來指定存儲的Excel sheet的名稱，默認為sheet1。

detail.to_excel(r'F:\Desktop\2020.09.21-30廣東海洋大學實訓\9.23Pandas統計分析基礎\detail.xlsx', sheet_name='A') info.to_excel(r'F:\Desktop\2020.09.21-30廣東海洋大學實訓\9.23Pandas統計分析基礎\detail.xlsx', sheet_name='B') #會覆蓋原始數據#將數據保存在一個Excel的多個字表中 with pd.ExcelWriter(r'F:\Desktop\2020.09.21-30廣東海洋大學實訓\9.23Pandas統計分析基礎\detail.xlsx') as w:detail.to_excel(w, sheet_name='A')info.to_excel(w, sheet_name='B')

總結

以上是生活随笔為你收集整理的Python—实训day7下—Pandas统计分析基础的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：推荐16款最棒的Visual Studi
下一篇： Python—实训day8—掌握Data