日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

excel loc() python_总结:像Excel一样使用python进行数据分析

發布時間:2023/12/19 python 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 excel loc() python_总结:像Excel一样使用python进行数据分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Excel是數據分析中最常用的工具,本篇文章通過python與excel的功能對比介紹如何使用python通過函數式編程完成excel中的數據處理及分析工作。在Python中pandas庫用于數據處理,通過這些函數介紹如何通過python完成數據分析中導入數據,理解數據,清洗數據,模型構建和一部分KPI指標如何實現。

使用的數據是 朝陽醫院2018年銷售數據

導入數據以及理解數據部分

導入excel

import pandas as pd

xls=pd.ExcelFile('G:xlsx文件朝陽醫院2018年銷售數據.xlsx')

salesdf=xls.parse('Sheet1')

Salesdf.head()

數據維度(行列)

shape可以查看該表中的行數和列數

查看數據格式

Dtypes是一個查看數據格式的函數,可以一次性查看數據表中所有數據的格式,也可以指定一列來單獨查看。

指定一列查看:

查看統計信息

使用Describe函數可以查看統計信息計數,平均值,標準差,最小值,四分位數,中位數,最大值。

查看列名稱

使用columns函數查看列名稱


數據清洗部分

刪除缺失值

Python中處理空值的方法比較靈活,可以使用 Dropna函數用來刪除數據表中包含空值的數據,也可以使用fillna函數對空值進行填充。

使用fillna函數把空值用0填充

更改列名稱

Rename是更改列名稱的函數,我們將來數據表中的應收金額列更改為應收金額(元)

salesdf=salesdf.rename(columns={'應收金額':'應收金額(元)'})

刪除重復值

使用drop_duplicates()刪除重復值

分列

sales_split=pd.DataFrame((x.split(' ') for x in salesdf['購藥時間']),

index=salesdf.index,

columns=['日期','周幾'])

需要注意的是缺失值會被當作浮點型 而split函數需要字符串類型,要先刪除缺失值

將完成分列后的數據表與原數據表進行匹配

salesdf=pd.merge(salesdf,sales_split,right_index=True, left_index=True)

刪除列

使用drop刪除列,有以下等價的語法

DF= DF.drop('column_name', 1);

DF.drop('column_name',axis=1, inplace=True)

使用drop刪除了購藥時間這一列。

修改日期格式

使用to_datetime函數進行修改

salesdf.loc[:,'日期']=pd.to_datetime(salesdf.loc[:,'日期'],format='%Y-%m-%d',errors='coerce')

排序

使用sort_values進行排序

By:按哪一列排序

ascending=True降序

ascending=Falses升序

salesdf=salesdf.sort_values(by='日期',ascending=True)

重命名行名

使用reset_index重命名行名

刪除異常值

由于銷量,應收金額和實收金額不為負,所以應該清除異常值

使用查詢條件刪除了異常值


數據建模部分

數據篩選

#使用“與”條件進行篩選

salesdf.loc[(salesdf['列名']=='數值')&(salesdf['列名']=='數值'),['列名1','列名2','列名3','列名4']]

#使用“或”條件進行篩選

salesdf.loc[(salesdf['列名']=='數值')|(salesdf['列名']=='數值'),['列名1','列名2','列名3','列名4']]

在前面的代碼后增加price字段以及sum函數,按篩選后的結果將price字段值進行求和,相當于excel中sumifs的功能。

還有一種篩選的方式是用query函數。下面是具體的代碼和篩選結果。

數據匯總

Excel的數據目錄下提供了“分類匯總”功能,可以按指定的字段和匯總方式對數據表進行匯總。Python中通過Groupby函數完成相應的操作,并可以支持多級分類匯總。

Groupby是進行分類匯總的函數,使用方法很簡單,制定要分組的列名稱就可以,也可以同時制定多個列名稱,groupby按列名稱出現的順序進行分組。同時要制定分組后的匯總方式,常見的是計數和求和兩種。

可以通過關聯的列進行查詢,通過groupby函數計算出了商品的銷售次數。

計算幾個KPI指標:

1.月均消費次數

刪除重復數據計算消費總次數

設定好起始日期和結束日期

計算天數,月份數。然后用所有消費次數除以月份數可以得到月均消費次數。

2.客單價

使用總消費金額除以消費次數得到客單價

3.月均消費金額

使用總消費金額除以消費次數得到月均消費金額

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的excel loc() python_总结:像Excel一样使用python进行数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。