日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据清洗的基本流程_数据分析小白学习之路(三)——Excel多练熟能生巧

發布時間:2025/3/19 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据清洗的基本流程_数据分析小白学习之路(三)——Excel多练熟能生巧 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

談到數據分析,我們可能第一時間想到python、SQL、Tableau、帆軟、R等,但是這些軟件、語言要入門掌握、系統學習起來耗時較長。這時候不得不提到excel這個“平平無奇數分小能手”了,看似基礎,實則功能強大,可以完成數據處理、可視化很多工作。

數據分析的流程:①明確問題;②理解數據;③數據清洗;④數據分析或模型構建;⑤數據可視化。

1.明確問題

在邁步之前總要先確定前進的方向。數據分析也是一樣,有了研究問題作導向,才能不斷處理、分析數據來靠近我們所求的答案。

我使用的數據集以及問題明確都在前兩篇文章中寫清楚啦,詳情請點擊下面鏈接:

待研究的問題小小兔嘰ya:數據分析小白學習之路(一)——確立目標?zhuanlan.zhihu.com小小兔嘰ya:數據分析小白學習之路(二)——統計學基礎、業務了解?zhuanlan.zhihu.com

2.理解數據

我即將分析用到的數據集,在上邊兩篇文章中有詳細寫對于數據指標的理解,請點擊上面鏈接查看。

3.數據清洗

數據清洗的流程:①選擇子集;②列名重命名;③刪除重復值;④缺失值處理;⑤一致化處理;⑥數據排序;⑦異常值處理。

上述流程只是大概描述數據清洗的過程,實際應用中針對數據集特點可能有所不同。

1.重復值檢查

嬰兒信息表中,每位用戶user_id應是唯一的,用戶交易信息表中可能因為用戶不同時段的交易,存在重復的user_id信息,故只處理嬰兒信息表中的重復值。

具體操作:數據→刪除重復值

操作結果:

無重復值需要處理

2.數據格式一致化處理

兩張數據表中都有日期數據,首先需要檢查并處理其格式為“日期”格式。

具體操作:

操作結果:數據轉變成正確的日期格式!

日期數據格式處理

3.數據表聯結

為了探究問題所需,以用戶交易信息表和嬰兒信息表中的user_id為聯結字段,匹配交易用戶對應的性別gender及出生日期birthday。

具體操作:

利用vlookup函數來查找匹配birthday和gender

操作結果:匹配后發現birthday、gender兩列存在#N/A值,查證后發現函數應用無誤,應該是部分用戶沒有登記出生日期、性別信息,可將這些數據刪除。

4.創建新字段

為了之后調查不同年齡交易用戶的消費習慣,需要創建年齡age字段。

具體操作:

(購買日期-出生日期)求出交易時用戶年齡,并用int函數向下取整

操作結果:顯示年齡age有正有負,說明嬰兒還未出生。為了規范數據信息,創建輔助表來確定每個用戶的所屬年齡段。

具體操作:

創建嬰兒年齡段輔助表

vlookup查找

操作結果:

生成“寶寶年齡段”列

5.缺失值、異常值處理

具體操作:開始→查找和選擇→定位條件→空值;查看年齡age字段數據,發現有嬰兒年齡為28,為異常數據,刪除即可。

4.數據分析/問題探究

問題1:不同時間內消費情況差異

具體操作:建立數據透視表,交易日期day為行,購買數量buy_mount求和,統計不同年份、月份對應的交易訂單數。

操作結果:

不同年份對應的交易訂單數

按月統計用戶購買數量

可以很明顯地看到2014年11月消費訂單數激增,遠超其他時期訂單數目,“雙十一”活動開始成為全民購物日。

問題2:不同年齡用戶消費差異

具體操作:以年齡age、buy_mount、品類cat1、寶寶年齡段創建透視表;其中年齡age為-1、-2、-3的用戶歸為未出生組。

操作結果:

不同年齡用戶購買數量差異

不同年齡段用戶購買數量差異

如上表所示:未出生嬰兒對應的用戶購買數量最多,而在物品品類方面,品類為’28’的物品受到所有用戶最多喜愛;除此之外,0-2歲年齡段用戶消費數量占比高達60%,是消費的主力群體。

問題3:不同性別用戶間消費品類差異

具體操作:以性別gender、buy_mount、品類cat1創建透視表進行分析。

操作結果:

從表中可知,男性消費數量略高于女性;在購物品類方面,女性購買品類’28’數量最多,男性購買品類’50014815’數量最多。

問題4:用戶復購情況

具體操作:這里我將用戶交易次數超過1視為用戶產生復購行為。

操作結果:

從表中可知,共25名用戶產生多次購買行為,占總交易用戶數的比例非常之小,有可能是原始數據記錄存在問題或其他情況。

問題5:不同品類之間購買情況比較

具體操作:利用數據透視表統計不同品類cat1對應的購買數量。

操作結果:

忘記排序了 ̄□ ̄||

從表中可以知道,品類消費數量最多的是’28’、’50008168’、’50014815’,三者總共占比接近90%。

問題6:同一品類下不同子類別購買情況比較

查看每一品類下的子類別占比,可知每個類別下消費數量最多的子品類。其中,’50014815’品類下消費數量最多的子類別為’50018831’,占總消費數的16.74%,遠遠超過了其他子類別的消費數量。

學習資源:

【訓練營】職場Excel零基礎入門 - 網易云課堂?study.163.com怎樣用 Excel 做數據分析??www.zhihu.com

這里還有我總結的excel常用函數和常用快捷鍵,點擊可看:

小小兔嘰ya:Excel常用函數、快捷鍵——常看常熟?zhuanlan.zhihu.com

Excel數據分析的流程大致如此,還有很多功能等待著我們去挖掘,需要常學習常溫習。接下來準備學習制作可視化圖表,下篇再見!

?碼字不易,求贊安慰?

總結

以上是生活随笔為你收集整理的数据清洗的基本流程_数据分析小白学习之路(三)——Excel多练熟能生巧的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。