数据分析_SQL数据分析--旅游数据分析可视化实操
SQL數據分析--旅游數據分析可視化實操。根據現有數據分析,具體操作情況如下:
①用戶個人信息,數據共有4列,userid:用戶ID; gender性別;province省份;age年齡段
測試集,10076條+訓練集,40307條數據
②用戶行為信息:數據共有3列,userid用戶ID;actionType行為類型;actionTime發生時間(行為類型一共有9個,其中1是喚醒app;2~4是瀏覽產品,無先后關系;5~9則是有先后關系的,從填寫表單到提交訂單再到最后支付。)
測試集,331204條+訓練集,1048575條數據
③用戶歷史訂單數據:數據共有7列,userid用戶ID;orderid訂單id;orderTime訂單時間;orderType訂單類型;(其中1表示購買了精品旅游服務,0表示普通旅游服務)city旅游城市;country國家;continent大陸
測試集,5059條+訓練集,20653條數據
④待預測訂單的數據,數據共有2列 userid用戶id;orderType訂單類型
測試集,10076條(無有效信息)+訓練集,40307條數據
⑤評論數據數據共有5列,userid用戶id;orderid訂單id;rating評分;tags標簽;commentsKeyWords評論內容。
測試集,2474條+訓練集,9863條
互聯網在線旅游--APP分析指標
營銷推廣指標:APP活躍用戶數、各渠道下載量、注冊用戶數、分渠道注冊轉化、分渠道復購率(活動頁面瀏覽數、分渠道瀏覽貢獻)
運營指標:獲取新客成本,活躍用戶數、新增注冊用戶占比、各渠道用戶留存,購買VIP服務占比,用戶滿意度
產品指標:活躍用戶數、平均APP單次使用時長、平均APP日使用時長、頁面訪問時長、整體跳出率、注冊轉化率、VIP會員轉化率。
三:數據清洗(此步驟在EXCEL數據分析時已處理,可見日求三餐:精品旅行服務數據分析--EXCEL初步分析)
1.列名重命名(把列名稱更改為中英文便于理解)
2.刪除重復值(由于是通過訂單查詢最受注冊用戶歡迎的旅游國家以及城市TPO10,以訂單ID識別重復信息,查詢無重復值)
3.缺失值處理
①.用戶個人信息中用戶ID,可以得知40307條數 ,性別:15706條缺失:24547條;省份:36412條,缺失:38951條;年齡段:4742條,缺失:35565條【由于年齡段數據缺失比重為88.23%】由此年齡段數據無法真實有效的體現,不可做重要分析項。(其中省份中確實部分填充為“未知”)
②.用戶歷史訂單數據訂單ID:20653條數據,其他各項均完整。
4.時間提取
①由于歷史訂單中訂單時間是時間戳形式,無法具體識別訂單時間,通過公式把時間戳更換成常規時間
②輔助列提取數據,為了便于統計不同年份最受歡迎的城市,需要把訂單年份提取出來。
函數公式:=text(a2,"YYYY")
五:數據導入MYSQL
1、下載MySQL服務端和客戶端。
服務端:猴子:超級詳細的mysql安裝指南
客戶端:猴子:Mysql客戶端:Navicat安裝教程及問題匯總
2、導入下載數據表:(由于此次是初步分析,暫時只導入訓練集數據)
七:具體分析情況
問題1.1注冊用戶的情況,共計多少注冊用戶?
問題1.2注冊用戶城市分布情況?
問題1.3消費用戶占比(注冊用戶數量40307是由問題1.1獲得)
問題1.4主流消費用戶主要來自哪些省份?
問題2.1目前最受注冊用戶喜歡的旅游國家?
問題2.2最受歡迎的旅游城市2016年TPO10
問題2.3最受歡迎的旅游城市2017年TPO10
問題2.4最受歡迎的旅游城市TPO10
問題3.1消費用戶的滿意度情況
問題3.2消費用戶的不滿意度情況分析
通過上面的分析,我們可以得到的以下分析結論有:
總結
以上是生活随笔為你收集整理的数据分析_SQL数据分析--旅游数据分析可视化实操的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 完成冲正交易是什么意思
- 下一篇: 条件查询_SQL简单查询(条件查询 模糊