数据分析学习日记 Day6(数据分析实例小试)
零散客戶從商店用支付寶購買、評分數據分析
目錄
一、熟悉數據
二、分析方法論
三、數據分析突破點
四、數據預處理
數據清洗
數據加工
五、具體分析
一、熟悉數據
數據集是商店的信息,支付寶用戶的支付日志和用戶瀏覽日志(從2015.07.07-2016.10.31)。:商店id以及所在城市內的地址id、 用戶平均支付價格、用戶給商店評分,用戶評價的數量、口碑等級評價、用戶購買的食品類別(一二三級分類)。
二、分析方法論(可忽略不看)
(然而此次分析的問題很簡單,這幾個方面幾乎沒有什么影響)
基于數據情況,pest分析法,政治環境、經濟環境、技術環境、社會環境。
政治環境:《國務院關于大力發展電子商務加快培育經濟新動力的意見》、《國務院辦公廳關于加快眾創空間發展服務實體經濟轉型升級的指導意見》等,都為互聯網經濟、移動支付的發展提供了良好的契機。
經濟環境:2015年中國經濟持續處于下行壓力中,但全年運行平穩。隨著國民收入進一步提高,我國消費升級將從商品消費驅動轉向服務消費驅動,從傳統消費驅動轉向新興消費驅動。新技術催生新消費熱點、新理念帶動服務消費增加。隨著收入水平提高,必需品消費占比不斷下降,新興消費逐漸興起比如交通通信、醫療保健、教育文化娛樂消費占比明顯上升。消費結構升級趨勢:從低端到高端,從生存型到服務型,從低層單一型到奢實用型。
技術環境:支付寶增添了許多功能,技術逐步完善富有競爭力,同時與三星、蘋果多公司合作,與國內外金融機構合作。
社會環境:社會穩定繁榮發展,醫療、生態、文化建設良好,為經濟的繁榮發展提供了條件。
三、數據分析突破點:
???
1.不同城市、地域用支付寶店數量與支付價格:反映移動支付發展情況,可在一定程度上反映經濟發展情況。
2.用戶平均支付的價格與用戶給予的評分之間的關系:是否價格適中評分更高?
3.用戶的評分與評價數量、口碑評價關系:用戶評分與口碑評分、評價數量有無相關性?
4.購買食品類別與地域的關系:南北差異?菜系差異?
5.用戶購買食品主要的類別:哪些是大眾偏好的食物,能夠為商店提供的產品或服務提供參考。
四、數據預處理
-
數據清洗
重復數據,無(商店id各不相同)。
缺失數據,缺失的是用戶的評分和評價的數量,按照省會,非省會進行數據補充,對于某城市缺失百分比的打算采用平均值代替(以孝感為例,這兩項缺失達到50%,用平均值代替,但可能產生較大誤差,影響準確性),對于某城市缺失百分比小的打算刪除。一些特例,某些省的非省會城市(比如共有20條數據,缺失的8條分散在各個城市),為了城市的完整性則參考省內相近的城市計算;對于內蒙古、貴州省,僅有一條數據且缺失,用中部地區、經濟情況相近的城市平均值代替。最終刪掉了87條數據,其余補充完整。
-
數據加工
字段匹配:針對要反映不同地域的移動支付狀況、經濟情況。分別按省劃分、按經濟帶劃分:東部沿海地區、中部內陸地區、西部邊遠地區。東部沿海地區(北京、天津、河北、遼寧、上海、江蘇、浙江、福建、山東、廣東、廣西、海南、重慶、大連、寧波、廈門、青島、深圳)、中部內陸地區(山西、內蒙古、吉林、黑龍江、安徽,江西、河南、湖北、湖南)、西部邊遠地區(四川、貴州、云南、西藏、陜西、甘肅、青海、寧夏、新疆)、按秦嶺淮河一線劃分南北(由于江蘇部分處于南方,部分北方,此省數據在做飲食規律時不再考慮)。
另外,由于數據量僅有1900余條,又分布到各城市,因此沒有考慮抽取樣本。
總體來說,刪掉87條數據,增加了對城市的所在省、經濟帶、是否省會的、處于南北方的匹配,補充了缺失的部分值
五、具體分析
?
問題一:
- 不同城市、地域用支付寶店數量與支付價格:反映移動支付發展情況,可在一定程度上反映經濟發展情況。
以城市為橫軸,以商店數量和支付均價格做縱軸作圖 :
以上是典型長尾數據,后面城市很多而且參考起來意義不大。
考慮到將長尾合并一下:重慶以后的城市列為“其他城市”。
采用線性趨勢線,相關系數r為0.026,相關性很差。
接下來,按照三條經濟帶分組考察:
支付的均值從地域來看幾乎無差異,而商店的數量從三條經濟帶來看差異明顯:東部經濟發達,移動支付發展繁榮,中部和西部則發展的較差,另外,東部省會城市貢獻率較低為63.4%,而中西部貢獻率較高超過80%,說明中西部的非省會城市要加大經濟建設力度。
問題二:
- 用戶平均支付的價格與用戶給予的評分之間的關系:是否價格適中評分更高?
- 用戶的評分與評價數量、口碑評價關系:用戶評分與口碑評分、評價數量有無相關性?
?
將價格與用戶給予的評分均值比較,發現評分均值都處于2.389-2.874之間波動,難以發現關系,于是想到用方差去描述評分的情況。如下圖:
橫軸是購買價格,可以看出,①價格適中(9-15)時,用戶的評價數量較多,反映出用戶的購買數量較多;②評分的方差較小,說明此時評分較集中,用戶普遍比較滿意;③口碑評分均值高,更能體現出次價格區間的商品普遍受到青睞。④口碑的評價較于用戶評價更準確些,購買商品時的參考價值更高。
從上圖來看,我想用正態分布或者偏態分布去做一條擬合曲線,能力有限....下圖只做了正態分布曲線。并考察了擬合程度。
用JB統計量檢驗擬合程度:計算偏度系數S=0.000656687,K=2.511259274,JB=0.19905,概率為0.9。擬合程度良好。
問題三:
- 購買食品類別與地域的關系:南北差異?菜系差異?
- 用戶購買食品主要的類別:哪些是大眾偏好的食物,能夠為商店提供的產品或服務提供參考。
從零散用戶購買商品第一級分類來看:
那么,以下主要從食品與超市便利店來分析
可能由于移動支付的發展原因或是經濟發展原因,北方的購買記錄數量遠少于南方:
| 第二級分類 | 計數 | 第三級分類 | 計數 |
| 北 | 318 | 北 | 228 |
| 南 | 1334 | 南 | 991 |
但是,從各項產品的購買百分比來看,南北的情況并沒有顯出很大差異:
考慮到這只是零散用戶對于零食飲品等的小額購買,可能對于差異的顯示不明顯。
由此,從整體上考察零散用戶購買超市類與美食類的偏好情況:
從上圖不難看出,對于第三級分類進一步考察時,快餐、超市、休閑茶飲、便利店、小吃、休閑食品是主要部分:
快餐總的比重較大,超市、便利店商品排第二、第三,每個類下的一些小類中尤其西式快餐、其它小吃、奶茶、休閑食品占比重較大(超市、便利店以外),這為商品的零售方提供了有力的數據支持。
另外,想考慮有無菜系分布,然而數據太少,又都是小額的支付,看不出菜系的特色,比如川菜沒有在重慶,成都分布。而且隨著經濟、文化的交流都有點難以看出差別,中西餐也是這樣難以發現規律。
?
?
注:對于正態分布可用JB值檢驗:JB統計量;《誰說菜鳥不會數據分析》給我這菜鳥指導意義較大。
總結
以上是生活随笔為你收集整理的数据分析学习日记 Day6(数据分析实例小试)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 足球机器人第三次作业:求自己的位置
- 下一篇: [激光器原理与应用-12]: 2022年