javascript
电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts)
項目描述
某著名電商平臺雙十一美妝銷售數據分析。由于是真實的商業數據,所以做了脫敏處理,數據集中對店名的引用被處理為產品的品牌名以保護店家隱私。。
通過對該平臺雙十一美妝銷售數據的品牌、銷量、熱度等特征的分析(平臺視角和用戶視角),嘗試探索以下問題:
- 雙十一期間,最受消費者青睞的產品或品牌是哪些?
- 雙十一期間,美妝行業各品類的銷售情況?
- 雙十一期間,消費高峰何時出現?
- 雙十一期間,客戶的評論數對銷量的影響?
- ......
項目架構
電商大數據項目架構圖
項目流程
項目流程說明如下:
- 1. 數據集:使用Spark ETL技術,將數據抽取到Hive數據倉庫ODS層;
- 2. 大數據清洗:使用Spark SQL進行數據清洗,包括數據去重和錯誤數據處理;
- 3. 大數據屬性轉換與整理:使用Spark SQL進行數據屬性預處理,包括屬性轉換與抽取、屬性選擇等;
- 4. 大數據分析:使用Spark SQL平臺角度和用戶角度分別進行分析,并使用Spark ETL技術將分析結果寫出到MySQL數據庫中;
- 5. 大數據可視化:使用Spring MVC + Apache ECharts展示分析結果。
注:本項目使用了分詞處理技術以抽取商品分類屬性。
適用對象
本項目適合以下人員學習使用:
- 已有Hadoop和Spark基礎,需要掌握大數據完整開發和分析流程、積累大數據項目經驗;
- 大數據畢業設計項目。
項目實施過程
本項目使用Hive作業數據倉庫,使用Spark SQL開發數據處理管道,包括ETL、數據清洗和數據預處理,并使用Spark SQL作為OLAP引擎。大數據分析結果寫出到MySQL數據庫中,最后使用Spring MVC和Apache ECharts開發Web應用程序,對分析結果進行可視化展示。整體項目實施過程如下:
1. 數據ETL使用Spark SQL開發ETL作業,將某電商平臺雙十一美妝銷售數據抽取并加載到Hive數據倉庫的ODS層。
2. 大數據清洗和預處理使用Spark對大數據進行清洗,包括去重、錯誤數據處理、空值處理、屬性轉換、屬性提取等數據預處理任務。其中比較難處理的(難點及亮點)是對美妝商品抽取主類別和子類別屬性。這里我們在Spark平臺上使用了結巴分詞工具包來抽取這兩個屬性。
3. 大數據分析使用Spark SQL從多個維度對整理后的銷售數據集進行分析。在項目實施過程中,我們先使用Zeppelin NoteBook執行交互式探索和分析,然后將實現過程使用IntellIJ IDEA進行項目重構。
4. 作業部署和執行項目使用Maven打jar包,使用Azkaban進行作業編排(當然是可選的,也可省略作業編排,手工依次執行),并部署到Spark集群上執行。最終分析結果寫出到MySQL數據庫中。
5. 大數據可視化使用IntellIJ IDEA開發Spring MVC項目,使用ECharts作為可視化組件,展示分析結果。
?參考來源1
參考來源2
總結
以上是生活随笔為你收集整理的电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: POJ1430 Binary Stirl
- 下一篇: Spring学习9-MyEclipse中