當前位置：首頁 > 前端技术 > javascript >内容正文

javascript

电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts)

發布時間：2023/12/10 javascript 30 豆豆

生活随笔收集整理的這篇文章主要介紹了电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

項目描述
某著名電商平臺雙十一美妝銷售數據分析。由于是真實的商業數據，所以做了脫敏處理，數據集中對店名的引用被處理為產品的品牌名以保護店家隱私。。
通過對該平臺雙十一美妝銷售數據的品牌、銷量、熱度等特征的分析(平臺視角和用戶視角)，嘗試探索以下問題：

雙十一期間，最受消費者青睞的產品或品牌是哪些？
雙十一期間，美妝行業各品類的銷售情況？
雙十一期間，消費高峰何時出現?
雙十一期間，客戶的評論數對銷量的影響?
......

項目架構

電商大數據項目架構圖

項目流程
項目流程說明如下：

1. 數據集：使用Spark ETL技術，將數據抽取到Hive數據倉庫ODS層；
2. 大數據清洗：使用Spark SQL進行數據清洗，包括數據去重和錯誤數據處理；
3. 大數據屬性轉換與整理：使用Spark SQL進行數據屬性預處理，包括屬性轉換與抽取、屬性選擇等；
4. 大數據分析：使用Spark SQL平臺角度和用戶角度分別進行分析，并使用Spark ETL技術將分析結果寫出到MySQL數據庫中；
5. 大數據可視化：使用Spring MVC + Apache ECharts展示分析結果。

注：本項目使用了分詞處理技術以抽取商品分類屬性。
適用對象
本項目適合以下人員學習使用：

已有Hadoop和Spark基礎，需要掌握大數據完整開發和分析流程、積累大數據項目經驗；
大數據畢業設計項目。

項目實施過程
本項目使用Hive作業數據倉庫，使用Spark SQL開發數據處理管道，包括ETL、數據清洗和數據預處理，并使用Spark SQL作為OLAP引擎。大數據分析結果寫出到MySQL數據庫中，最后使用Spring MVC和Apache ECharts開發Web應用程序，對分析結果進行可視化展示。整體項目實施過程如下：
1. 數據ETL使用Spark SQL開發ETL作業，將某電商平臺雙十一美妝銷售數據抽取并加載到Hive數據倉庫的ODS層。
2. 大數據清洗和預處理使用Spark對大數據進行清洗，包括去重、錯誤數據處理、空值處理、屬性轉換、屬性提取等數據預處理任務。其中比較難處理的（難點及亮點）是對美妝商品抽取主類別和子類別屬性。這里我們在Spark平臺上使用了結巴分詞工具包來抽取這兩個屬性。
3. 大數據分析使用Spark SQL從多個維度對整理后的銷售數據集進行分析。在項目實施過程中，我們先使用Zeppelin NoteBook執行交互式探索和分析，然后將實現過程使用IntellIJ IDEA進行項目重構。
4. 作業部署和執行項目使用Maven打jar包，使用Azkaban進行作業編排（當然是可選的，也可省略作業編排，手工依次執行），并部署到Spark集群上執行。最終分析結果寫出到MySQL數據庫中。
5. 大數據可視化使用IntellIJ IDEA開發Spring MVC項目，使用ECharts作為可視化組件，展示分析結果。

?參考來源1

參考來源2

總結

以上是生活随笔為你收集整理的电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： POJ1430 Binary Stirl
下一篇： Spring学习9-MyEclipse中