大数据项目开发进度(实时更新)
文章目錄
- 前言
- 項目概述
- 項目進度
- 第一周0525-0529:
- 第二周0601-0605:
- 第三周0608-0612:
- 第四周0615-0621:(周末加班)
- 第五周0622-0628:(周末加班)
- 第六周0629-0705:(周末加班)
- 第七周0706-0712:(周末加班)
- 第八周0713-0717:
- 第九周0720-0725:(完結)
前言
如果你從本文中學習到絲毫知識,那么請您點點關注、點贊、評論和收藏
大家好,我是愛做夢的魚,我是東北大學大數據實驗班大三的小菜雞,非常渴望優秀,羨慕優秀的人。從5月25號我們開始了為期兩個月的實習,我們需要做一個大型大數據項目,一個項目由三個學生+一個企業的項目經理完成。請大家持續關注我的專欄,我會每天更新。
github地址:https://github.com/233zzh/TitanDataOperationSystem
專欄:大數據案例實戰——大三春招大數據開發
專欄:Spark官方文檔解讀【Spark2.4.5中英雙語】
博客地址:子浩的博客https://blog.csdn.net/weixin_43124279
項目概述
我們采用迭代式開發的軟件開發過程
項目進度
第一周0525-0529:
題目:數據分析運營系統
數據來源:易頭條的部分埋點日志文件+(如果我們后續需要海量數據,我們就寫個程序來生成模擬數據)
TortoiseSVN使用教程【多圖超詳細】——大數據開發實習(一)
第二周0601-0605:
0601:分析需求1
系統前端展示參考:友盟
0602:編寫版本一的軟件需求規格說明文檔(SRS)(張志浩)
《v1軟件需求規格說明文檔(SRS)——大數據開發實習(二)》
0603:進行系統架構設計(非細節設計階段)、安裝環境2
0604:繼續安裝環境2、編寫版本一的架構設計文檔(趙磊)
《v1架構設計文檔——大數據開發實習(三)》
0605:設計系統前端界面
分配任務如下:
趙磊:概況、用戶分析
王闊:存留分析、終端屬性分析
張志浩:渠道分析、用戶參與度分析
第三周0608-0612:
0608:繼續設計系統界面原型
0609:繼續設計系統界面原型
0610:繼續設計系統界面原型并完成
【迭代式開發】v1前端界面展示+代碼——大數據開發實習(四)
0611:確定前端請求數據格式,設計前端所需要的數據庫
【ADS層表-V1】前端頁面所需的數據庫設計——大數據開發實戰項目(五)
0612:
趙磊:概況(完成部分)、用戶分析(未完成)
王闊:存留分析(完成部分)、終端屬性分析(未完成)
張志浩:渠道分析(完成部分)、用戶參與度分析(未完成)
Web設計技術選型、分層、分包以及類與方法設計——大數據開發實戰項目(五)
第四周0615-0621:(周末加班)
0615:
趙磊:概況(部分完成,完成部分細節問題有待討論、實踐)、用戶分析(部分完成,完成部分細節問題有待討論、實踐)
王闊:存留分析(完成,但細節問題有待討論、實踐)、終端屬性分析(未完成,因為要寫部分代碼的demo)
張志浩:渠道分析(部分完成,完成部分細節問題有待討論、實踐)、用戶參與度分析(部分完成,完成部分細節問題有待討論、實踐)
【迭代式開發v1】類與方法設計(二)——大數據開發實戰項目(七)
0616:
【迭代式開發v1】實際去建Web前端頁面所需的數據庫(以前只是設計)+Web后端部分代碼實現——大數據開發實戰項目(八)
0617:小組討論確定代碼注釋規范+Web后端類與方法代碼實現
【迭代式開發v1】Web后端類與方法代碼實現——大數據開發實戰項目(九)
0618:繼續進行Web后端類與方法代碼實現+前后端交互
0619:繼續進行Web后端類與方法代碼實現+前后端交互
0620:繼續進行Web后端類與方法代碼實現+前后端交互
0621:繼續進行Web后端類與方法代碼實現+前后端交互
第五周0622-0628:(周末加班)
0622:繼續進行Web后端類與方法代碼實現+前后端交互
0623:繼續進行Web后端類與方法代碼實現+前后端交互
0624:繼續進行Web后端類與方法代碼實現+前后端交互
(基本結束)原本打算今天把web部署到服務器上,但是第一我們服務器剛被老師重啟過,我們怕有問題,第二web還不太完善,比如之前我們都是各自在本地使用mysql數據庫,只建了與自己模塊相關的數據庫表,只對自己需要的表用代碼進行了數據的模擬生成和插入,而我們之后部署到服務器,大家各自的模塊就都得用同一個數據庫——服務器上的數據庫,所以服務器上的數據必須滿足每個人的模塊對數據的需求。但是我們沒有那么多時間去做這個了,所以將完善web+在服務器上建庫和生成并模擬數據+將web部署到服務器上任務放到周末,我們現在主要任務是數倉
0625:
- 開展數倉設計(全體成員)
- 確定使用5層結構,ODS層–>DWD層–>DWS層–>DWT層–>ADS層
- 進行了ODS和DWD層設計
先放一個數倉設計展示圖,之后補一篇博客(最近加班太多了,來不及寫博客)
0626:
- 開展數倉設計(全體成員)
- 進行了部分DWS、DWT層設計
0627:
-
開展數倉設計(全體成員)
- 進行了DWT層設計,完善了ODS層、DWD層和DWS層的設計
-
因為服務器重啟過,所以需要重新啟動集群的環境:(張志浩+趙磊)
- 將Hadoop、Zookeeper啟動了起來
-
繪制數倉各表之間的關系圖(王闊)
先放一個集群啟動命令+報錯展示圖,之后補一篇博客(最近加班太多了,來不及寫博客)
0628:
- 完善web
- 因為服務器重啟過,所以需要重新啟動集群的環境
第六周0629-0705:(周末加班)
0629:將web部署到服務器上
http://www.superhao.top:12121/src/material/installation.html
0630:
- 研究ip-mapping算法(張志浩、趙磊)
- 將集群環境全部啟動(張志浩、趙磊)
- 編寫數倉部分spark任務文檔(王闊)
先放ip-mapping算法的部分截圖
先放一個數倉表之間的關系樣圖,之后補一個高清圖(最近加班太多了)
0701:
- (V1)實現ip-mapping代碼初始版(spark圖計算+scala)(張志浩)
- 搭建 flume 日志采集平臺(趙磊)
- 編寫模擬數據生成器業務邏輯(王闊)
0702:
- 分配hive表建表任務(全部成員)
- 討論了 id-mapping 的算法原理(全部成員)
- 進一步討論id-mapping、flume-kafka和hive任務的整合(全部成員)
- (V2)改進ip-mapping代碼初始版,考慮上一日的idmp字典整合(張志浩)
- 實現模擬數據生成器(王闊)
0703:
- 構建spark任務的maven項目,構建完成,初步分包(王闊)
- 完成 hive 建表(在idea寫好建表sql語句,并用idea連接hive運行sql語句進行建表)(全部成員,各自完成自己的任務)
- 在建表的過程中, hive 遇到了問題,解決問題https://blog.csdn.net/stable_zl/article/details/107111888
0704+0705:
- 小組討論如何劃分 spark 任務及實現要用到的技術
- 復習 SparkSQL
- 將模擬生成的數據通過 flume-kafka-flume 搭建的平臺上傳到 hdfs
第七周0706-0712:(周末加班)
0706:
- 進行spark任務項目結構設計(王闊)
- 編寫示例spark任務,完成了原始數據導入腳本,json解析任務(王闊)
- 遇到的問題:spark讀取hive lzo格式表遇到困難
- 進行了 spark 的開發,將之前編寫的 id-map 算法投入到我們的項目中實際使用(張志浩、趙磊)
0707:
- 把 idmap 做了完善,將其輸入輸出路徑與實際的 hdfs 路徑進行對應(以前是在win10本地目錄寫了幾個txt文件進行測試)(張志浩、趙磊)
- 進行spark任務編寫(各自完成所分配的spark任務,遇到問題開會討論)
0708:
- 進行spark任務編寫(各自完成所分配的spark任務,遇到問題開會討論)
0709:
- 進行spark任務編寫(各自完成所分配的spark任務,遇到問題開會討論)
0710:
- 進行spark任務編寫(各自完成所分配的spark任務,遇到問題開會討論)
0711+0712:(這周末任務少)
- 完善spark任務
- 討論怎么樣進行數據遷移
- 學習了 sqoop 的相關知識,了解數據遷移的方法,但后來考慮到sqoop的底層依然是 mr,后選用spark jdbc做數據遷移
- 完善文檔
第八周0713-0717:
0713:
- 設計數據遷移邏輯(各自完成自己所分配部分)
- 問題:討論橫表的更新方案,并且將其實現
例如趙磊的base_retention_installation_day表,該表用作留存分析-留存用戶中的新用戶存留展示
- 問題:討論橫表的更新方案,并且將其實現
0714:
- 測試寫好的spark任務:因為前幾天服務器集群崩了(我們需要hive數倉),所以我們寫好的spark任務一直沒有測試(執行)
- 補充:我們不能在win本地用idea跑spark任務,會因為hive表為lzo壓縮格式而報錯
0715:編寫各自的ads層數倉表到mysql的數據遷移任務代碼(用SparkSQL進行遷移,以前選的是sqoop,但是sqoop的底層是mapreduce,速度大大慢于spark,所以我們最終選擇了SparkSQL)
0716:去集群測試我們遷移任務代碼
0717:測試atlas的使用,最終失敗了,atlas無法監控hive表之間的血緣關系,我們測試了一下原因:用SparkSQL操作hive表,atlas就無法監控,但是直接在hive命令好用hiveSQL操作hive表,atlas就可以監控
第九周0720-0725:(完結)
0720、0721:編寫、部署azkaban任務
0722:編寫PPT、錄制答辯視頻
0723:編寫《實訓階段總結報告》和《實訓總結報告》
0724:答辯(在騰訊會議和實訓項目經理對線)
0724:編寫《13.T01模塊部署流程手冊.docx》和《14.T01用戶使用手冊.docx》
《v1數據分析運營系統的需求分析》
1.整體趨勢:
基礎統計數值:包括7日平均新增用戶、活躍用戶等,一周內、一個月內的統計量總數,總用戶數。
指定時間區間內(默認30天內每日):
新增用戶、活躍用戶、啟動次數、累計用戶
折線圖,明細數據列表
Top版本環形圖:新增用戶、活躍用戶、累計用戶每個版本占比
Top渠道環形圖:新增用戶、活躍用戶、累計用戶每個渠道占比
2.用戶分析:
a.新增用戶:
指定時間段、指定渠道和版本,每日新增用戶折線圖、明細數據表格
次日存留率折線圖、明細
b.活躍用戶:
指定時間段、指定渠道和版本下,
活躍趨勢、活躍構成、活躍粘度、分時活躍用戶、周,月活躍度
c.啟動次數:
指定時間段、指定渠道和版本下,每(小時、天、周、月)的啟動次數
d.版本分布:
指定時間段、版本下, 每天新增用戶、活躍用戶、啟動次數折線圖
今日、昨日截至今日版本累計用戶(%),新增用戶,活躍用戶(%),啟動次數
3.留存分析:
a.留存用戶
指定時間段、指定渠道和版本下,每一個時間段(天、周、月)新用戶和活躍用戶數在接下來一段時間(天、周、月)的留存數/留存率,以表格形式和折線形式呈現。
b.用戶新鮮度:
報表展示每天活躍用戶的成分構成,并提供用戶成分分析控件做進一步的分析。某日的活躍用戶來源于當天新增用戶、1天前新增用戶…30天前新增用戶、30+天前新增用戶。
c.用戶活躍度:
報表展現每個天級時間點的當日活躍用戶的活躍程度。
4.渠道分析:
a.渠道列表:
指定時間段、指定版本,各渠道新增用戶、活躍用戶、啟動次數
5.用戶參與度
a.使用時長:
指定某一天、指定渠道和版本下,單次使用時長分布柱形圖,明細表格。
該天每個活躍用戶使用時長分布柱形圖、明細表格。
b.使用頻率:
指定日期,指定版本、渠道,當日、上周、上個月使用次數分布柱形圖,明細表格。
c.訪問頁面:
指定時間段(一天、一周、一個月)、指定渠道和版本下,訪問頁面分布柱形圖,明細表格。
d.使用間隔:
查看任意30天內用戶相鄰兩次啟動間隔的分布情況,并可以進行版本、渠道及分群的篩選。以柱形圖、明細表格形式展示。
6.終端屬性:
a.設備終端:
指定時間段(一天、一周、一個月)、指定渠道和版本下 ,top10機型、分辨率、操作系統的新增用戶/啟動次數柱狀圖、明細表格。
b.網絡及運營商:
指定時間段(一天、一周、一個月)、指定渠道和版本下 ,各種聯網方式的新增用戶/啟動次數柱狀圖、明細表格。
c. 地域:
指定時間段(一天、一周、一個月)、指定渠道和版本下 ,各省市的新增用戶/活躍用戶/啟動次數柱狀圖(top10省)、明細表格(省市)。 ??
所需安裝環境為:
每個環境的作用:
數據采集傳輸:
- Flume:分布式日志數據匯聚
- Kafka:實時采集(計算)的緩沖
- Sqoop:離線批量抽取數據庫
數據存儲:
- Mysql
- HDFS
數據計算:
- Spark
數據可視化:
- Echarts
job任務調度:
- Azkaban
元數據管理:
- Atlas
總結
以上是生活随笔為你收集整理的大数据项目开发进度(实时更新)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C# 6.0语法新特性体验(二)
- 下一篇: struts2 中文乱码问题,自定义过滤