當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据项目开发进度（实时更新）

發布時間：2023/12/20 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据项目开发进度（实时更新）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

前言
項目概述
項目進度
- 第一周0525-0529：
- 第二周0601-0605：
- 第三周0608-0612：
- 第四周0615-0621：（周末加班）
- 第五周0622-0628：（周末加班）
- 第六周0629-0705：（周末加班）
- 第七周0706-0712：（周末加班）
- 第八周0713-0717：
- 第九周0720-0725：（完結）

前言

如果你從本文中學習到絲毫知識，那么請您點點關注、點贊、評論和收藏
大家好，我是愛做夢的魚，我是東北大學大數據實驗班大三的小菜雞，非常渴望優秀，羨慕優秀的人。從5月25號我們開始了為期兩個月的實習，我們需要做一個大型大數據項目，一個項目由三個學生+一個企業的項目經理完成。請大家持續關注我的專欄，我會每天更新。
github地址：https://github.com/233zzh/TitanDataOperationSystem
專欄：大數據案例實戰——大三春招大數據開發
專欄：Spark官方文檔解讀【Spark2.4.5中英雙語】
博客地址：子浩的博客https://blog.csdn.net/weixin_43124279

項目概述

我們采用迭代式開發的軟件開發過程

項目進度

第一周0525-0529：

確定項目題目和項目數據來源
題目：數據分析運營系統
數據來源：易頭條的部分埋點日志文件+（如果我們后續需要海量數據，我們就寫個程序來生成模擬數據）

學會使用SVN
TortoiseSVN使用教程【多圖超詳細】——大數據開發實習（一）

第二周0601-0605：

0601：分析需求¹
系統前端展示參考：友盟
0602：編寫版本一的軟件需求規格說明文檔（SRS）（張志浩）
《v1軟件需求規格說明文檔（SRS）——大數據開發實習（二）》
0603：進行系統架構設計（非細節設計階段）、安裝環境²
0604：繼續安裝環境²、編寫版本一的架構設計文檔（趙磊）
《v1架構設計文檔——大數據開發實習（三）》
0605：設計系統前端界面
分配任務如下：

趙磊：概況、用戶分析
王闊：存留分析、終端屬性分析
張志浩：渠道分析、用戶參與度分析

第三周0608-0612：

0608：繼續設計系統界面原型
0609：繼續設計系統界面原型
0610：繼續設計系統界面原型并完成
【迭代式開發】v1前端界面展示+代碼——大數據開發實習（四）
0611：確定前端請求數據格式，設計前端所需要的數據庫
【ADS層表-V1】前端頁面所需的數據庫設計——大數據開發實戰項目（五）
0612：

數據庫訪問技術選型，從 JAP、Mybatis、JDBC Templete 中選了 JDBC Templete

完成了項目架構的分層

對前后端進行了分包

部分模塊的類與方法進行了粗略設計
趙磊：概況（完成部分）、用戶分析（未完成）
王闊：存留分析（完成部分）、終端屬性分析（未完成）
張志浩：渠道分析（完成部分）、用戶參與度分析（未完成）

Web設計技術選型、分層、分包以及類與方法設計——大數據開發實戰項目（五）

第四周0615-0621：（周末加班）

0615：

繼續完成剩下模塊的類與方法的設計
趙磊：概況（部分完成，完成部分細節問題有待討論、實踐）、用戶分析（部分完成，完成部分細節問題有待討論、實踐）
王闊：存留分析（完成，但細節問題有待討論、實踐）、終端屬性分析（未完成，因為要寫部分代碼的demo）
張志浩：渠道分析（部分完成，完成部分細節問題有待討論、實踐）、用戶參與度分析（部分完成，完成部分細節問題有待討論、實踐）

王闊（但未完成終端屬性分析模塊的類與方法的設計）：實現存留分析部分demo，驗證可行性作為web部分代碼標準

【迭代式開發v1】類與方法設計（二）——大數據開發實戰項目（七）

0616：

張志浩、趙磊：實際去建Web前端頁面所需的數據庫（以前只是設計，并沒有實際建表）

王闊：Web后端部分代碼實現（注：未完成終端屬性模塊的類與方法設計：TerminalAttributes）

【迭代式開發v1】實際去建Web前端頁面所需的數據庫（以前只是設計）+Web后端部分代碼實現——大數據開發實戰項目（八）

0617：小組討論確定代碼注釋規范+Web后端類與方法代碼實現
【迭代式開發v1】Web后端類與方法代碼實現——大數據開發實戰項目（九）
0618：繼續進行Web后端類與方法代碼實現+前后端交互
0619：繼續進行Web后端類與方法代碼實現+前后端交互
0620：繼續進行Web后端類與方法代碼實現+前后端交互
0621：繼續進行Web后端類與方法代碼實現+前后端交互

第五周0622-0628：（周末加班）

0622：繼續進行Web后端類與方法代碼實現+前后端交互
0623：繼續進行Web后端類與方法代碼實現+前后端交互
0624：繼續進行Web后端類與方法代碼實現+前后端交互
（基本結束）原本打算今天把web部署到服務器上，但是第一我們服務器剛被老師重啟過，我們怕有問題，第二web還不太完善，比如之前我們都是各自在本地使用mysql數據庫，只建了與自己模塊相關的數據庫表，只對自己需要的表用代碼進行了數據的模擬生成和插入，而我們之后部署到服務器，大家各自的模塊就都得用同一個數據庫——服務器上的數據庫，所以服務器上的數據必須滿足每個人的模塊對數據的需求。但是我們沒有那么多時間去做這個了，所以將完善web+在服務器上建庫和生成并模擬數據+將web部署到服務器上任務放到周末，我們現在主要任務是數倉
0625：

開展數倉設計（全體成員）
- 確定使用5層結構，ODS層–>DWD層–>DWS層–>DWT層–>ADS層
- 進行了ODS和DWD層設計

先放一個數倉設計展示圖，之后補一篇博客（最近加班太多了，來不及寫博客）

0626：

開展數倉設計（全體成員）
- 進行了部分DWS、DWT層設計

0627：

開展數倉設計（全體成員）
- 進行了DWT層設計，完善了ODS層、DWD層和DWS層的設計
因為服務器重啟過，所以需要重新啟動集群的環境：（張志浩+趙磊）
- 將Hadoop、Zookeeper啟動了起來
繪制數倉各表之間的關系圖（王闊）

先放一個集群啟動命令+報錯展示圖，之后補一篇博客（最近加班太多了，來不及寫博客）

0628：

完善web
因為服務器重啟過，所以需要重新啟動集群的環境

第六周0629-0705：（周末加班）

0629：將web部署到服務器上
http://www.superhao.top:12121/src/material/installation.html
0630：

研究ip-mapping算法（張志浩、趙磊）
將集群環境全部啟動（張志浩、趙磊）
編寫數倉部分spark任務文檔（王闊）

先放ip-mapping算法的部分截圖

先放一個數倉表之間的關系樣圖，之后補一個高清圖（最近加班太多了）

0701：

（V1）實現ip-mapping代碼初始版（spark圖計算+scala）（張志浩）
搭建 flume 日志采集平臺（趙磊）
編寫模擬數據生成器業務邏輯（王闊）

0702：

分配hive表建表任務（全部成員）
討論了 id-mapping 的算法原理（全部成員）
進一步討論id-mapping、flume-kafka和hive任務的整合（全部成員）
（V2）改進ip-mapping代碼初始版，考慮上一日的idmp字典整合（張志浩）
實現模擬數據生成器（王闊）

0703：

構建spark任務的maven項目，構建完成，初步分包(王闊)
完成 hive 建表（在idea寫好建表sql語句，并用idea連接hive運行sql語句進行建表）（全部成員，各自完成自己的任務）
在建表的過程中， hive 遇到了問題，解決問題https://blog.csdn.net/stable_zl/article/details/107111888

0704+0705：

小組討論如何劃分 spark 任務及實現要用到的技術
復習 SparkSQL
將模擬生成的數據通過 flume-kafka-flume 搭建的平臺上傳到 hdfs

第七周0706-0712：（周末加班）

0706：

進行spark任務項目結構設計（王闊）
編寫示例spark任務，完成了原始數據導入腳本，json解析任務（王闊）
- 遇到的問題：spark讀取hive lzo格式表遇到困難
進行了 spark 的開發，將之前編寫的 id-map 算法投入到我們的項目中實際使用（張志浩、趙磊）

0707：

把 idmap 做了完善，將其輸入輸出路徑與實際的 hdfs 路徑進行對應（以前是在win10本地目錄寫了幾個txt文件進行測試）（張志浩、趙磊）
進行spark任務編寫（各自完成所分配的spark任務，遇到問題開會討論）

0708：

進行spark任務編寫（各自完成所分配的spark任務，遇到問題開會討論）

0709：

進行spark任務編寫（各自完成所分配的spark任務，遇到問題開會討論）

0710：

進行spark任務編寫（各自完成所分配的spark任務，遇到問題開會討論）

0711+0712：（這周末任務少）

完善spark任務
討論怎么樣進行數據遷移
- 學習了 sqoop 的相關知識，了解數據遷移的方法，但后來考慮到sqoop的底層依然是 mr，后選用spark jdbc做數據遷移
完善文檔

第八周0713-0717：

0713：

設計數據遷移邏輯（各自完成自己所分配部分）
- 問題：討論橫表的更新方案，并且將其實現
  例如趙磊的base_retention_installation_day表，該表用作留存分析-留存用戶中的新用戶存留展示

0714：

測試寫好的spark任務：因為前幾天服務器集群崩了（我們需要hive數倉），所以我們寫好的spark任務一直沒有測試（執行）
- 補充：我們不能在win本地用idea跑spark任務，會因為hive表為lzo壓縮格式而報錯

0715：編寫各自的ads層數倉表到mysql的數據遷移任務代碼（用SparkSQL進行遷移，以前選的是sqoop，但是sqoop的底層是mapreduce，速度大大慢于spark，所以我們最終選擇了SparkSQL）

0716：去集群測試我們遷移任務代碼

0717：測試atlas的使用，最終失敗了，atlas無法監控hive表之間的血緣關系，我們測試了一下原因：用SparkSQL操作hive表，atlas就無法監控，但是直接在hive命令好用hiveSQL操作hive表，atlas就可以監控

第九周0720-0725：（完結）

0720、0721：編寫、部署azkaban任務
0722：編寫PPT、錄制答辯視頻
0723：編寫《實訓階段總結報告》和《實訓總結報告》
0724：答辯（在騰訊會議和實訓項目經理對線）
0724：編寫《13.T01模塊部署流程手冊.docx》和《14.T01用戶使用手冊.docx》

《v1數據分析運營系統的需求分析》
1.整體趨勢：
基礎統計數值：包括7日平均新增用戶、活躍用戶等，一周內、一個月內的統計量總數，總用戶數。
指定時間區間內（默認30天內每日）：
新增用戶、活躍用戶、啟動次數、累計用戶
折線圖，明細數據列表
Top版本環形圖：新增用戶、活躍用戶、累計用戶每個版本占比
Top渠道環形圖：新增用戶、活躍用戶、累計用戶每個渠道占比
2.用戶分析：
a.新增用戶：
指定時間段、指定渠道和版本，每日新增用戶折線圖、明細數據表格
次日存留率折線圖、明細
b.活躍用戶：
指定時間段、指定渠道和版本下，
活躍趨勢、活躍構成、活躍粘度、分時活躍用戶、周，月活躍度
c.啟動次數：
指定時間段、指定渠道和版本下，每（小時、天、周、月）的啟動次數
d.版本分布：
指定時間段、版本下，每天新增用戶、活躍用戶、啟動次數折線圖
今日、昨日截至今日版本累計用戶(%)，新增用戶，活躍用戶(%)，啟動次數
3.留存分析：
a.留存用戶
指定時間段、指定渠道和版本下，每一個時間段（天、周、月）新用戶和活躍用戶數在接下來一段時間（天、周、月）的留存數/留存率，以表格形式和折線形式呈現。
b.用戶新鮮度：
報表展示每天活躍用戶的成分構成，并提供用戶成分分析控件做進一步的分析。某日的活躍用戶來源于當天新增用戶、1天前新增用戶…30天前新增用戶、30+天前新增用戶。
c.用戶活躍度：
報表展現每個天級時間點的當日活躍用戶的活躍程度。
4.渠道分析：
a.渠道列表：
指定時間段、指定版本，各渠道新增用戶、活躍用戶、啟動次數
5.用戶參與度
a.使用時長：
指定某一天、指定渠道和版本下，單次使用時長分布柱形圖，明細表格。
該天每個活躍用戶使用時長分布柱形圖、明細表格。
b.使用頻率：
指定日期，指定版本、渠道，當日、上周、上個月使用次數分布柱形圖，明細表格。
c.訪問頁面：
指定時間段（一天、一周、一個月）、指定渠道和版本下，訪問頁面分布柱形圖，明細表格。
d.使用間隔：
查看任意30天內用戶相鄰兩次啟動間隔的分布情況，并可以進行版本、渠道及分群的篩選。以柱形圖、明細表格形式展示。
6.終端屬性：
a.設備終端：
指定時間段（一天、一周、一個月）、指定渠道和版本下，top10機型、分辨率、操作系統的新增用戶/啟動次數柱狀圖、明細表格。
b.網絡及運營商：
指定時間段（一天、一周、一個月）、指定渠道和版本下，各種聯網方式的新增用戶/啟動次數柱狀圖、明細表格。
c. 地域：
指定時間段（一天、一周、一個月）、指定渠道和版本下，各省市的新增用戶/活躍用戶/啟動次數柱狀圖（top10省）、明細表格（省市）。 ??

所需安裝環境為：

jdk1.8.0_151、

mysql-5.7.28、

hadoop-3.2.1、

flume-1.9.0、

azkaban-3.90.0

zookeeper-3.6.1、

hive-3.1.2、

spark-3.0.0

scala-2.11.12

kafka-2.4.1、

（hbase-2.2.5、solar-8.5.2這兩個是atlas安裝的前置）

atlas-2.0.0、

sqoop-1.99.7

每個環境的作用：
數據采集傳輸：

Flume：分布式日志數據匯聚
Kafka：實時采集（計算）的緩沖
Sqoop：離線批量抽取數據庫

數據存儲：

Mysql
HDFS

數據計算：

Spark

數據可視化：

Echarts

job任務調度：

Azkaban

元數據管理：

Atlas

?? ??

總結

以上是生活随笔為你收集整理的大数据项目开发进度（实时更新）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： C# 6.0语法新特性体验（二）
下一篇： struts2 中文乱码问题，自定义过滤