日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据项目开发进度(实时更新)

發布時間:2023/12/20 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据项目开发进度(实时更新) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 前言
  • 項目概述
  • 項目進度
    • 第一周0525-0529:
    • 第二周0601-0605:
    • 第三周0608-0612:
    • 第四周0615-0621:(周末加班)
    • 第五周0622-0628:(周末加班)
    • 第六周0629-0705:(周末加班)
    • 第七周0706-0712:(周末加班)
    • 第八周0713-0717:
    • 第九周0720-0725:(完結)

前言

如果你從本文中學習到絲毫知識,那么請您點點關注、點贊、評論和收藏
大家好,我是愛做夢的魚,我是東北大學大數據實驗班大三的小菜雞,非常渴望優秀,羨慕優秀的人。從5月25號我們開始了為期兩個月的實習,我們需要做一個大型大數據項目,一個項目由三個學生+一個企業的項目經理完成。請大家持續關注我的專欄,我會每天更新。
github地址:https://github.com/233zzh/TitanDataOperationSystem
專欄:大數據案例實戰——大三春招大數據開發
專欄:Spark官方文檔解讀【Spark2.4.5中英雙語】
博客地址:子浩的博客https://blog.csdn.net/weixin_43124279

項目概述

我們采用迭代式開發的軟件開發過程

項目進度

第一周0525-0529:

  • 確定項目題目和項目數據來源
    題目:數據分析運營系統
    數據來源:易頭條的部分埋點日志文件+(如果我們后續需要海量數據,我們就寫個程序來生成模擬數據)
  • 學會使用SVN
    TortoiseSVN使用教程【多圖超詳細】——大數據開發實習(一)
  • 第二周0601-0605:

    0601:分析需求1
    系統前端展示參考:友盟
    0602:編寫版本一的軟件需求規格說明文檔(SRS)(張志浩)
    《v1軟件需求規格說明文檔(SRS)——大數據開發實習(二)》
    0603:進行系統架構設計(非細節設計階段)、安裝環境2
    0604:繼續安裝環境2、編寫版本一的架構設計文檔(趙磊)
    《v1架構設計文檔——大數據開發實習(三)》
    0605:設計系統前端界面
    分配任務如下:

    趙磊:概況、用戶分析
    王闊:存留分析、終端屬性分析
    張志浩:渠道分析、用戶參與度分析

    第三周0608-0612:

    0608:繼續設計系統界面原型
    0609:繼續設計系統界面原型
    0610:繼續設計系統界面原型并完成
    【迭代式開發】v1前端界面展示+代碼——大數據開發實習(四)
    0611:確定前端請求數據格式,設計前端所需要的數據庫
    【ADS層表-V1】前端頁面所需的數據庫設計——大數據開發實戰項目(五)
    0612

  • 數據庫訪問技術選型,從 JAP、Mybatis、JDBC Templete 中選了 JDBC Templete
  • 完成了項目架構的分層
  • 對前后端進行了分包
  • 部分模塊的類與方法進行了粗略設計
    趙磊:概況(完成部分)、用戶分析(未完成)
    王闊:存留分析(完成部分)、終端屬性分析(未完成)
    張志浩:渠道分析(完成部分)、用戶參與度分析(未完成)
  • Web設計技術選型、分層、分包以及類與方法設計——大數據開發實戰項目(五)

    第四周0615-0621:(周末加班)

    0615

  • 繼續完成剩下模塊的類與方法的設計
    趙磊:概況(部分完成,完成部分細節問題有待討論、實踐)、用戶分析(部分完成,完成部分細節問題有待討論、實踐)
    王闊:存留分析(完成,但細節問題有待討論、實踐)、終端屬性分析(未完成,因為要寫部分代碼的demo)
    張志浩:渠道分析(部分完成,完成部分細節問題有待討論、實踐)、用戶參與度分析(部分完成,完成部分細節問題有待討論、實踐)
  • 王闊(但未完成終端屬性分析模塊的類與方法的設計):實現存留分析部分demo,驗證可行性作為web部分代碼標準
  • 【迭代式開發v1】類與方法設計(二)——大數據開發實戰項目(七)

    0616

  • 張志浩、趙磊:實際去建Web前端頁面所需的數據庫(以前只是設計,并沒有實際建表)
  • 王闊:Web后端部分代碼實現(注:未完成終端屬性模塊的類與方法設計:TerminalAttributes)
  • 【迭代式開發v1】實際去建Web前端頁面所需的數據庫(以前只是設計)+Web后端部分代碼實現——大數據開發實戰項目(八)

    0617:小組討論確定代碼注釋規范+Web后端類與方法代碼實現
    【迭代式開發v1】Web后端類與方法代碼實現——大數據開發實戰項目(九)
    0618:繼續進行Web后端類與方法代碼實現+前后端交互
    0619:繼續進行Web后端類與方法代碼實現+前后端交互
    0620:繼續進行Web后端類與方法代碼實現+前后端交互
    0621:繼續進行Web后端類與方法代碼實現+前后端交互

    第五周0622-0628:(周末加班)

    0622:繼續進行Web后端類與方法代碼實現+前后端交互
    0623:繼續進行Web后端類與方法代碼實現+前后端交互
    0624:繼續進行Web后端類與方法代碼實現+前后端交互
    (基本結束)原本打算今天把web部署到服務器上,但是第一我們服務器剛被老師重啟過,我們怕有問題,第二web還不太完善,比如之前我們都是各自在本地使用mysql數據庫,只建了與自己模塊相關的數據庫表,只對自己需要的表用代碼進行了數據的模擬生成和插入,而我們之后部署到服務器,大家各自的模塊就都得用同一個數據庫——服務器上的數據庫,所以服務器上的數據必須滿足每個人的模塊對數據的需求。但是我們沒有那么多時間去做這個了,所以將完善web+在服務器上建庫和生成并模擬數據+將web部署到服務器上任務放到周末,我們現在主要任務是數倉
    0625

    • 開展數倉設計(全體成員)
      • 確定使用5層結構,ODS層–>DWD層–>DWS層–>DWT層–>ADS層
      • 進行了ODS和DWD層設計

    先放一個數倉設計展示圖,之后補一篇博客(最近加班太多了,來不及寫博客)

    0626

    • 開展數倉設計(全體成員)
      • 進行了部分DWS、DWT層設計

    0627

    • 開展數倉設計(全體成員)

      • 進行了DWT層設計,完善了ODS層、DWD層和DWS層的設計
    • 因為服務器重啟過,所以需要重新啟動集群的環境:(張志浩+趙磊)

      • 將Hadoop、Zookeeper啟動了起來
    • 繪制數倉各表之間的關系圖(王闊)

    先放一個集群啟動命令+報錯展示圖,之后補一篇博客(最近加班太多了,來不及寫博客)

    0628

    • 完善web
    • 因為服務器重啟過,所以需要重新啟動集群的環境

    第六周0629-0705:(周末加班)

    0629:將web部署到服務器上
    http://www.superhao.top:12121/src/material/installation.html
    0630

    • 研究ip-mapping算法(張志浩、趙磊)
    • 將集群環境全部啟動(張志浩、趙磊)
    • 編寫數倉部分spark任務文檔(王闊)

    先放ip-mapping算法的部分截圖

    先放一個數倉表之間的關系樣圖,之后補一個高清圖(最近加班太多了)

    0701

    • (V1)實現ip-mapping代碼初始版(spark圖計算+scala)(張志浩)
    • 搭建 flume 日志采集平臺(趙磊)
    • 編寫模擬數據生成器業務邏輯(王闊)

    0702

    • 分配hive表建表任務(全部成員)
    • 討論了 id-mapping 的算法原理(全部成員)
    • 進一步討論id-mapping、flume-kafka和hive任務的整合(全部成員)
    • (V2)改進ip-mapping代碼初始版,考慮上一日的idmp字典整合(張志浩)
    • 實現模擬數據生成器(王闊)

    0703

    • 構建spark任務的maven項目,構建完成,初步分包(王闊)
    • 完成 hive 建表(在idea寫好建表sql語句,并用idea連接hive運行sql語句進行建表)(全部成員,各自完成自己的任務)
    • 在建表的過程中, hive 遇到了問題,解決問題https://blog.csdn.net/stable_zl/article/details/107111888

    0704+0705

    • 小組討論如何劃分 spark 任務及實現要用到的技術
    • 復習 SparkSQL
    • 將模擬生成的數據通過 flume-kafka-flume 搭建的平臺上傳到 hdfs

    第七周0706-0712:(周末加班)

    0706

    • 進行spark任務項目結構設計(王闊)
    • 編寫示例spark任務,完成了原始數據導入腳本,json解析任務(王闊)
      • 遇到的問題:spark讀取hive lzo格式表遇到困難
    • 進行了 spark 的開發,將之前編寫的 id-map 算法投入到我們的項目中實際使用(張志浩、趙磊)

    0707

    • 把 idmap 做了完善,將其輸入輸出路徑與實際的 hdfs 路徑進行對應(以前是在win10本地目錄寫了幾個txt文件進行測試)(張志浩、趙磊)
    • 進行spark任務編寫(各自完成所分配的spark任務,遇到問題開會討論)

    0708

    • 進行spark任務編寫(各自完成所分配的spark任務,遇到問題開會討論)

    0709

    • 進行spark任務編寫(各自完成所分配的spark任務,遇到問題開會討論)

    0710

    • 進行spark任務編寫(各自完成所分配的spark任務,遇到問題開會討論)

    0711+0712:(這周末任務少)

    • 完善spark任務
    • 討論怎么樣進行數據遷移
      • 學習了 sqoop 的相關知識,了解數據遷移的方法,但后來考慮到sqoop的底層依然是 mr,后選用spark jdbc做數據遷移
    • 完善文檔

    第八周0713-0717:

    0713

    • 設計數據遷移邏輯(各自完成自己所分配部分)
      • 問題:討論橫表的更新方案,并且將其實現
        例如趙磊的base_retention_installation_day表,該表用作留存分析-留存用戶中的新用戶存留展示

    0714

    • 測試寫好的spark任務:因為前幾天服務器集群崩了(我們需要hive數倉),所以我們寫好的spark任務一直沒有測試(執行)
      • 補充:我們不能在win本地用idea跑spark任務,會因為hive表為lzo壓縮格式而報錯

    0715:編寫各自的ads層數倉表到mysql的數據遷移任務代碼(用SparkSQL進行遷移,以前選的是sqoop,但是sqoop的底層是mapreduce,速度大大慢于spark,所以我們最終選擇了SparkSQL)

    0716:去集群測試我們遷移任務代碼

    0717:測試atlas的使用,最終失敗了,atlas無法監控hive表之間的血緣關系,我們測試了一下原因:用SparkSQL操作hive表,atlas就無法監控,但是直接在hive命令好用hiveSQL操作hive表,atlas就可以監控

    第九周0720-0725:(完結)

    0720、0721:編寫、部署azkaban任務
    0722:編寫PPT、錄制答辯視頻
    0723:編寫《實訓階段總結報告》和《實訓總結報告》
    0724:答辯(在騰訊會議和實訓項目經理對線)
    0724:編寫《13.T01模塊部署流程手冊.docx》和《14.T01用戶使用手冊.docx》


  • 《v1數據分析運營系統的需求分析》
    1.整體趨勢:
    基礎統計數值:包括7日平均新增用戶、活躍用戶等,一周內、一個月內的統計量總數,總用戶數。
    指定時間區間內(默認30天內每日):
    新增用戶、活躍用戶、啟動次數、累計用戶
    折線圖,明細數據列表
    Top版本環形圖:新增用戶、活躍用戶、累計用戶每個版本占比
    Top渠道環形圖:新增用戶、活躍用戶、累計用戶每個渠道占比
    2.用戶分析:
    a.新增用戶:
    指定時間段、指定渠道和版本,每日新增用戶折線圖、明細數據表格
    次日存留率折線圖、明細
    b.活躍用戶:
    指定時間段、指定渠道和版本下,
    活躍趨勢、活躍構成、活躍粘度、分時活躍用戶、周,月活躍度
    c.啟動次數:
    指定時間段、指定渠道和版本下,每(小時、天、周、月)的啟動次數
    d.版本分布:
    指定時間段、版本下, 每天新增用戶、活躍用戶、啟動次數折線圖
    今日、昨日截至今日版本累計用戶(%),新增用戶,活躍用戶(%),啟動次數
    3.留存分析:
    a.留存用戶
    指定時間段、指定渠道和版本下,每一個時間段(天、周、月)新用戶和活躍用戶數在接下來一段時間(天、周、月)的留存數/留存率,以表格形式和折線形式呈現。
    b.用戶新鮮度:
    報表展示每天活躍用戶的成分構成,并提供用戶成分分析控件做進一步的分析。某日的活躍用戶來源于當天新增用戶、1天前新增用戶…30天前新增用戶、30+天前新增用戶。
    c.用戶活躍度:
    報表展現每個天級時間點的當日活躍用戶的活躍程度。
    4.渠道分析:
    a.渠道列表:
    指定時間段、指定版本,各渠道新增用戶、活躍用戶、啟動次數
    5.用戶參與度
    a.使用時長:
    指定某一天、指定渠道和版本下,單次使用時長分布柱形圖,明細表格。
    該天每個活躍用戶使用時長分布柱形圖、明細表格。
    b.使用頻率:
    指定日期,指定版本、渠道,當日、上周、上個月使用次數分布柱形圖,明細表格。
    c.訪問頁面:
    指定時間段(一天、一周、一個月)、指定渠道和版本下,訪問頁面分布柱形圖,明細表格。
    d.使用間隔:
    查看任意30天內用戶相鄰兩次啟動間隔的分布情況,并可以進行版本、渠道及分群的篩選。以柱形圖、明細表格形式展示。
    6.終端屬性:
    a.設備終端:
    指定時間段(一天、一周、一個月)、指定渠道和版本下 ,top10機型、分辨率、操作系統的新增用戶/啟動次數柱狀圖、明細表格。
    b.網絡及運營商:
    指定時間段(一天、一周、一個月)、指定渠道和版本下 ,各種聯網方式的新增用戶/啟動次數柱狀圖、明細表格。
    c. 地域:
    指定時間段(一天、一周、一個月)、指定渠道和版本下 ,各省市的新增用戶/活躍用戶/啟動次數柱狀圖(top10省)、明細表格(省市)。 ??

  • 所需安裝環境為:

  • jdk1.8.0_151、
  • mysql-5.7.28、
  • hadoop-3.2.1、
  • flume-1.9.0、
  • azkaban-3.90.0
  • zookeeper-3.6.1、
  • hive-3.1.2、
  • spark-3.0.0
  • scala-2.11.12
  • kafka-2.4.1、
  • (hbase-2.2.5、solar-8.5.2這兩個是atlas安裝的前置)
  • atlas-2.0.0、
  • sqoop-1.99.7
  • 每個環境的作用:
    數據采集傳輸:

    • Flume:分布式日志數據匯聚
    • Kafka:實時采集(計算)的緩沖
    • Sqoop:離線批量抽取數據庫

    數據存儲:

    • Mysql
    • HDFS

    數據計算:

    • Spark

    數據可視化:

    • Echarts

    job任務調度:

    • Azkaban

    元數據管理:

    • Atlas
    ?? ??

    總結

    以上是生活随笔為你收集整理的大数据项目开发进度(实时更新)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。