日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

大数据平台容量评估_大数据平台

發(fā)布時(shí)間:2023/12/15 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据平台容量评估_大数据平台 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

系統(tǒng)概述

大數(shù)據(jù)應(yīng)用支撐平臺(tái)提供數(shù)據(jù)支撐服務(wù),對(duì)外發(fā)布數(shù)據(jù)服務(wù)進(jìn)行數(shù)據(jù)價(jià)值變現(xiàn)。包含數(shù)據(jù)采集、數(shù)據(jù)治理、數(shù)據(jù)交換、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算相關(guān)組件的搭建、驗(yàn)證,并建立大數(shù)據(jù)倉(cāng)庫(kù)。

b)功能要求

1.數(shù)據(jù)采集,大數(shù)據(jù)平臺(tái)數(shù)據(jù)源層有各類(lèi)型數(shù)據(jù)源,數(shù)據(jù)類(lèi)型分為關(guān)系型業(yè)務(wù)庫(kù)、NoSQL庫(kù)、文本文件、視頻、服務(wù)接口,數(shù)據(jù)格式分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)(文件、圖片、視頻等),為了將多源異構(gòu)的數(shù)據(jù)進(jìn)行采集,需要將源數(shù)據(jù)原封不動(dòng)的從源庫(kù)全量抽取出來(lái),或者只抽取上次抽取以來(lái)源庫(kù)中要新增或修改的數(shù)據(jù),因此數(shù)據(jù)采集工具需要滿(mǎn)足對(duì)多源異構(gòu)數(shù)據(jù)的全量抽取和增量抽取。

2.數(shù)據(jù)治理,由于從數(shù)據(jù)采集工具采集過(guò)來(lái)的數(shù)據(jù)不具備統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)及數(shù)據(jù)格式,數(shù)據(jù)治理工具需要對(duì)到達(dá)的數(shù)據(jù)進(jìn)行格式檢查、標(biāo)準(zhǔn)化、增量對(duì)比、數(shù)據(jù)篩選、拆分后,生成符合標(biāo)準(zhǔn)的、統(tǒng)一格式的數(shù)據(jù),使之與大數(shù)據(jù)平臺(tái)要求的數(shù)據(jù)標(biāo)準(zhǔn)、邏輯關(guān)系與質(zhì)量符合。

3.數(shù)據(jù)交換,為了滿(mǎn)足子系統(tǒng)與總系統(tǒng)之間的數(shù)據(jù)交換及同步的需求,各系統(tǒng)之間的數(shù)據(jù)傳輸過(guò)程需要符合數(shù)據(jù)規(guī)范標(biāo)準(zhǔn),交換的雙方通過(guò)發(fā)送和接收任務(wù)進(jìn)行數(shù)據(jù)交換,整個(gè)過(guò)程需要保證數(shù)據(jù)安全保密及可靠性,并且數(shù)據(jù)查詢(xún)結(jié)果始終一致。

4.數(shù)據(jù)存儲(chǔ),為了滿(mǎn)足數(shù)據(jù)采集、數(shù)據(jù)治理、數(shù)據(jù)交換各個(gè)過(guò)程中到達(dá)存儲(chǔ)的數(shù)據(jù),數(shù)據(jù)存儲(chǔ)體系需要滿(mǎn)足分布式文件存儲(chǔ)、分布式列式存儲(chǔ)、NoSql數(shù)據(jù)庫(kù)存儲(chǔ)、圖數(shù)據(jù)庫(kù)存儲(chǔ)、關(guān)系型結(jié)果庫(kù)存儲(chǔ);為了滿(mǎn)足數(shù)據(jù)計(jì)算和數(shù)據(jù)分析過(guò)程對(duì)數(shù)據(jù)的需求,數(shù)據(jù)存儲(chǔ)體系需要支持全量的從數(shù)據(jù)存儲(chǔ)體系中抽取出來(lái)加載到并行數(shù)據(jù)處理器,增量的結(jié)構(gòu)化數(shù)據(jù)實(shí)時(shí)從數(shù)據(jù)存儲(chǔ)體系中抽取出來(lái)后加載到處理器中進(jìn)行分析計(jì)算。

5.數(shù)據(jù)計(jì)算,數(shù)據(jù)計(jì)算模塊需要為數(shù)據(jù)分析應(yīng)用場(chǎng)景提供數(shù)據(jù)計(jì)算能力,需要整合分布式計(jì)算框架MapReduce、全文檢索存儲(chǔ)引擎(Solr)、Spark(SparkSQL、SparkStreaming、GraphX),通過(guò)數(shù)據(jù)匹配、數(shù)據(jù)搜索、數(shù)據(jù)重構(gòu),提供對(duì)海量數(shù)據(jù)的并行加載與處理功能,并對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算和離線(xiàn)計(jì)算,支撐上層數(shù)據(jù)分析需求。

6.大數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)支持從各種不同的數(shù)據(jù)源中采集數(shù)據(jù),包括關(guān)系數(shù)據(jù)庫(kù)、NoSql庫(kù)、文本文件、視頻文件、數(shù)據(jù)接口等。采集工具綜合運(yùn)用kettle、dataX、sqoop、kafka、flume等,實(shí)現(xiàn)全量采集和增量采集方式。按數(shù)據(jù)處理的不同階段,將數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行分層:

STAGE層(接口層):提供業(yè)務(wù)系統(tǒng)數(shù)據(jù)文件的臨時(shí)存儲(chǔ),是生產(chǎn)系統(tǒng)數(shù)據(jù)源的直接拷貝,由ETL過(guò)程對(duì)數(shù)據(jù)源進(jìn)行直接抽取,在格式和數(shù)據(jù)定義上不作任何改變。從各業(yè)務(wù)系統(tǒng)中抽取、抓取的數(shù)據(jù),進(jìn)入這一層。

ODS/DWD層(細(xì)節(jié)數(shù)據(jù)層):簡(jiǎn)稱(chēng)DWD層,是對(duì)STAGE層數(shù)據(jù)進(jìn)行沉淀,減少了抽取的復(fù)雜性,同時(shí)ODS/DWD的信息模型組織主要遵循企業(yè)業(yè)務(wù)事務(wù)處理的形式,將企業(yè)各專(zhuān)業(yè)數(shù)據(jù)進(jìn)行集中,將數(shù)據(jù)按分析的主體的形式存放,跟STAGE層的粒度一致,屬于分析的公共資源。

MID層(輕度匯總層):是面向分析型應(yīng)用,對(duì)DWD層的生產(chǎn)數(shù)據(jù)進(jìn)行輕度綜合和匯總統(tǒng)計(jì)。

DM層(數(shù)據(jù)集市層):將數(shù)據(jù)按分析的專(zhuān)題組織成多維庫(kù)表的形式存放,屬于分析目標(biāo)范疇的數(shù)據(jù)組織與匯總,屬于分析的專(zhuān)有資源,其信息主要來(lái)源于DWD 和MID層匯總,時(shí)間維度可以是日、月、季、年。

MDW層(元數(shù)據(jù)):對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)、數(shù)據(jù)源、采集方式進(jìn)行描述。

各類(lèi)數(shù)據(jù)從業(yè)務(wù)系統(tǒng)通過(guò)ETL工具抽取至接口層,然后經(jīng)過(guò)清洗轉(zhuǎn)換,進(jìn)入細(xì)節(jié)數(shù)據(jù)層,經(jīng)過(guò)匯總統(tǒng)計(jì),進(jìn)入輕度匯總層,再經(jīng)過(guò)主題劃分,按事實(shí)表、維度表進(jìn)行匯總組織,形成數(shù)據(jù)集市層。

數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)主要包括元數(shù)據(jù)管理、數(shù)據(jù)處理調(diào)度、數(shù)據(jù)稽核、數(shù)據(jù)發(fā)布。元數(shù)據(jù)管理對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)、數(shù)據(jù)源、采集方式進(jìn)行管理,為數(shù)據(jù)處理和發(fā)布提供基礎(chǔ)元數(shù)據(jù)。數(shù)據(jù)處理調(diào)度實(shí)現(xiàn)各層數(shù)據(jù)處理過(guò)程的調(diào)度管理。數(shù)據(jù)稽核實(shí)現(xiàn)數(shù)據(jù)完整性、一致性、準(zhǔn)確性的檢查。數(shù)據(jù)發(fā)布實(shí)現(xiàn)數(shù)據(jù)的對(duì)外共享發(fā)布。

基于數(shù)據(jù)倉(cāng)庫(kù),搭建數(shù)據(jù)分析工具,實(shí)現(xiàn)數(shù)據(jù)明細(xì)查詢(xún)、全文檢索,數(shù)據(jù)交互式探索、數(shù)據(jù)統(tǒng)計(jì)和數(shù)據(jù)挖掘等。數(shù)據(jù)分析的結(jié)果可以進(jìn)一步接入到應(yīng)用中,進(jìn)行可視化展現(xiàn)。

總結(jié)

以上是生活随笔為你收集整理的大数据平台容量评估_大数据平台的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。