大数据之路读书笔记-01总述
大數(shù)據(jù)之路讀書筆記-01總述
此系列文章為大數(shù)據(jù)之路的讀書筆記,如侵可刪
2014 年,馬云提出,“人類正從 IT 時代走向 DT 時代 ”如果說IT時代是以自我控制、自我管理為主,那么到了 DT (Data Technology) 時代,則是以服務(wù)大眾、激發(fā)生產(chǎn)力為主。以互聯(lián)網(wǎng)(或者物聯(lián)網(wǎng))、云計算、大數(shù)據(jù)和人工智能為代表的新技術(shù)革命正在滲透至各行各業(yè),悄悄地改變著我們的生活。
在DT 時代,人們比以往任何時候更能收集到更豐富的數(shù)據(jù)。 JDC的報告顯示:預(yù)計到 2020 年,全球數(shù)據(jù)總量將超過 40ZB (相當(dāng)于 40萬億 GB ),這一數(shù)據(jù)量是 2011 年的 22 倍!正在呈“爆炸式”增長的數(shù)據(jù),其潛在的巨大價值有待發(fā)掘。數(shù)據(jù)作為一種新的能源,正在發(fā)生聚變,變革著我們的生產(chǎn)和生活 ,催生了當(dāng)下大數(shù)據(jù)行業(yè)發(fā)展熱火朝天的盛景。
但是如果不能對這些數(shù)據(jù)進(jìn)行有序、有結(jié)構(gòu)地分類組織和存儲,如果不能有效利用并發(fā)掘它,繼而產(chǎn)生價值,那么它同時也成為一場“災(zāi)難”。無序、無結(jié)構(gòu)的數(shù)據(jù)猶如堆積如山的垃圾,給企業(yè)帶來的是令人咋舌的高額成本。
在阿里巴巴集團(tuán)內(nèi),我們面臨的現(xiàn)實情況是:集團(tuán)數(shù)據(jù)存儲達(dá)到EB 級別,部分單張表每天的數(shù)據(jù)記錄數(shù)高達(dá)幾千億條:在 2016 年“雙11 購物狂歡節(jié)”的 24 小時中,支付金額達(dá)到了 1207 億元人民幣,付峰值高達(dá) 12 萬筆/秒,下單峰值達(dá) 17.5 萬筆/秒,媒體直播大屏處理的總數(shù)據(jù)量高達(dá)百億且所有數(shù)據(jù)都需要做到實時、準(zhǔn)確地對外披露……這些給數(shù)據(jù)采集、存儲和計算都帶來了極大的挑戰(zhàn)。
在阿里內(nèi)部,數(shù)據(jù)工程師每天要面對百萬級規(guī)模的離線數(shù)據(jù)處理工作。阿里大數(shù)據(jù)井噴式的爆發(fā),加大了數(shù)據(jù)模型、數(shù)據(jù)研發(fā)、數(shù)據(jù)質(zhì)量和運(yùn)維保障工作的難度。同時,日益豐富的業(yè)態(tài),也帶來了各種各樣、紛繁復(fù)雜的數(shù)據(jù)需求。如何有效地滿足來自員工、商家、合作伙伴等多樣化的需求 ,提高他們對數(shù)據(jù)使用的滿意度,是數(shù)據(jù)服務(wù)和數(shù)據(jù)產(chǎn)品需要面對的挑戰(zhàn)。如何建設(shè)高效的數(shù)據(jù)模型和體系,使數(shù)據(jù)易用,避免重復(fù)建設(shè)和數(shù)據(jù)不一致性,保證數(shù)據(jù)的規(guī)范性;如何提供高效易用的數(shù)據(jù)開發(fā)工如何做好數(shù)據(jù)質(zhì)量保障;如何有效管理和控制日益增長的存儲和計算消如何保證數(shù)據(jù)服務(wù)的穩(wěn)定,保證其性能 如何設(shè)計有效的數(shù)據(jù)產(chǎn)品高效賦能于外部客戶和內(nèi)部員工……這些都給大數(shù)據(jù)系統(tǒng)的建設(shè)提出了更多復(fù)雜的要求。
本書介紹的阿里巴巴大數(shù)據(jù)系統(tǒng)架構(gòu),就是為了滿足不斷變化的業(yè)務(wù)需求,同時實現(xiàn)系統(tǒng)的高度擴(kuò)展性、靈活性以及數(shù)據(jù)展現(xiàn)的高性能而設(shè)計的。
如圖 1.1 所示是間里巴巴大數(shù)據(jù)系統(tǒng)體系架構(gòu)圖,從圖中可以清晰地看到數(shù)據(jù)體系主要分為數(shù)據(jù)采集、數(shù)據(jù)計算、數(shù)據(jù)服務(wù)和數(shù)據(jù)應(yīng)用四大層次。
文章目錄
- 大數(shù)據(jù)之路讀書筆記-01總述
- 1 .數(shù)據(jù)采集層
- 2、數(shù)據(jù)計算層
- 3.數(shù)據(jù)服務(wù)層
- 4. 數(shù)據(jù)應(yīng)用層
1 .數(shù)據(jù)采集層
阿里巴巴是一家多業(yè)態(tài)的互聯(lián)網(wǎng)公司,幾億規(guī)模的用戶(如商家、消費(fèi)者、商業(yè)組織等)在平臺上從事商業(yè)、消費(fèi)、娛樂等活動,每時每刻都在產(chǎn)生海量的數(shù)據(jù),數(shù)據(jù)采集作為阿里大數(shù)據(jù)系統(tǒng)體系的第一環(huán)尤為重要。因此阿里巴巴建立了一套標(biāo)準(zhǔn)的數(shù)據(jù)采集體系方案,致力全面、高性能、規(guī)范地完成海量數(shù)據(jù)的采集,并將其傳輸?shù)酱髷?shù)據(jù)平臺。阿里巴巴的日志采集體系方案包括兩大體系: Aplus.JS Web日志采集技術(shù)方案; UserTrack APP 端日志采集技術(shù)方案。在采集技術(shù)基礎(chǔ)之上,阿里巴巴用面向各個場景的埋點規(guī)范,來滿足通用瀏覽、點擊、特殊交互、 APP 事件、 H5 APP 里的 H5 Native 日志數(shù)據(jù)打通等多種業(yè)務(wù)場景。同時,還建立了一套高性能、高可靠性的數(shù)據(jù)傳輸體系,完成數(shù)據(jù)從生產(chǎn)業(yè)務(wù)端到大數(shù)據(jù)系統(tǒng)的傳輸。在傳輸方面,采用TimeTunnel (TT ),它既包括數(shù)據(jù)庫的增量數(shù)據(jù)傳輸,也包括日志數(shù)據(jù)的傳輸; TT 作為數(shù)據(jù)傳輸服務(wù)的基礎(chǔ)架構(gòu),既支持實時流式計算,也支持各種時間窗口的批量計算。另外,也通過數(shù)據(jù)同步工具( DataX同步中心,其中同步中心是基于 DataX 易用性封裝的)直連異構(gòu)數(shù)據(jù)庫(備庫)來抽取各種時間窗口的數(shù)據(jù)。(注:其中的相關(guān)細(xì)節(jié)將在后續(xù)的“日志采集”和“數(shù)據(jù)同步”章節(jié)中詳細(xì)說明 。)
2、數(shù)據(jù)計算層
數(shù)據(jù)只有被整合和計算,才能被用于洞察商業(yè)規(guī)律,挖掘潛在信息,從而實現(xiàn)大數(shù)據(jù)價值,達(dá)到賦能于商業(yè)和創(chuàng)造價值的目的。從采集系統(tǒng)中收集到的大量原始數(shù)據(jù),將進(jìn)入數(shù)據(jù)計算層中被進(jìn) 步整合與計算。面對海量的數(shù)據(jù)和復(fù)雜的計算,網(wǎng)里巴巴的數(shù)據(jù)計算層包括兩大體系:數(shù)據(jù)存儲及計算云平臺(離線計算平臺 MaxCompute 和實時計算StreamCompute )和數(shù)據(jù)整合及管理體系(內(nèi)部稱之為“OneData ”)其中, Max Compute 是阿里巴巴自主研發(fā)的離線大數(shù)據(jù)平臺 ,其豐富的功能和強(qiáng)大的存儲及計算能力使得阿里巴巴的大數(shù)據(jù)有了強(qiáng)大的存儲和計算引擎; StreamCompute 是網(wǎng)里巴巴自主研發(fā)的流式大數(shù)據(jù)平臺,在內(nèi)部較好地支持了阿里巴巴流式計算需求: OneData 是數(shù)據(jù)合及管理的方法體系和工具(注 為方便內(nèi)部工作及溝通,在阿里內(nèi)部將這一統(tǒng)一的方法體系和工具簡稱為“ OneData ”),阿里巴巴的大數(shù)據(jù)工程在這一體系下,構(gòu)建統(tǒng)一、規(guī)范、可共享的全域數(shù)據(jù)體系 ,避免數(shù)據(jù)的冗余和重復(fù)建設(shè) ,規(guī)避數(shù)據(jù)煙囪和不一致性,充分發(fā)揮間里巴巴在大數(shù)據(jù)海量、多樣性方面的獨特優(yōu)勢。借助這一統(tǒng)一化數(shù)據(jù)整合及管理的方法體系 ,我們構(gòu)建了阿里巴巴的數(shù)據(jù)公共層,并可以幫助相似大數(shù)據(jù)項目快速落地實現(xiàn)。
從數(shù)據(jù)計算頻率角度來看,阿里數(shù)據(jù)倉庫可以分為離線數(shù)據(jù)倉庫和實時數(shù)據(jù)倉庫。離線數(shù)據(jù)倉庫主要是指傳統(tǒng)的數(shù)據(jù)倉庫概念,數(shù)據(jù)計算頻率主要以天(包含小時、周和月)為單位 ;如下 ,則每天凌晨處理上一天的數(shù)據(jù)。但是隨著業(yè)務(wù)的發(fā)展特別是交易過程的縮短,用戶對數(shù)據(jù)產(chǎn)出的實時性要求逐漸提高,所以阿里的實時數(shù)據(jù)倉庫應(yīng)運(yùn)而生。“雙11 ”實時數(shù)據(jù)直播大屏,就是實時數(shù)據(jù)倉庫的一種典型應(yīng)用。
阿里數(shù)據(jù)倉庫的數(shù)據(jù)加工鏈路也是遵循業(yè)界的分層理念,包括操作數(shù)據(jù)層( Operational Data Store, ODS 、明細(xì)數(shù)據(jù)層( Data Warehouse Detail , DWD )、匯總數(shù)據(jù)層( Data Warehouse Summary, DWS )和應(yīng)用數(shù)據(jù)層( Application Data Store, ADS )。通過數(shù)據(jù)倉庫不同層次之間的加工過程實現(xiàn)從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉(zhuǎn)化,并且對整個過程進(jìn)行有效的元數(shù)據(jù)管理及數(shù)據(jù)質(zhì)量處理。
在阿里大數(shù)據(jù)系統(tǒng)中,元數(shù)據(jù)模型整合及應(yīng)用是一個重要的組成部分,主要包含數(shù)據(jù)源元數(shù)據(jù)、數(shù)據(jù)倉庫元數(shù)據(jù) 、數(shù)據(jù)鏈路元數(shù)據(jù)、工具類元數(shù)據(jù) 數(shù)據(jù)質(zhì)量類元數(shù)據(jù)等。元數(shù)據(jù)應(yīng)用主要面向數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)管理等 ,如用于存儲、計算和成本管理等。
3.數(shù)據(jù)服務(wù)層
當(dāng)數(shù)據(jù)已被整合和計算好之后, 需要提供給產(chǎn)品和應(yīng)用進(jìn)行數(shù)據(jù)消費(fèi)。為了有更好的性能和體驗,阿里巴巴構(gòu)建了自己的數(shù)據(jù)服務(wù)層,通過接口服務(wù)化方式對外提供數(shù)據(jù)服務(wù)。針對不同的需求,數(shù)據(jù)服務(wù)層的數(shù)據(jù)源架構(gòu)在多種數(shù)據(jù)庫之上,如 MySQL HBase 等。后續(xù)將逐漸遷移至阿里云云數(shù)據(jù)庫 ApsaraDB for RDS (簡稱“ RDS ”)和表格存儲( TableStore )等。
數(shù)據(jù)服務(wù)可以使應(yīng)用對底層數(shù)據(jù)存儲透明,將海量數(shù)據(jù)方便高效地開放給集團(tuán)內(nèi)部各應(yīng)用使用。現(xiàn)在,數(shù)據(jù)服務(wù)每天擁有幾十億的數(shù)據(jù)調(diào)用量,如何在性能、穩(wěn)定性、擴(kuò)展性等方面更好地服務(wù)于用戶:如何滿足應(yīng)用各種復(fù)雜的數(shù)據(jù)服務(wù)需求:如何保證“雙 11 ”媒體大屏數(shù)據(jù)服務(wù)接口的高可用……隨著業(yè)務(wù)的發(fā)展,需求越來越復(fù)雜,因此數(shù)據(jù)服務(wù)也在不斷地前進(jìn)。
數(shù)據(jù)服務(wù)層對外提供數(shù)據(jù)服務(wù)主要是通過統(tǒng) 的數(shù)據(jù)服務(wù)平臺(方便閱讀,簡稱為“OneService ”)。 One Service 以數(shù)據(jù)倉庫整合計算好的數(shù)據(jù)作為數(shù)據(jù)源,對外通過接口的方式提供數(shù)據(jù)服務(wù),主要提供簡單數(shù)據(jù)查詢服務(wù)、復(fù)雜數(shù)據(jù)查詢服務(wù)(承接集團(tuán)用戶識別、用戶畫像等復(fù)
雜數(shù)據(jù)查詢服務(wù))和實時數(shù)據(jù)推送服務(wù) 大特色數(shù)據(jù)服務(wù)。
4. 數(shù)據(jù)應(yīng)用層
數(shù)據(jù)已經(jīng)準(zhǔn)備好,需要通過合適的應(yīng)用提供給用戶,讓數(shù)據(jù)最大化地發(fā)揮價值。阿里對數(shù)據(jù)的應(yīng)用表現(xiàn)在各個方面,如搜索、推薦、廣告、
金融、信用、保險、文娛、物流等。商家 ,阿里內(nèi)部的搜索、推薦、廣告、金融等平臺 ,阿里內(nèi)部的運(yùn)營和管理人員等,都是數(shù)據(jù)應(yīng)用方; ISV研究機(jī)構(gòu)和社會組織等也可以利用阿里開放的數(shù)據(jù)能力和技術(shù)。
間里巴巴基于數(shù)據(jù)的應(yīng)用產(chǎn)品有很多,本書選擇了服務(wù)于阿里內(nèi)部員工的阿里數(shù)據(jù)平臺和服務(wù)于商家的對外數(shù)據(jù)產(chǎn)品一一生意參謀進(jìn)行基礎(chǔ)性介紹。其他數(shù)據(jù)應(yīng)用不再贅述。對內(nèi),阿里數(shù)據(jù)平臺產(chǎn)品主要有實時數(shù)據(jù)監(jiān)控、自助式的數(shù)據(jù)網(wǎng)站或產(chǎn)品構(gòu)建的數(shù)據(jù)小站、宏觀決策分析支撐平臺、對象分析工具、行業(yè)數(shù)據(jù)分析門戶、流量分析平臺等。
我們相信,數(shù)據(jù)作為新能源,為產(chǎn)業(yè)注人的變革是顯而易見的。我們對數(shù)據(jù)新能源的探索也不僅僅停留在狹義的技術(shù)、服務(wù)和應(yīng)用上。我們正在挖掘大數(shù)據(jù)更深層次的價值,為社會經(jīng)濟(jì)和民生基礎(chǔ)建設(shè)等提供創(chuàng)新方法。
注:本書中出現(xiàn)的專有名詞 專業(yè)術(shù)語 產(chǎn)品名稱、軟件項目名稱名稱等,是溝寶(中國)軟件有限公司內(nèi)部項目的慣用詞語,如與第三方名雷同,實屬巧合
總結(jié)
以上是生活随笔為你收集整理的大数据之路读书笔记-01总述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win8.1 64位专业版,安装内存8G
- 下一篇: 北理工计算机学院沈建斌,沈建冰_北京理工