1.1 大数据概论
?
1.1 大數(shù)據(jù)概論
任務(wù)目的
- 了解大數(shù)據(jù)的概念及其特征
- 熟悉大數(shù)據(jù)的典型應(yīng)用場(chǎng)景
- 了解大數(shù)據(jù)部門的業(yè)務(wù)流程
任務(wù)清單
- 任務(wù)1:大數(shù)據(jù)概念
- 任務(wù)2:大數(shù)據(jù)特點(diǎn)
- 任務(wù)3:大數(shù)據(jù)應(yīng)用場(chǎng)景
- 任務(wù)4:大數(shù)據(jù)發(fā)展前景
- 任務(wù)5:業(yè)務(wù)流程分析
任務(wù)1:大數(shù)據(jù)概念
何謂“大數(shù)據(jù)”(Big Data),“大數(shù)據(jù)”計(jì)量單位已經(jīng)超過(guò)TB級(jí)別發(fā)展到PB、EB、ZB、YB甚至是BB級(jí)別。
“大數(shù)據(jù)”是一個(gè)較為抽象的概念,至今尚無(wú)確切、統(tǒng)一的定義,各方對(duì)“大數(shù)據(jù)”給出了10余種不同的定義,比較典型的是:
最早提出“大數(shù)據(jù)”這一概念的全球知名咨詢公司麥肯錫的定義:“大數(shù)據(jù)”是指在一定時(shí)間內(nèi)無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具采集、存儲(chǔ)、管理和分析其內(nèi)容的數(shù)據(jù)集合。
研究機(jī)構(gòu)Gartner是這樣定義“大數(shù)據(jù)”的:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
若從技術(shù)角度來(lái)看,大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
任務(wù)2:大數(shù)據(jù)特點(diǎn)
一般認(rèn)為,大數(shù)據(jù)主要具有以下5個(gè)方面的典型特征,即規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)、價(jià)值性(Value)、以及真實(shí)性(Veracity),即所謂的5V,接下來(lái),通過(guò)一張圖來(lái)具體描述。
?
接下來(lái)針對(duì)圖中的 5V 特征進(jìn)行簡(jiǎn)要介紹,具體如下。
1. 規(guī)模性(Volume)
大數(shù)據(jù)的特征首先就是數(shù)據(jù)規(guī)模大。
從前MP3時(shí)代,一個(gè)小小的MB級(jí)別的MP3就可以滿足很多人的需求,然而隨著時(shí)間的推移,存儲(chǔ)單位從過(guò)去的GB到TB,乃至現(xiàn)在的PB、EB級(jí)別。隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)開始爆發(fā)性增長(zhǎng)。社交網(wǎng)絡(luò)(微博、推特、臉書)、移動(dòng)網(wǎng)絡(luò)、各種智能工具,服務(wù)工具等,都成為數(shù)據(jù)的來(lái)源。
淘寶網(wǎng)近4億的會(huì)員每天產(chǎn)生的商品交易數(shù)據(jù)約20TB;臉書約10億的用戶每天產(chǎn)生的日志數(shù)據(jù)超過(guò)300TB。迫切需要智能的算法、強(qiáng)大的數(shù)據(jù)處理平臺(tái)和新的數(shù)據(jù)處理技術(shù),來(lái)統(tǒng)計(jì)、分析、預(yù)測(cè)和實(shí)時(shí)處理如此大規(guī)模的數(shù)據(jù)。
數(shù)據(jù)相關(guān)計(jì)量單位的換算關(guān)系下表所示:
2. 多樣性(Variety)
廣泛的數(shù)據(jù)來(lái)源,決定了大數(shù)據(jù)形式的多樣性。大數(shù)據(jù)可以分為三類:
一是結(jié)構(gòu)化數(shù)據(jù),指的是可以使用關(guān)系型數(shù)據(jù)庫(kù)表示和存儲(chǔ),表現(xiàn)為二維形式的數(shù)據(jù)。一般特點(diǎn)是:數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個(gè)實(shí)體的信息,每一行數(shù)據(jù)的屬性是相同的。如財(cái)務(wù)系統(tǒng)數(shù)據(jù)、信息管理系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)等;
二是非結(jié)構(gòu)化的數(shù)據(jù),指的是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)。如視頻、圖片、音頻等;
三是半結(jié)構(gòu)化數(shù)據(jù),是結(jié)構(gòu)化數(shù)據(jù)的一種形式,它并不符合關(guān)系型數(shù)據(jù)庫(kù)或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來(lái)的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來(lái)分隔語(yǔ)義元素以及對(duì)記錄和字段進(jìn)行分層。因此,它也被稱為自描述的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù),屬于同一類實(shí)體可以有不同的屬性,即使他們被組合在一起,這些屬性的順序并不重要。如HTML文檔、JSON數(shù)據(jù)、郵件、網(wǎng)頁(yè)等。
有統(tǒng)計(jì)顯示,目前結(jié)構(gòu)化數(shù)據(jù)占據(jù)整個(gè)互聯(lián)網(wǎng)數(shù)據(jù)量的75%以上,而產(chǎn)生價(jià)值的大數(shù)據(jù),往往是這些非結(jié)構(gòu)化數(shù)據(jù)。
3. 高速性(Velocity)
數(shù)據(jù)的增長(zhǎng)速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。與以往的報(bào)紙、書信等傳統(tǒng)數(shù)據(jù)載體生產(chǎn)傳播方式不同,在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)的交換和傳播主要是通過(guò)互聯(lián)網(wǎng)和云計(jì)算等方式實(shí)現(xiàn)的,其生產(chǎn)和傳播數(shù)據(jù)的速度是非常迅速的。
另外,海量數(shù)據(jù)的背后帶來(lái)的是更大的挑戰(zhàn),即如何快速計(jì)算分析大數(shù)據(jù)已經(jīng)成為當(dāng)下熱門的話題。舉個(gè)常見的例子,我們經(jīng)常使用百度搜索去找自己想要的商品,那么百度是在成千上萬(wàn)的結(jié)果中毫秒級(jí)的找到符合你關(guān)鍵詞的選項(xiàng)呢,這就需要大數(shù)據(jù)的高速處理能力。
4. 價(jià)值性(Value)
大數(shù)據(jù)的核心特征是價(jià)值,其實(shí)價(jià)值密度的高低和數(shù)據(jù)總量的大小是成反比的,即數(shù)據(jù)價(jià)值密度越高數(shù)據(jù)總量越小,數(shù)據(jù)價(jià)值密度越低數(shù)據(jù)總量越大。
任何有價(jià)值的信息的提取依托的就是海量的基礎(chǔ)數(shù)據(jù)。當(dāng)然,目前大數(shù)據(jù)背景下有個(gè)未解決的問(wèn)題,如何通過(guò)強(qiáng)大的機(jī)器算法更迅速地在海量數(shù)據(jù)中完成數(shù)據(jù)的價(jià)值提純。
5. 真實(shí)性(Veracity)
真實(shí)性,其實(shí)就是數(shù)據(jù)的質(zhì)量,海量數(shù)據(jù)并不一定都能反映用戶真實(shí)的行為信息或者客觀事物的真實(shí)信息。以網(wǎng)頁(yè)訪客數(shù)據(jù)為例,很多網(wǎng)站為了賺取更多的廣告費(fèi)用,會(huì)使用作弊機(jī)器人對(duì)廣告進(jìn)行點(diǎn)擊,這樣其實(shí)就造成了作弊流量,而這些流量并不能反映用戶真實(shí)需求。
任務(wù)3:大數(shù)據(jù)應(yīng)用場(chǎng)景
大數(shù)據(jù)無(wú)處不在,大數(shù)據(jù)應(yīng)用于各個(gè)行業(yè),包括金融、汽車、餐飲、電信、能源、體能和娛樂(lè)等在內(nèi)的社會(huì)各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡。
1. 電商大數(shù)據(jù)——精準(zhǔn)營(yíng)銷法寶
電商是最早利用大數(shù)據(jù)進(jìn)行精準(zhǔn)營(yíng)銷的行業(yè),除了精準(zhǔn)營(yíng)銷,電商可以依據(jù)客戶消費(fèi)習(xí)慣來(lái)提前為客戶備貨,并利用便利店作為貨物中轉(zhuǎn)點(diǎn),在客戶下單15分鐘內(nèi)將貨物送上門,提高客戶體驗(yàn)。
例如:馬云的菜鳥網(wǎng)絡(luò)宣稱的24小時(shí)完成在中國(guó)境內(nèi)的送貨;以及劉強(qiáng)東宣傳未來(lái)京東將在15分鐘完成送貨上門都是基于客戶消費(fèi)習(xí)慣的大數(shù)據(jù)分析和預(yù)測(cè)。
2. 金融大數(shù)據(jù)——財(cái)源滾滾來(lái)
隨著大數(shù)據(jù)技術(shù)的應(yīng)用,越來(lái)越多的金融企業(yè)也開始投身到大數(shù)據(jù)應(yīng)用實(shí)踐中。
麥肯錫的一份研究顯示,金融業(yè)在大數(shù)據(jù)價(jià)值潛力指數(shù)中排名第一。
典型的案例有:花旗銀行利用IBM沃森電腦為財(cái)富管理客戶推薦產(chǎn)品;美國(guó)銀行利用客戶點(diǎn)擊數(shù)據(jù)集為客戶提供特色服務(wù),如有競(jìng)爭(zhēng)的信用額度;招商銀行利用客戶刷卡、存取款、電子銀行轉(zhuǎn)帳、微信評(píng)論等行為數(shù)據(jù)進(jìn)行分析,每周給客戶發(fā)送針對(duì)性廣告信息,里面有顧客可能感興趣的產(chǎn)品和優(yōu)惠信息。
可見,大數(shù)據(jù)在金融行業(yè)的應(yīng)用可以總結(jié)為以下五個(gè)方面:精準(zhǔn)營(yíng)銷、風(fēng)險(xiǎn)管控、決策支持、效率提升以及產(chǎn)品設(shè)計(jì)。
3. 醫(yī)療大數(shù)據(jù)——看病更高效
大數(shù)據(jù)讓就醫(yī)、看病更簡(jiǎn)單。隨著大數(shù)據(jù)在醫(yī)療行業(yè)的深度融合,大數(shù)據(jù)平臺(tái)積累了海量的病例、病例報(bào)告、治愈方案、藥物報(bào)告等信息資源,所有常見的病例、既往病例等都記錄在案,醫(yī)生通過(guò)有效、連續(xù)的診療記錄,能夠給病人優(yōu)質(zhì)、合理的診療方案。這樣不僅提高醫(yī)生的看病效率,而且能夠降低誤診率,從而讓患者在最短的時(shí)間接受最好的治療。
4. 零售大數(shù)據(jù)——最懂消費(fèi)者
零售行業(yè)大數(shù)據(jù)應(yīng)用有兩個(gè)層面,一個(gè)層面是零售行業(yè)可以了解客戶消費(fèi)喜好和趨勢(shì),進(jìn)行商品的精準(zhǔn)營(yíng)銷,降低營(yíng)銷成本。另一層面是依據(jù)客戶購(gòu)買產(chǎn)品,為客戶提供可能購(gòu)買的其它產(chǎn)品,擴(kuò)大銷售額,也屬于精準(zhǔn)營(yíng)銷范疇。例如:美國(guó)零售業(yè)的傳奇故事——“啤酒與尿布”。
5. 交通大數(shù)據(jù)——暢通出行
交通作為人類行為的重要組成和重要條件之一,對(duì)于大數(shù)據(jù)的感知也是最急迫的。目前,交通的大數(shù)據(jù)應(yīng)用主要在兩個(gè)方面,一方面可以利用大數(shù)據(jù)傳感器數(shù)據(jù)來(lái)了解車輛通行密度,合理進(jìn)行道路規(guī)劃包括單行線路規(guī)劃。另一方面可以利用大數(shù)據(jù)來(lái)實(shí)現(xiàn)即時(shí)信號(hào)燈調(diào)度,提高已有線路運(yùn)行能力。
6. 輿情監(jiān)控大數(shù)據(jù)——名偵探柯南
《黑貓警長(zhǎng)》大家都很熟悉,它講述的是“黑貓警長(zhǎng)”如何精明能干、對(duì)壞人窮追不舍、跌宕起伏的故事情節(jié)。拿到大數(shù)據(jù)時(shí)代背景下的話,雖然它也能體現(xiàn)“黑貓警長(zhǎng)”的盡職盡責(zé)、聰明能干,但更多的會(huì)歸結(jié)到一個(gè)問(wèn)題:為何還是如此的被動(dòng)、低效?疾病可以預(yù)防,難道犯罪不能預(yù)防么?
答案是肯定的。國(guó)家正在將大數(shù)據(jù)技術(shù)用于輿情監(jiān)控,其收集到的數(shù)據(jù)除了解民眾訴求,降低群體事件之外,還可以用于犯罪管理。
任務(wù)4:大數(shù)據(jù)發(fā)展前景
1. 大數(shù)據(jù)發(fā)展前景之國(guó)家政策
黨的十八大提出“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略”,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,大數(shù)據(jù)技術(shù)和應(yīng)用處于創(chuàng)新突破期,國(guó)內(nèi)市場(chǎng)需求處于爆發(fā)期,我國(guó)大數(shù)據(jù)產(chǎn)業(yè)面臨重要的發(fā)展機(jī)遇。
黨的十九大提出“推動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實(shí)體經(jīng)濟(jì)深度融合”。
?
2. 大數(shù)據(jù)發(fā)展前景之國(guó)際方面
國(guó)際數(shù)據(jù)公司IDC預(yù)測(cè),到2020年,企業(yè)基于大數(shù)據(jù)計(jì)算分析平臺(tái)的支出將突破5000億美元。目前,我國(guó)大數(shù)據(jù)人才只有46萬(wàn),未來(lái)3到5年人才缺口達(dá)150萬(wàn)之多。
?
3. 大數(shù)據(jù)發(fā)展前景之高校方面
2016年北京大學(xué)、對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)、中南大學(xué)首次成功申請(qǐng)到“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”本科新專業(yè)。2017年,第二批32所高校獲批。2018年教育部最新公布的高校新增專業(yè)名單中,有248所學(xué)校獲批,是過(guò)去兩次審批通過(guò)額度近8倍。
?
目前,全國(guó)共有283所本科高校開設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè),270所高職院校成功申報(bào)“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè),199所本科高校在建設(shè)人工智能專業(yè)。
任務(wù)5:業(yè)務(wù)流程分析
?
? ? ?2.數(shù)據(jù)部門搭建數(shù)據(jù)平臺(tái)、分析數(shù)據(jù)指標(biāo)
?
? ? ?3.數(shù)據(jù)可視化(報(bào)表展示,郵件發(fā)送,Echarts)
?
?
總結(jié)
- 上一篇: CCNA-01-GNS3仿真环境搭建及c
- 下一篇: 华为HCNP基础内容