大数据Re1
寫在前面的話
入行大數(shù)據(jù)兩年多以來,有很多感想,簡單說幾句。與其他所有計算機(jī)相關(guān)行業(yè)的學(xué)習(xí)類似,大數(shù)據(jù)的學(xué)習(xí)同樣是在網(wǎng)絡(luò)上找資料,看視頻,然后自己練手摸索,遇到問題找博客找平臺大佬提問題。
絕大部分時間都是一個人的負(fù)重前行,更不必說,網(wǎng)絡(luò)上的資料良莠不齊,既要去偽存真,又要相互映照,不同觀點(diǎn)不同闡述,不同理解之間產(chǎn)生的碰撞和疑問雖說難能可貴,但確實是學(xué)習(xí)過程中不小的障礙,概念原理該理解到什么層次,什么地方應(yīng)該著重分析,什么地方可以簡單了解,都是新手難以把握的部分。
有感于此,筆者決心帶著最近幾年的淺薄經(jīng)驗,重新以初學(xué)者的心態(tài)審視大數(shù)據(jù)的一些概念,框架,和原理,參照教材和行業(yè)書籍,帶著自己的理解,整理成系列文章,既是給自己理清頭緒,也希望能給新手一些小小的幫助,就心滿意足了。
1.大數(shù)據(jù)時代
1.1數(shù)據(jù)和信息
首先,對大數(shù)據(jù)最簡單的理解,就是大量的數(shù)據(jù),那么大量的數(shù)據(jù)從何而來?我們知道,數(shù)據(jù)就是我們通過觀察,實驗或者計算得到的結(jié)果。與信息不同,離散的數(shù)據(jù)幾乎沒有任何實用價值。
而信息是一個宏觀的概念,泛指人類社會傳播的一切內(nèi)容。1948年,數(shù)學(xué)家香農(nóng)指出:信息是用來消除隨機(jī)不確定性的東西。科學(xué)的信息概念可以概括如下:
信息是對客觀世界中各種事物的運(yùn)動狀態(tài)和變化的反映,是客觀事物之間相互聯(lián)系和相互作用的表征,表現(xiàn)的是客觀事物運(yùn)動狀態(tài)和變化的實質(zhì)內(nèi)容。
1.2數(shù)據(jù)產(chǎn)生方式
可以說,數(shù)據(jù)產(chǎn)生方式的變革,孕育了大數(shù)據(jù)這一概念。總體來說,人類社會產(chǎn)生數(shù)據(jù)的方式大致經(jīng)歷了如下三個階段:運(yùn)營式系統(tǒng)階段、用戶原創(chuàng)內(nèi)容階段和感知式系統(tǒng)階段。
-
運(yùn)營式系統(tǒng)階段
人類社會最早大規(guī)模管理和使用數(shù)據(jù),是從數(shù)據(jù)庫的誕生開始的。超市銷售系統(tǒng),永航交易系統(tǒng),股市交易系統(tǒng)等等,都建立在數(shù)據(jù)庫的基礎(chǔ)上。這個階段顯著的特征就是,數(shù)據(jù)的產(chǎn)生方式是被動的,只有實際的企業(yè)業(yè)務(wù)發(fā)生時,才產(chǎn)生新的數(shù)據(jù)并記錄到數(shù)據(jù)庫。
-
用戶原創(chuàng)內(nèi)容階段
隨著互聯(lián)網(wǎng)的出現(xiàn)和發(fā)展,數(shù)據(jù)傳播更加快捷,Web 1.0時代,主要以門戶網(wǎng)站為代表,強(qiáng)調(diào)內(nèi)容的組織與提供,大量上網(wǎng)用戶本身并不參與內(nèi)容的產(chǎn)生。而Web 2.0時代,隨著移動互聯(lián)網(wǎng)和智能手機(jī)的普及,包括各大自服務(wù)平臺的搭建,上網(wǎng)用戶逐漸成為平臺內(nèi)容的生產(chǎn)者,數(shù)據(jù)量開始急劇增長。
-
感知式系統(tǒng)階段
感知式系統(tǒng)階段與物聯(lián)網(wǎng)的發(fā)展緊密相關(guān),物聯(lián)網(wǎng)中包含各種各樣的傳感器和攝像頭,這些設(shè)備每時每刻都在產(chǎn)生大量的數(shù)據(jù),與Web 2.0時代的人工數(shù)據(jù)產(chǎn)生方式相比,物聯(lián)網(wǎng)中的自動數(shù)據(jù)產(chǎn)生方式,將在短時間內(nèi)生成更密集、更大量的數(shù)據(jù)。
1.3大數(shù)據(jù)的概念
至此,對大數(shù)據(jù)這個概念,我們終于能夠給出一個比較合適的解釋,或者說大數(shù)據(jù)的四個特點(diǎn):數(shù)據(jù)量大(Volume)、數(shù)據(jù)類型繁多(Variety)、處理速度快(Velocity)和價值密度低(Value)。
-
數(shù)據(jù)量大(Volume)
根據(jù)著名咨詢機(jī)構(gòu)互聯(lián)網(wǎng)數(shù)據(jù)中心(Internet Data Center,IDC)做出的估測,人類社會產(chǎn)生的數(shù)據(jù)一直都在以每年50%的速度增長,也就是說,每兩年就增加一倍多,這被稱為“大數(shù)據(jù)摩爾定律”。這意味著,人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量之和。2020年,全球總共擁有約44ZB的數(shù)據(jù)量,與2010年相比,數(shù)據(jù)量將增長近40倍。
-
數(shù)據(jù)類型繁多(Variety)
大數(shù)據(jù)的數(shù)據(jù)來源眾多,科學(xué)研究、企業(yè)應(yīng)用和Web應(yīng)用等都在源源不斷地生成新的類型繁多的數(shù)據(jù)。生物大數(shù)據(jù)、交通大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)、電信大數(shù)據(jù)、電力大數(shù)據(jù)、金融大數(shù)據(jù)等,都呈現(xiàn)出“井噴式”增長,所涉及的數(shù)據(jù)量十分巨大,已經(jīng)從TB級別躍升到PB級別。各行各業(yè),每時每刻,都在生成各種不同類型的數(shù)據(jù)。
-
處理速度快(Velocity)
大數(shù)據(jù)時代的數(shù)據(jù)產(chǎn)生速度非常快。在Web 2.0應(yīng)用領(lǐng)域,在1分鐘內(nèi),新浪微博可以產(chǎn)生2萬條微博,Twitter可以產(chǎn)生10萬條推文,蘋果可以產(chǎn)生下載4.7萬次應(yīng)用的數(shù)據(jù),淘寶可以賣出6萬件商品,百度可以產(chǎn)生90萬次搜索查詢的數(shù)據(jù)。大名鼎鼎的大型強(qiáng)子對撞機(jī)(Large Hadron Collider,LHC),大約每秒產(chǎn)生6億次的碰撞,每秒生成約700 MB的數(shù)據(jù),同時有成千上萬臺計算機(jī)在分析這些碰撞。
-
價值密度低(Value)
大數(shù)據(jù)時代的數(shù)據(jù)產(chǎn)生速度非常快。在Web 2.0應(yīng)用領(lǐng)域,在1分鐘內(nèi),新浪微博可以產(chǎn)生2萬條微博,Twitter可以產(chǎn)生10萬條推文,蘋果可以產(chǎn)生下載4.7萬次應(yīng)用的數(shù)據(jù),淘寶可以賣出6萬件商品,百度可以產(chǎn)生90萬次搜索查詢的數(shù)據(jù)。大名鼎鼎的大型強(qiáng)子對撞機(jī)(Large Hadron Collider,LHC),大約每秒產(chǎn)生6億次的碰撞,每秒生成約700 MB的數(shù)據(jù),同時有成千上萬臺計算機(jī)在分析這些碰撞。[1]
出現(xiàn)了巨量的數(shù)據(jù),人們自然而然想要利用這些數(shù)據(jù)來改造世界。信息科技需要解決信息存儲,傳輸和信息處理三個核心問題,這也是大數(shù)據(jù)要面對的主要問題。存儲設(shè)備的容量在不斷增加,CPU的計算能力也在不斷提升,但是另一方面越頂級的CPU,越大的存儲容量就意味著越高昂的價格,消耗的財力是另一方面,單臺機(jī)器的性能不管多么優(yōu)越,總有其性能瓶頸,分布式技術(shù)應(yīng)運(yùn)而生。
1.4分布式的概念
分布式技術(shù)為海量數(shù)據(jù)的存儲,傳輸和運(yùn)算提供了可能。廣泛的說,相比于傳統(tǒng)的單機(jī)架構(gòu),分布式架構(gòu)解決了互聯(lián)網(wǎng)應(yīng)用的兩大難題:高并發(fā)和高可用,這兩大難點(diǎn)也正是單機(jī)架構(gòu)的缺點(diǎn):性能瓶頸和單點(diǎn)故障。針對海量數(shù)據(jù),分布式存儲將數(shù)據(jù)存儲到成百上千臺服務(wù)器上,滿足了海量數(shù)據(jù)的存儲需求;分布式計算提供了快速數(shù)據(jù)處理的能力
[1]林子雨. 大數(shù)據(jù)技術(shù)原理與應(yīng)用[M].人民郵電出版社:大數(shù)據(jù)創(chuàng)新人才培養(yǎng)系列, 201701.301.
[2]Zhiwu Wang. God-Of-BigData[Z], -項目系列文章
總結(jié)
- 上一篇: 网络:TCP维护安全可靠机制提供的定时器
- 下一篇: 嵌入式面试中常见的问答题(线程进程、TC