大数据培训:生活中这些场景都用到了大数据
來源:千鋒大數(shù)據(jù)
? ? ? ? ?一、什么是大數(shù)據(jù)
大數(shù)據(jù)(big data),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
中國電子技術(shù)標(biāo)準(zhǔn)化研究院2015年12月在《 大數(shù)據(jù)標(biāo)準(zhǔn)化白皮書V2.0 》 中提及維基百科(Wikipedia)給出的定義是:大數(shù)據(jù),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。
二、大數(shù)據(jù)的應(yīng)用
大數(shù)據(jù)技術(shù)在近年來一直在飛速地發(fā)展,目前大部分人對“大數(shù)據(jù)”的概念理解得不是很透徹。其實(shí),在我們的日常生活中,很多人已經(jīng)利用“大數(shù)據(jù)”做了很多事情,這些都是實(shí)實(shí)在在的“大數(shù)據(jù)”實(shí)例應(yīng)用。
1. 大型網(wǎng)站W(wǎng)eb服務(wù)器的日志分析
一個(gè)大型網(wǎng)站的Web服務(wù)器集群,每5分鐘收錄的點(diǎn)擊日志高達(dá)800GB左右,峰值點(diǎn)擊每秒達(dá)到900萬次。每隔5分鐘將數(shù)據(jù)裝載到內(nèi)存中,高速計(jì)算網(wǎng)站的熱點(diǎn)URL,并將這些信息反饋給前端緩存服務(wù)器,以提高緩存命中率。
2. 運(yùn)營商流量經(jīng)營分析
每天的流量數(shù)據(jù)在2TB~5TB左右,拷貝到HDFS上,通過交互式分析引擎框架,能運(yùn)行幾百個(gè)復(fù)雜的數(shù)據(jù)清洗和報(bào)表業(yè)務(wù),總時(shí)間比類似硬件配置的小型機(jī)集群和DB2快2~3倍。
3. 城市交通卡口視頻監(jiān)控信息的實(shí)時(shí)分析
采用基于流式 Stream進(jìn)行全省范圍的交通卡口通過視頻監(jiān)控收錄的信息進(jìn)行實(shí)時(shí)分析、告警和統(tǒng)計(jì)(計(jì)算實(shí)時(shí)路況),對全省范圍內(nèi)未年檢車輛或套牌車的分析延時(shí)在300毫秒左右,可以做出實(shí)時(shí)告警,所以開車的朋友最好要按時(shí)年檢。
4. 互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)
利用先進(jìn)的云計(jì)算搜索平臺(tái)和倒排索引,輿情監(jiān)測系統(tǒng)支持對海量信息庫的高效搜索以及對于各種新聞博客等網(wǎng)站進(jìn)行垂直抓取;采用自有算法的網(wǎng)頁結(jié)構(gòu)分析,對抓取到的數(shù)據(jù)進(jìn)行準(zhǔn)確地分析和判斷,從而為政府和企業(yè)客戶提供精準(zhǔn)有效的互聯(lián)網(wǎng)輿情數(shù)據(jù)服務(wù)。
大數(shù)據(jù)的應(yīng)用還有很多,已經(jīng)真正地應(yīng)用到了生活的許多場景當(dāng)中。大數(shù)據(jù)技術(shù)解決了龐大數(shù)據(jù)量的存儲(chǔ)與計(jì)算的問題,從數(shù)據(jù)到信息,從信息到認(rèn)知,從認(rèn)知到預(yù)測。
三、數(shù)據(jù)的來源
1. 計(jì)算機(jī)產(chǎn)生的數(shù)據(jù)
可能包含著關(guān)于因特網(wǎng)和其他使用者行動(dòng)和行為的有趣信息,從而提供了對他們的愿望和需求潛在的有用認(rèn)識(shí)。
2.移動(dòng)通信數(shù)據(jù)
能夠上網(wǎng)的智能手機(jī)等移動(dòng)設(shè)備的使用越來越普遍。移動(dòng)通信設(shè)備記錄的數(shù)據(jù)量和數(shù)據(jù)的立體完整度,常常優(yōu)于各家互聯(lián)網(wǎng)公司掌握的數(shù)據(jù)。
3.機(jī)器和傳感器數(shù)據(jù)
來自感應(yīng)器、量表和其他設(shè)施的數(shù)據(jù)、定位/GPS系統(tǒng)數(shù)據(jù)等。這包括功能設(shè)備會(huì)創(chuàng)建或生成的數(shù)據(jù),例如智能溫度控制器、智能電表、工廠機(jī)器和連接互聯(lián)網(wǎng)的家用電器的數(shù)據(jù)。幾年前,跟蹤遙測發(fā)動(dòng)機(jī)運(yùn)行僅限于價(jià)值數(shù)百萬美元的航天飛機(jī)。現(xiàn)在,汽車生產(chǎn)商在車輛中配置了監(jiān)視器,連續(xù)提供車輛機(jī)械系統(tǒng)整體運(yùn)行情況。一旦數(shù)據(jù)可得,公司將千方百計(jì)從中漁利。這些機(jī)器傳感數(shù)據(jù)屬于大數(shù)據(jù)的范圍。
4.人為數(shù)據(jù)
人為數(shù)據(jù)包括電子郵件、文檔、圖片、音頻、視頻,以及通過微信、博客、推特、維基、臉書、Linkedin等社交媒體產(chǎn)生的數(shù)據(jù)流。這些數(shù)據(jù)大多數(shù)為非結(jié)構(gòu)性數(shù)據(jù),需要用文本分析功能進(jìn)行分析。至今最大的數(shù)據(jù)是音頻、視頻和符號數(shù)據(jù)。這些數(shù)據(jù)結(jié)構(gòu)松散,數(shù)量巨大,很難從中挖掘有意義的結(jié)論和有用的信息。
5.互聯(lián)網(wǎng)上的“開放數(shù)據(jù)”來源
四、數(shù)據(jù)的處理流程
一般而言,大數(shù)據(jù)處理流程,可分為四個(gè)步驟:數(shù)據(jù)采集、數(shù)據(jù)導(dǎo)入和清洗處理、數(shù)據(jù)統(tǒng)計(jì)和分析、數(shù)據(jù)挖掘應(yīng)用。這四個(gè)步驟看起來與現(xiàn)在數(shù)據(jù)處理分析沒有太大區(qū)別,但實(shí)際上大數(shù)據(jù)數(shù)據(jù)集更多更大,相互之間的關(guān)聯(lián)也就越多。
1、收集
原始數(shù)據(jù)種類多樣,格式、位置、存儲(chǔ)、時(shí)效性等迥異。數(shù)據(jù)收集從異構(gòu)數(shù)據(jù)源中收集數(shù)據(jù)并轉(zhuǎn)換成相應(yīng)的格式方便處理。
2、數(shù)據(jù)導(dǎo)入和清洗處理
采集好數(shù)據(jù),肯定有不少是重復(fù)或是無用的數(shù)據(jù),此時(shí)需要通過對數(shù)據(jù)進(jìn)行處理,將這些來自前端的數(shù)據(jù)導(dǎo)入到集中的大型分布式數(shù)據(jù)庫,或者分布式存儲(chǔ)集群,并進(jìn)行簡單的清洗和預(yù)處理工作。而這個(gè)過程當(dāng)中最大的挑戰(zhàn)就是導(dǎo)入的數(shù)據(jù)量大,經(jīng)常會(huì)達(dá)到百兆,甚至千兆級別。
3、數(shù)據(jù)統(tǒng)計(jì)和分析
統(tǒng)計(jì)與分析很多需要用到工具來處理,比如可視化工具、spss工具、一些結(jié)構(gòu)算法模型,分類匯總,滿足企業(yè)的數(shù)據(jù)分析需求。這個(gè)過程最大的特點(diǎn)就是目的清晰,按照一定規(guī)則去分類匯總,才能得到有效分析,這部分處理起來也很占用系統(tǒng)資源。
4、數(shù)據(jù)挖掘應(yīng)用
收集數(shù)據(jù)的最終目的就是透過數(shù)據(jù)挖掘背后的聯(lián)系,分析原因找出規(guī)律然后應(yīng)用到實(shí)際業(yè)務(wù)中,經(jīng)過各種算法,預(yù)測結(jié)果,調(diào)整戰(zhàn)略方向。
總結(jié)
以上是生活随笔為你收集整理的大数据培训:生活中这些场景都用到了大数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一天半的黄山之行总结
- 下一篇: 使用pandas对excel追加列数据