大数据采集技术概述
大數(shù)據(jù)采集是指從傳感器和智能設備、企業(yè)在線系統(tǒng)、企業(yè)離線系統(tǒng)、社交網(wǎng)絡和互聯(lián)網(wǎng)平臺等獲取數(shù)據(jù)的過程。
數(shù)據(jù)包括 RFID 數(shù)據(jù)、傳感器數(shù)據(jù)、用戶行為數(shù)據(jù)、社交網(wǎng)絡交互數(shù)據(jù)及移動互聯(lián)網(wǎng)數(shù)據(jù)等各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。
不但數(shù)據(jù)源的種類多,數(shù)據(jù)的類型繁雜,數(shù)據(jù)量大,并且產(chǎn)生的速度快,傳統(tǒng)的數(shù)據(jù)采集方法完全無法勝任。
所以,大數(shù)據(jù)采集技術(shù)面臨著許多技術(shù)挑戰(zhàn),一方面需要保證數(shù)據(jù)采集的可靠性和高效性,同時還要避免重復數(shù)據(jù)。
大數(shù)據(jù)分類
傳統(tǒng)的數(shù)據(jù)采集來源單一,且存儲、管理和分析數(shù)據(jù)量也相對較小,大多采用關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫即可處理。
在依靠并行計算提升數(shù)據(jù)處理速度方面,傳統(tǒng)的并行數(shù)據(jù)庫技術(shù)追求的是高度一致性和容錯性,從而難以保證其可用性和擴展性。
在大數(shù)據(jù)體系中,傳統(tǒng)數(shù)據(jù)分為業(yè)務數(shù)據(jù)和行業(yè)數(shù)據(jù),傳統(tǒng)數(shù)據(jù)體系中沒有考慮過的新數(shù)據(jù)源包括內(nèi)容數(shù)據(jù)、線上行為數(shù)據(jù)和線下行為數(shù)據(jù) 3 大類。
在傳統(tǒng)數(shù)據(jù)體系和新數(shù)據(jù)體系中,數(shù)據(jù)共分為以下 5 種。
大數(shù)據(jù)的主要來源如下。
在大數(shù)據(jù)體系中,數(shù)據(jù)源與數(shù)據(jù)類型的關(guān)系如圖 1 所示。大數(shù)據(jù)系統(tǒng)從傳統(tǒng)企業(yè)系統(tǒng)中獲取相關(guān)的業(yè)務數(shù)據(jù)。
圖 1? 數(shù)據(jù)源與數(shù)據(jù)類型的關(guān)系
機器系統(tǒng)產(chǎn)生的數(shù)據(jù)分為兩大類:
- 通過智能儀表和傳感器獲取行業(yè)數(shù)據(jù),例如,公路卡口設備獲取車流量數(shù)據(jù),智能電表獲取用電量等。
- 通過各類監(jiān)控設備獲取人、動物和物體的位置和軌跡信息。
互聯(lián)網(wǎng)系統(tǒng)會產(chǎn)生相關(guān)的業(yè)務數(shù)據(jù)和線上行為數(shù)據(jù),例如,用戶的反饋和評價信息,用戶購買的產(chǎn)品和品牌信息等。
社交系統(tǒng)會產(chǎn)生大量的內(nèi)容數(shù)據(jù),如博客與照片等,以及線上行為數(shù)據(jù)。所以,大數(shù)據(jù)采集與傳統(tǒng)數(shù)據(jù)采集有很大的區(qū)別。
從數(shù)據(jù)源方面來看,傳統(tǒng)數(shù)據(jù)采集的數(shù)據(jù)源單一,就是從傳統(tǒng)企業(yè)的客戶關(guān)系管理系統(tǒng)、企業(yè)資源計劃系統(tǒng)及相關(guān)業(yè)務系統(tǒng)中獲取數(shù)據(jù),而大數(shù)據(jù)采集系統(tǒng)還需要從社交系統(tǒng)、互聯(lián)網(wǎng)系統(tǒng)及各種類型的機器設備上獲取數(shù)據(jù)。
從數(shù)據(jù)量方面來看,互聯(lián)網(wǎng)系統(tǒng)和機器系統(tǒng)產(chǎn)生的數(shù)據(jù)量要遠遠大于企業(yè)系統(tǒng)的數(shù)據(jù)量。
從數(shù)據(jù)結(jié)構(gòu)方面來看,傳統(tǒng)數(shù)據(jù)采集的數(shù)據(jù)都是結(jié)構(gòu)化的數(shù)據(jù),而大數(shù)據(jù)采集系統(tǒng)需要采集大量的視頻、音頻、照片等非結(jié)構(gòu)化數(shù)據(jù),以及網(wǎng)頁、博客、日志等半結(jié)構(gòu)化數(shù)據(jù)。
從數(shù)據(jù)產(chǎn)生速度來看,傳統(tǒng)數(shù)據(jù)采集的數(shù)據(jù)幾乎都是由人操作生成的,如果你對大數(shù)據(jù)開發(fā)感興趣,想系統(tǒng)學習大數(shù)據(jù)的話,可以加入大數(shù)據(jù)技術(shù)學習交流扣群:458數(shù)字345數(shù)字782獲取學習資源,遠遠慢于機器生成數(shù)據(jù)的效率。因此,傳統(tǒng)數(shù)據(jù)采集的方法和大數(shù)據(jù)釆集的方法也有根本區(qū)別。
大數(shù)據(jù)采集方法分類
大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫或存儲系統(tǒng)來接收發(fā)自客戶端(Web、App 或者傳感器形式等)的數(shù)據(jù)。例如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫?MySQL?和 Oracle 等來存儲每一筆事務數(shù)據(jù),在大數(shù)據(jù)時代,Redis、MongoDB?和?HBase?等?NoSQL?數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。
大數(shù)據(jù)的采集過程的主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時可能會有成千上萬的用戶在進行訪問和操作,例如,火車票售票網(wǎng)站和淘寶的并發(fā)訪問量在峰值時可達到上百萬,所以在采集端需要部署大量數(shù)據(jù)庫才能對其支撐,并且,在這些數(shù)據(jù)庫之間進行負載均衡和分片是需要深入的思考和設計的。
根據(jù)數(shù)據(jù)源的不同,大數(shù)據(jù)采集方法也不相同。但是為了能夠滿足大數(shù)據(jù)采集的需要,大數(shù)據(jù)采集時都使用了大數(shù)據(jù)的處理模式,即 MapReduce 分布式并行處理模式或基于內(nèi)存的流式處理模式。
針對 4 種不同的數(shù)據(jù)源,大數(shù)據(jù)采集方法有以下幾大類。
1. 數(shù)據(jù)庫采集
傳統(tǒng)企業(yè)會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫 MySQL 和 Oracle 等來存儲數(shù)據(jù)。
隨著大數(shù)據(jù)時代的到來,Redis、MongoDB 和 HBase 等 NoSQL 數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。企業(yè)通過在采集端部署大量數(shù)據(jù)庫,并在這些數(shù)據(jù)庫之間進行負載均衡和分片,來完成大數(shù)據(jù)采集工作。
2. 系統(tǒng)日志采集
系統(tǒng)日志采集主要是收集公司業(yè)務平臺日常產(chǎn)生的大量日志數(shù)據(jù),供離線和在線的大數(shù)據(jù)分析系統(tǒng)使用。
高可用性、高可靠性、可擴展性是日志收集系統(tǒng)所具有的基本特征。系統(tǒng)日志采集工具均采用分布式架構(gòu),能夠滿足每秒數(shù)百 MB 的日志數(shù)據(jù)采集和傳輸需求。
?
3. 網(wǎng)絡數(shù)據(jù)采集
網(wǎng)絡數(shù)據(jù)采集是指通過網(wǎng)絡爬蟲或網(wǎng)站公開 API 等方式從網(wǎng)站上獲取數(shù)據(jù)信息的過程。
網(wǎng)絡爬蟲會從一個或若干初始網(wǎng)頁的 URL 開始,獲得各個網(wǎng)頁上的內(nèi)容,并且在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的 URL 放入隊列,直到滿足設置的停止條件為止。
這樣可將非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中提取出來,存儲在本地的存儲系統(tǒng)中。
4. 感知設備數(shù)據(jù)采集
感知設備數(shù)據(jù)采集是指通過傳感器、攝像頭和其他智能終端自動采集信號、圖片或錄像來獲取數(shù)據(jù)。
大數(shù)據(jù)智能感知系統(tǒng)需要實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉(zhuǎn)換、監(jiān)控、初步處理和管理等。其關(guān)鍵技術(shù)包括針對大數(shù)據(jù)源的智能識別、感知、適配、傳輸、接入等。
總結(jié)
- 上一篇: 【转】2007高校BBS上20个睿智的冷
- 下一篇: 华为ensp模拟器 三层交换机