日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据采集技术概述

發(fā)布時間:2023/12/9 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据采集技术概述 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

大數(shù)據(jù)采集是指從傳感器和智能設備、企業(yè)在線系統(tǒng)、企業(yè)離線系統(tǒng)、社交網(wǎng)絡和互聯(lián)網(wǎng)平臺等獲取數(shù)據(jù)的過程。

數(shù)據(jù)包括 RFID 數(shù)據(jù)、傳感器數(shù)據(jù)、用戶行為數(shù)據(jù)、社交網(wǎng)絡交互數(shù)據(jù)及移動互聯(lián)網(wǎng)數(shù)據(jù)等各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。

不但數(shù)據(jù)源的種類多,數(shù)據(jù)的類型繁雜,數(shù)據(jù)量大,并且產(chǎn)生的速度快,傳統(tǒng)的數(shù)據(jù)采集方法完全無法勝任。

所以,大數(shù)據(jù)采集技術(shù)面臨著許多技術(shù)挑戰(zhàn),一方面需要保證數(shù)據(jù)采集的可靠性和高效性,同時還要避免重復數(shù)據(jù)。

大數(shù)據(jù)分類

傳統(tǒng)的數(shù)據(jù)采集來源單一,且存儲、管理和分析數(shù)據(jù)量也相對較小,大多采用關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫即可處理。

在依靠并行計算提升數(shù)據(jù)處理速度方面,傳統(tǒng)的并行數(shù)據(jù)庫技術(shù)追求的是高度一致性和容錯性,從而難以保證其可用性和擴展性。

在大數(shù)據(jù)體系中,傳統(tǒng)數(shù)據(jù)分為業(yè)務數(shù)據(jù)和行業(yè)數(shù)據(jù),傳統(tǒng)數(shù)據(jù)體系中沒有考慮過的新數(shù)據(jù)源包括內(nèi)容數(shù)據(jù)、線上行為數(shù)據(jù)和線下行為數(shù)據(jù) 3 大類。

在傳統(tǒng)數(shù)據(jù)體系和新數(shù)據(jù)體系中,數(shù)據(jù)共分為以下 5 種。

  • 業(yè)務數(shù)據(jù):消費者數(shù)據(jù)、客戶關(guān)系數(shù)據(jù)、庫存數(shù)據(jù)、賬目數(shù)據(jù)等。
  • 行業(yè)數(shù)據(jù):車流量數(shù)據(jù)、能耗數(shù)據(jù)、PM2.5數(shù)據(jù)等。
  • 內(nèi)容數(shù)據(jù):應用日志、電子文檔、機器數(shù)據(jù)、語音數(shù)據(jù)、社交媒體數(shù)據(jù)等。
  • 線上行為數(shù)據(jù):頁面數(shù)據(jù)、交互數(shù)據(jù)、表單數(shù)據(jù)、會話數(shù)據(jù)、反饋數(shù)據(jù)等。
  • 線下行為數(shù)據(jù):車輛位置和軌跡、用戶位置和軌跡、動物位置和軌跡等。

  • 大數(shù)據(jù)的主要來源如下。

  • 企業(yè)系統(tǒng):客戶關(guān)系管理系統(tǒng)、企業(yè)資源計劃系統(tǒng)、庫存系統(tǒng)、銷售系統(tǒng)等。
  • 機器系統(tǒng):智能儀表、工業(yè)設備傳感器、智能設備、視頻監(jiān)控系統(tǒng)等。
  • 互聯(lián)網(wǎng)系統(tǒng):電商系統(tǒng)、服務行業(yè)業(yè)務系統(tǒng)、政府監(jiān)管系統(tǒng)等。
  • 社交系統(tǒng):微信、QQ、微博、博客、新聞網(wǎng)站、朋友圈等。

  • 在大數(shù)據(jù)體系中,數(shù)據(jù)源與數(shù)據(jù)類型的關(guān)系如圖 1 所示。大數(shù)據(jù)系統(tǒng)從傳統(tǒng)企業(yè)系統(tǒng)中獲取相關(guān)的業(yè)務數(shù)據(jù)。


    圖 1? 數(shù)據(jù)源與數(shù)據(jù)類型的關(guān)系

    機器系統(tǒng)產(chǎn)生的數(shù)據(jù)分為兩大類:

    • 通過智能儀表和傳感器獲取行業(yè)數(shù)據(jù),例如,公路卡口設備獲取車流量數(shù)據(jù),智能電表獲取用電量等。
    • 通過各類監(jiān)控設備獲取人、動物和物體的位置和軌跡信息。


    互聯(lián)網(wǎng)系統(tǒng)會產(chǎn)生相關(guān)的業(yè)務數(shù)據(jù)和線上行為數(shù)據(jù),例如,用戶的反饋和評價信息,用戶購買的產(chǎn)品和品牌信息等。

    社交系統(tǒng)會產(chǎn)生大量的內(nèi)容數(shù)據(jù),如博客與照片等,以及線上行為數(shù)據(jù)。所以,大數(shù)據(jù)采集與傳統(tǒng)數(shù)據(jù)采集有很大的區(qū)別。

    從數(shù)據(jù)源方面來看,傳統(tǒng)數(shù)據(jù)采集的數(shù)據(jù)源單一,就是從傳統(tǒng)企業(yè)的客戶關(guān)系管理系統(tǒng)、企業(yè)資源計劃系統(tǒng)及相關(guān)業(yè)務系統(tǒng)中獲取數(shù)據(jù),而大數(shù)據(jù)采集系統(tǒng)還需要從社交系統(tǒng)、互聯(lián)網(wǎng)系統(tǒng)及各種類型的機器設備上獲取數(shù)據(jù)。

    從數(shù)據(jù)量方面來看,互聯(lián)網(wǎng)系統(tǒng)和機器系統(tǒng)產(chǎn)生的數(shù)據(jù)量要遠遠大于企業(yè)系統(tǒng)的數(shù)據(jù)量。

    從數(shù)據(jù)結(jié)構(gòu)方面來看,傳統(tǒng)數(shù)據(jù)采集的數(shù)據(jù)都是結(jié)構(gòu)化的數(shù)據(jù),而大數(shù)據(jù)采集系統(tǒng)需要采集大量的視頻、音頻、照片等非結(jié)構(gòu)化數(shù)據(jù),以及網(wǎng)頁、博客、日志等半結(jié)構(gòu)化數(shù)據(jù)。

    從數(shù)據(jù)產(chǎn)生速度來看,傳統(tǒng)數(shù)據(jù)采集的數(shù)據(jù)幾乎都是由人操作生成的,如果你對大數(shù)據(jù)開發(fā)感興趣,想系統(tǒng)學習大數(shù)據(jù)的話,可以加入大數(shù)據(jù)技術(shù)學習交流扣群:458數(shù)字345數(shù)字782獲取學習資源,遠遠慢于機器生成數(shù)據(jù)的效率。因此,傳統(tǒng)數(shù)據(jù)采集的方法和大數(shù)據(jù)釆集的方法也有根本區(qū)別。

    大數(shù)據(jù)采集方法分類
    大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫或存儲系統(tǒng)來接收發(fā)自客戶端(Web、App 或者傳感器形式等)的數(shù)據(jù)。例如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫?MySQL?和 Oracle 等來存儲每一筆事務數(shù)據(jù),在大數(shù)據(jù)時代,Redis、MongoDB?和?HBase?等?NoSQL?數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。


    大數(shù)據(jù)的采集過程的主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時可能會有成千上萬的用戶在進行訪問和操作,例如,火車票售票網(wǎng)站和淘寶的并發(fā)訪問量在峰值時可達到上百萬,所以在采集端需要部署大量數(shù)據(jù)庫才能對其支撐,并且,在這些數(shù)據(jù)庫之間進行負載均衡和分片是需要深入的思考和設計的。

    根據(jù)數(shù)據(jù)源的不同,大數(shù)據(jù)采集方法也不相同。但是為了能夠滿足大數(shù)據(jù)采集的需要,大數(shù)據(jù)采集時都使用了大數(shù)據(jù)的處理模式,即 MapReduce 分布式并行處理模式或基于內(nèi)存的流式處理模式。

    針對 4 種不同的數(shù)據(jù)源,大數(shù)據(jù)采集方法有以下幾大類。

    1. 數(shù)據(jù)庫采集

    傳統(tǒng)企業(yè)會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫 MySQL 和 Oracle 等來存儲數(shù)據(jù)。

    隨著大數(shù)據(jù)時代的到來,Redis、MongoDB 和 HBase 等 NoSQL 數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。企業(yè)通過在采集端部署大量數(shù)據(jù)庫,并在這些數(shù)據(jù)庫之間進行負載均衡和分片,來完成大數(shù)據(jù)采集工作。

    2. 系統(tǒng)日志采集

    系統(tǒng)日志采集主要是收集公司業(yè)務平臺日常產(chǎn)生的大量日志數(shù)據(jù),供離線和在線的大數(shù)據(jù)分析系統(tǒng)使用。

    高可用性、高可靠性、可擴展性是日志收集系統(tǒng)所具有的基本特征。系統(tǒng)日志采集工具均采用分布式架構(gòu),能夠滿足每秒數(shù)百 MB 的日志數(shù)據(jù)采集和傳輸需求。
    ?

    3. 網(wǎng)絡數(shù)據(jù)采集

    網(wǎng)絡數(shù)據(jù)采集是指通過網(wǎng)絡爬蟲或網(wǎng)站公開 API 等方式從網(wǎng)站上獲取數(shù)據(jù)信息的過程。

    網(wǎng)絡爬蟲會從一個或若干初始網(wǎng)頁的 URL 開始,獲得各個網(wǎng)頁上的內(nèi)容,并且在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的 URL 放入隊列,直到滿足設置的停止條件為止。

    這樣可將非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中提取出來,存儲在本地的存儲系統(tǒng)中。

    4. 感知設備數(shù)據(jù)采集

    感知設備數(shù)據(jù)采集是指通過傳感器、攝像頭和其他智能終端自動采集信號、圖片或錄像來獲取數(shù)據(jù)。

    大數(shù)據(jù)智能感知系統(tǒng)需要實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉(zhuǎn)換、監(jiān)控、初步處理和管理等。其關(guān)鍵技術(shù)包括針對大數(shù)據(jù)源的智能識別、感知、適配、傳輸、接入等。

    總結(jié)

    以上是生活随笔為你收集整理的大数据采集技术概述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。