2.2大数据采集技术
生活随笔
收集整理的這篇文章主要介紹了
2.2大数据采集技术
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
大數據采集處于大數據生命周期的第一個環節,對于大數據分析和應用起著至關重要的作用
大數據采集是指從傳感器和智能設備,以及企業系統、社交網絡和互聯網平臺等渠道獲取數據的過程。
這些數據來源廣泛、種類繁多、數據量巨大且產生速度快、傳統數據采用方法難以勝任,因此產生了新的數據采集方式----基于大數據的采集技術。除解決上述傳統數據采集方法難以解決的問題以外,大數據采集技術還要保證數據采集的可靠性、高效性,而且要避免重復數據。
根據數據源的不同,發數據采集通??梢苑譃橐韵?類
1.系統日志采集
系統日志采集主要是收集企業業務平臺日常產生的大量日志數據,以供后續離線和在線大數據分析系統使用。高可用性、高可靠性和可擴展性是日志收集系統所具有的基本特征
目前,常用的開源日志采集系統有Flume、Scribe和Kafka等。
其中,Flume是Cloudera提供的一個高可用、高可靠、分布式的日志采集、聚合和傳輸系統。Scribe是Facebook開源的日志收集系統,為日志的分布式收集和統一處理提供可擴展、高容錯的解決方案
Kafka是Apache開源的一種高吞吐量的分布式發布訂閱消息系統,使用于大流量的日志采集
2.網絡技術采集
網絡爬蟲
3.其他數據采集
總結
以上是生活随笔為你收集整理的2.2大数据采集技术的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 系统建设原则
- 下一篇: 域乎曹胜虎:传统互联网“生病”了