大数据技术笔记之数据采集和预处理
生活随笔
收集整理的這篇文章主要介紹了
大数据技术笔记之数据采集和预处理
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.大數據采集
- 大數據采集包含:系統日志采集方法、網絡數據采集方法(通過網絡爬蟲實現)、其他數據采集(通過特定的接口)
1.1 系統日志采集方法
Flume: 分布式日志收集系統,最初由Cloudera 開發,現是Apache的一個開源項目
Chukwa:開源分布式數據收集系統,是Hadoop 的組成部分,構建在 hdfs 和 map/reduce 框架之上
Scrible:Scribe是facebook開源的日志收集系統,在facebook內部已經得到大量的應用
Kafka:最早是LinkedIn的開發的消息系統,現是Apache的一個開源項目
2數據預處理原理
通過數據預處理工作, 可以使殘缺的數據完整 ,并將錯誤的數據糾正 、多余的數據去除,進 而將所需的數據挑選出 來,并且進行數據集成 。數據預處理的常見方 法有數據清洗、數據集 成與數據變換。
2.1數據清洗
噪聲的處理
數據清洗可以視為一個過程,包括檢測偏差和糾正偏差兩個步驟。
檢查偏差:可以使用已有的關于數據性質的知識發現噪聲、離群點和需要考察的不尋常 的值。這種知識或“關于數據的數據”稱為元數據。
糾正偏差:即一旦發現偏差,通常需要定義并使用一系列的變換來糾正它們。但這些工 具只支持有限的變換,因此,常常可能需要為數據清洗過程的這一步編寫定 制的程序
2.2數據集成
2.3數據變換
3.數據倉庫與ETL工具
總結
以上是生活随笔為你收集整理的大数据技术笔记之数据采集和预处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《数据结构与算法之美》21~25笔记
- 下一篇: 基于Kubeadm的Flannel分析