當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据技术笔记之数据采集和预处理

發布時間：2023/12/10 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据技术笔记之数据采集和预处理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.大數據采集

大數據采集包含：系統日志采集方法、網絡數據采集方法(通過網絡爬蟲實現)、其他數據采集(通過特定的接口)

1.1 系統日志采集方法

Flume：分布式日志收集系統，最初由Cloudera 開發，現是Apache的一個開源項目
Chukwa：開源分布式數據收集系統，是Hadoop 的組成部分，構建在 hdfs 和 map/reduce 框架之上
Scrible：Scribe是facebook開源的日志收集系統，在facebook內部已經得到大量的應用
Kafka：最早是LinkedIn的開發的消息系統，現是Apache的一個開源項目

2數據預處理原理

通過數據預處理工作，可以使殘缺的數據完整，并將錯誤的數據糾正、多余的數據去除，進而將所需的數據挑選出來，并且進行數據集成。數據預處理的常見方法有數據清洗、數據集成與數據變換。

2.1數據清洗

噪聲的處理

數據清洗可以視為一個過程，包括檢測偏差和糾正偏差兩個步驟。
檢查偏差:可以使用已有的關于數據性質的知識發現噪聲、離群點和需要考察的不尋常的值。這種知識或“關于數據的數據”稱為元數據。
糾正偏差:即一旦發現偏差，通常需要定義并使用一系列的變換來糾正它們。但這些工具只支持有限的變換，因此，常常可能需要為數據清洗過程的這一步編寫定制的程序

2.2數據集成

2.3數據變換

3.數據倉庫與ETL工具

總結

以上是生活随笔為你收集整理的大数据技术笔记之数据采集和预处理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：《数据结构与算法之美》21～25笔记
下一篇：基于Kubeadm的Flannel分析