當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据处理架构Hadoop

發布時間：2024/9/30 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据处理架构Hadoop 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Hadoop項目結構

Hive 數據倉庫：把SQL語句轉換成MapReduce作業
Pig流數據處理：一個基于Hadoop的大規模數據分析平臺提供類似SQL的查詢語言pig Latin
Oozie作業流調度系統：Hadoop上的工作流管理系統
Zookeeper分布式協調服務：提供分布式協調一致性服務
HBase列族數據庫：Hadoop上的非關系型的分布式數據庫（隨機讀寫）
Flume 日志收集分析框架：一個高可用的，高可靠的分布式的海量日志采集、聚合和傳輸的系統
Sqoop 數據導入導出：用于Hadoop與傳統數據庫之間進行數據傳遞（關系型數據庫到HDFS、HBase、Hive互導）
YARN框架：資源管理和調度器
MapReduce：專門做離線計算和批處理
Tze：把很多的MapReduce作業進行分析優化構建成有向無環圖
Spark：邏輯與MapReduce是一樣的，也是用Reduce函數去做數據處理（區別：Spark基于內存處理，MapReduce基于磁盤處理的，比MapReduce高一個數量級）
Ambari 部署工具：Hadoop快速部署工具支持Apache Hadoop集群的供應、管理和監控

本文筆記來自中國大學MOOC 廈門大學林子雨老師的《大數據原理與應用》

總結

以上是生活随笔為你收集整理的大数据处理架构Hadoop的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。