大数据处理架构Hadoop
生活随笔
收集整理的這篇文章主要介紹了
大数据处理架构Hadoop
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Hadoop項目結構
Hive 數據倉庫:把SQL語句轉換成MapReduce作業
Pig流數據處理:一個基于Hadoop的大規模數據分析平臺提供類似SQL的查詢語言pig Latin
Oozie作業流調度系統:Hadoop上的工作流管理系統
Zookeeper分布式協調服務:提供分布式協調一致性服務
HBase列族數據庫:Hadoop上的非關系型的分布式數據庫(隨機讀寫)
Flume 日志收集分析框架:一個高可用的,高可靠的分布式的海量日志采集、聚合和傳輸的系統
Sqoop 數據導入導出:用于Hadoop與傳統數據庫之間進行數據傳遞(關系型數據庫到HDFS、HBase、Hive互導)
YARN框架:資源管理和調度器
MapReduce:專門做離線計算和批處理
Tze:把很多的MapReduce作業進行分析優化構建成有向無環圖
Spark:邏輯與MapReduce是一樣的,也是用Reduce函數去做數據處理(區別:Spark基于內存處理,MapReduce基于磁盤處理的,比MapReduce高一個數量級)
Ambari 部署工具:Hadoop快速部署工具支持Apache Hadoop集群的供應、管理和監控
本文筆記來自中國大學MOOC 廈門大學林子雨老師的《大數據原理與應用》
總結
以上是生活随笔為你收集整理的大数据处理架构Hadoop的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop的安装与使用
- 下一篇: 进阶函数