當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

004-hadoop家族概述

發(fā)布時(shí)間：2023/12/15 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 004-hadoop家族概述小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

hadoop家族

名稱	簡介	?
Hadoop	分布式基礎(chǔ)架構(gòu)	Hadoop的框架最核心的設(shè)計(jì)就是：HDFS和MapReduce。 HDFS為海量的數(shù)據(jù)提供了存儲，則MapReduce為海量的數(shù)據(jù)提供了計(jì)算
zookeeper	分布式應(yīng)用程序協(xié)調(diào)服務(wù)	ZooKeeper是一個分布式的，開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù)，是Google的Chubby一個開源的實(shí)現(xiàn)，是Hadoop和Hbase的重要組件。它是一個為分布式應(yīng)用提供一致性服務(wù)的軟件，提供的功能包括：配置維護(hù)、域名服務(wù)、分布式同步、組服務(wù)等
hive	數(shù)據(jù)倉庫工具	hive是基于Hadoop的一個數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供簡單的sql查詢功能，可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。
hbase	分布式的、面向列的開源數(shù)據(jù)庫	HBase – Hadoop Database，是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng)，利用HBase技術(shù)可在廉價(jià)PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群
Pig	基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺	它提供的SQL-LIKE語言叫Pig Latin，該語言的編譯器會把類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運(yùn)算。Pig為復(fù)雜的海量數(shù)據(jù)并行計(jì)算提供了一個簡單的操作和編程接口。
sqoop	數(shù)據(jù)相互轉(zhuǎn)移的工具	Sqoop是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具，可以將一個關(guān)系型數(shù)據(jù)庫（例如： MySQL ,Oracle ,Postgres等）中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中
Cassandra	開源分布式數(shù)據(jù)庫管理系統(tǒng)	Apache Cassandra是一套開源分布式數(shù)據(jù)庫管理系統(tǒng)，由Facebook開發(fā)，用于儲存特別大的數(shù)據(jù)。
Hama	純BSP計(jì)算框架	Apache Hama是一個純BSP（Bulk Synchronous Parallel）計(jì)算框架，模仿了Google的Pregel。用來處理大規(guī)模的科學(xué)計(jì)算，特別是矩陣和圖計(jì)算。
Flume	日志收集處理系統(tǒng)	Flume是Cloudera提供的一個高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)， Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)；同時(shí)，Flume提供對數(shù)據(jù)進(jìn)行簡單處理，并寫到各種數(shù)據(jù)接受方（可定制）的能力。
Giraph	迭代式圖處理系統(tǒng)	?
Oozie	工作流引擎服務(wù)器	用于運(yùn)行Hadoop Map/Reduce和Pig 任務(wù)工作流.同時(shí)Oozie還是一個Java Web程序,運(yùn)行在Java Servlet容器中,如Tomcat.
Crunch	?	Apache Crunch是FlumeJava的實(shí)現(xiàn)，為不太方便直接開發(fā)和使用的MapReduce程序，開發(fā)一套MR流水線，具備數(shù)據(jù)表示模型，提供基礎(chǔ)原語和高級原語，根據(jù)底層執(zhí)行引擎對MR Job的執(zhí)行進(jìn)行優(yōu)化。
Mahout	?	Mahout 是 Apache Software Foundation（ASF）旗下的一個開源項(xiàng)目，提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn)，旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn)，包括聚類、分類、推薦過濾、頻繁子項(xiàng)挖掘。此外，通過使用 Apache Hadoop 庫，Mahout 可以有效地?cái)U(kuò)展到云中。
Avro	基于二進(jìn)制數(shù)據(jù)傳輸高性能的中間件	在Hadoop的其他項(xiàng)目中例如HBase(Ref)和Hive(Ref)的Client端與服務(wù)端的數(shù)據(jù)傳輸也采用了這個工具。 Avro是一個數(shù)據(jù)序列化的系統(tǒng)。Avro 可以將數(shù)據(jù)結(jié)構(gòu)或?qū)ο筠D(zhuǎn)化成便于存儲或傳輸?shù)母袷健?br />Avro設(shè)計(jì)之初就用來支持?jǐn)?shù)據(jù)密集型應(yīng)用，適合于遠(yuǎn)程或本地大規(guī)模數(shù)據(jù)的存儲和交換。
Chukwa	監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)	這是構(gòu)建在 hadoop 的 hdfs 和 map/reduce 框架之上的，繼承了 hadoop 的可伸縮性和魯棒性。 Chukwa 還包含了一個強(qiáng)大和靈活的工具集，可用于展示、監(jiān)控和分析已收集的數(shù)據(jù)。
Ambari	基于Web的工具	是一種基于Web的工具，支持Apache Hadoop集群的供應(yīng)、管理和監(jiān)控。 Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5個頂級hadoop管理工具之一。
Whirr	?	?
bigtop	?	Bigtop是去年apache基金會推出的一個對Hadoop及其周邊生態(tài)進(jìn)行打包，分發(fā)和測試的工具。
HCatalog	?	Hcatalog是apache開源的對于表和底層數(shù)據(jù)管理統(tǒng)一服務(wù)平臺
Hue	開源的Apache Hadoop UI系統(tǒng)	?

總結(jié)

以上是生活随笔為你收集整理的004-hadoop家族概述的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：一分钟学会Git操作流程
下一篇： ceph常用命令-pool相关命令