004-hadoop家族概述
生活随笔
收集整理的這篇文章主要介紹了
004-hadoop家族概述
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
hadoop家族
| 名稱 | 簡介 | ? |
| Hadoop | 分布式基礎(chǔ)架構(gòu) | Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。 HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計(jì)算 |
| zookeeper | 分布式應(yīng)用程序協(xié)調(diào)服務(wù) | ZooKeeper是一個分布式的,開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù), 是Google的Chubby一個開源的實(shí)現(xiàn),是Hadoop和Hbase的重要組件。 它是一個為分布式應(yīng)用提供一致性服務(wù)的軟件,提供的功能包括:配置維護(hù)、域名服務(wù)、分布式同步、組服務(wù)等 |
| hive | 數(shù)據(jù)倉庫工具 | hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表, 并提供簡單的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。 |
| hbase | 分布式的、面向列的開源數(shù)據(jù)庫 | HBase – Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng), 利用HBase技術(shù)可在廉價(jià)PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群 |
| Pig | 基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺 | 它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化 處理的MapReduce運(yùn)算。Pig為復(fù)雜的海量數(shù)據(jù)并行計(jì)算提供了一個簡單的操作和編程接口。 |
| sqoop | 數(shù)據(jù)相互轉(zhuǎn)移的工具 | Sqoop是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個關(guān)系型數(shù)據(jù)庫 (例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中 |
| Cassandra | 開源分布式數(shù)據(jù)庫管理系統(tǒng) | Apache Cassandra是一套開源分布式數(shù)據(jù)庫管理系統(tǒng),由Facebook開發(fā),用于儲存特別大的數(shù)據(jù)。 |
| Hama | 純BSP計(jì)算框架 | Apache Hama是一個純BSP(Bulk Synchronous Parallel)計(jì)算框架,模仿了Google的Pregel。 用來處理大規(guī)模的科學(xué)計(jì)算,特別是矩陣和圖計(jì)算。 |
| Flume | 日志收集處理系統(tǒng) | Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng), Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),Flume提供對數(shù)據(jù)進(jìn)行簡單處理, 并寫到各種數(shù)據(jù)接受方(可定制)的能力。 |
| Giraph | 迭代式圖處理系統(tǒng) | ? |
| Oozie | 工作流引擎服務(wù)器 | 用于運(yùn)行Hadoop Map/Reduce和Pig 任務(wù)工作流.同時(shí)Oozie還是一個Java Web程序,運(yùn)行在Java Servlet容器中,如Tomcat. |
| Crunch | ? | Apache Crunch是FlumeJava的實(shí)現(xiàn),為不太方便直接開發(fā)和使用的MapReduce程序, 開發(fā)一套MR流水線,具備數(shù)據(jù)表示模型,提供基礎(chǔ)原語和高級原語,根據(jù)底層執(zhí)行引擎對MR Job的執(zhí)行進(jìn)行優(yōu)化。 |
| Mahout | ? | Mahout 是 Apache Software Foundation(ASF) 旗下的一個開源項(xiàng)目,提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn), 旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn),包括聚類、分類、推薦過濾、頻繁子項(xiàng)挖掘。 此外,通過使用 Apache Hadoop 庫,Mahout 可以有效地?cái)U(kuò)展到云中。 |
| Avro | 基于二進(jìn)制數(shù)據(jù)傳輸高性能的中間件 | 在Hadoop的其他項(xiàng)目中例如HBase(Ref)和Hive(Ref)的Client端與服務(wù)端的數(shù)據(jù)傳輸也采用了這個工具。 Avro是一個數(shù)據(jù)序列化的系統(tǒng)。Avro 可以將數(shù)據(jù)結(jié)構(gòu)或?qū)ο筠D(zhuǎn)化成便于存儲或傳輸?shù)母袷健?br />Avro設(shè)計(jì)之初就用來支持?jǐn)?shù)據(jù)密集型應(yīng)用,適合于遠(yuǎn)程或本地大規(guī)模數(shù)據(jù)的存儲和交換。 |
| Chukwa | 監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng) | 這是構(gòu)建在 hadoop 的 hdfs 和 map/reduce 框架之上的,繼承了 hadoop 的可伸縮性和魯棒性。 Chukwa 還包含了一個強(qiáng)大和靈活的工具集,可用于展示、監(jiān)控和分析已收集的數(shù)據(jù)。 |
| Ambari | 基于Web的工具 | 是一種基于Web的工具,支持Apache Hadoop集群的供應(yīng)、管理和監(jiān)控。 Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。 也是5個頂級hadoop管理工具之一。 |
| Whirr | ? | ? |
| bigtop | ? | Bigtop是去年apache基金會推出的一個對Hadoop及其周邊生態(tài)進(jìn)行打包,分發(fā)和測試的工具。 |
| HCatalog | ? | Hcatalog是apache開源的對于表和底層數(shù)據(jù)管理統(tǒng)一服務(wù)平臺 |
| Hue | 開源的Apache Hadoop UI系統(tǒng) | ? |
?
總結(jié)
以上是生活随笔為你收集整理的004-hadoop家族概述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一分钟学会Git操作流程
- 下一篇: ceph常用命令-pool相关命令