日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

004-hadoop家族概述

發(fā)布時(shí)間:2023/12/15 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 004-hadoop家族概述 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

hadoop家族

名稱簡介?
Hadoop分布式基礎(chǔ)架構(gòu)Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。
HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計(jì)算
zookeeper分布式應(yīng)用程序協(xié)調(diào)服務(wù)ZooKeeper是一個分布式的,開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),
是Google的Chubby一個開源的實(shí)現(xiàn),是Hadoop和Hbase的重要組件。
它是一個為分布式應(yīng)用提供一致性服務(wù)的軟件,提供的功能包括:配置維護(hù)、域名服務(wù)、分布式同步、組服務(wù)等
hive數(shù)據(jù)倉庫工具hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,
并提供簡單的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。
hbase分布式的、面向列的開源數(shù)據(jù)庫HBase – Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),
利用HBase技術(shù)可在廉價(jià)PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群
Pig基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化
處理的MapReduce運(yùn)算。Pig為復(fù)雜的海量數(shù)據(jù)并行計(jì)算提供了一個簡單的操作和編程接口。
sqoop數(shù)據(jù)相互轉(zhuǎn)移的工具Sqoop是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個關(guān)系型數(shù)據(jù)庫
(例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中
Cassandra開源分布式數(shù)據(jù)庫管理系統(tǒng)Apache Cassandra是一套開源分布式數(shù)據(jù)庫管理系統(tǒng),由Facebook開發(fā),用于儲存特別大的數(shù)據(jù)。
Hama純BSP計(jì)算框架Apache Hama是一個純BSP(Bulk Synchronous Parallel)計(jì)算框架,模仿了Google的Pregel。
用來處理大規(guī)模的科學(xué)計(jì)算,特別是矩陣和圖計(jì)算。
Flume日志收集處理系統(tǒng)Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),
Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),Flume提供對數(shù)據(jù)進(jìn)行簡單處理,
并寫到各種數(shù)據(jù)接受方(可定制)的能力。
Giraph迭代式圖處理系統(tǒng)?
Oozie工作流引擎服務(wù)器用于運(yùn)行Hadoop Map/Reduce和Pig 任務(wù)工作流.同時(shí)Oozie還是一個Java Web程序,運(yùn)行在Java Servlet容器中,如Tomcat.
Crunch?Apache Crunch是FlumeJava的實(shí)現(xiàn),為不太方便直接開發(fā)和使用的MapReduce程序,
開發(fā)一套MR流水線,具備數(shù)據(jù)表示模型,提供基礎(chǔ)原語和高級原語,根據(jù)底層執(zhí)行引擎對MR Job的執(zhí)行進(jìn)行優(yōu)化。
Mahout?Mahout 是 Apache Software Foundation(ASF) 旗下的一個開源項(xiàng)目,提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),
旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn),包括聚類、分類、推薦過濾、頻繁子項(xiàng)挖掘。
此外,通過使用 Apache Hadoop 庫,Mahout 可以有效地?cái)U(kuò)展到云中。
Avro基于二進(jìn)制數(shù)據(jù)傳輸高性能的中間件在Hadoop的其他項(xiàng)目中例如HBase(Ref)和Hive(Ref)的Client端與服務(wù)端的數(shù)據(jù)傳輸也采用了這個工具。
Avro是一個數(shù)據(jù)序列化的系統(tǒng)。Avro 可以將數(shù)據(jù)結(jié)構(gòu)或?qū)ο筠D(zhuǎn)化成便于存儲或傳輸?shù)母袷健?br />Avro設(shè)計(jì)之初就用來支持?jǐn)?shù)據(jù)密集型應(yīng)用,適合于遠(yuǎn)程或本地大規(guī)模數(shù)據(jù)的存儲和交換。
Chukwa監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)這是構(gòu)建在 hadoop 的 hdfs 和 map/reduce 框架之上的,繼承了 hadoop 的可伸縮性和魯棒性。
Chukwa 還包含了一個強(qiáng)大和靈活的工具集,可用于展示、監(jiān)控和分析已收集的數(shù)據(jù)。
Ambari基于Web的工具是一種基于Web的工具,支持Apache Hadoop集群的供應(yīng)、管理和監(jiān)控。
Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。
也是5個頂級hadoop管理工具之一。
Whirr??
bigtop?Bigtop是去年apache基金會推出的一個對Hadoop及其周邊生態(tài)進(jìn)行打包,分發(fā)和測試的工具。
HCatalog?Hcatalog是apache開源的對于表和底層數(shù)據(jù)管理統(tǒng)一服務(wù)平臺
Hue開源的Apache Hadoop UI系統(tǒng)?

?

  

  

總結(jié)

以上是生活随笔為你收集整理的004-hadoop家族概述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。