日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据技术Hadoop的介绍

發布時間:2024/1/1 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据技术Hadoop的介绍 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大數據的基本處理流程與傳統數據處理流程并無太大差異,主要區別在于:由于大數據要處理大量、非結構化的數據,所以在各處理環節中都可以采用并行處理。目前,Hadoop、MapReduce和Spark等分布式處理方式已經成為大數據處理各環節的通用處理方法。

Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。Hadoop是一個數據管理系統,作為數據分析的核心,匯集了結構化和非結構化的數據,這些數據分布在傳統的企業數據棧的每一層。Hadoop也是一個大規模并行處理框架,擁有超級計算能力,定位于推動企業級應用的執行。Hadoop又是一個開源社區,主要為解決大數據的問題提供工具和軟件。雖然Hadoop提供了很多功能,但仍然應該把它歸類為多個組件組成的Hadoop生態圈,這些組件包括數據存儲、數據集成、數據處理和其他進行數據分析的專門工具。圖2展示了Hadoop的生態系統,主要由HDFS、MapReduce、Hbase、Zookeeper、Oozie、Pig、Hive等核心組件構成,另外還包括Sqoop、Flume等框架,用來與其他企業融合。同時,Hadoop生態系統也在不斷增長,新增Mahout、Ambari、Whirr、BigTop等內容,以提供更新功能。

低成本、高可靠、高擴展、高有效、高容錯等特性讓Hadoop成為最流行的大數據分析系統,然而其賴以生存的HDFS和MapReduce組件卻讓其一度陷入困境——批處理的工作方式讓其只適用于離線數據處理,在要求實時性的場景下毫無用武之地。因此,各種基于Hadoop的工具應運而生。為了減少管理成本,提升資源的利用率,有當下眾多的資源統一管理調度系統,例如Twitter的ApacheMesos、Apache的YARN、Google的Borg、騰訊搜搜的Torca、FacebookCorona(開源)等。ApacheMesos是Apache孵化器中的一個開源項目,使用ZooKeeper實現容錯復制,使用LinuxContainers來隔離任務,支持多種資源計劃分配(內存和CPU)。提供高效、跨分布式應用程序和框架的資源隔離和共享,支持Hadoop、MPI、Hypertable、Spark等。YARN又被稱為MapReduce2.0,借鑒Mesos,YARN提出了資源隔離解決方案Container,提供Java虛擬機內存的隔離。對比MapReduce1.0,開發人員使用ResourceManager、ApplicationMaster與NodeManager代替了原框架中核心的JobTracker和TaskTracker。在YARN平臺上可以運行多個計算框架,如MR、Tez、Storm、Spark等。

基于業務對實時的需求,有支持在線處理的Storm、CloudarImpala、支持迭代計算的Spark及流處理框架S4。Storm是一個分布式的、容錯的實時計算系統,由BackType開發,后被Twitter捕獲。Storm屬于流處理平臺,多用于實時計算并更新數據庫。Storm也可被用于“連續計算”(ContinuousComputation),對數據流做連續查詢,在計算時就將結果以流的形式輸出給用戶。它還可被用于“分布式RPC”,以并行的方式運行昂貴的運算。ClouderaImpala是由Cloudera開發,一個開源的MassivelyParallelProcessing(MPP)查詢引擎。與Hive相同的元數據、SQL語法、ODBC驅動程序和用戶接口(HueBeeswax),可以直接在HDFS或HBase上提供快速、交互式SQL查詢。Impala是在Dremel的啟發下開發的,不再使用緩慢的Hive+MapReduce批處理,而是通過與商用并行關系數據庫中類似的分布式查詢引擎(由QueryPlanner、QueryCoordinator和QueryExecEngine這3部分組成),可以直接從HDFS或者HBase中用SELECT、JOIN和統計函數查詢數據,從而大大降低了延遲。

Hadoop社區正努力擴展現有的計算模式框架和平臺,以便解決現有版本在計算性能、計算模式、系統構架和處理能力上的諸多不足,這正是Hadoop2.0版本“YARN”的努力目標。各種計算模式還可以與內存計算模式混合,實現高實時性的大數據查詢和計算分析。混合計算模式之集大成者當屬UCBerkeleyAMPLab開發的Spark生態系統,如圖3所示。Spark是開源的類HadoopMapReduce的通用的數據分析集群計算框架,用于構建大規模、低延時的數據分析應用,建立于HDFS之上。Spark提供強大的內存計算引擎,幾乎涵蓋了所有典型的大數據計算模式,包括迭代計算、批處理計算、內存計算、流式計算(SparkStreaming)、數據查詢分析計算(Shark)以及圖計算(GraphX)。Spark使用Scala作為應用框架,采用基于內存的分布式數據集,優化了迭代式的工作負載以及交互式查詢。與Hadoop不同的是,Spark和Scala緊密集成,Scala像管理本地collective對象那樣管理分布式數據集。Spark支持分布式數據集上的迭代式任務,實際上可以在Hadoop文件系統上與Hadoop一起運行(通過YARN、Mesos等實現)。另外,基于性能、兼容性、數據類型的研究,還有Shark、Phoenix、ApacheAccumulo、ApacheDrill、ApacheGiraph、ApacheHama、ApacheTez、ApacheAmbari等其他開源解決方案。預計未來相當長一段時間內,主流的Hadoop平臺改進后將與各種新的計算模式和系統共存,并相互融合,形成新一代的大數據處理系統和平臺。

人工智能、大數據、云計算和物聯網的未來發展值得重視,均為前沿產業,多智時代專注于人工智能和大數據的入門和科譜,在此為你推薦幾篇優質好文:
Hadoop、Spark和Storm三者技術相對比,有什么關系?
http://www.duozhishidai.com/article-15089-1.html
大數據的特點是什么,大數據與Hadoop有什么關系?
http://www.duozhishidai.com/article-13276-1.html
Hadoop是什么?學習了能夠做什么?
http://www.duozhishidai.com/article-9824-1.html


多智時代-人工智能大數據學習入門網站|人工智能、大數據、物聯網云計算的學習交流網站

總結

以上是生活随笔為你收集整理的大数据技术Hadoop的介绍的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。