Hadoop精华问答 | Hadoop 和Spark有什么区别?
我們很榮幸能夠見證Hadoop十年從無到有,再到稱王。感動于技術的日新月異時,希望通過今天的有問有答深入解讀Hadoop的昨天、今天和明天,憧憬下一個十年。
1
Q:Hadoop是什么?
A:Hadoop 是一個由 Apache 基金會所開發的分布式系統基礎架構,它可以使用戶在不了解分布式底層細節的情況下開發分布式程序,充分利用集群的威力進行高速運算和存儲。
從其定義就可以發現,它解決了兩大問題:大數據存儲、大數據分析。也就是 Hadoop 的兩大核心:HDFS 和 MapReduce。
HDFS(Hadoop Distributed File System)是可擴展、容錯、高性能的分布式文件系統,異步復制,一次寫入多次讀取,主要負責存儲。
MapReduce 為分布式計算框架,包含map(映射)和 reduce(歸約)過程,負責在 HDFS 上進行計算。
我們先來了解下 Hadoop 的發展歷史,如圖 1-1 所示。
Q:?Hadoop 有哪些優點呢?
A:Hadoop 是一個能夠讓用戶輕松架構和使用的分布式計算的平臺。用戶可以輕松地在 Hadoop 發和運行處理海量數據的應用程序。其優點主要有以下幾個:
(1) 高可靠性?: Hadoop 按位存儲和處理數據的能力值得人們信賴。
(2) 高擴展性?: Hadoop 是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以干計的節點中。
(3) 高效性?: Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非常快。
(4) 高容錯性?: Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分。
(5) 低成本?: 與一體機、商用數據倉庫以及 QlikView、 Yonghong Z- Suites 等數據集市相比,Hadoop 是開源的,項目的軟件成本因此會大大降低。
Hadoop 帶有用 Java 語言編寫的框架,因此運行在 linux 生產平臺上是非常理想的, Hadoop 上的應用程序也可以使用其他語言編寫,比如 C++。
Q:Hadoop解決哪些問題?
A:海量數據需要及時分析和處理
海量數據需要深入分析和挖掘
數據需要長期保存
海量數據存儲的問題:
磁盤IO稱為一種瓶頸,而非CPU資源
網絡帶寬是一種稀缺資源
硬件故障成為影響穩定的一大因素
Q:Hadoop 和Spark有什么區別?
A:Hadoop 和Spark 兩者都是大數據框架,但解決問題的層面有所不同。Hadoop更多是一個分布式數據基礎設施,將巨大的數據集分派到一個由普通計算機組成的集群中的多個節點進行存儲,節省了硬件成本 ,而Spark,則是那么一個專門用來對那些分布式存儲的大數據進行處理的工具,依賴于分布式數據存儲。
其次, Spark要比Hadoop的MapReduce計算速度快很多。Spark,它會在內存中以接近“實時”的時間完成所有的數據分析,從集群中讀取數據,完成所有必須的分析處理,將結果寫回集群。對于動態數據實時分析而言,Spark要比Hadoop性能較為優越。?
Q:Hadoop在大數據中的作用是什么?
A:Hadoop大數據處理的相關產品有很多,如Hive、HBase、Spark、Storm、Mahout等等,用戶的需求也能夠日益得到滿足。相比于使用場景已基本固化的關系型數據庫,Hadoop功能更加靈活。并且Hadoop是開源項目,有開源社區和大多技術者的支持,開發維護也較為方便。在Hive中,關系型數據主要基于SQL語言,并且Hadoop有SQL型,同時也可以用Java、Python等進行開發。
小伙伴們沖鴨,后臺留言區等著你!
關于Hadoop,今天你學到了什么?還有哪些不懂的?除此還對哪些話題感興趣?快來留言區打卡啦!留言方式:打開第XX天,答:……
同時歡迎大家搜集更多問題,投稿給我們!風里雨里留言區里等你~
福利
1、掃描添加小編微信,備注“姓名+公司職位”,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習!
2、公眾號后臺回復:白皮書,獲取IDC最新數據白皮書整理資料!
推薦閱讀:
全面剖析企業私有云
30 秒?!Chrome 插件帶你速成編程學習 | 程序員硬核評測
為什么程序員下班后只關顯示器從不關電腦?
算法警告!該圖片涉嫌違規不予顯示
交易機器人春天已來?先看完這篇再說吧
2019年中國IT市場趨勢熱點
2019年最值得關注的五大微服務發展趨勢
總結
以上是生活随笔為你收集整理的Hadoop精华问答 | Hadoop 和Spark有什么区别?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Boost:异步操作,需要boost :
- 下一篇: Boost:异步操作,需要boost :