Spark _01初识
生活随笔
收集整理的這篇文章主要介紹了
Spark _01初识
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
Spark初始?
1、什么是Spark
? ? ?Apache Spark??is a unified analytics engine for large-scale data processing.
Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎。Spark是UC Berkeley AMP lab (加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室)所開源的類Hadoop MapReduce的通用并行計(jì)算框架,Spark擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。
Spark是Scala編寫,方便快速編程。
2、總體技術(shù)棧講解
3、Spark演變歷史
4、Spark與MapReduce的區(qū)別
- 都是分布式計(jì)算框架,Spark基于內(nèi)存,MR基于HDFS。Spark處理數(shù)據(jù)的能力一般是MR的十倍以上,Spark中除了基于內(nèi)存計(jì)算外,還有DAG有向無環(huán)圖來切分任務(wù)的執(zhí)行先后順序。
5、Spark運(yùn)行模式
- Local
多用于本地測試,如在eclipse,idea中寫程序測試等。
- Standalone
Standalone是Spark自帶的一個(gè)資源調(diào)度框架,它支持完全分布式。
- Yarn
Hadoop生態(tài)圈里面的一個(gè)資源調(diào)度框架,Spark也是可以基于Yarn來計(jì)算的。
- Mesos
資源調(diào)度框架。
- 要基于Yarn來進(jìn)行資源調(diào)度,必須實(shí)現(xiàn)AppalicationMaster接口,Spark實(shí)現(xiàn)了這個(gè)接口,所以可以基于Yarn。
?
總結(jié)
以上是生活随笔為你收集整理的Spark _01初识的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最详细的创建虚拟机_minmal版本
- 下一篇: Spark _02SparkCore_R