原理系列:Spark1.x 生态圈一览
生活随笔
收集整理的這篇文章主要介紹了
原理系列:Spark1.x 生态圈一览
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
Spark生態(tài)圈,也就是BDAS(伯克利數(shù)據(jù)分析棧),是伯克利APMLab實驗室精心打造的,力圖在算法(Algorithms)、機器(Machines)、人(People)之間通過大規(guī)模集成,來展現(xiàn)大數(shù)據(jù)應(yīng)用的一個平臺,其核心引擎就是Spark,其計算基礎(chǔ)是彈性分布式數(shù)據(jù)集,也就是RDD。通過Spark生態(tài)圈,AMPLab運用大數(shù)據(jù)、云計算、通信等各種資源,以及各種靈活的技術(shù)方案,對海量不透明的數(shù)據(jù)進(jìn)行甄別并轉(zhuǎn)化為有用的信息,以供人們更好的理解世界。Spark生態(tài)圈已經(jīng)涉及到機器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)庫、信息檢索、自然語言處理和語音識別等多個領(lǐng)域。 隨著spark的日趨完善,Spark以其優(yōu)異的性能正逐漸成為下一個業(yè)界和學(xué)術(shù)界的開源大數(shù)據(jù)處理平臺。隨著Spark1.0.0的發(fā)布和Spark生態(tài)圈的不斷擴大,可以預(yù)見在今后的一段時間內(nèi),Spark將越來越火熱。下面我們來看看最近的Spark1.0.0生態(tài)圈,也就是BDAS(伯克利數(shù)據(jù)分析棧),對Spark生態(tài)圈做一簡單的介紹。 如下圖所示,Spark生態(tài)圈以Spark為核心引擎,以HDFS、S3、Techyon為持久層讀寫原生數(shù)據(jù),以Mesos、YARN和自身攜帶的Standalone作為資源管理器調(diào)度job,來完成spark應(yīng)用程序的計算;而這些spark應(yīng)用程序可以來源于不同的組件,如Spark的批處理應(yīng)用、SparkStreaming的實時處理應(yīng)用、Spark SQL的即席查詢、BlinkDB的權(quán)衡查詢、MLlib或MLbase的機器學(xué)習(xí)、GraphX的圖處理、來自SparkR的數(shù)學(xué)計算等等。更多的新信息請參看伯克利APMLab實驗室的項目進(jìn)展https://amplab.cs.berkeley.edu/projects/?或者 Spark峰會信息http://spark-summit.org/。
?
Scala語言的已經(jīng)出來很多年,但從未流行過,即一直是小眾型語言。雖然軟文做很牛逼,但與現(xiàn)實脫離。
http://spark.apache.org/
http://blog.csdn.net/book_mmicky/article/details/29362405
1:生態(tài)圈簡介
?
A:Spark
Spark是一個快速的通用大規(guī)模數(shù)據(jù)處理系統(tǒng):- 內(nèi)存計算并具有容錯性,決定大多數(shù)場景運算速度快于MapReduce
- 提供了支持DAG圖的分布式并行計算框架,減少多次計算之間中間結(jié)果IO開銷
- 提供Cache機制來支持多次迭代計算或者數(shù)據(jù)共享,減少IO開銷
- 使用多線程池模型來減少task啟動開稍
- 支持互動和迭代程序
B:Spark SQL
Spark SQL是一個即席查詢系統(tǒng),可以通過SQL表達(dá)式、HiveQL或者Scala DSL在Spark上執(zhí)行查詢。 Spark SQL的特點:- 引入了新的RDD類型SchemaRDD,可以象傳統(tǒng)數(shù)據(jù)庫定義表一樣來定義SchemaRDD,SchemaRDD由定義了列數(shù)據(jù)類型的行對象構(gòu)成。
- SchemaRDD可以從RDD轉(zhuǎn)換過來,也可以從Parquet文件讀入,也可以使用HiveQL從Hive中獲取。
- 在應(yīng)用程序中可以混合使用不同來源的數(shù)據(jù),如可以將來自HiveQL的數(shù)據(jù)和來自SQL的數(shù)據(jù)進(jìn)行join操作。
- 內(nèi)嵌catalyst優(yōu)化器對用戶查詢語句進(jìn)行自動優(yōu)化
C:SparkStreaming
SparkStreaming是一個對實時數(shù)據(jù)流進(jìn)行高通量、容錯處理的流式處理系統(tǒng),可以對多種數(shù)據(jù)源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)進(jìn)行類似map、reduce、join、window等復(fù)雜操作,并將結(jié)果保存到外部文件系統(tǒng)、數(shù)據(jù)庫或應(yīng)用到實時儀表盤。 SparkStreaming流式處理系統(tǒng)特點有:- 將流式計算分解成一系列短小的批處理作業(yè)
- 將失敗或者執(zhí)行較慢的任務(wù)在其它節(jié)點上并行執(zhí)行
- 較強的容錯能力(基于RDD繼承關(guān)系Lineage)
- 使用和RDD一樣的語義
D:MLlib
MLlib是Spark實現(xiàn)一些常見的機器學(xué)習(xí)算法和實用程序,包括分類,回歸,聚類,協(xié)同過濾,降維,以及底層優(yōu)化。E:GraphX
GraphX是基于Spark的圖處理和圖并行計算API。GraphX定義了一個新的概念:彈性分布式屬性圖,一個每個頂點和邊都帶有屬性的定向多重圖;并引入了三種核心RDD:Vertices、Edges、Triplets;還開放了一組基本操作(如subgraph, joinVertices, and mapReduceTriplets),并且在不斷的擴展圖形算法和圖形構(gòu)建工具來簡化圖分析工作。2:生態(tài)圈的應(yīng)用
Spark生態(tài)圈以Spark為核心、以RDD為基礎(chǔ),打造了一個基于內(nèi)存計算的大數(shù)據(jù)平臺,為人們提供了all-in-one的數(shù)據(jù)處理方案。人們可以根據(jù)不同的場景使用spark生態(tài)圈的多個產(chǎn)品來解決應(yīng)用,而不是使用多個隔離的系統(tǒng)來滿足場景需求。下面是幾個典型的例子:A:場景1:歷史數(shù)據(jù)和實時數(shù)據(jù)分析查詢
通過Spark進(jìn)行歷史數(shù)據(jù)分析、Spark Streaming進(jìn)行實時數(shù)據(jù)分析,最后通過Spark SQL或BlinkDB給用戶交互查詢。B:場景2:欺詐檢測、異常行為的發(fā)現(xiàn)
通過Spark進(jìn)行歷史數(shù)據(jù)分析,用MLlib建立數(shù)據(jù)模型,對Spark Streaming實時數(shù)據(jù)進(jìn)行評估,檢測并發(fā)現(xiàn)異常數(shù)據(jù)。C:場景3:社交網(wǎng)絡(luò)洞察
通過Spark和GraphX計算社交關(guān)系,給出建議。?3、與Hadoop生態(tài)環(huán)境比較
優(yōu)勢:
支持DAG運算,減少中間數(shù)據(jù)的傳輸。
所謂DAG,就是有向不循環(huán)圖。數(shù)據(jù)進(jìn)入第一個計算,得到的結(jié)果進(jìn)入第二個計算;第二個計算得到的結(jié)果進(jìn)入第三個計算……依此類推。提供了全棧(all-in-one)式,減少中間數(shù)據(jù)的傳輸。
即運算框架(Spark)、流式計算(Streaming)、機器學(xué)習(xí)(MLlib)、圖形計算(GraphX)為一體。在其中一個框架中可以調(diào)用另一個框架,如:在Streaing中接收數(shù)據(jù),使用Spark的運行進(jìn)行清洗,通過MLlib或GraphX運算得到最終結(jié)果。框架無縫轉(zhuǎn)換,無需傳遞中間數(shù)據(jù)。 而Hadoop中,通過YARN來集成所有的如MapReduce、Storm、Mahout、Hive、Pig等,這樣無法在一個框架中調(diào)用另一個,只能順序執(zhí)行傳遞中間數(shù)據(jù)。劣勢
使用Scala語言
好吧,官方一直聲稱這是優(yōu)勢。Scala語言的已經(jīng)出來很多年,但從未流行過,即一直是小眾型語言。雖然軟文做很牛逼,但與現(xiàn)實脫離。
不是很成熟
Spark SQL還是是beta版,但軟文滿天飛 MLlib支持的算法有限 生產(chǎn)環(huán)境敢/能用不?框架本身復(fù)雜,想寫出性能卓越的程序需要下大功夫
job拆分,task的拆分等,會導(dǎo)致代碼的 ?參考:http://spark.apache.org/
http://blog.csdn.net/book_mmicky/article/details/29362405
轉(zhuǎn)載于:https://www.cnblogs.com/chanxiu/p/3967786.html
總結(jié)
以上是生活随笔為你收集整理的原理系列:Spark1.x 生态圈一览的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 常用工具类总结
- 下一篇: ZXing二维码扫描添加个人总结