日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark生态顶级项目汇总

發(fā)布時間:2025/6/15 编程问答 14 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark生态顶级项目汇总 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2019獨角獸企業(yè)重金招聘Python工程師標準>>>

現(xiàn)在Apache Spark已形成一個豐富的生態(tài)系統(tǒng),包括官方的和第三方開發(fā)的組件或工具。后面主要給出5個使用廣泛的第三方項目。

Spark官方構(gòu)建了一個非常緊湊的生態(tài)系統(tǒng)組件,提供各種處理能力。 下面是Spark官方給出的生態(tài)系統(tǒng)組件(引自Spark官方文檔)


  • Spark DataFrames:列式存儲的分布式數(shù)據(jù)組織,類似于關(guān)系型數(shù)據(jù)表。

  • Spark SQL:可以執(zhí)行SQL查詢,包括基本的SQL語法和HiveQL語法。讀取的數(shù)據(jù)源包括Hive表、Parquent文件、JSON數(shù)據(jù)、關(guān)系數(shù)據(jù)庫(MySQL等)等。

  • Spark Streaming:Spark Streaming是Spark核心API,易擴展、高吞吐量、流式數(shù)據(jù)容錯。

  • MLlib:Spark的機器學(xué)習(xí)庫,由常規(guī)的機器學(xué)習(xí)算法和基礎(chǔ)構(gòu)成,包括但不限于分類算法、回歸算法、聚類算法、協(xié)調(diào)過濾算法、降維算法等。

  • GraphX:Spark GraphX是一個分布式圖處理框架,基于Spark平臺提供對圖計算和圖挖掘的接口,方便用戶對分布式圖處理的需求。

  • Spark Core API:Spark提供多種語言的API,包括R、SQL、Python、Scala和Java。

  • 除了上述官方的Spark組件外,還有些是在某種情形下必用的項目。以下只是簡單的列出這些重量級 項目,而不涉及一些性能指標。

  • Mesos

  • Mesos是開源的資源統(tǒng)一管理和調(diào)度平臺。抽象物理機的CPU、內(nèi)存、存儲和計算資源,再由框架自身的調(diào)度器決定資源的使用者。

  • Mesos是Master/Slave結(jié)構(gòu),由Mesos-master,Mesos-slave,Framework和executor四個組件構(gòu)成。

  • 為什么官方選用Mesos,而不是Spark standalone模式或者基于Yarn框架?由Spark開發(fā)者所寫的書《Learning Spark》:Mesos優(yōu)于其它兩個資源框架是因為Mesos的細粒度調(diào)度,這樣可讓多用戶運行Spark shell占有更少的CPU。

  • Spark Cassandra Connector

  • Cassandra是一個易擴展、高性能的數(shù)據(jù)庫。 Spark Cassandra Connector現(xiàn)在是Spark和Cassandra表間直接交互的連接器,高度活躍的開源軟件。 Spark Cassandra Connector庫讓你讀Cassandra表就如同Spark RDD一樣,同樣可以寫Spark RDD到Cassandra表,并可以在Spark程序中執(zhí)行CQL語句。

  • ZepellinZepellin是一個集成IPythoon notebook風(fēng)格的Spark應(yīng)用。Zepellin可以基于Spark和Scala,允許用戶很簡單直接的在他們的博客或者網(wǎng)站發(fā)布代碼執(zhí)行的結(jié)果。Zepellin也支持其它語言插件,包括Scala和Spark,Python和Spark,SparkSQL,HIve,Markdown和Shell。

  • Spark Job ServerSpark Job Server提供RESTful接口來提交和管理Spark jobs,jar包和job上下文。Spark Job Server提供Spark任務(wù)相關(guān)的運行健康信息。

  • Alluxio

  • Alluxio是一個分布式內(nèi)存文件系統(tǒng),它在減輕Spark內(nèi)存壓力的同時,也賦予Spark內(nèi)存快速讀寫海量數(shù)據(jù)的能力。Alluxio以前叫做Tachyon,即鎢絲。Spark jobs可以不做任何改變即可運行在Alluxio上,并能得到極大的性能優(yōu)化。Alluxio宣稱:“百度使用Alluxio可以提高30倍多數(shù)據(jù)處理能力”。




  • 轉(zhuǎn)載于:https://my.oschina.net/css1111/blog/632465

    總結(jié)

    以上是生活随笔為你收集整理的Spark生态顶级项目汇总的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。