Spark2.x 与 Spark1.x 关系
Spark2.x 引入了很多優(yōu)秀特性,性能上有較大提升,API 更易用。在“編程統(tǒng)一”方面非常驚艷,實(shí)現(xiàn)了離線計(jì)算和流計(jì)算 API 的統(tǒng)一,實(shí)現(xiàn)了 Spark sql 和 Hive Sql 操作 API 的統(tǒng)一。Spark 2.x 基本上是基于 Spark 1.x 進(jìn)行了更多的功能和模塊的擴(kuò)展,及性能的提升。
Spark2.x 新特性
1). Spark Core/SQL
在內(nèi)存和CPU使用方面進(jìn)一步優(yōu)化Spark引擎性能(鎢絲計(jì)劃)。支持SQL 2003標(biāo)準(zhǔn) ,支持子查詢,對常用的SQL操作和DataFrame,性能有2-10倍的提升。
2). sparksession
Spark2.0 中引入了 SparkSession 的概念,它為用戶提供了一個統(tǒng)一的切入點(diǎn)來使用 Spark 的各項(xiàng)功能,統(tǒng)一了舊的SQLContext與HiveContext。用戶不但可以使用 DataFrame 和Dataset 的各種 API,學(xué)習(xí) Spark2 的難度也會大大降低。
3). 統(tǒng)一 DataFrames 和 Datasets 的 API。
它們都是提供給用戶使用,包括各類操作接口的 API,1.3 版本引入 DataFrame,1.6版本引入Dataset,在 spark 2.0 中,把 dataframes 當(dāng)作是一種特殊的 datasets,dataframes = datasets[row],把兩者統(tǒng)一為datasets。
4). Structured Streaming
Spark Streaming基于Spark SQL(DataFrame / Dataset )構(gòu)建了high-level API,使得Spark Streaming充分受益Spark SQL的易用性和性能提升。
5). 其它特性
mllib 里的計(jì)算用 DataFrame-based API 代替以前的 RDD 計(jì)算邏輯,提供更多的 R 語言算法,默認(rèn)使用 Scala 2.11 編譯與運(yùn)行。
?
參考資料:
https://www.shiyanlou.com/courses/809/labs/2835/document
轉(zhuǎn)載于:https://www.cnblogs.com/libin2015/p/7250046.html
總結(jié)
以上是生活随笔為你收集整理的Spark2.x 与 Spark1.x 关系的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Angular4 组件通讯方法大全
- 下一篇: 物联网网络编程和web编程