當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

spark sql基本使用方法介绍（转载）

發布時間：2024/9/27 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 spark sql基本使用方法介绍（转载）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

spark sql基本使用方法介紹
Spark中可以通過spark sql 直接查詢Hive或impala中的數據，

一、啟動方法
/data/spark-1.4.0-bin-cdh4/bin/spark-sql –master spark://master:7077 –total-executor-cores 10 –executor-memory 1g –executor-cores 2

注：/data/spark-1.4.0-bin-cdh4/為spark的安裝路徑

/data/spark-1.4.0-bin-cdh4/bin/spark-sql –help 查看啟動選項

–master MASTER_URL 指定master url
–executor-memory MEM 每個executor的內存，默認為1G
–total-executor-cores NUM 所有executor的總核數
-e 直接執行查詢SQL

-f 以文件方式批量執行SQL

二、Spark sql對hive支持的功能

1、查詢語句：SELECT GROUP BY ORDER BY CLUSTER BY SORT BY
2、hive操作運算：
1) 關系運算：= ==, <>, <, >, >=, <=
2) 算術運算：+, -, *, /, %
3) 邏輯運算：AND, &&, OR, ||
4) 復雜的數據結構
5) 數學函數：(sign, ln, cos, etc)
6) 字符串函數：
3、 UDF
4、 UDAF

5、用戶定義的序列化格式
6、join操作：JOIN {LEFT|RIGHT|FULL} OUTER JOIN LEFT SEMI JOIN CROSS JOIN
7、 unions操作：
8、子查詢： SELECT col FROM ( SELECT a + b AS col from t1) t2
9、Sampling
10、 Explain
11、分區表
12、視圖
13、 hive ddl功能：CREATE TABLE、CREATE TABLE AS SELECT、ALTER TABLE

14、支持的數據類型：TINYINT SMALLINT INT BIGINT BOOLEAN FLOAT DOUBLE STRING BINARY TIMESTAMPDATE ARRAY MAP STRUCT

三、Spark sql 在客戶端編程方式進行查詢數據
1、啟動spark-shell
./spark-shell –master spark://master:7077 –total-executor-cores 10 –executor-memory 1g –executor-cores 2
2、編寫程序
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val df = sqlContext.read.json(“../examples/src/main/resources/people.json”)
查看所有數據：df.show()
查看表結構：df.printSchema()
只看name列：df.select(“name”).show()
對數據運算：df.select(df(“name”), df(“age”) + 1).show()
過濾數據：df.filter(df(“age”) > 21).show()

分組統計：df.groupBy(“age”).count().show()

1、查詢txt數據
import sqlContext.implicits._
case class Person(name: String, age: Int)
val people = sc.textFile(“../examples/src/main/resources/people.txt”).map(_.split(“,”)).map(p => Person(p(0), p(1).trim.toInt)).toDF()
people.registerTempTable(“people”)
val teenagers = sqlContext.sql(“SELECT name, age FROM people WHERE age >= 13 AND age <= 19”)
2、parquet文件
val df = sqlContext.read.load(“../examples/src/main/resources/users.parquet”)
3、hdfs文件

val df = sqlContext.read.load(“hdfs://namenode.Hadoop:9000/user/hive/warehouse/spark_test.db/test_parquet/part-r-00001.gz.parquet”)
４、保存查詢結果數據
val df = sqlContext.read.load(“../examples/src/main/resources/users.parquet”)

df.select(“name”, “favorite_color”).write.save(“namesAndFavColors.parquet“)

四、Spark sql性能調優

緩存數據表：sqlContext.cacheTable(“tableName”)

取消緩存表：sqlContext.uncacheTable(“tableName”)

spark.sql.inMemoryColumnarStorage.compressedtrue　當設置為true時，Spark SQL將為基于數據統計信息的每列自動選擇一個壓縮算法。
spark.sql.inMemoryColumnarStorage.batchSize　10000　柱狀緩存的批數據大小。更大的批數據可以提高內存的利用率以及壓縮效率，但有OOMs的風險

總結

以上是生活随笔為你收集整理的spark sql基本使用方法介绍（转载）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Spark SQL概述，DataFram
下一篇： Spark-Sql整合hive，在spa