日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark学习笔记——在集群上运行Spark

發布時間:2023/12/20 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark学习笔记——在集群上运行Spark 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Spark運行的時候,采用的是主從結構,有一個節點負責中央協調, 調度各個分布式工作節點。這個中央協調節點被稱為驅動器( Driver) 節點。與之對應的工作節點被稱為執行器( executor) 節點。

所有的 Spark 程序都遵循同樣的結構:程序從輸入數據創建一系列 RDD, 再使用轉化操作派生出新的 RDD,最后使用行動操作收集或存儲結果 RDD 中的數據。

1.驅動器節點:

Spark 驅動器是執行你的程序中的 main() 方法的進程。它執行用戶編寫的用來創建 SparkContext、創建 RDD,以及進行 RDD 的轉化操作和行動操作的代碼。其實,當你啟動 Spark shell 時,你就啟動了一個 Spark 驅動器程序

驅動器程序在 Spark 應用中有下述兩個職責:1.把用戶程序轉為任務 2.為執行器節點調度任務

2.執行器節點:

Spark 執行器節點是一種工作進程,負責在 Spark 作業中運行任務,任務間相互獨立。 Spark 應用啟動時, 執行器節點就被同時啟動,并且始終伴隨著整個 Spark 應用的生命周期而存在。

執行器進程有兩大作用: 第一,它們負責運行組成 Spark 應用的任務,并將結果返回給驅動器進程; 第二,它們通過自身的塊管理器(Block Manager)為用戶程序中要求緩存的 RDD 提供內存式存儲。

3.集群管理器:

驅動器節點和執行器節點是如何啟動的呢? Spark 依賴于集群管理器來啟動執行器節點,而在某些特殊情況下,也依賴集群管理器來啟動驅動器節點。

?

使用spark-submit部署應用

一般是在shell腳本中寫好,然后運行shell腳本就行了

spark-submit的詳細參數參考 spark-submit使用及說明

?

在spark任務中認證

import org.apache.hadoop.security.UserGroupInformation import org.apache.hadoop.conf.Configuration System.setProperty("java.security.krb5.conf", "/etc/krb5.conf") val configuration = new Configuration() configuration.set("hadoop.security.authentication", "Kerberos") UserGroupInformation.setConfiguration(configuration) UserGroupInformation.loginUserFromKeytab("xxx@XXXX", "xxx.keytab")

?

轉載于:https://www.cnblogs.com/tonglin0325/p/6688720.html

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的Spark学习笔记——在集群上运行Spark的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。