spark专业术语解释
application:spark應(yīng)用程序
指用戶編寫的spark代碼,包含了運(yùn)行在driver端的代碼和運(yùn)行在各個(gè)節(jié)點(diǎn)上的executor代碼
driver:驅(qū)動(dòng)程序
程序中編寫的main方法和創(chuàng)建的sparkContext
sparkContext
spark運(yùn)行環(huán)境,用來和clusterManager進(jìn)行通信
clusterManager:資源管理器
對(duì)于standalone模式就是master
對(duì)于yarn模式就是resourceManager
worker
spark集群中的從節(jié)點(diǎn),真正干活的,需要啟動(dòng)executor進(jìn)程去執(zhí)行任務(wù)
executor
運(yùn)行在worker節(jié)點(diǎn)的JVM進(jìn)程,一個(gè)worker可以運(yùn)行多個(gè)executor,因?yàn)榭梢蕴峤欢鄠€(gè)應(yīng)用
RDD
彈性分布式數(shù)據(jù)集,分布在各個(gè)worker上的叫做分區(qū)
shuffleDependency 寬依賴
父RDD的一個(gè)分區(qū)會(huì)被子RDD的多個(gè)分區(qū)所依賴
narroeDependency 窄依賴
父RDD的一個(gè)分區(qū)會(huì)被子RDD的一個(gè)分區(qū)依賴
DAG:有向五環(huán)圖
指RDD的轉(zhuǎn)化流程,從RDD的創(chuàng)建開始,到Action結(jié)束就會(huì)形成一個(gè)DAG
一個(gè)SPARK應(yīng)用可能會(huì)有多個(gè)DAG,這取決于觸發(fā)了多少次action
JOB
按照DAG中各個(gè)stage階段進(jìn)行執(zhí)行就稱作一個(gè)job作業(yè)
stage
是DAGScheduler根據(jù)shuffle/寬依賴對(duì)DAG進(jìn)行的階段劃分,劃分好的stage包含多個(gè)task組成的taskSet
TaskSet
一個(gè)stage中的多個(gè)task組成的集合
Task
RDD的一個(gè)分區(qū)在計(jì)算的時(shí)候就是一個(gè)Task
[外鏈圖片轉(zhuǎn)存失敗(img-xgJO3PQY-1567998168476)(en-resource://database/7925:0)]
總結(jié)
以上是生活随笔為你收集整理的spark专业术语解释的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: k8s1.23 使用cert-manag
- 下一篇: 阿里云,DNS(云解析),封装类