日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Spark _09资源调度和任务调度

發(fā)布時(shí)間:2024/2/28 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark _09资源调度和任务调度 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

先說一下master啟動(dòng)后發(fā)生了什么?





?

  • Spark資源調(diào)度和任務(wù)調(diào)度的流程:

啟動(dòng)集群后,Worker節(jié)點(diǎn)會(huì)向Master節(jié)點(diǎn)匯報(bào)資源情況,Master掌握了集群資源情況。

當(dāng)Spark提交一個(gè)Application后,根據(jù)RDD之間的依賴關(guān)系將Application形成一個(gè)DAG有向無(wú)環(huán)圖。

任務(wù)提交后,Spark會(huì)在Driver端創(chuàng)建兩個(gè)對(duì)象:DAGScheduler和TaskScheduler,DAGScheduler是任務(wù)調(diào)度的高層調(diào)度器,是一個(gè)對(duì)象。DAGScheduler的主要作用就是將DAG根據(jù)RDD之間的寬窄依賴關(guān)系劃分為一個(gè)個(gè)的Stage,然后將這些Stage以TaskSet的形式提交給TaskScheduler(TaskScheduler是任務(wù)調(diào)度的低層調(diào)度器,這里TaskSet其實(shí)就是一個(gè)集合,里面封裝的就是一個(gè)個(gè)的task任務(wù),也就是stage中的并行度task任務(wù)),TaskSchedule會(huì)遍歷TaskSet集合,拿到每個(gè)task后會(huì)將task發(fā)送到計(jì)算節(jié)點(diǎn)Executor中去執(zhí)行(其實(shí)就是發(fā)送到Executor中的線程池ThreadPool去執(zhí)行)。

task在Executor線程池中的運(yùn)行情況會(huì)向TaskScheduler反饋,當(dāng)task執(zhí)行失敗時(shí),則由TaskScheduler負(fù)責(zé)重試,將task重新發(fā)送給Executor去執(zhí)行,默認(rèn)重試3次。如果重試3次依然失敗,那么這個(gè)task所在的stage就失敗了。stage失敗了則由DAGScheduler來負(fù)責(zé)重試,重新發(fā)送TaskSet到TaskSchdeuler,Stage默認(rèn)重試4次。如果重試4次以后依然失敗,那么這個(gè)job就失敗了。job失敗了,Application就失敗了。

TaskScheduler不僅能重試失敗的task,還會(huì)重試straggling(落后,緩慢)task(也就是執(zhí)行速度比其他task慢太多的task)。如果有運(yùn)行緩慢的task那么TaskScheduler會(huì)啟動(dòng)一個(gè)新的task來與這個(gè)運(yùn)行緩慢的task執(zhí)行相同的處理邏輯。兩個(gè)task哪個(gè)先執(zhí)行完,就以哪個(gè)task的執(zhí)行結(jié)果為準(zhǔn)。這就是Spark的推測(cè)執(zhí)行機(jī)制。在Spark中推測(cè)執(zhí)行默認(rèn)是關(guān)閉的。推測(cè)執(zhí)行可以通過spark.speculation屬性來配置。

注意:

  • 對(duì)于ETL類型要入數(shù)據(jù)庫(kù)的業(yè)務(wù)要關(guān)閉推測(cè)執(zhí)行機(jī)制,這樣就不會(huì)有重復(fù)的數(shù)據(jù)入庫(kù)。
  • 如果遇到數(shù)據(jù)傾斜的情況,開啟推測(cè)執(zhí)行則有可能導(dǎo)致一直會(huì)有task重新啟動(dòng)處理相同的邏輯,任務(wù)可能一直處于處理不完的狀態(tài)。
  • 圖解Spark資源調(diào)度和任務(wù)調(diào)度的流程

?

  • 粗粒度資源申請(qǐng)和細(xì)粒度資源申請(qǐng)
  • 粗粒度資源申請(qǐng)(Spark)

在Application執(zhí)行之前,將所有的資源申請(qǐng)完畢,當(dāng)資源申請(qǐng)成功后,才會(huì)進(jìn)行任務(wù)的調(diào)度,當(dāng)所有的task執(zhí)行完成后,才會(huì)釋放這部分資源。

優(yōu)點(diǎn):在Application執(zhí)行之前,所有的資源都申請(qǐng)完畢,每一個(gè)task直接使用資源就可以了,不需要task在執(zhí)行前自己去申請(qǐng)資源,task啟動(dòng)就快了,task執(zhí)行快了,stage執(zhí)行就快了,job就快了,application執(zhí)行就快了。

缺點(diǎn):直到最后一個(gè)task執(zhí)行完成才會(huì)釋放資源,集群的資源無(wú)法充分利用。

  • 細(xì)粒度資源申請(qǐng)(MapReduce)

Application執(zhí)行之前不需要先去申請(qǐng)資源,而是直接執(zhí)行,讓job中的每一個(gè)task在執(zhí)行前自己去申請(qǐng)資源,task執(zhí)行完成就釋放資源。

優(yōu)點(diǎn):集群的資源可以充分利用。

缺點(diǎn):task自己去申請(qǐng)資源,task啟動(dòng)變慢,Application的運(yùn)行就相應(yīng)的變慢了。

?

總結(jié)

以上是生活随笔為你收集整理的Spark _09资源调度和任务调度的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。