日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark 运行机制

發(fā)布時(shí)間:2024/1/17 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark 运行机制 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1. Spark運(yùn)行基本流程

  • 構(gòu)建Spark Application的運(yùn)行環(huán)境(啟動(dòng)SparkContext),SparkContext向資源管理器(可以是Standalone、Mesos或YARN)注冊(cè)并申請(qǐng)運(yùn)行Executor資源;
  • 資源管理器分配Executor資源并啟動(dòng)Executor,Executor運(yùn)行情況將隨著心跳發(fā)送到資源管理器上;
  • SparkContext構(gòu)建成DAG圖,將DAG圖分解成Stage,并把Taskset發(fā)送給Task Scheduler。Executor向SparkContext申請(qǐng)Task,Task Scheduler將Task發(fā)放給Executor運(yùn)行同時(shí)SparkContext將應(yīng)用程序代碼發(fā)放給Executor。
  • Task在Executor上運(yùn)行,運(yùn)行完畢釋放所有資源
  • 2. Spark運(yùn)行架構(gòu)特點(diǎn)

    • 每個(gè)Application獲取專屬的executor進(jìn)程,該進(jìn)程在Application期間一直駐留,并以多線程方式運(yùn)行tasks。
    • Spark任務(wù)與資源管理器無關(guān),只要能夠獲取executor進(jìn)程,并能保持相互通信就可以。
    • 提交SparkContext的Client應(yīng)該靠近Worker節(jié)點(diǎn)(運(yùn)行Executor的節(jié)點(diǎn)),最好是在同一個(gè)Rack里,因?yàn)镾park程序運(yùn)行過程中SparkContext和Executor之間有大量的信息交換;如果想在遠(yuǎn)程集群中運(yùn)行,最好使用RPC將SparkContext提交給集群,不要遠(yuǎn)離Worker運(yùn)行SparkContext。
    • Task采用了數(shù)據(jù)本地性和推測執(zhí)行的優(yōu)化機(jī)制。

    Spark 任務(wù)調(diào)度

    1. 任務(wù)調(diào)度流程圖

    各個(gè)RDD之間存在著依賴關(guān)系,這些依賴關(guān)系就形成有向無環(huán)圖DAG,DAGScheduler對(duì)這些依賴關(guān)系形成的DAG進(jìn)行Stage劃分,劃分的規(guī)則很簡單,從后往前回溯,遇到窄依賴加入本stage,遇見寬依賴進(jìn)行Stage切分。完成了Stage的劃分。DAGScheduler基于每個(gè)Stage生成TaskSet,并將TaskSet提交給TaskScheduler。TaskScheduler 負(fù)責(zé)具體的task調(diào)度,最后在Worker節(jié)點(diǎn)上啟動(dòng)task。

    2. DAGScheduler

    • DAGScheduler對(duì)DAG有向無環(huán)圖進(jìn)行Stage劃分。
    • 記錄哪個(gè)RDD或者 Stage 輸出被物化(緩存),通常在一個(gè)復(fù)雜的shuffle之后,通常物化一下(cache、persist),方便之后的計(jì)算。
    • 重新提交shuffle輸出丟失的stage(stage內(nèi)部計(jì)算出錯(cuò))給TaskScheduler
    • 將 Taskset 傳給底層調(diào)度器?
      • – spark-cluster TaskScheduler
      • – yarn-cluster YarnClusterScheduler
      • – yarn-client YarnClientClusterScheduler

    3. TaskScheduler

    • 為每一個(gè)TaskSet構(gòu)建一個(gè)TaskSetManager 實(shí)例管理這個(gè)TaskSet 的生命周期
    • 數(shù)據(jù)本地性決定每個(gè)Task最佳位置
    • 提交 taskset( 一組task) 到集群運(yùn)行并監(jiān)控
    • 推測執(zhí)行,碰到計(jì)算緩慢任務(wù)需要放到別的節(jié)點(diǎn)上重試
    • 重新提交Shuffle輸出丟失的Stage給DAGScheduler

    總結(jié)

    以上是生活随笔為你收集整理的Spark 运行机制的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。