日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark基本工作流程和作业调度

發布時間:2023/12/16 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark基本工作流程和作业调度 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

基本工作流程

  • Spark的應用分為任務調度和任務執行兩個部分
  • 所以Spark程序都離不開SparkContext和Executor兩部分,Executor負責執行任務,運行Executor的機器稱為Worker節點,SparkContext由用戶程序啟動,通過資源調度模塊和Executor通信。SparkContext和Executor這兩部分在各種運行模式上是公用的。
  • SparkContext是程序運行的總入口,在SparkContext的初始化過程中,會分別創建DAGScheduler作業調度和TaskScheduler任務調度兩個級別的調度模塊
  • 作業調度模塊和具體的運行模式無關,它是根據shuffle來劃分調度階段,每個階段會構建出具體的任務,然后以TaskSets(任務組)的形式提交給任務調度模塊來具體執行
  • 不同運行模式的區別主要體現在任務調度模塊,任務調度模塊負責啟動任務、監控任務和匯報任務的情況。(Standalone模式、Yarn模式等的區別主要體現在任務調度模塊這邊)
  • 作業調度

    作業調度關系圖

    • Application(應用程序):Spark應用程序由一個或多個作業組成
    • Job(作業):由一個RDD Action 生成一個或多個調度階段所組成的一次計算作業
    • Stage(調度階段):一個任務集多對應的調度階段。Stage的劃分是根據寬依賴(shuffle操作)來劃分的
    • TaskSet(任務集):由一組關聯的,但互相之間沒有shuffle依賴關系的任務所組成的任務集
    • Task(任務):單個分區數據集上的最小處理流程單元

    作業調度具體流程

  • 用戶提交程序(Application)創建SparkContext實例,SparkContext根據RDD對象生成DAG圖,將作業(Job)提交給DAGScheduler
  • DAGScheduler將作業(Job)劃分成不同的Stage(從末端RDD開始,根據shuffle來劃分),每個Stage都是任務的集(TaskSet),以TaskSet為單位提交給TaskScheduler
  • TaskScheduler管理任務(Task),并通過資源管理器(Cluster Manager)[Standalone模式下是Master,Yarn模式下是ResourceManager]把任務(task)發給集群中的Worker的Executor
  • Worker接收到任務(Task),啟動Executor進程中的線程Task來執行任務(實際任務的運行最終由Executor類來執行,Executor對每一個任務創建一個TaskRunner類,交給線程池運行。)
  • 總結

    以上是生活随笔為你收集整理的Spark基本工作流程和作业调度的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。