日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

第14课:Spark RDD解密

發布時間:2025/7/14 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 第14课:Spark RDD解密 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

以下為Spark RDD解密課程學習心得:

????在介紹Spark RDD之前,先簡單的說下Hadoop MapReduce,它是基于數據流的方式進行計算,從物理存儲上加載數據,然后操作數據,

最后寫入到物理存儲設備上,這樣的模式會產生大量的中間結果。

????MapReduce不適合場景:1.不適合大量迭代計算場景,2.交互式查詢(重點是:基于數據流的方式不能復用中間的計算結果)

而Spark RDD是基于工作集的方式,RDD名稱叫:彈性式分布式數據集。

????RDD的彈性式主要分為以下幾點:

?????? 1.自動進行內存和磁盤數據的存儲切換;

?????? 2.基于Lineage的高效容錯;

???????3.Task如果失敗會自動進行特定次數的重試;

?????? 4.Stage如果失敗會自動進行特定次數的重試,而且只會計算失敗的分片;

?????? 5.Checkpoint和persist的容錯

?????? 6.數據調度彈性,和DAG、JobScheduler等無關

?????? 7.數據分片的高度彈性,可以手動設定分片的數量,設定分片函數:repartition默認進行???? shuffle機制,可以選擇coalesce函數進行分片設置

????RDD是數據分片的集合,分布在集群上,每個分片的計算邏輯是一樣的。

????RDD常規容錯方式:checkpoint和記錄數據更新方式

????RDD通過記錄更新數據方式為何高效?

????????1.RDD集合是不可變的,計算是Lazy模式

????????2.RDD的更新是粗粒度操作,寫操作可以是粗粒度也可以是細粒度模式


????RDD的缺陷:1.不支持細粒度的更新操作;

?????????????? 2.不支持增量迭代計算;

????

備注:

資料來源于:DT_大數據夢工廠(IMF傳奇行動絕密課程)-IMF

更多私密內容,請關注微信公眾號:DT_Spark

如果您對大數據Spark感興趣,可以免費聽由王家林老師每天晚上20:00開設的Spark永久免費公開課,地址YY房間號:68917580

Life is short,you need to Spark.


轉載于:https://blog.51cto.com/18610086859/1771134

總結

以上是生活随笔為你收集整理的第14课:Spark RDD解密的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。