日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark精华问答 | spark性能优化方法

發(fā)布時(shí)間:2024/9/27 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark精华问答 | spark性能优化方法 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Hadoop再火,火得過Spark嗎?今天我們繼續(xù)關(guān)于Spark的精華問答吧。



1

Q:影響性能的主要因素是什么?


A:網(wǎng)絡(luò)傳輸開銷大

硬件資源利用率低

同一資源的復(fù)用率低


2

Q:優(yōu)化的方向有哪些?


A:設(shè)置數(shù)據(jù)本地化,減少跨節(jié)點(diǎn)跨機(jī)架的網(wǎng)絡(luò)傳輸開銷

設(shè)置合適的存儲(chǔ)格式,推薦orc,縮短查詢時(shí)間

設(shè)置內(nèi)存計(jì)算的大小和task數(shù)量,根據(jù)集群內(nèi)存和磁盤大小調(diào)整

調(diào)整分區(qū)數(shù)量,提高查詢性能

減少RDD的重復(fù)創(chuàng)建,同時(shí)盡可能復(fù)用已存在的RDD

減少使用shuffle類算子(reduceByKey,join,distinct,repartition)

選擇可替代的最佳算子,reduceByKey替代groupByKey,mapPartitions替代map

避免數(shù)據(jù)傾斜,如map端Join,對數(shù)據(jù)深入理解的前提修改key調(diào)整reduce端的數(shù)據(jù)傾斜

提高spark最大的瓶頸-內(nèi)存


3

Q優(yōu)化的手段


A:調(diào)優(yōu)參數(shù)雖名目多樣,但最終目的是提高CPU利用率,降低帶寬IO,提高緩存命中率,減少數(shù)據(jù)落盤。?(以下參數(shù)主要用于Spark Thriftserver,僅供參考)


4

Q:Spark生態(tài)圈介紹


A:Spark力圖整合機(jī)器學(xué)習(xí)(MLib)、圖算法(GraphX)、流式計(jì)算(Spark Streaming)和數(shù)據(jù)倉庫(Spark SQL)等領(lǐng)域,通過計(jì)算引擎Spark,彈性分布式數(shù)據(jù)集(RDD),架構(gòu)出一個(gè)新的大數(shù)據(jù)應(yīng)用平臺(tái)。


??? Spark生態(tài)圈以HDFS、S3、Techyon為底層存儲(chǔ)引擎,以Yarn、Mesos和Standlone作為資源調(diào)度引擎;使用Spark,可以實(shí)現(xiàn)MapReduce應(yīng)用;基于Spark,Spark SQL可以實(shí)現(xiàn)即席查詢,Spark Streaming可以處理實(shí)時(shí)應(yīng)用,MLib可以實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法,GraphX可以實(shí)現(xiàn)圖計(jì)算,SparkR可以實(shí)現(xiàn)復(fù)雜數(shù)學(xué)計(jì)算。


5

Q:Spark?SQL


A:基于HiveQL與Spark交互的API接口,將一個(gè)數(shù)據(jù)庫表看作一個(gè)RDD進(jìn)行操作

數(shù)據(jù)類型為DataFrame,支持結(jié)構(gòu)化的數(shù)據(jù)文件,Hive表和已存在的RDD

兼容性好,支持nosql數(shù)據(jù)庫

通過內(nèi)存列存儲(chǔ)技術(shù)和字節(jié)碼生成技術(shù)實(shí)現(xiàn)空間占用量,讀取吞吐率和SQL表達(dá)式的優(yōu)化,查詢性能高


小伙伴們沖鴨,后臺(tái)留言區(qū)等著你!

關(guān)于Spark,今天你學(xué)到了什么?還有哪些不懂的?除此還對哪些話題感興趣?快來留言區(qū)打卡啦!留言方式:打開第XX天,答:……

同時(shí)歡迎大家搜集更多問題,投稿給我們!風(fēng)里雨里留言區(qū)里等你~


福利

1、掃描添加小編微信,備注“姓名+公司職位”,加入【云計(jì)算學(xué)習(xí)交流群】,和志同道合的朋友們共同打卡學(xué)習(xí)!


2、公眾號后臺(tái)回復(fù):白皮書,獲取IDC最新數(shù)據(jù)白皮書整理資料!


推薦閱讀:

  • 三十四載Windows崛起之路:?蘋果、可視做過微軟“鋪路石”

  • 面試官:你簡歷中寫用過docker,能說說容器和鏡像的區(qū)別嗎?

  • 2019年技術(shù)盤點(diǎn)容器篇(二):聽騰訊云講講踏入成熟期的容器技術(shù) | 程序員硬核評測

  • C++、Python、Rust、Scala構(gòu)建編譯器的差異性究竟有多大?

  • 想換行做 5G 的開發(fā)者到底該咋辦?

  • 如何在標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)流程上玩出新花樣?

  • 獨(dú)家 | Vitalik Buterin:以太坊2.0之跨分片交易

  • 滴滴章文嵩:不僅軟件開源,還向?qū)W界開放數(shù)據(jù)


    真香,朕在看了!

總結(jié)

以上是生活随笔為你收集整理的Spark精华问答 | spark性能优化方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。