當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

spark 源码分析之十三 -- SerializerManager剖析

發(fā)布時間：2024/4/17 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了 spark 源码分析之十三 -- SerializerManager剖析小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

對SerializerManager的說明：

它是為各種Spark組件配置序列化，壓縮和加密的組件，包括自動選擇用于shuffle的Serializer。spark中的數(shù)據(jù)在network IO 或 local disk IO傳輸過程中。都需要序列化。其默認的 Serializer 是?org.apache.spark.serializer.JavaSerializer，在一定條件下，可以使用kryo，即org.apache.spark.serializer.KryoSerializer。

支持的兩種序列化方式

即值的類型是八種基本類型中一種或null或String，都會使用kryo，否則使用默認序列化方式，即java序列化方式。

它還負責(zé)讀寫B(tài)lock流是否使用壓縮：

數(shù)據(jù)流是否支持壓縮

默認情況下：

其中，如果使用壓縮，默認的壓縮是 lz4，可以通過參數(shù)?spark.io.compression.codec 來配置。它支持的所有壓縮類型如下：

讀寫數(shù)據(jù)流如何支持壓縮

其中，支持壓縮的InputStream和OutputStream是對原來的InputStream和OutputStream做了包裝。我們以LZ4BlockOutputStream為例說明。

調(diào)用如下函數(shù)返回支持壓縮的OutputStream：

首先，LZ4BlockOutputStream的繼承關(guān)系如下：

被包裝的類被放到了FilterOutputStream類的out 字段中，如下：

outputStream核心方法就是write。直接來看LZ4BlockOutputStream的write方法：

其中buffer是一個byte 數(shù)組，默認是 32k，可以通過spark.io.compression.lz4.blockSize 參數(shù)來指定，在LZ4BlockOutputStream類中用blockSize保存。

重點看flushBufferedData方法：

方法內(nèi)部實現(xiàn)思路如下：

外部寫入到buffer中的數(shù)據(jù)經(jīng)過compressor壓縮到compressorBuffer中，然后再寫入一些magic，最終將壓縮的buffer寫入到out中，write操作結(jié)束。

可見，數(shù)據(jù)的壓縮是由?LZ4BlockOutputStream 負責(zé)的，壓縮之后的數(shù)據(jù)被寫入到目標outputStream中。

轉(zhuǎn)載于:https://www.cnblogs.com/johnny666888/p/11190380.html

總結(jié)

以上是生活随笔為你收集整理的spark 源码分析之十三 -- SerializerManager剖析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。