當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

面试官：看你简历写了熟悉Kafka，它为什么速度会这么快？

發(fā)布時間：2024/2/28 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了面试官：看你简历写了熟悉Kafka，它为什么速度会这么快？小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言

Kafka的消息是保存或緩存在磁盤上的，一般認為在磁盤上讀寫數(shù)據(jù)是會降低性能的，因為尋址會比較消耗時間，但是實際上，Kafka的特性之一就是高吞吐率。

即使是普通的服務(wù)器，Kafka也可以輕松支持每秒百萬級的寫入請求，超過了大部分的消息中間件，這種特性也使得Kafka在日志處理等海量數(shù)據(jù)場景廣泛應(yīng)用。

針對Kafka的基準測試可以參考，Apache Kafka基準測試：每秒寫入2百萬（在三臺廉價機器上）

下面從數(shù)據(jù)寫入和讀取兩方面分析，為什么Kafka速度這么快。

一、寫入數(shù)據(jù)

Kafka會把收到的消息都寫入到硬盤中，它絕對不會丟失數(shù)據(jù)。為了優(yōu)化寫入速度Kafka采用了兩個技術(shù)，順序?qū)懭牒蚆MFile 。

1.順序?qū)懭?/strong>

磁盤讀寫的快慢取決于你怎么使用它，也就是順序讀寫或者隨機讀寫。在順序讀寫的情況下，磁盤的順序讀寫速度和內(nèi)存持平。

因為硬盤是機械結(jié)構(gòu)，每次讀寫都會尋址->寫入，其中尋址是一個“機械動作”，它是最耗時的。所以硬盤最討厭隨機I/O，最喜歡順序I/O。為了提高讀寫硬盤的速度，Kafka就是使用順序I/O。

而且Linux對于磁盤的讀寫優(yōu)化也比較多，包括read-ahead和write-behind，磁盤緩存等。如果在內(nèi)存做這些操作的時候，一個是JAVA對象的內(nèi)存開銷很大，另一個是隨著堆內(nèi)存數(shù)據(jù)的增多，JAVA的GC時間會變得很長，使用磁盤操作有以下幾個好處：

順序?qū)懭氪疟P順序讀寫速度超過內(nèi)存隨機讀寫
順序?qū)懭隞VM的GC效率低，內(nèi)存占用大。使用磁盤可以避免這一問題
順序?qū)懭胂到y(tǒng)冷啟動后，磁盤緩存依然可用

下圖就展示了Kafka是如何寫入數(shù)據(jù)的，每一個Partition其實都是一個文件，收到消息后Kafka會把數(shù)據(jù)插入到文件末尾（虛框部分）：

?

這種方法有一個缺陷——沒有辦法刪除數(shù)據(jù) ，所以Kafka是不會刪除數(shù)據(jù)的，它會把所有的數(shù)據(jù)都保留下來，每個消費者（Consumer）對每個Topic都有一個offset用來表示讀取到了第幾條數(shù)據(jù) 。

?

兩個消費者：

順序?qū)懭隒onsumer1有兩個offset分別對應(yīng)Partition0、Partition1（假設(shè)每一個Topic一個Partition）；
順序?qū)懭隒onsumer2有一個offset對應(yīng)Partition2。

這個offset是由客戶端SDK負責保存的，Kafka的Broker完全無視這個東西的存在；一般情況下SDK會把它保存到Zookeeper里面，所以需要給Consumer提供zookeeper的地址。

如果不刪除硬盤肯定會被撐滿，所以Kakfa提供了兩種策略來刪除數(shù)據(jù)：

順序?qū)懭胍皇腔跁r間。
順序?qū)懭攵腔趐artition文件大小。

具體配置可以參看它的配置文檔

2.Memory Mapped Files

即便是順序?qū)懭胗脖P，硬盤的訪問速度還是不可能追上內(nèi)存。所以Kafka的數(shù)據(jù)并不是實時的寫入硬盤，它充分利用了現(xiàn)代操作系統(tǒng)分頁存儲來利用內(nèi)存提高I/O效率。

Memory Mapped Files(后面簡稱mmap)也被翻譯成內(nèi)存映射文件，在64位操作系統(tǒng)中一般可以表示20G的數(shù)據(jù)文件，它的工作原理是直接利用操作系統(tǒng)的Page來實現(xiàn)文件到物理內(nèi)存的直接映射。

完成映射之后你對物理內(nèi)存的操作會被同步到硬盤上（操作系統(tǒng)在適當?shù)臅r候）。

通過mmap，進程像讀寫硬盤一樣讀寫內(nèi)存（當然是虛擬機內(nèi)存），也不必關(guān)心內(nèi)存的大小有虛擬內(nèi)存為我們兜底。

使用這種方式可以獲取很大的I/O提升，省去了用戶空間到內(nèi)核空間復(fù)制的開銷（調(diào)用文件的read會把數(shù)據(jù)先放到內(nèi)核空間的內(nèi)存中，然后再復(fù)制到用戶空間的內(nèi)存中。）

但也有一個很明顯的缺陷——不可靠，寫到mmap中的數(shù)據(jù)并沒有被真正的寫到硬盤，操作系統(tǒng)會在程序主動調(diào)用flush的時候才把數(shù)據(jù)真正的寫到硬盤。

Kafka提供了一個參數(shù)——producer.type來控制是不是主動flush，如果Kafka寫入到mmap之后就立即flush然后再返回Producer叫同步 (sync)；寫入mmap之后立即返回Producer不調(diào)用flush叫異步 (async)。

二、讀取數(shù)據(jù)

Kafka在讀取磁盤時做了哪些優(yōu)化？

1.基于sendfile實現(xiàn)Zero Copy

傳統(tǒng)模式下，當需要對一個文件進行傳輸?shù)臅r候，其具體流程細節(jié)如下：

基于sendfile實現(xiàn)Zero Copy調(diào)用read函數(shù)，文件數(shù)據(jù)被copy到內(nèi)核緩沖區(qū)
read函數(shù)返回，文件數(shù)據(jù)從內(nèi)核緩沖區(qū)copy到用戶緩沖區(qū)
write函數(shù)調(diào)用，將文件數(shù)據(jù)從用戶緩沖區(qū)copy到內(nèi)核與socket相關(guān)的緩沖區(qū)。
數(shù)據(jù)從socket緩沖區(qū)copy到相關(guān)協(xié)議引擎。

以上細節(jié)是傳統(tǒng)read/write方式進行網(wǎng)絡(luò)文件傳輸?shù)姆绞?#xff0c;我們可以看到，在這個過程當中，文件數(shù)據(jù)實際上是經(jīng)過了四次copy操作：

硬盤—>內(nèi)核buf—>用戶buf—>socket相關(guān)緩沖區(qū)—>協(xié)議引擎

而sendfile系統(tǒng)調(diào)用則提供了一種減少以上多次copy，提升文件傳輸性能的方法。

在內(nèi)核版本2.1中，引入了sendfile系統(tǒng)調(diào)用，以簡化網(wǎng)絡(luò)上和兩個本地文件之間的數(shù)據(jù)傳輸。sendfile的引入不僅減少了數(shù)據(jù)復(fù)制，還減少了上下文切換。
sendfile(socket, file, len);
運行流程如下：

sendfile系統(tǒng)調(diào)用，文件數(shù)據(jù)被copy至內(nèi)核緩沖區(qū)
再從內(nèi)核緩沖區(qū)copy至內(nèi)核中socket相關(guān)的緩沖區(qū)
最后再socket相關(guān)的緩沖區(qū)copy到協(xié)議引擎

相較傳統(tǒng)read/write方式，2.1版本內(nèi)核引進的sendfile已經(jīng)減少了內(nèi)核緩沖區(qū)到user緩沖區(qū)，再由user緩沖區(qū)到socket相關(guān)緩沖區(qū)的文件copy，而在內(nèi)核版本2.4之后，文件描述符結(jié)果被改變，sendfile實現(xiàn)了更簡單的方式，再次減少了一次copy操作。

在Apache、Nginx、lighttpd等web服務(wù)器當中，都有一項sendfile相關(guān)的配置，使用sendfile可以大幅提升文件傳輸性能。

Kafka把所有的消息都存放在一個一個的文件中，當消費者需要數(shù)據(jù)的時候Kafka直接把文件發(fā)送給消費者，配合mmap作為文件讀寫方式，直接把它傳給sendfile。

2.批量壓縮

在很多情況下，系統(tǒng)的瓶頸不是CPU或磁盤，而是網(wǎng)絡(luò)IO，對于需要在廣域網(wǎng)上的數(shù)據(jù)中心之間發(fā)送消息的數(shù)據(jù)流水線尤其如此。進行數(shù)據(jù)壓縮會消耗少量的CPU資源,不過對于kafka而言,網(wǎng)絡(luò)IO更應(yīng)該需要考慮。

如果每個消息都壓縮，但是壓縮率相對很低，所以Kafka使用了批量壓縮，即將多個消息一起壓縮而不是單個消息壓縮
Kafka允許使用遞歸的消息集合，批量的消息可以通過壓縮的形式傳輸并且在日志中也可以保持壓縮格式，直到被消費者解壓縮
Kafka支持多種壓縮協(xié)議，包括Gzip和Snappy壓縮協(xié)議

三、總結(jié)

Kafka速度的秘訣在于，它把所有的消息都變成一個批量的文件，并且進行合理的批量壓縮，減少網(wǎng)絡(luò)IO損耗，通過mmap提高I/O速度，寫入數(shù)據(jù)的時候由于單個Partion是末尾添加所以速度最優(yōu)；讀取數(shù)據(jù)的時候配合sendfile直接暴力輸出。

最后

分享一份學(xué)習筆記與一份面試文檔整理（《Java重要知識點筆記.pdf》《Java中高級面試專題匯總文檔筆記.pdf》）“，覆蓋了JVM、鎖、高并發(fā)、反射、Spring原理、微服務(wù)、Zookeeper、數(shù)據(jù)庫、數(shù)據(jù)結(jié)構(gòu)等等”，加入群（Java高級架構(gòu)交流）714827309免費獲取資料！

?

JVM和性能優(yōu)化學(xué)習筆記（還有更多就不做展示了）

總結(jié)

以上是生活随笔為你收集整理的面试官：看你简历写了熟悉Kafka，它为什么速度会这么快？的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

看你

面试官

写了

它为

歡迎分享！

轉(zhuǎn)載請說明來源于"生活随笔"，并保留原作者的名字。

本文地址：面试官：看你简历写了熟悉Kafka，它为什么速度会这么快？

上一篇： Linux下axel多线程下载

下一篇： Openstack 与VMware 不同

最新發(fā)布

IO流操作HDFS

JAVA操作Hadoop

Hadoop伪分布式运行案例

移植uboot第十步：制作uboot补丁

移植uboot第九步：支持yaffs映像烧写

熱門推薦

蓝牙厂商代码与公司对应列表

历年高考报考人数和录取人数

历年高考报考人数和录取人数

河南王牌计算机专业,河南计算机专业实力突出的7所大学，郑大位列次席，榜首实至名归...

历年高考报考人数和录取人数

標簽云

连接数据库

单元格

蓝牙耳机

程序语言

微信游戏

软件安装

双系统

游戏开发者

设计理念

计算机资源

山梨醇

什么都没

胎盘

骄子

archetype

曲儿小腔儿大

CRITICAL

整首歌

绥中县

占了