漫游Kafka设计篇之性能优化
生活随笔
收集整理的這篇文章主要介紹了
漫游Kafka设计篇之性能优化
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
原文地址:http://blog.csdn.net/honglei915/article/details/37564757
Kafka視頻教程同步首發(fā),歡迎觀看!
Kafka在提高效率方面做了很大努力。Kafka的一個(gè)主要使用場(chǎng)景是處理網(wǎng)站活動(dòng)日志,吞吐量是非常大的,每個(gè)頁面都會(huì)產(chǎn)生好多次寫操作。讀方面,假設(shè)每個(gè)消息只被消費(fèi)一次,讀的量的也是很大的,Kafka也盡量使讀的操作更輕量化。
我們之前討論了磁盤的性能問題,線性讀寫的情況下影響磁盤性能問題大約有兩個(gè)方面:太多的瑣碎的I/O操作和太多的字節(jié)拷貝。I/O問題發(fā)生在客戶端和服務(wù)端之間,也發(fā)生在服務(wù)端內(nèi)部的持久化的操作中。消息集(message set)
為了避免這些問題,Kafka建立了“消息集(message set)”的概念,將消息組織到一起,作為處理的單位。以消息集為單位處理消息,比以單個(gè)的消息為單位處理,會(huì)提升不少性能。Producer把消息集一塊發(fā)送給服務(wù)端,而不是一條條的發(fā)送;服務(wù)端把消息集一次性的追加到日志文件中,這樣減少了瑣碎的I/O操作。consumer也可以一次性的請(qǐng)求一個(gè)消息集。
另外一個(gè)性能優(yōu)化是在字節(jié)拷貝方面。在低負(fù)載的情況下這不是問題,但是在高負(fù)載的情況下它的影響還是很大的。為了避免這個(gè)問題,Kafka使用了標(biāo)準(zhǔn)的二進(jìn)制消息格式,這個(gè)格式可以在producer,broker和producer之間共享而無需做任何改動(dòng)。
zero copy
Broker維護(hù)的消息日志僅僅是一些目錄文件,消息集以固定隊(duì)的格式寫入到日志文件中,這個(gè)格式producer和consumer是共享的,這使得Kafka可以一個(gè)很重要的點(diǎn)進(jìn)行優(yōu)化:消息在網(wǎng)絡(luò)上的傳遞。現(xiàn)代的unix操作系統(tǒng)提供了高性能的將數(shù)據(jù)從頁面緩存發(fā)送到socket的系統(tǒng)函數(shù),在linux中,這個(gè)函數(shù)是sendfile.
為了更好的理解sendfile的好處,我們先來看下一般將數(shù)據(jù)從文件發(fā)送到socket的數(shù)據(jù)流向:
這顯然是低效率的,有4次拷貝和2次系統(tǒng)調(diào)用。Sendfile通過直接將數(shù)據(jù)從頁面緩存發(fā)送網(wǎng)卡接口緩存,避免了重復(fù)拷貝,大大的優(yōu)化了性能。
在一個(gè)多consumers的場(chǎng)景里,數(shù)據(jù)僅僅被拷貝到頁面緩存一次而不是每次消費(fèi)消息的時(shí)候都重復(fù)的進(jìn)行拷貝。這使得消息以近乎網(wǎng)絡(luò)帶寬的速率發(fā)送出去。這樣在磁盤層面你幾乎看不到任何的讀操作,因?yàn)閿?shù)據(jù)都是從頁面緩存中直接發(fā)送到網(wǎng)絡(luò)上去了。
這篇文章 詳細(xì)介紹了sendfile和zero-copy技術(shù)在Java方面的應(yīng)用。
數(shù)據(jù)壓縮
很多時(shí)候,性能的瓶頸并非CPU或者硬盤而是網(wǎng)絡(luò)帶寬,對(duì)于需要在數(shù)據(jù)中心之間傳送大量數(shù)據(jù)的應(yīng)用更是如此。當(dāng)然用戶可以在沒有Kafka支持的情況下各自壓縮自己的消息,但是這將導(dǎo)致較低的壓縮率,因?yàn)橄啾扔趯⑾为?dú)壓縮,將大量文件壓縮在一起才能起到最好的壓縮效果。
Kafka采用了端到端的壓縮:因?yàn)橛小跋⒓钡母拍?#xff0c;客戶端的消息可以一起被壓縮后送到服務(wù)端,并以壓縮后的格式寫入日志文件,以壓縮的格式發(fā)送到consumer,消息從producer發(fā)出到consumer拿到都被是壓縮的,只有在consumer使用的時(shí)候才被解壓縮,所以叫做“端到端的壓縮”。
Kafka支持GZIP和Snappy壓縮協(xié)議。更詳細(xì)的內(nèi)容可以查看 這里 。 超強(qiáng)干貨來襲 云風(fēng)專訪:近40年碼齡,通宵達(dá)旦的技術(shù)人生
總結(jié)
以上是生活随笔為你收集整理的漫游Kafka设计篇之性能优化的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 漫游Kafka设计篇之消息传输的事务定义
- 下一篇: 漫游Kafka设计篇之Producer和