Storm精华问答 | 为什么要用Storm?不用Spark?
戳藍字“CSDN云計算”關注我們哦!
Apache Storm是一個分布式實時大數據處理系統。Storm設計用于在容錯和水平可擴展方法中處理大量數據。它是一個流數據框架,具有最高的攝取率。今天,我們就挑一些Storm的安裝配置問題來看看吧。
1
? Q:Storm簡介
A:1.Storm是一套分布式的、可靠的,可容錯的用于處理流式數據的系統。?
2.Storm也是基于C/S架構來進行工作的,C負責將數據處理的方式的jar(Topology)發送給S,S解析C發送過來的jar(Topology),并按一定規則jar變成多個Task((Spout/Bolt)),生成相關的進程和線程運行里面的Task。?
Q:topology工作原理
A:1.Storm集群中有兩種節點,一種是控制節點(Nimbus節點),另一種是工作節點(Supervisor節點)。?
2.所有Topology任務的 提交必須在Storm客戶端節點上進行(需要配置 storm.yaml文件),由Nimbus節點分配給其他Supervisor節點進行處理。?
3.Nimbus節點首先將提交的Topology進行分片(Spout/Bolt),分成一個個的Task,并將Task和Supervisor相關的信息提交到 zookeeper集群上。?
4.Supervisor會去zookeeper集群上認領自己的Task,通知自己的Worker進程進行Task的處理。?
? ? ? ?Q:Storm有哪些特性?
? ? ? ?A:?1.適用場景廣泛: storm可以實時處理消息和更新DB,對一個數據量進行持續的查詢并返回客戶端(持續計算),對一個耗資源的查詢作實時并行化的處理(分布式方法調用,即DRPC),storm的這些基礎API可以滿足大量的場景。
? ? 2. 可伸縮性高:? Storm的可伸縮性可以讓storm每秒可以處理的消息量達到很高。擴展一個實時計算任務,你所需要做的就是加機器并且提高這個計算任務的并行度 。Storm使用ZooKeeper來協調集群內的各種配置使得Storm的集群可以很容易的擴展。
? ? 3. 保證無數據丟失: 實時系統必須保證所有的數據被成功的處理。 那些會丟失數據的系統的適用場景非常窄, 而storm保證每一條消息都會被處理, 這一點和S4相比有巨大的反差。
? ? 4. 異常健壯: storm集群非常容易管理,輪流重啟節點不影響應用。
? ? 5. 容錯性好:在消息處理過程中出現異常, storm會進行重試
? ? 6. 語言無關性: Storm的topology和消息處理組件(Bolt)可以用任何語言來定義, 這一點使得任何人都可以使用storm。
4Q:Storm的集群結構
A:
5
??Q:為什么要用Storm?為什么不用Spark?
??
? A:很多場景下,我們希望系統能夠實時的處理一條數據、甚至是事務。也就是說,在處理數據、事務的過程中,到達系統,并能馬上得到結果。其次,在成萬上億條數據大量涌入系統時,也要求“實時”的到事務處理的結果。此時,單個節點已經是杯水車薪了,而Storm的關鍵一項是因為它支持分布式并行計算!如果說,你遇到了以上相似的場景,那Storm可以當仁不讓的扛起實時處理的大旗!
這個問題其實很難界定,因為Spark在RDD粒度上,可以滿足實時計算的要求,當然,使用RDD還有其他優勢;但總的來說,Storm 的實時性更強。其次,Storm的框架完全按照流式處理的思想構建,和項目場景結合性更強一些。(Spark 用的不是很多,歡迎吐槽。)
在看Storm之前,很多人都對Hadoop有一定了解,為了能更快入戲,我們以Hadoop為參照,以下是它使用yarn之前的架構,對照Storm Server框架理解。
小伙伴們沖鴨,后臺留言區等著你!
關于Storm,今天你學到了什么?還有哪些不懂的?除此還對哪些話題感興趣?快來留言區打卡啦!留言方式:打開第XX天,答:……
同時歡迎大家搜集更多問題,投稿給我們!風里雨里留言區里等你~
福利
掃描添加小編微信,備注“姓名+公司職位”,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習!
推薦閱讀:
同樣是消息隊列,Kafka憑什么速度那么快?
蘋果宣布加入CNCF;華為要求美國運營商支付專利費;微軟刪除最大的公開人臉識別數據集
如何給老婆解釋什么是微服務?
任正非:華為 100% 沒有后門
阿里巴巴楊群:高并發場景下Python的性能挑戰
那些去德國的程序員后來怎么樣了?
新技術“紅”不過十年,半監督學習為什么是個例外?
獨家對話V神! 質疑之下的以太坊路在何方?
真香,朕在看了!
總結
以上是生活随笔為你收集整理的Storm精华问答 | 为什么要用Storm?不用Spark?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深圳市罗湖区邮政编码是多少号
- 下一篇: Boost:演示如何计算加权统计信息