云计算管理三利器:Nagios、Ganglia和Splunk
概述
我們?cè)诖罱ㄚ厔?shì)云計(jì)算平臺(tái)時(shí),遇到了很多的問題和挑戰(zhàn)。開始搭建時(shí),第一次來了那么多性能強(qiáng)勁的機(jī)器,我們?cè)诟械脚d奮的同時(shí),也不免有些顧慮。大家坐在一起討論,問題就列了滿滿一白板。
出了問題怎么辦,有沒有預(yù)警機(jī)制?有沒有可視化的管理界面?管理平臺(tái)需要自己開發(fā)嗎?開發(fā)難度有多大?有沒有開源的管理工具?那么多日志分布在各個(gè)機(jī)器上,有沒有更有效的方法管理?能否生成好的報(bào)表?機(jī)器宕機(jī),管理員能否收到短信通知?如何做性能調(diào)優(yōu)?擴(kuò)容升級(jí)時(shí),能否給出依據(jù)?
帶著這些問題,我們開始了自己的云計(jì)算平臺(tái)管理和運(yùn)營(yíng)之旅,一路走來,收獲頗豐。現(xiàn)在基本上形成了如圖1所示的一整套云計(jì)算平臺(tái)監(jiān)控體系。
圖1云計(jì)算平臺(tái)監(jiān)控架構(gòu)
在這個(gè)系統(tǒng)中,我們綜合利用了Nagios、Ganglia和Splunk,搭建起云計(jì)算平臺(tái)監(jiān)控體系,使其具備錯(cuò)誤報(bào)警、性能調(diào)優(yōu)、問題追蹤和自動(dòng)生成運(yùn)維報(bào)表的功能。有了這套系統(tǒng),我們終于能夠輕松管理Hadoop/HBase云計(jì)算平臺(tái)了。接下來將簡(jiǎn)單介紹它們的特點(diǎn)和功能。
Nagios:云計(jì)算平臺(tái)的智能報(bào)警器
總不能天天盯著機(jī)器看吧,因此我們首先關(guān)心的是機(jī)器的監(jiān)控與報(bào)警。最理想的境界是:如果機(jī)器出故障了,我能第一時(shí)間處理;如果機(jī)器沒有問題(最好永遠(yuǎn)沒有問題),我能去喝茶、釣魚和睡大覺。
發(fā)現(xiàn)機(jī)器有沒有問題,對(duì)我們而言不是什么難事。寫個(gè)腳本,Ping一下IP,Telnet每臺(tái)機(jī)器的Service端口,如果增加了新機(jī)器就改改配置即可。但這樣也太原始了吧,可視化效果差,不好維護(hù),沒有層次,不好管理,出不來報(bào)表,總不能老是用Excel人工寫報(bào)表吧。有沒有更好的方法呢?
有,你可以用Nagios。
Nagios是一個(gè)可運(yùn)行在Linux/Unix平臺(tái)之上的開源監(jiān)視系統(tǒng),可以用來監(jiān)視系統(tǒng)運(yùn)行狀態(tài)和網(wǎng)絡(luò)信息。Nagios可以監(jiān)視所指定的本地或遠(yuǎn)程主機(jī)以及服務(wù),同時(shí)提供異常通知功能。
Nagios可以提供以下幾種監(jiān)控功能。
監(jiān)控網(wǎng)絡(luò)服務(wù)(SMTP、POP3、HTTP、NNTP、Ping等)。監(jiān)控主機(jī)資源(處理器負(fù)荷、磁盤利用率等)。簡(jiǎn)單的插件設(shè)計(jì)使得用戶可以方便地?cái)U(kuò)展自己服務(wù)的檢測(cè)方法。并行服務(wù)檢查機(jī)制。具備定義網(wǎng)絡(luò)分層結(jié)構(gòu)的能力,并使用“parent”主機(jī)定義來表達(dá)網(wǎng)絡(luò)主機(jī)間的關(guān)系,這種關(guān)系可被用來發(fā)現(xiàn)和明晰主機(jī)宕機(jī)或不可達(dá)狀態(tài)。當(dāng)服務(wù)或主機(jī)問題產(chǎn)生與解決時(shí)將告警發(fā)送給聯(lián)系人(通過電子郵件、短信、用戶定義方式)。具備定義事件處理功能,可以在主機(jī)或服務(wù)的事件發(fā)生時(shí)獲取更多問題定位。自動(dòng)的日志回滾。可以支持并實(shí)現(xiàn)對(duì)主機(jī)的冗余監(jiān)控。可選的Web界面用于查看當(dāng)前的網(wǎng)絡(luò)狀態(tài)、通知和故障歷史、日志文件等。
Nagios最好用的地方就是它將這些每天管理員做的工作自動(dòng)化,你只需設(shè)定好要監(jiān)聽的端口即可,它會(huì)默默地工作,幫忙定時(shí)地去檢測(cè)服務(wù)端口的狀態(tài),一旦發(fā)現(xiàn)問題,會(huì)及時(shí)發(fā)出報(bào)警。報(bào)警可以是電子郵件也可以是手機(jī),從而使得管理員第一時(shí)間就能收到系統(tǒng)的狀況。
Nagios的報(bào)表功能也很強(qiáng)大。管理員可以很容易地得到每天、每周和每月的Service運(yùn)行狀況。
圖2SPN后臺(tái)運(yùn)行的所有Service的當(dāng)前狀態(tài)
如圖2所示,紅色部分清楚地標(biāo)注有問題的機(jī)器,點(diǎn)開鏈接,就可以得到有問題機(jī)器的情況。雖然在HBase中,幾臺(tái)RegionServer宕機(jī)不會(huì)對(duì)整體服務(wù)產(chǎn)生大的影響,但多少會(huì)影響到系統(tǒng)的Performance。而且,如果某幾臺(tái)RegionServer頻繁宕機(jī),對(duì)整個(gè)系統(tǒng)的穩(wěn)定性也會(huì)產(chǎn)生不好的影響。有了Nagios,我們可以快速定位有問題的機(jī)器,及時(shí)地將一些機(jī)器移除出HBase系統(tǒng),待調(diào)整好了再上線運(yùn)行,以保證系統(tǒng)的穩(wěn)定性。
現(xiàn)在,Nagios已經(jīng)成為了很多公司必備的監(jiān)控工具。只需要簡(jiǎn)單地配置,就可以實(shí)現(xiàn)強(qiáng)大的功能,將管理員從日常煩瑣的工作中解放出來。
有了Nagios,哪怕就是管理上千臺(tái)機(jī)器,也不會(huì)手忙腳亂,而是有一種統(tǒng)領(lǐng)千軍、運(yùn)籌帷幄的感覺。
Ganglia:看到云計(jì)算平臺(tái)的方方面面
Nagios的確不錯(cuò),但你是不是真的可以喝茶、釣魚、睡大覺呢?顯然還不行。有了Nagios,你基本上可以做個(gè)優(yōu)秀的救火隊(duì)員,能在事發(fā)第一時(shí)間到達(dá)現(xiàn)場(chǎng)、處理事故。但如何防患于未然,真正做到運(yùn)籌帷幄、游刃有余呢?
我們需要更加精確的數(shù)據(jù),能夠看到云計(jì)算平臺(tái)的方方面面,能根據(jù)這些數(shù)據(jù),做出性能調(diào)整、升級(jí)、擴(kuò)容等的決策,從而保證Service能夠滿足不斷增長(zhǎng)的業(yè)務(wù)需求。
這時(shí)候,你需要Ganglia。
Ganglia是UCBerkeley發(fā)起的一個(gè)開源實(shí)時(shí)監(jiān)視項(xiàng)目,用于測(cè)量數(shù)以千計(jì)的節(jié)點(diǎn),為云計(jì)算系統(tǒng)提供系統(tǒng)靜態(tài)數(shù)據(jù)以及重要的性能度量數(shù)據(jù)。Ganglia系統(tǒng)基本包含以下三大部分。
Gmond:Gmond運(yùn)行在每臺(tái)計(jì)算機(jī)上,它主要監(jiān)控每臺(tái)機(jī)器上收集和發(fā)送度量數(shù)據(jù)(如處理器速度、內(nèi)存使用量等)。
Gmetad:Gmetad運(yùn)行在Cluster的一臺(tái)主機(jī)上,作為WebServer,或者用于與WebServer進(jìn)行溝通。
GangliaWeb前端:Web前端用于顯示Ganglia的Metrics圖表。
Hadoop和HBase本身對(duì)于Ganglia的支持非常好。通過簡(jiǎn)單的配置,我們可以將Hadoop和HBase的一些關(guān)鍵參數(shù)以圖表的形式展現(xiàn)在Ganglia的WebConsole上。這些對(duì)于我們洞悉Hadoop和HBase的內(nèi)部系統(tǒng)狀態(tài)有很大的幫助。
在Hadoop的conf文件夾下面,找到hadoop-metrics.properties,配置好Ganglia的Server即可。這里要注意,Ganglia3.0和Ganglia3.1的區(qū)別,它們使用了不同的class。
dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
dfs.period=10
dfs.servers={Ganglia_Server}:8649
有了這些圖表,Hadoop和HBase就不再是一個(gè)黑盒。無論是Hadoop的Namenode、Datanode,還是HBase的MasterServer、RegionServer任何時(shí)刻的情況,都會(huì)一目了然。由于圖標(biāo)的跨度可以是小時(shí)、天、月甚至是年,這樣,就可以非常方便地定期生成周報(bào)、月報(bào)和年報(bào)。同時(shí),根據(jù)圖中Metrics的狀況,我們可以通過調(diào)整參數(shù)、增加內(nèi)存和硬盤、增加機(jī)器等的方法調(diào)整單個(gè)機(jī)器或者整個(gè)Service的性能。
圖3Hadoop其中一個(gè)DataNode的Metrics
Nagios最大的問題在于不能洞悉到Service內(nèi)部的狀況。像Hadoop、HBase這樣的分布式系統(tǒng),一個(gè)節(jié)點(diǎn)的故障并不等于整個(gè)Service的故障,影響的只是Service的性能。所以,在測(cè)定Service的SLA時(shí),我們不能以某一臺(tái)機(jī)器的故障作為Service故障的評(píng)判標(biāo)準(zhǔn)。比如在我們的HBaseSLA的設(shè)定上,我們定義了HBaseService完全不能工作的評(píng)判標(biāo)準(zhǔn)如下。
MasterServer聯(lián)系不上。所有RegionServer都無法聯(lián)系上。-ROOT-表無法訪問。.META.表無法訪問。
圖4Ganglia對(duì)Hadoop/HBase使用情況的監(jiān)測(cè)
那么,我們就可以根據(jù)這個(gè)規(guī)則定義SLA,通過定期調(diào)用HBaseAdmin相應(yīng)API,將測(cè)試的結(jié)果發(fā)給Ganglia。采用同樣的方法,我們還可以自定義一些規(guī)則,監(jiān)視HBaseMaster、Zookeeper等的情況。
通過這些方法,我們完全能夠針對(duì)Hadoop/HBase使用的實(shí)際情況,做出Service級(jí)別而不是機(jī)器級(jí)別的監(jiān)控系統(tǒng)并生成報(bào)表。
此外,Ganglia還可以通過Server反饋回來的Load信息,給出各個(gè)機(jī)器的Load情況,給我們做升級(jí)和擴(kuò)容提供依據(jù)。
如圖5所示,Ganglia分別會(huì)用不同顏色,標(biāo)注出當(dāng)前時(shí)刻的機(jī)器Load分布情況。如果Load過重,就應(yīng)該檢查機(jī)器的具體使用情況。
圖5HBaseClusterLoadMetrics
Ganglia的安裝配置,可以參考:http://www.spnguru.com/?p=604。
Splunk:像查Google一樣查日志
有了Nagios和Ganglia,算是成功了一大半。作為一名優(yōu)秀的管理員,我們需要具備一定的Troubleshooting能力,對(duì)一些常見的問題能給出解決方案。那么,對(duì)日志的分析就必不可少。
但Hadoop/HBase的日志分布在各個(gè)機(jī)器上面,而日志之間關(guān)聯(lián)性強(qiáng)。Client端的錯(cuò)誤有可能是RegionServer引起,而RegionServer的錯(cuò)誤有可能是Zookeeper導(dǎo)致。有沒有一個(gè)統(tǒng)一的日志管理平臺(tái)呢?
眾里尋它千百度,驀然回首,我們找到了Splunk——日志界的Google。
很遺憾,Splunk不是開源的,但它的免費(fèi)版本提供每天500MB日志索引。如果數(shù)據(jù)量較小,通過定義好Log的級(jí)別,基本上也能滿足需求。但對(duì)于數(shù)據(jù)量較大的公司,就有些捉襟見肘。
Splunk支持AdHoc的日志搜索,而且可以與Nagios配合使用。比如Nagios報(bào)警某臺(tái)RegionServer端口不可達(dá),我們收到Notification后,登錄Splunk,直接搜索shutdown和host名稱,找到RegionServer退出的日志。點(diǎn)擊詳細(xì)信息,分析日志,就能快速定位問題。如圖6所示。
圖6Splunk與Nagios配合使用進(jìn)行日志搜索
對(duì)Hadoop和HBase有了進(jìn)一步了解后,我們可以利用Splunk實(shí)時(shí)檢測(cè)日志中的關(guān)鍵字,定義關(guān)鍵字規(guī)則,如監(jiān)控“shutdown”、“quit”、“ERROR”、“ZookeeperSessionExpired”等,一旦出現(xiàn),利用Splunk的Notification功能,發(fā)出郵件通知管理員,管理員通過Splunk定位問題,就可以在系統(tǒng)真正出現(xiàn)問題之前,對(duì)系統(tǒng)進(jìn)行調(diào)整,防患于未然。
總結(jié)
搭建一套云計(jì)算平臺(tái),強(qiáng)大的監(jiān)控管理系統(tǒng)是必不可少的。當(dāng)然,任何工具都不是萬能的,在實(shí)際維護(hù)過程中,我們也發(fā)現(xiàn),Nagios和Splunk經(jīng)常出現(xiàn)誤報(bào),如果規(guī)則定義得不好,大量的警報(bào)郵件如潮水一樣涌來,反而掩蓋了真正的問題。可以說,在云計(jì)算平臺(tái)的運(yùn)維管理上,沒有一勞永逸的事情,隨著規(guī)模的不斷增大和應(yīng)用的不斷多樣化,需要大家不斷地實(shí)踐和總結(jié)。
總結(jié)
以上是生活随笔為你收集整理的云计算管理三利器:Nagios、Ganglia和Splunk的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SecureCRT 遇到一个致命的错误且
- 下一篇: oracle查询排序asc/desc 多