分布式监控系统WGCLOUD故障自愈能力说明
生活随笔
收集整理的這篇文章主要介紹了
分布式监控系统WGCLOUD故障自愈能力说明
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
WGCLOUD是國人開源的優秀運維監控系統,輕巧實用,易上手。
對比普羅米修斯、zabbix等老牌運維工具,雖然不如這些工具全面成熟,但對我們DBA、研發、運維、測試來說,WGCLOUD可以很快安裝好,不用模板腳本,基本就是解壓后啟動,就開始全自動監控主機各種指標了。另外WGCLOUD迭代速度非常快,社區也非常活躍,用戶增長很快。
好了,言歸正傳,說下WGCLOUD的自愈能力是什么意思。
WGCLOUD監控架構是一個server對應N個agent
如果server因為某些原因停止了一段時間(超過12小時)后,agent在嘗試聯系server超過12小時后,不再上報數據,并在日志里會打印"防篡改校驗失敗大于10次,不再上報數據"這樣的信息。
在12小時后,我們再重新啟動server,這個時候顯示agent都已經下線了。
但是不用擔心,agent會在2小時內陸續恢復上線,覺得慢的話也可以手動重啟下agent,會立即上線。
如果因為守護進程端口不通造成的agent防篡改校驗失敗,當守護進程端口正常開放后,也不用重啟agent,也一樣會在2小時候內陸續恢復上線。
?
?
?
?
總結
以上是生活随笔為你收集整理的分布式监控系统WGCLOUD故障自愈能力说明的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: quill上传本地视频(保姆级教学)
- 下一篇: java信息管理系统总结_java实现科