告警系统的一些痛点思考
生活随笔
收集整理的這篇文章主要介紹了
告警系统的一些痛点思考
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
告警風暴
隨著業務系統接入越拉越多,告警配置也會越來越多;如果出現故障,故障影響模塊過多、相關人員關注的模塊越多,必然會造成告警風暴。
怎么解決呢?
合理的配置告警告警降噪,防抖動,比如連續出現多少次告警才認為有問題關注各自的告警模塊、核心的告警指標推送到值班大群周知告警聚合,可能會導致告警稍微延遲一下根因定位,直接給出根因壓測期間告警處理
壓測很容易搞出事情來,我們需要實時監控我們的系統運行情況,一般我們會抽取相關的大盤,然后在壓測期間統一關注,我們可以考慮關閉電話告警,來防止騷擾。
保留普通的社交軟件通知,比如我們辦公軟件、微信、釘釘等。
告警治理
為什么要進行告警治理?
接入的業務系統增多、告警數量增多告警推送出去是否有人看到了,是否有人在處理,原因是什么?告警閉環,只有閉環才能有始有終
告警治理的是什么?
無效的告警、告警風暴告警回執率過低,告警率過高
如何進行告警治理?
統計分析,按部門、小組統計告警數量、回執數量,提供日報、周報、實時報表說明告警治理的好處,比如減少無效告警,我們可以防騷擾,防恐慌等等拉值班群,拉上層,借勢推告警治理
?
總結
以上是生活随笔為你收集整理的告警系统的一些痛点思考的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Vue视频教程系列第三十七节-子路由地配
- 下一篇: java信息管理系统总结_java实现科