智能巡检告警配置实践
生活随笔
收集整理的這篇文章主要介紹了
智能巡检告警配置实践
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
簡介:智能異常分析的檢測結果通過 SLS 告警功能輸出到用戶配置的通知渠道。在智能巡檢場景中,單個任務往往會巡檢大量的實體對象,涉及到的對象規則很多,我們通過SLS新版告警可以實現較好的對于巡檢事件的管理。
智能異常分析的檢測結果通過 SLS 告警功能輸出到用戶配置的通知渠道。在智能巡檢場景中,單個任務往往會巡檢大量的實體對象,涉及到的對象規則很多,我們通過SLS新版告警可以實現較好的對于巡檢事件的管理。
巡檢事件基礎結構
在這里,我們先簡單看下巡檢任務的基本邏輯:
對于單個巡檢作業而言,內部包含N個實體的巡檢,每個巡檢實體對應一個巡檢模型,其中任意一個異常事件產生后,都會通過告警系統通知到用戶,因此我們需要有能力通過不同的方式將結果進行分發和管理。
我們先看下巡檢事件的基礎結構,具體的內置模板如下所示:
## 數據源 + Project: ${results[0].project} + LogStore: ${results[0].store}## 異常對象 + Entity: ${labels}## 異常程度 + Score: ${annotations.anomaly_score}## 異常時序圖 [[數據詳情](${query_url})] [[作業詳情](${alert_url})][[確認](${annotations.__ensure_url__})] [[誤報](${annotations.__mismatch_url__})]我們一起來看下具體的告警消息的樣例,接下來我們所有的描述都會根據對應的如下結果進行描述。
{"results": [{"store_type": "log","region": "cn-chengdu","project": "sls-ml-demo","store": "machine_metric_logtail","start_time": 1641361140,"end_time": 1641361200}],"labels": {"ip": "192.168.1.5","name": "load_avg"},"annotations": {"__ensure_url__": "$url_path","__mismatch_url__": "$url_path","__plot_image__": "$url_path","alert_msg_type": "ml_anomaly_msg","anomaly_score": "0.8000","anomaly_type_id": "1","anomaly_type_name": "STAB_TYPE","job_id": "29030-2bbf5beba0110fa869339708a8217b67","model_id": "9c0f0d5ad4879eb75237e2ec8494f5f1","title": "metric-logtail-sql"},"severity": 8,"drill_down_url": "$url_path" }典型場景配置
場景一
目標:過濾特定實體的異常
操作步驟
- 尋找到某個巡檢任務的【行動策略ID】,這里要根據用戶自己的實際配置來確定,具體的路徑如下:
- 在行動策略中,添加對應的條件
- 根據上述提供的告警字段而言,我們假設目前只將【標簽】中字段為【ip】且值為【192.168.1.5】的告警消息發送到特定的【釘釘機器人】中
場景二
目標:過濾特定分數的異常
操作步驟
- 找到特定的【行動策略ID】,添加【條件】
- 配置【異常分數】超過【0.9】分數以上的告警到特定的渠道
- 【名稱】- anomaly_score
- 【正則】- ^((1\.0*)|(0\.9[0-9]*))$
場景三
目標:過濾特定實體的特定分數的異常
操作步驟
- 找到特定的【行動策略ID】,添加【條件】
- 配置【特定實體】的【異常分數】超過【0.9】分數以上的告警到特定的渠道
- 【標注】的名稱設置為 anomaly_score,【正則】- ^((1\.0*)|(0\.9[0-9]*))$
- 【標簽】的名稱設置為 ip,對應的實體內容是 192.168.1.5
場景四
目標:過濾特定異常類型的異常
操作步驟
- 找到特定的【行動策略ID】,添加【條件】
- 配置【特定異常形態】
- 配置【標注】anomaly_type_id,根據對應的值進行判別,具體的內容可以參考[異常類型說明](異常類型說明 - 日志服務 - 阿里云)
- 這里只接受特定的【向上漂移類型的異常】anomaly_type_id = 7
場景五
目標:根據巡檢事件和根因事件類型進行分發
操作步驟
- 找到特定的【行動策略ID】,添加【條件】
- 配置【智能告警的事件類型】
- 配置【標注】alert_msg_type,對應的值是 ml_anomaly_msg (這個字段表示的是智能巡檢的告警)
原文鏈接
本文為阿里云原創內容,未經允許不得轉載。?
總結
以上是生活随笔為你收集整理的智能巡检告警配置实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里云云效发布研发协同工具,以新的产研协
- 下一篇: 阿里云贾少天:大规模云服务器高效使用及管