Prometheus 序章/第一/二讲
Prometheus 序章
1 Prometheus的整體框架圖
2 監控對運維的重要性
運維是什么?說白了就是管理服務器,保證服務器給線上產品提供穩定運行的服務環境
在控是什么?說白了就是用一種形式去盯著觀察服務器把服務器的各種行為表現都顯示出來用以發現問題和不足
報警是什么?監控和報警這兩個詞一定要分開說分開理解!監控是監控,報警是報警。控是把行為表現展示出來,用來觀察的。報警則是當監控獲取的數據發生異常并且到達了某個臨界點的時候,采用各種途徑來通知用戶通知管理員通知運維人員甚至通知老板。
很多時候總是把監控和報警混在一起說這是不正確的需要糾正
如下圖所示
3 監控組成部分和流程
4 Prometheus + Grafana 的一個數據監控釆集成圖
5 報警
報警跟監控嚴格來說是需要分開對待的
因為報警也有專門的報警系統
報警系統包括幾種主要的展現形式:短信報警,郵件報警,電話報警(語音播報),通訊軟件
不像監控系統比較成型的報警系統目前大多數都是收費的商業化
報警系統中最重要的一個概念之一就是對報警閾值的理解
閾值 (trigger Value),是監控系統中對數據到達某一個臨界值的定義
例如:通過監控發現,當前某一臺機器的CPU突然升高,到達了99%的使用率,99就是作為一次報警的觸發闊值
6 pagerduty 商業報警系統
pagerduty
Pagerduty擁有短信,電話,郵件所有的報警機制
Pagerduty還有非常實用的必要的運維值班管理制度和報警升級等等擴展功能往后我們會陸續介紹到
Pagerduty的優點非常多,使用率非常高(外企幾乎清一色的使用,國內企業很多也在使用)
但是有優點就肯定也有不足
Pagerduty有幾個小問題需要提高
對中文的支持不好或者說幾乎不支持(指的是語音播報方面)
站點主要在美國和海外網速有時候不太給力∞可以走代理的方式加快速度
7 Prometheus 的優劣
- 相比其他老款監控的不可被替代的巨大優勢,以及一些不足有待提高的地方
- 監控數據的精細程度絕對的第一可以精確到1~5秒的采集精度我們來算算采集精度
- 集群部署的速度監控腳本的制作(指的是熟練之后)非常快速大大縮短監控的搭建時間成本周邊插件很豐富大多數都不需要自己開發了
- 本身基于數學計算模型,大量的實用函數可以實現很復雜規則的業務邏輯監控(例如QPs的曲線彎曲凸起下跌的比例等等模糊概念)
- 可以嵌入很多開源工具的內部進行監控數據更準時更可信(其他監控很難做到這一點)
- 本身是開源的,更新速度快,bug修復快·支持N多種語言做本身和插件的二次開發
- 圖形很高大上很美觀老板特別喜歡看這種業務圖(主要是指跟 Grafana的結合)
一些不足的地方
- 因其數據采集的精度如果集群數量太大,那么單點的監控有性能瓶頸目前尚不支持集群只能 workaround
- 學習成本太大,尤其是其獨有的數學命令行(非常強大的同時又極其難學《=自學的情況下),中文資料極少,本身的各種數學模型的概念很復雜
- 對磁盤資源也是耗費的較大,這個具體要看監控的集群量和監控項的多少和保存時間的長短
- 本身的使用需要使用者的數學不能太差要有一定的數學頭腦
總結
以上是生活随笔為你收集整理的Prometheus 序章/第一/二讲的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: windows 客户端的Navicat
- 下一篇: Zabbix 企业级监控