【干货】运维,你是青铜还是王者?
傳統的觀點中、運維就是保障業務運行得穩定、高效、安全,但時至今日,這個運維的價值觀恐怕早已過時了,我們希望運維能夠成為公司的核心競爭力之一。
這就促使了運維向技術運營的轉變,技術運營的能力建設以業務為中心,交付穩定、安全、高效的技術運營服務,從而有力支撐企業的持續發展和戰略成功。技術運營不僅關注“穩定”、“安全”、“可靠”,更要關注“體驗”、“效率”、“效益”。
一、我們從七個維度提出問題,探究你的技術運營轉型之路處在什么水平,是青銅還是王者?
?
監控管理:僅僅是有基礎的監控能力,還是已經實現高度智能化?
事件與變更管理:僅僅是有基本的事件規范和變更操作要求和處理風險能力,還是已經實現智能化支撐,具備無人化、自愈和自改進能力?
配置管理:僅僅是依靠人工保障配置記錄的管理,還是已經實現智能化配置管理,支持場景智能生成配置對象的關聯規則和提供準確的決策依據?
容量與成本管理:僅僅是具備基礎預算、基礎設施容量監控與業務的指標匯聚能力,還是已經實現智能化管理容量與成本?
高可用管理:僅僅是支持流量切換,硬件故障能及時回復,數據庫備份可靠,還是已經實現全面自動化和智能化的高可用管理,并持續改進?
業務連續性管理:僅僅是具有基礎的業務影響分析與業務風險分析能力,有基本的應急演練,故障恢復時間較長,還是已經實現整體 RTO(恢復時間目標) 達到99.995%,引入更多智能化技術,3分鐘內完成問題解決?
用戶體驗管理:僅僅是具有快速處理用戶體驗的投訴問題,具備豐富的業務端的數據收集能力,還是已經引用AI技術,建立業務領域級別的用戶體驗類知識圖譜或專家系統?
二、技術運營能力建設的5個段位,每上一個臺階都是質的飛躍。
?
青銅段位
?
有基礎的監控,能滿足對系統級(CPU等)的監控需求。
具有基本的事件規范和變更操作要求,可及時處理事件和管控部分變更風險。
依靠人工保障配置記錄的管理。
具備基礎預算、基礎設施容量監控與業務的指標匯聚能力。
支持流量切換,硬件故障能及時回復,數據庫備份可靠。
具有基礎的業務影響分析與業務風險分析能力,有基本的應急演練,故障恢復時間較長。
具有快速處理用戶體驗的投訴問題,具備豐富的業務端的數據收集能力。
?
白銀段位
?
有基礎的監控,能滿足對系統級(CPU等)的監控需求。
具有基本的事件規范和變更操作要求,可及時處理事件和管控部分變更風險。
依靠人工保障配置記錄的管理。
具備基礎預算、基礎設施容量監控與業務的指標匯聚能力。
支持流量切換,硬件故障能及時回復,數據庫備份可靠。
具有基礎的業務影響分析與業務風險分析能力,有基本的應急演練,故障恢復時間較長。
具有快速處理用戶體驗的投訴問題,具備豐富的業務端的數據收集能力。
?
黃金段位
?
具有面向應用場景的告警與可視化平臺,可實現常見故障自愈。
完善的事件與變更管理流程,與其他技術運營流程打通,具有平臺化與可視化能力。
自動化配置管理平臺,支持自動發現、靈活擴展和關聯分析。
具備業務容量與基礎設施容量關聯分析能力、柔性服務能力,靈活成本管控的能力。
自動化動態擴容,采用分布式緩存、分表分庫、跨庫事務等技術,同城多機房實時數據備份,異地數據備份。
整體RTO達到99.95%,主動模擬注入故障并快速定位和解決,2分鐘響應,5分鐘定位并啟動預案,10分鐘完成問題解決。
具有自動跟蹤及用戶改善工具,5分鐘內發現質量數據異常。
?
鉆石段位
?
監控管理實現閾值動態調整等初步智能化,全網數據秒級上報,可實現自動化決策。
深度規范化,部分場景借助智能化技術實現管理與質量的降本增效。
智能識別配置對象的關聯關系,配置信息能為技術運營活動提供決策支持。
支持全鏈路的容量管理能力,為技術和架構提供支持。
結合監控自動擴容縮容,系統拓撲結構自動梳理。
整體RTO達到99.99%,應急和危機處理組織結構完備,對故障基本能通過告警主動發現,1分鐘響應,3分鐘定位并啟動預案,5分鐘完成問題解決。
界定區分用戶群體及單用戶行為軌跡的完整鏈條的體驗表現,觸達運營指標,如回流用戶轉化率等。
?
王者段位
?
智能決策、推薦等高度智能化。
實現大部分場景的智能化支撐,具備無人化、自愈和自改進能力。
智能化配置管理,支持場景智能生成配置對象的關聯規則和提供準確的決策依據。
智能化管理容量與成本。
實現全面自動化和智能化的高可用管理,并持續改進。
整體RTO達到99.995%,引入更多智能化技術,3分鐘內完成問題解決。
引用AI技術,建立業務領域級別的用戶體驗類知識圖譜或專家系統。
總結
以上是生活随笔為你收集整理的【干货】运维,你是青铜还是王者?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【分享】20道Oracle运维常见面试题
- 下一篇: 【ORACLE】20道Oracle运维常