解决方案|电力行业应如何应对数字化转型危机
背景與挑戰
隨著電網公司數字化轉型工作的推進和云平臺、大數據、物聯網、移動化、智能化等新技術的應用,推進高效一體化網絡排障定位與深入推進人工智能及大數據技術等在電網信息系統運維中的應用,以及運用前沿科技技術,提高生產管理效益,提升數字電網建設過程中數據的價值已成為電網公司數字化轉型工作的必然要求。
與此同時,伴隨著電力行業數字化轉型的不斷發展,相關企業業務系統的不斷更新與設備數量的大幅增加,由此引發了電力行業以下痛點:
-
監控層面:缺乏非侵入式的業務數據監控手段;
-
工作流程層面:缺乏統一的IT服務入口和服務管理流程;
-
人員層面:業務體系復雜,不同業務部門各自為政;
-
故障處理層面:問題發生后被動處理,且故障分析定位困難。
基于以上背景及痛點,如何在不植入探針或 Agent 的情況下監控業務鏈路運行情況,業務管理人員如何統計分析關鍵業務指標數據,運維人員如何準確定位故障、排查故障對電力行業相關企業來說均是極大的挑戰。
場景需求分析
基于上述背景及挑戰分析,電力行業具體包含以下運維場景需求:
-
非侵入式監控:通過非侵入式手段或工具實現對業務拓撲和業務指標數據的監控;
-
運維數據分析:統一收集、處理、分析業務系統運維數據、日志數據和關鍵指標數據;
-
統一處理展示:對業務系統的物理鏈路、邏輯拓撲以及指標數據進行集中監控展示;
-
故障定位分析:統一告警信息收集、對故障進行關聯分析,準確定位故障問題和根因,提升故障處理效率。
解決方案
整體產品技術架構
下圖為整體產品技術架構,包含底層立體化監控與管理工具集、中層數字化運維數據中臺、頂層數據價值與管理產品集。底層立體化監控與管理工具集包含基礎設施監控(DOIM)、業務性能監控(DBPC)以及其他開源及非開源監控工具與日志分析(DOLA);中層數字化運維數據中臺包含數字化運維指標管理體系(DOMM)、面向服務的配置管理(CMDB)、智能分析(DOIA)、數字化運維數據庫 (DODB )以及采控平臺(DOCC);頂層數據價值與管理產品集包含數字化運維監控中心(DOMC)、數字化運維事件管理(DOEM)數字化運維工作臺、報告報表以及數字化運營服務管理。
產品列表及功能
業務性能監控工具
下圖為業務性能監控工具監控網絡流量鏡像的具體流程。通過抓取網絡鏡像流量的方式對業務數據進行分析。業務發起后,業務流量經過多層鏈路一體化展示,直觀明了地展示業務在哪個層級消耗的時間情況。
數字化運維數據庫
數字化運維數據庫能夠實時高效的接入用戶環境的多種數據源,收集用戶環境中的IT和業務數據,進行統一的管理和存儲,通過便捷和強大的建模分析工具,將數據進行關聯分析、業務建模,結果實時輸出給可視化以及其他應用。
-
數據處理:通過數據處理pipeline對流式數據進行實時處理,內置多種數據處理組件以及數據處理模版,開箱即用,全方面滿足數據預處理的要求。
-
數據存儲:高性能的分布式列式存儲數據庫,大大減少數據對磁盤空間的占用,在相同容量下,能夠對更大范圍的數據進行實時查詢。
-
數據計算:豐富的聚合計算函數和強大的計算能力,充分利于 CPU 資源面。聚合查詢的平均響應時間可在3秒以內,一些簡單查詢可以在毫秒級。
數字化運維算法平臺
數字化運維算法平臺包含指標異常檢測、指標預測、日志模式識別、根因分析與推薦、多指標分析、告警降噪等6大 AIOps 場景的20余個智能算法。提供了豐富的算法庫,開箱即用,能夠支撐豐富的運維場景。
-
單指標異常檢測:動態基線算法、自動閾值算法、分段閾值算法、頻域分析算法、自動選擇算法
-
多指標異常檢測:多指標異常檢測算法
-
日志解析:CWdrain算法、CWspell算法
-
指標預測:CWprophet算法、CWrnn算法
-
根因分析:基于調用鏈的RCA算法
-
智能告警降噪:日志統計異常檢測算法
數字化運營指標體系管理平臺
數字化運營指標體系管理平臺作為上層應用側產品監控中心重要的數據來源之一,幫助其通過整合業務與IT資源、指標、健康度、告警事件,圍繞業務價值構建多維度的運維監控體系,以實現能夠快速發現、分析并定位故障,達到全方位、立體化監控的能力。
靜態閾值
-
手動設定數據區間梯度
-
根據數值坐落區間獲取指標健康度
動態閾值
-
選定算法進行指標異常檢測
-
歷史數據訓練獲得算法模型
-
算法結果判定指標健康度
健康度設置
生死線指標嚴重異常時,可一票決定健康度。健康度得分是表征對象健康狀態的絕佳指示器。
-
選擇參與計算的指標元素
-
根據業務情況分配元素的權重
-
生成健康素計算公式
數字化運維監控中心
數字化運維監控中心是一款全方位、立體化的實時監控產品,面向企業業務價值與 IT 運維的頂層規劃,對業務數據以及基礎設施、中間件、服務、應用、調用鏈等 IT 資源進行統一監控,并通過構建業務關聯關系,結合指標、日志、告警等,幫助快速發現、分析并定位故障。
數字化運維事件管理
數字化運維事件管理基于大數據技術和機器學習算法,統一接入與處理來自于各種監控系統的告警消息與數據指標,支持告警事件的過濾、通知、響應、處置、定級、跟蹤以及多維分析,最終實現面向告警事件全生命周期的閉環管控。
整體方案流程
在數據采集側,通過業務性能監控工具抓取旁路流量,獲取業務系統監控數據,同時通過業務流程梳理,建立業務鏈路拓撲,實現基于業務實際鏈路的監控分析,監控數據通過kafka傳遞至運維數據庫。
運維數據庫接收到數據后,對數據進行處理(包括字段提取、拆分、合并、格式轉換等)并基于場景需求將不同數據存儲到不同的數據庫,同時通過查詢引擎為應用場景提供數據支撐。
最后,在監控中心對業務系統拓撲和數據指標進行統一展示,基于規則進行健康度分析和事件告警,通過智能運維算法和大數據分析,實現指標數據的趨勢預測和對事件告警的根因分析。
某電網企業案例分享
需求分析
-
希望通過不植入代碼的方式來監控業務層的指標數據,形成業務鏈路拓撲圖,跟蹤業務數據流向,并實時展示關鍵數據;
-
通過指標歷史數據,動態提供指標預測基線、預測數值范圍;
-
針對問題,能夠進行根因分析,快速進行問題定位;
-
對接當前使用的告警系統,分析出數據結果后,通過當前正在使用的的告警系統去觸發事件。
云智慧解決方案
-
通過DBPC工具通過旁路鏡像流量的方式獲取實時業務數據,以非侵入的方式實現了對業務的監控;
-
建立運維大數據平臺,實現對接收的數據進行統一存儲和處理,并提取關鍵指標數據;
-
利用智能算法,對歷史數據進行學習,實現了對未來一段時間內的數據趨勢預測;
-
通過告警事件管理,對接客戶現有告警系統,實現了告警信息的壓縮、清洗,并且與現有的工單系統實現關聯。
FlyFish開源福利
云智慧已開源數據可視化編排平臺 FlyFish 。通過配置數據模型為用戶提供上百種可視化圖形組件,零編碼即可實現符合自己業務需求的炫酷可視化大屏。 同時,飛魚也提供了靈活的拓展能力,支持組件開發、自定義函數與全局事件等配置, 面向復雜需求場景能夠保證高效開發與交付。
點擊下方地址鏈接,歡迎大家給 FlyFish 點贊送 Star。參與組件開發,更有萬元現金等你來拿。
GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish
Gitee 地址:https://gitee.com/CloudWise/fly-fish
總結
以上是生活随笔為你收集整理的解决方案|电力行业应如何应对数字化转型危机的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C语言笔记含源码(变量、输入输出、分支、
- 下一篇: 由电能高频率变化使物质发生衰变的机器