让运维更高效:关于ECS系统事件
摘要: 阿里云會針對ECS實例發(fā)布系統(tǒng)事件,當您收到阿里云計劃維護的通知時,可以利用ECS系統(tǒng)計劃事件了解與實例相關的計劃維護操作,并根據(jù)您的業(yè)務特性選擇合適的時間安排運維操作進行故障轉移,減少對系統(tǒng)可靠性和業(yè)務連續(xù)性的影響。
阿里云作為領先和值得信賴的云計算服務提供商,提供和保障計算、存儲、網(wǎng)絡資源以及底層基礎設施的可用性、穩(wěn)定性、安全性。根據(jù)自身戰(zhàn)略發(fā)展和業(yè)務需求,您可以設計高可用的云上IT架構,在阿里云上選擇合適的產品、服務來搭建部署業(yè)務系統(tǒng),并管理其中的數(shù)據(jù)。在此基礎上,通過阿里云提供的API、監(jiān)控、編排等多樣化手段實現(xiàn)快速配置資源,搭建多套環(huán)境,自動化部署等IT運維能力。
相較于普通的IDC機房以及服務器廠商,阿里云會使用更嚴格的IDC標準、服務器準入標準以及運維標準,以保證云計算整個基礎框架的高可用性、數(shù)據(jù)的可靠性以及云服務器的高可用性。在此基礎之上,阿里云在各地域提供多可用區(qū)服務,當您需要更高的可用性時,可以利用阿里云的多可用區(qū)搭建自己的主備服務或者雙活服務。對于金融等對業(yè)務連續(xù)性有更高要求的行業(yè)領域,還可以通過多地域和多可用區(qū)搭建出更高的可用性服務,并實現(xiàn)更高的RTO、RPO數(shù)據(jù)保障能力。對于單臺ECS實例, 阿里云承諾一個服務周期內單臺ECS實例的服務可用性不低于99.95%;對于單地域多可用區(qū),阿里云承諾一個服務周期內該單地域多可用區(qū)的服務可用性不低于99.99%。為了保障高水平的服務可用性,阿里云會主動對承載ECS實例運行的物理服務器做日常維護并修復潛在的軟硬件等系統(tǒng)故障,以持續(xù)提升系統(tǒng)可靠性、性能和安全防護能力,并在探測到物理服務器存在故障隱患時在線熱遷移實例至健康的服務器之上,保持ECS實例的健康運行狀態(tài)。
但作為阿里云的用戶,您仍有可能會收到這樣的消息通知,提醒您的ECS實例由于所在物理服務器存在故障風險需要維護,阿里云設定了一個實例重啟的系統(tǒng)計劃事件,將在2天后重啟該實例并遷移至安全的物理機運行。
您可能會疑惑,為什么還會受到這樣的信息呢?其實,這是由阿里云平臺主動運維自動觸發(fā)的維護通知。在主動運維過程上,某些軟硬件故障會導致實例無法在線遷移,這樣的情況下,阿里云會向用戶發(fā)送上述通知,提醒您系統(tǒng)即將通過重啟實例執(zhí)行遷移操作。為了提升您運維ECS實例的效率和體驗,阿里云會發(fā)布ECS實例系統(tǒng)事件功能,當您接收到通知時,可以在ECS控制臺或使用OpenAPI查看系統(tǒng)計劃事件,并根據(jù)業(yè)務的需要選擇合適的時間點執(zhí)行系統(tǒng)事件(某些情況下只能等待系統(tǒng)事件按計劃時間執(zhí)行)。這樣便免去了通過工單聯(lián)系客服人工介入的過程,減少風險的同時,也為基于系統(tǒng)事件實現(xiàn)自動化故障轉移提供了基礎,讓運維更高效。
那么ECS實例會存在哪些類型的系統(tǒng)事件呢?阿里云會優(yōu)先發(fā)布系統(tǒng)主動運維觸發(fā)的實例重啟(Reboot)類型事件,隨后會給大家提供更豐富的事件類型來滿足多種運維場景。如果存在系統(tǒng)計劃事件,ECS 控制臺待處理事件按鈕上會出現(xiàn)顯著標示提醒您查看。點擊該按鍵后進入 待處理事件 > 系統(tǒng)計劃事件 頁面,在這里您可以看到實例 ID、地域、運行狀態(tài)等實例相關信息,計劃執(zhí)行的系統(tǒng)事件相關信息,推薦的用戶操作和可執(zhí)行操作按鍵。您也可以通過調用OpenAPI DescribeInstanceFullStatus手動查詢或自動輪詢實例的系統(tǒng)計劃事件。
可以想象,當ECS實例承載關鍵業(yè)務時,任何非預期的實例重啟都有可能對系統(tǒng)可用性和業(yè)務連續(xù)性造成威脅或嚴重影響,因此我們建議您在搭建應用系統(tǒng)時能充分利用可用區(qū)、負載均衡等功能和服務來提升架構和服務的整體可用性。在此基礎上,對于阿里云主動修復系統(tǒng)故障觸發(fā)的系統(tǒng)事件,通常系統(tǒng)會提前48小時給您發(fā)送通知,因此您可以利用事件計劃時間之前的這段用戶操作窗口期,做有準備的負載和故障轉移操作并重啟實例,比如,在集群環(huán)境中及時將負載從有計劃事件的實例上轉移到其他實例,或提前備份、轉移本地磁盤的數(shù)據(jù),或主動調整負載均衡和彈性伸縮的配置,以及基于業(yè)務邏輯做有順序的啟停實例等主動運維操作,最大限度地降低實例重啟對業(yè)務連續(xù)性的沖擊。
ECS系統(tǒng)事件的類型和場景會不斷完善和擴展,我們希望通過這樣的方式,逐步提升您在阿里云上的運維效率和體驗,提供更完備的接口和服務來支持用戶在阿里云上實現(xiàn)無憂運維和業(yè)務永續(xù)。
原文鏈接
干貨好文,請關注掃描以下二維碼:
總結
以上是生活随笔為你收集整理的让运维更高效:关于ECS系统事件的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 带你玩转Logview: MaxComp
- 下一篇: 双十一丝般顺滑体验背后:阿里云洛神网络虚