部分地域云数据库控制台访问异常,阿里云抢修并致歉
感謝網友 華南吳彥祖 的線索投遞!
11 月 28 日消息,昨日(11 月 27 日)9:16,阿里云部分地域云數據庫控制臺訪問異常,北京、上海、杭州、深圳、青島 、香港以及美東、美西地域受影響。
昨日晚間,阿里云就云數據庫控制臺訪問異常一事發布道歉聲明,表示經過工程師緊急處理,訪問異常問題已于當日 10:58 恢復。
您好!北京時間 2023 年 11 月 27 日 09:16 起,阿里云監控發現北京、上海、杭州、深圳、青島 、香港以及美東、美西地域的數據庫產品(RDS、PolarDB、Redis 等)的控制臺和 OpenAPI 訪問出現異常,實例運行不受影響。經過工程師緊急處理,訪問異常問題已于當日 10:58 恢復。非常抱歉給您的使用帶來不便,若有任何問題,請隨時聯系我們。
注意到,這已經是阿里云本月第二次控制臺服務異常,首次異常是在雙 11 結束的一天后(11 月 12 日),涉及到阿里云盤、淘寶、咸魚、釘釘、語雀等等產品,持續時長約 3.5 小時。
故障報告:
問題影響范圍
OSS、OTS、SLS、MNS 等產品的部分服務受到影響,大部分產品如 ECS、RDS、網絡等運行不受影響。
云產品控制臺、管控 API 等功能受到影響
問題影響時間
北京時間 2023 年 11 月 12 日 17:39-19:20
問題概況
北京時間 2023 年 11 月 12 日 17:39 起,阿里云云產品控制臺訪問及管控 API 調用出現異常、部分云產品服務訪問異常,工程師排查故障原因與訪問密鑰服務(AK)異常有關。工程師修訂白名單版本后,采取分批重啟 AK 服務的措施,于 18:35 開始陸續恢復,19:20 絕大部分 Region 產品控制臺和管控 API 恢復。
處理過程
2023 年 11 月 12 日
17:39 阿里云云產品控制臺訪問及管控 API 調用出現異常。
17:50 工程師確認故障是 AK 服務異常導致,影響云產品控制臺、管控 API 調用異常,以及依賴 AK 服務的云產品服務運行異常。
18:01 工程師定位到根因。
18:07 開始執行恢復措施,包括修訂白名單版本、重啟 AK 服務。
18:35 杭州等 Region 開始恢復正常。
19:20 絕大部分 Region 的云產品控制臺和管控 API 調用恢復正常。
問題原因
訪問密鑰服務(AK)在讀取白名單數據時出現讀取異常,因處理讀取異常的代碼存在邏輯缺陷,生成了一份不完整白名單,導致不在此白名單中的有效請求失敗,影響云產品控制臺及管控 API 服務出現異常,同時部分依賴 AK 服務的產品因不完整的白名單出現部分服務運行異常。
改進措施
增加 AK 服務白名單生成結果的校驗及告警攔截能力。
增加 AK 服務白名單更新的灰度驗證邏輯,提前發現異常。
增加 AK 服務白名單的快速恢復能力。
加強云產品側的聯動恢復能力。
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節省甄選時間,結果僅供參考,所有文章均包含本聲明。
總結
以上是生活随笔為你收集整理的部分地域云数据库控制台访问异常,阿里云抢修并致歉的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微软 Teams 升级 Updates
- 下一篇: 荷兰政府批准安世半导体收购芯片公司 No