【必看】谈谈变更过程中的运维意识
運(yùn)維,或許是一個(gè)在 IT 技術(shù)崗中很尷尬的職位。其一,許多應(yīng)屆生都未曾接觸過,對(duì)工作的職能界定非常模糊;其二,很多其他技術(shù)崗的往屆生會(huì)覺得,“臥槽,這么 low 逼,只會(huì)重啟推配置做發(fā)布”;其三,正在從事運(yùn)維崗的往屆生會(huì)覺得自己在公司的 KPI 很難體現(xiàn)。我在從事運(yùn)維工作的前 2 年,也總是問自己:WTF,到底我的存在有啥意義?
運(yùn)維并不是一個(gè)可以從校園里可以培養(yǎng)出來的職業(yè),它完全需要從實(shí)踐中去體會(huì)。當(dāng)然,今天寫這篇不是為了想告訴大家這兩年我體會(huì)到的所謂運(yùn)維存在的意義,而是就一件最近工作上的一件小事和大家談?wù)勆a(chǎn)線應(yīng)該具備的運(yùn)維意識(shí)。
一件小事以及引發(fā)的思考
事情呢是醬紫的,看到工作群有一個(gè)小伙A說需要重啟服務(wù)器重做 raid,原話大概是:
127.0.0.1 重做raid,告警忽略@同事B?@同事C
本來這個(gè)事情貌似沒啥問題,鑒于近期公司出現(xiàn)了多次因生產(chǎn)故障產(chǎn)生的資損事件,我就單獨(dú)找他聊了下,看似風(fēng)平浪靜的事情其實(shí)是波濤洶涌啊!
運(yùn)維需要清楚“變更的需求背景”
我:A,你了解變更背景嗎?
A:因?yàn)閄哥告訴我需要重做 raid。
我:為什么需要重做 raid?
A:因?yàn)樾枰o線上生產(chǎn)環(huán)境部署一套 FTP,做 raid5,而原來是 none-raid。
這一點(diǎn)上,A同學(xué)是可以回答的上來的,但是對(duì)于接到任務(wù)之后,就不假思索的去做,是很可怕的,因?yàn)槟悴⒉恢雷鲞@件事情的意義。每一次變更就和開車并道一樣,并一次就多一分產(chǎn)生車禍的風(fēng)險(xiǎn),需要清楚衡量變更的意義和價(jià)值,權(quán)衡風(fēng)險(xiǎn)和價(jià)值的輕重,才可以對(duì)此次變更進(jìn)行有效的精力投入評(píng)估。BTW,我們必須要問自己一句:這個(gè)變更一定要做嗎,是否值得對(duì)需求方提出挑戰(zhàn)?
車禍猛如虎變更也一樣
運(yùn)維需要清楚“變更的合適時(shí)間”
我:你決定什么時(shí)候去做?
A:接到任務(wù)就直接想去做了。
我:下午 2 ~ 3 點(diǎn)有方案演示,萬一你產(chǎn)生了誤操作,導(dǎo)致演示失敗,客戶會(huì)如何?
A:我沒有想到這一點(diǎn)。
假設(shè)每次變更都有產(chǎn)生故障的可能性,那么就必須要確認(rèn)清楚最佳變更時(shí)間。有幾個(gè)原則:
a. 避開本產(chǎn)品線業(yè)務(wù)高峰期、關(guān)鍵期;
b. 和同產(chǎn)品線的其他變更互斥;
c. 和相關(guān)產(chǎn)品線的其他變更互斥。
?
這一點(diǎn)上,同學(xué)A由于信息渠道窄,并沒有接到業(yè)務(wù)部門對(duì)產(chǎn)品演示的通告,違反了原則a。怎么規(guī)避掉這個(gè)風(fēng)險(xiǎn)呢?就是把變更看成一個(gè)項(xiàng)目進(jìn)行推進(jìn),每個(gè)環(huán)節(jié)的進(jìn)展需要同步告知干系人,干系人負(fù)責(zé)進(jìn)行風(fēng)險(xiǎn)評(píng)估。
?
運(yùn)維需要成為“變更的項(xiàng)目經(jīng)理”
我:你有清楚了解這臺(tái)服務(wù)器之前的情況嗎?
A:沒有,我沒有想到。
我:你知道如果之前這臺(tái)服務(wù)器上有運(yùn)行核心服務(wù)的進(jìn)程沒有下線,會(huì)造成什么后果嗎?
A:X哥說這臺(tái)機(jī)器是新裝機(jī)之前沒有服務(wù)的。
我:運(yùn)維需要做最后一道防線,要具備質(zhì)疑的精神,X哥說的不一定是『真』的,你需要再確認(rèn)下。
打個(gè)比方,消防員在沖進(jìn)火場的時(shí)候,需要確認(rèn)是否仍有可能的爆炸源,否則被炸因公殉職也是自己的責(zé)任。運(yùn)維在職能上和消防員類似,出現(xiàn)故障(火災(zāi))的時(shí)候去殲滅故障源(火源),在執(zhí)行變更的時(shí)候也需要多留一個(gè)心眼,反復(fù)確認(rèn)上下游干系業(yè)務(wù),才能進(jìn)行變更規(guī)劃(其實(shí)故障處理也是一次緊急變更)。任何一次變更都要當(dāng)做一個(gè)項(xiàng)目進(jìn)行運(yùn)作,清楚干系人,把控風(fēng)險(xiǎn),制定合理的步驟和時(shí)間節(jié)點(diǎn),我們要把他看成一個(gè)持續(xù)若干天的項(xiàng)目推進(jìn),也就是說變更其實(shí)在接到需求的那一刻就開始了。
運(yùn)維需要“遵循變更流程”
我:為什么要先做 raid 再告訴同事忽略報(bào)警?
A:這樣也沒什么問題嗎,不就是騷擾大家一下,我也提醒了。
我:為什么不走流程,先關(guān)報(bào)警再變更?
A:沒必要吧,SA每天這么多操作都需要這樣?
我:不關(guān)注細(xì)節(jié),終會(huì)釀成大錯(cuò),當(dāng)年我因?yàn)闆]有關(guān)注流程出現(xiàn)過600個(gè)節(jié)點(diǎn)同時(shí)宕機(jī)的誤操作。假設(shè)你的報(bào)警淹沒了當(dāng)時(shí)的其他重要報(bào)警,我們晚發(fā)現(xiàn)核心業(yè)務(wù)故障5分鐘,你知道損失是多少嗎?
A:……(慚愧)
運(yùn)維,或許是一個(gè)在 IT 技術(shù)崗中很尷尬的職位。其一,許多應(yīng)屆生都未曾接觸過,對(duì)工作的職能界定非常模糊;其二,很多其他技術(shù)崗的往屆生會(huì)覺得,“臥槽,這么 low 逼,只會(huì)重啟推配置做發(fā)布”;其三,正在從事運(yùn)維崗的往屆生會(huì)覺得自己在公司的 KPI 很難體現(xiàn)。我在從事運(yùn)維工作的前 2 年,也總是問自己:WTF,到底我的存在有啥意義?
運(yùn)維并不是一個(gè)可以從校園里可以培養(yǎng)出來的職業(yè),它完全需要從實(shí)踐中去體會(huì)。當(dāng)然,今天寫這篇不是為了想告訴大家這兩年我體會(huì)到的所謂運(yùn)維存在的意義,而是就一件最近工作上的一件小事和大家談?wù)勆a(chǎn)線應(yīng)該具備的運(yùn)維意識(shí)。
一件小事以及引發(fā)的思考
事情呢是醬紫的,看到工作群有一個(gè)小伙A說需要重啟服務(wù)器重做 raid,原話大概是:
127.0.0.1 重做raid,告警忽略@同事B?@同事C
本來這個(gè)事情貌似沒啥問題,鑒于近期公司出現(xiàn)了多次因生產(chǎn)故障產(chǎn)生的資損事件,我就單獨(dú)找他聊了下,看似風(fēng)平浪靜的事情其實(shí)是波濤洶涌啊!
運(yùn)維需要清楚“變更的需求背景”
我:A,你了解變更背景嗎?
A:因?yàn)閄哥告訴我需要重做 raid。
我:為什么需要重做 raid?
A:因?yàn)樾枰o線上生產(chǎn)環(huán)境部署一套 FTP,做 raid5,而原來是 none-raid。
這一點(diǎn)上,A同學(xué)是可以回答的上來的,但是對(duì)于接到任務(wù)之后,就不假思索的去做,是很可怕的,因?yàn)槟悴⒉恢雷鲞@件事情的意義。每一次變更就和開車并道一樣,并一次就多一分產(chǎn)生車禍的風(fēng)險(xiǎn),需要清楚衡量變更的意義和價(jià)值,權(quán)衡風(fēng)險(xiǎn)和價(jià)值的輕重,才可以對(duì)此次變更進(jìn)行有效的精力投入評(píng)估。BTW,我們必須要問自己一句:這個(gè)變更一定要做嗎,是否值得對(duì)需求方提出挑戰(zhàn)?
車禍猛如虎變更也一樣
運(yùn)維需要清楚“變更的合適時(shí)間”
我:你決定什么時(shí)候去做?
A:接到任務(wù)就直接想去做了。
我:下午 2 ~ 3 點(diǎn)有方案演示,萬一你產(chǎn)生了誤操作,導(dǎo)致演示失敗,客戶會(huì)如何?
A:我沒有想到這一點(diǎn)。
假設(shè)每次變更都有產(chǎn)生故障的可能性,那么就必須要確認(rèn)清楚最佳變更時(shí)間。有幾個(gè)原則:
a. 避開本產(chǎn)品線業(yè)務(wù)高峰期、關(guān)鍵期;
b. 和同產(chǎn)品線的其他變更互斥;
c. 和相關(guān)產(chǎn)品線的其他變更互斥。
?
這一點(diǎn)上,同學(xué)A由于信息渠道窄,并沒有接到業(yè)務(wù)部門對(duì)產(chǎn)品演示的通告,違反了原則a。怎么規(guī)避掉這個(gè)風(fēng)險(xiǎn)呢?就是把變更看成一個(gè)項(xiàng)目進(jìn)行推進(jìn),每個(gè)環(huán)節(jié)的進(jìn)展需要同步告知干系人,干系人負(fù)責(zé)進(jìn)行風(fēng)險(xiǎn)評(píng)估。
?
運(yùn)維需要成為“變更的項(xiàng)目經(jīng)理”
我:你有清楚了解這臺(tái)服務(wù)器之前的情況嗎?
A:沒有,我沒有想到。
我:你知道如果之前這臺(tái)服務(wù)器上有運(yùn)行核心服務(wù)的進(jìn)程沒有下線,會(huì)造成什么后果嗎?
A:X哥說這臺(tái)機(jī)器是新裝機(jī)之前沒有服務(wù)的。
我:運(yùn)維需要做最后一道防線,要具備質(zhì)疑的精神,X哥說的不一定是『真』的,你需要再確認(rèn)下。
打個(gè)比方,消防員在沖進(jìn)火場的時(shí)候,需要確認(rèn)是否仍有可能的爆炸源,否則被炸因公殉職也是自己的責(zé)任。運(yùn)維在職能上和消防員類似,出現(xiàn)故障(火災(zāi))的時(shí)候去殲滅故障源(火源),在執(zhí)行變更的時(shí)候也需要多留一個(gè)心眼,反復(fù)確認(rèn)上下游干系業(yè)務(wù),才能進(jìn)行變更規(guī)劃(其實(shí)故障處理也是一次緊急變更)。任何一次變更都要當(dāng)做一個(gè)項(xiàng)目進(jìn)行運(yùn)作,清楚干系人,把控風(fēng)險(xiǎn),制定合理的步驟和時(shí)間節(jié)點(diǎn),我們要把他看成一個(gè)持續(xù)若干天的項(xiàng)目推進(jìn),也就是說變更其實(shí)在接到需求的那一刻就開始了。
運(yùn)維需要“遵循變更流程”
我:為什么要先做 raid 再告訴同事忽略報(bào)警?
A:這樣也沒什么問題嗎,不就是騷擾大家一下,我也提醒了。
我:為什么不走流程,先關(guān)報(bào)警再變更?
A:沒必要吧,SA每天這么多操作都需要這樣?
我:不關(guān)注細(xì)節(jié),終會(huì)釀成大錯(cuò),當(dāng)年我因?yàn)闆]有關(guān)注流程出現(xiàn)過600個(gè)節(jié)點(diǎn)同時(shí)宕機(jī)的誤操作。假設(shè)你的報(bào)警淹沒了當(dāng)時(shí)的其他重要報(bào)警,我們晚發(fā)現(xiàn)核心業(yè)務(wù)故障5分鐘,你知道損失是多少嗎?
A:……(慚愧)
變更的大致流程是:需求確認(rèn) -> 干系業(yè)務(wù)/人確定 -> 方案探討 -> 方案確立&時(shí)間確立 -> 變更單撰寫 -> 變更單 review -> 審批報(bào)備 -> 變更通告 -> 方案實(shí)施 -> 方案效果反饋 (-> 回滾方案),可酌情進(jìn)行步驟刪減。遵循變更流程的主要好處是,首先,你可以在整理變更步驟的時(shí)候仔細(xì)思考每一處風(fēng)險(xiǎn)點(diǎn),多次變更之后可以固化下來風(fēng)險(xiǎn)相對(duì)較小的標(biāo)準(zhǔn)化文檔,后續(xù)可以把重復(fù)操作自動(dòng)化。其次,風(fēng)險(xiǎn)均攤及最小化,方案是大家探討后確定的,時(shí)間是大家商量后認(rèn)可的,流程是經(jīng)過審批報(bào)備的。真的,如果把類似的流程貫徹下去,因?yàn)樽兏a(chǎn)生故障的概率會(huì)大大降低?,F(xiàn)在成熟的公司運(yùn)維團(tuán)隊(duì),都已經(jīng)把類似的流程固化到運(yùn)維平臺(tái)里了,但是又有多少團(tuán)隊(duì)的負(fù)責(zé)人真正在遵循,而不是隨便審批了事呢?不要和我談業(yè)務(wù)壓力有多大,不要和我談缺人手,原則是不能卻步的,否則撿了芝麻丟了西瓜。
一句真理
這么小的一個(gè)變更事件,我們可從中總結(jié)出那么多的經(jīng)驗(yàn),可見運(yùn)維是一個(gè)全局操盤手,心不細(xì)真的不行。有一句話是之前我在阿里一直銘記在心的,雙手奉上給各位同行:對(duì)生產(chǎn)環(huán)境要有敬畏之心。下圖是我們以前做關(guān)鍵變更之前必須要朝拜的一張:
變更的大致流程是:需求確認(rèn) -> 干系業(yè)務(wù)/人確定 -> 方案探討 -> 方案確立&時(shí)間確立 -> 變更單撰寫 -> 變更單 review -> 審批報(bào)備 -> 變更通告 -> 方案實(shí)施 -> 方案效果反饋 (-> 回滾方案),可酌情進(jìn)行步驟刪減。遵循變更流程的主要好處是,首先,你可以在整理變更步驟的時(shí)候仔細(xì)思考每一處風(fēng)險(xiǎn)點(diǎn),多次變更之后可以固化下來風(fēng)險(xiǎn)相對(duì)較小的標(biāo)準(zhǔn)化文檔,后續(xù)可以把重復(fù)操作自動(dòng)化。其次,風(fēng)險(xiǎn)均攤及最小化,方案是大家探討后確定的,時(shí)間是大家商量后認(rèn)可的,流程是經(jīng)過審批報(bào)備的。真的,如果把類似的流程貫徹下去,因?yàn)樽兏a(chǎn)生故障的概率會(huì)大大降低。現(xiàn)在成熟的公司運(yùn)維團(tuán)隊(duì),都已經(jīng)把類似的流程固化到運(yùn)維平臺(tái)里了,但是又有多少團(tuán)隊(duì)的負(fù)責(zé)人真正在遵循,而不是隨便審批了事呢?不要和我談業(yè)務(wù)壓力有多大,不要和我談缺人手,原則是不能卻步的,否則撿了芝麻丟了西瓜。
一句真理
這么小的一個(gè)變更事件,我們可從中總結(jié)出那么多的經(jīng)驗(yàn),可見運(yùn)維是一個(gè)全局操盤手,心不細(xì)真的不行。有一句話是之前我在阿里一直銘記在心的,雙手奉上給各位同行:對(duì)生產(chǎn)環(huán)境要有敬畏之心。下圖是我們以前做關(guān)鍵變更之前必須要朝拜的一張:
總結(jié)
以上是生活随笔為你收集整理的【必看】谈谈变更过程中的运维意识的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 不会连PPPoE协议都不会配吧?
- 下一篇: 盘点2020年10个最难忘的数据泄露事件