从工程文化和运维理念理解Netflix
http://www.infoq.com/cn/news/2018/01/netflix-engineering-culture
?
在技術(shù)圈兒,Netflix 是一家非常有特色的互聯(lián)網(wǎng)公司。他們信奉“自由與責(zé)任”的企業(yè)文化,鼓勵工程師發(fā)揮自己的愛好與特長;特別開放,很多內(nèi)部系統(tǒng)都開源了;所有業(yè)務(wù)都運(yùn)行在云上,隨之而來,有很多自己的工具,特色的運(yùn)維文化。
在明年 4 月 20~22 日的 QCon 北京 2018 上,我們有幸邀請到 Netflix 工程總監(jiān) Katharina Probst,她將分享 Netflix 的工程文化以及運(yùn)維方面的理念和經(jīng)驗(yàn)。
InfoQ 曾有文章介紹 Netflix 的企業(yè)文化(技術(shù)漫談:為什么Netflix的企業(yè)文化會備受整個硅谷的推崇?),而這次,Katharina 將現(xiàn)場分享《工程文化:挖掘工程師的最大價值》。
丹尼爾·平克的《驅(qū)動力》一書,指出了如何提高績效、煥發(fā)熱情的三大要素:自主(Autonomy)、專精(Mastery)和目的(Purpose)。本次演講也將從這三個方面出發(fā),探討如何讓工程師發(fā)掘出自己的最大潛能。
- 自主:設(shè)定良好的環(huán)境,但是不控制目標(biāo)的日常執(zhí)行。
- 專精:為每個人提供鍛煉技能的條件,并對成長提供反饋。
- 目的:將工程師連接起來,為公司的使命而奮斗。
Katharina 還曾撰文介紹 Netflix 背后獨(dú)特的運(yùn)維理念。
在Netflix,“自由與責(zé)任”的價值觀體現(xiàn)的淋漓盡致。一方面,工程團(tuán)隊(duì)可以自由地向產(chǎn)品添加功能和服務(wù),不需要審批和繁瑣的程序。另一方面,作為產(chǎn)品的所有者,要負(fù)責(zé)服務(wù)的運(yùn)維和支持。
優(yōu)勢當(dāng)然是各團(tuán)隊(duì)可以靈活快速地實(shí)現(xiàn)新功能。當(dāng)然,有利就有弊,整個系統(tǒng)的規(guī)模也隨之爆炸性增長,沒有人能記著所有系統(tǒng)的所有變更。
這種情況下,Netflix 是如何保證其服務(wù)的高可用性和用戶體驗(yàn)的呢?秘密就在于 Netflix 的 CORE SRE 團(tuán)隊(duì)。
SRE 是指 Site Reliability Engineer (網(wǎng)站可靠性工程師)。這個概念大家應(yīng)該并不陌生。
CORE 是幾個單詞的首字母縮寫:Cloud(云)、Operations(運(yùn)維)、Reliability(可靠性)、Engineering(工程)。一語雙關(guān),既可以看成“云運(yùn)維可靠性工程”,也可以看成“核心”。
這個團(tuán)隊(duì)非常小,不到 10 個人。雖然人少,但是都是骨干人才。可以把這個團(tuán)隊(duì)看作 Netflix 服務(wù)的中樞神經(jīng)系統(tǒng)。這個團(tuán)隊(duì)是干什么的呢?
他們要盡可能多的從整體上把握 Netflix 的系統(tǒng),進(jìn)而讓系統(tǒng)更好、更可靠。具體而言,其工作是:
理解事故
事故發(fā)生時,SRE 往往是第一響應(yīng)人。這個人要定位問題,深入了解事故,確定嚴(yán)重等級,看看應(yīng)該找誰來解決問題。要找的人可能是服務(wù)的所有者,或者外部合作伙伴(比如設(shè)備供應(yīng)商)。
CORE SRE 團(tuán)隊(duì)要根據(jù)自己對整個系統(tǒng)的理解,決定在既定情況下,采用哪種緩解策略最好,比如把流量切到其他區(qū)域。
發(fā)現(xiàn)事故和健康運(yùn)維狀況下的模式
事故解決后,SRE 的工作才算真正開始。下一步是仔細(xì)研究事故,提很多問題。比如:?
? 事故是什么原因?qū)е碌?#xff1f;?
? 我們之前怎么做,能夠避免這次事故??
? 是不是有某個最佳實(shí)踐并沒有遵守??
? 是不是團(tuán)隊(duì)遵守了某個最佳實(shí)踐,但是沒起到預(yù)期效果??
? 團(tuán)隊(duì)?wèi)?yīng)該怎么做,以避免再次發(fā)生類似事故??
? 在事故發(fā)生時,我們掌握了哪些信息,能讓我們更快地理解事故原因??
? 有什么工具可以幫我們降低事故嚴(yán)重性和持續(xù)時間??
? 這種問題之前發(fā)生過嗎?有沒有什么模式??
? 卷入事故的團(tuán)隊(duì),是不是犯了更多主動失誤?發(fā)生了什么?
除了提問分析,還要分析事故數(shù)據(jù),發(fā)現(xiàn)模式。
將模式轉(zhuǎn)變成工具和最佳實(shí)踐,防患于未然
讓 Core SRE 團(tuán)隊(duì)和關(guān)鍵工程團(tuán)隊(duì)配合工作,一方面 SRE 團(tuán)隊(duì)可以更好地理解痛點(diǎn),一方面也可以傳達(dá)最佳實(shí)踐等理念。
工具建設(shè),收集各方面指標(biāo),這個就不一一具體介紹了。
在現(xiàn)場,Katharina 將為我們具體闡述背后的各種理念和做法。
2018QCon全球軟件開發(fā)大會北京站目前正在8折報名中,感興趣的不要錯過。有任何問題可咨詢購票經(jīng)理Hanna,電話:15110019061,微信:qcon-0410。
轉(zhuǎn)載于:https://www.cnblogs.com/linkenpark/p/8472368.html
總結(jié)
以上是生活随笔為你收集整理的从工程文化和运维理念理解Netflix的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Turtle库(海龟)
- 下一篇: (4.14)向上取整、向下取整、四舍五入