数据中心实现高效运维的秘诀
隨著2017年中國(guó)“量子衛(wèi)星”“量子計(jì)算機(jī)”等重大科研技術(shù)的突破,2018年云計(jì)算進(jìn)入2.0的飛速發(fā)展時(shí)代,智慧城市信息化建設(shè)、應(yīng)用數(shù)據(jù)量的井噴,使數(shù)據(jù)中心基礎(chǔ)設(shè)施的迅速落地建設(shè)、為用戶提供高效節(jié)能的云設(shè)施服務(wù)。數(shù)據(jù)中心運(yùn)維管理工作作為數(shù)據(jù)中心持續(xù)運(yùn)行重點(diǎn)保障任務(wù),其工作范疇涉及多門學(xué)科,需要合理的運(yùn)維體系和具有創(chuàng)新性、愛(ài)專研的運(yùn)維團(tuán)隊(duì)來(lái)為后續(xù)運(yùn)維工作奠定基礎(chǔ)。
?
同時(shí),云計(jì)算2.0高密度虛擬化架構(gòu)化,越來(lái)越依賴于基礎(chǔ)設(shè)施的支撐,對(duì)數(shù)據(jù)中基礎(chǔ)設(shè)施的可靠性、持續(xù)性、大功率、時(shí)效性、模塊化、自動(dòng)化等提出了更高的挑戰(zhàn)性,數(shù)據(jù)中心需要實(shí)現(xiàn)高效運(yùn)維。那么如何實(shí)現(xiàn)?
?
首先,我們要明確數(shù)據(jù)中心運(yùn)維管理對(duì)象。
?
數(shù)據(jù)中心運(yùn)維對(duì)象包含了機(jī)房基礎(chǔ)設(shè)施、IT設(shè)備、系統(tǒng)和數(shù)據(jù)、運(yùn)維管理工具、運(yùn)維人員等。
?
其次,我們要設(shè)立有效管理的目標(biāo)。
?
數(shù)據(jù)中心運(yùn)維管理過(guò)程是數(shù)據(jù)中心全生命周期中最后一個(gè)階段,也是歷時(shí)最長(zhǎng)的一個(gè)階段,數(shù)據(jù)中心運(yùn)維管理也是依托于已交付的數(shù)據(jù)中心基礎(chǔ)設(shè)施之上。通過(guò)有效的管理,最終使數(shù)據(jù)中心得以實(shí)現(xiàn)服務(wù)與經(jīng)濟(jì)上的目標(biāo),實(shí)現(xiàn)運(yùn)維管理的持續(xù)性、時(shí)效性、標(biāo)準(zhǔn)性、安全性和可用性5大目標(biāo)。 ???
?
然后,我們要明確運(yùn)維團(tuán)隊(duì)的工作職責(zé)與需要掌握的技能。
?
由于數(shù)據(jù)中心的持續(xù)性特性,需要由7*24小時(shí)運(yùn)維人員進(jìn)行技術(shù)支持運(yùn)維服務(wù),運(yùn)維團(tuán)隊(duì)主要職責(zé)是持續(xù)保障數(shù)據(jù)中心運(yùn)行相關(guān)的基礎(chǔ)設(shè)施系統(tǒng)設(shè)備穩(wěn)定連續(xù)運(yùn)行,并掌握數(shù)據(jù)中心各類設(shè)備的工作原理、操作方法、初步故障排查診斷的技能。
?
因此,組建一支高綜合水平的運(yùn)維團(tuán)隊(duì)是做好數(shù)據(jù)中心運(yùn)維管理工作的根本,運(yùn)維團(tuán)隊(duì)的建設(shè)就會(huì)變成運(yùn)維管理工作中非常重要的一項(xiàng)工作內(nèi)容。
?
下面我們重點(diǎn)講述運(yùn)維團(tuán)隊(duì)的建設(shè):
?
運(yùn)維措施
“人”
數(shù)據(jù)中心高精度設(shè)備、復(fù)雜的系統(tǒng)對(duì)運(yùn)維人員技術(shù)提出了新的要求,需要人員必須掌握專業(yè)所需的技能,周期性對(duì)運(yùn)維人員的日常工作規(guī)范化運(yùn)維操作、應(yīng)急響應(yīng)、故障排查進(jìn)行開(kāi)展技術(shù)培訓(xùn)和演練,通過(guò)演練總結(jié)經(jīng)驗(yàn),完善、運(yùn)維指標(biāo)、運(yùn)維技術(shù)標(biāo)準(zhǔn)、應(yīng)急流程,提高團(tuán)隊(duì)綜合應(yīng)急響應(yīng)能力。
?
“體系”
?
根據(jù)ISO9000質(zhì)量管理體系標(biāo)準(zhǔn),建立設(shè)施運(yùn)行、系統(tǒng)巡查、數(shù)據(jù)采集、指標(biāo)測(cè)試標(biāo)準(zhǔn)化等標(biāo)準(zhǔn)化記錄表單、完善設(shè)備運(yùn)行管理、使運(yùn)維質(zhì)量管理制度化、體系化,提高運(yùn)維品質(zhì),定期對(duì)運(yùn)行管理制度進(jìn)行經(jīng)驗(yàn)總結(jié),修正歸檔、統(tǒng)一發(fā)布的流程標(biāo)準(zhǔn)管理方法。
運(yùn)維體系是運(yùn)維的基石,根據(jù)ISO2000 IT服務(wù)管理體系建立數(shù)據(jù)中心ITSM(IT Service Management)IT服務(wù)管理流程,對(duì)各設(shè)備、系統(tǒng)操作流程、應(yīng)急響應(yīng)流程進(jìn)行設(shè)計(jì)、建設(shè),通過(guò)對(duì)運(yùn)維體系的建設(shè)、提高IT運(yùn)維服務(wù)質(zhì)量,降低設(shè)施事件發(fā)生的頻率和影響,對(duì)運(yùn)維成員流程文件輸入、輸出的理論培訓(xùn)、實(shí)操培訓(xùn),使流程不“固化”,流程更清晰、責(zé)任分工更明確,考核量化,文檔規(guī)范化等。??
?
“制度”
?
依據(jù)運(yùn)維體系和指標(biāo)對(duì)運(yùn)維人員的工作行為和取到的工作成績(jī)進(jìn)行評(píng)估,并運(yùn)用評(píng)估結(jié)果為運(yùn)維人員后續(xù)的工作和工作成績(jī)進(jìn)行正面的引導(dǎo)。重點(diǎn)對(duì)人員的指標(biāo)完成度、創(chuàng)新性進(jìn)行觀察、挖掘引導(dǎo)潛在的運(yùn)維潛力。在運(yùn)維工作方面主要體現(xiàn)在運(yùn)維保障上,確保服務(wù)的可用性、安全性和服務(wù)體系流程的標(biāo)準(zhǔn)化實(shí)施。通過(guò)周度、月度報(bào)表內(nèi)維護(hù)量、故障量等數(shù)據(jù)進(jìn)行工作量、工作效率進(jìn)行評(píng)估。
?
“預(yù)警”
?
數(shù)據(jù)中心監(jiān)控系統(tǒng)是現(xiàn)代信息化數(shù)據(jù)中心運(yùn)行監(jiān)控指揮控制中心平臺(tái),通過(guò)數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)展示、數(shù)據(jù)預(yù)警的方式進(jìn)行對(duì)現(xiàn)場(chǎng)環(huán)境設(shè)備、網(wǎng)絡(luò)、溫濕度、電量、開(kāi)關(guān)、設(shè)備運(yùn)行狀態(tài)、壓力、能源信息進(jìn)行集中化實(shí)施展示分析。根據(jù)容量計(jì)算算法對(duì)機(jī)柜配電容量、冷卻容量、裝機(jī)量進(jìn)行預(yù)警、評(píng)估、擴(kuò)容優(yōu)化。通過(guò)平臺(tái)數(shù)據(jù)接口二次開(kāi)發(fā)將預(yù)警數(shù)據(jù)進(jìn)行實(shí)施傳輸?shù)竭\(yùn)維人員工作通訊群等平臺(tái),實(shí)現(xiàn)了運(yùn)行數(shù)據(jù)信息共享化、預(yù)警信息實(shí)時(shí)化。讓溝通簡(jiǎn)單化、避免“信息孤島”等低效率現(xiàn)象,降低溝通成本、提高溝通效率的成果。
?
“測(cè)試”
?
數(shù)據(jù)中心系統(tǒng)測(cè)試是運(yùn)維工作中至關(guān)重要的環(huán)節(jié)。系統(tǒng)測(cè)試驗(yàn)證是測(cè)試數(shù)據(jù)中心系統(tǒng)設(shè)計(jì)、安裝、功能、調(diào)試是否與設(shè)計(jì)意圖相符合的一個(gè)重要過(guò)程,是設(shè)施獲得良好功能和可靠性運(yùn)行過(guò)程中的重要組成部分,一個(gè)好的測(cè)試驗(yàn)證不應(yīng)僅滿足“測(cè)試”相關(guān)的設(shè)備功能指標(biāo),更重要的是“驗(yàn)證”系統(tǒng)是否可以滿足運(yùn)行階段的要求。
?
運(yùn)維人員也應(yīng)利用測(cè)試驗(yàn)證的過(guò)程熟悉在管理設(shè)備的狀態(tài)和運(yùn)行指標(biāo),驗(yàn)證設(shè)備操作標(biāo)準(zhǔn)流程的可操作性,提高實(shí)際過(guò)程中操作和應(yīng)對(duì)突發(fā)事件的運(yùn)維經(jīng)驗(yàn)。
?
“容量管理”
?
隨著數(shù)據(jù)中心各式各樣的非標(biāo)用戶的進(jìn)入,通過(guò)專業(yè)知識(shí)及運(yùn)維管理經(jīng)驗(yàn)對(duì)客戶提出的非標(biāo)改造需求、對(duì)方案進(jìn)行容量分析計(jì)算、布局規(guī)劃、改造實(shí)施、功能測(cè)試、驗(yàn)收交付的過(guò)程,針對(duì)容量管理計(jì)算使用流體動(dòng)力學(xué)CFD技術(shù)進(jìn)行熱仿真分析、對(duì)機(jī)柜進(jìn)行合理布局、氣流組織改善、機(jī)柜裝機(jī)量分析驗(yàn)證。
?
對(duì)機(jī)房客戶改造項(xiàng)目通過(guò)使用BIM技術(shù)進(jìn)行布局,BIM是在項(xiàng)目全生命周期內(nèi),使用富含信息的三維模型作業(yè)中心數(shù)據(jù)庫(kù),在項(xiàng)目相關(guān)干系人之間共同進(jìn)行創(chuàng)建、檢查和溝通協(xié)調(diào)項(xiàng)目信息的一個(gè)過(guò)程。
?
BIM過(guò)程管理是一次對(duì)于傳統(tǒng)的項(xiàng)目工作流線性模式的大轉(zhuǎn)型。BIM的項(xiàng)目生命全周期鼓勵(lì)項(xiàng)目團(tuán)隊(duì)全體成員在全生命周期內(nèi)進(jìn)行合作,BIM還提供了信息丟失時(shí)候、無(wú)縫溝通的平臺(tái),使項(xiàng)目團(tuán)隊(duì)能夠在早期進(jìn)行重大決策,提高生產(chǎn)率、提高項(xiàng)目質(zhì)量和進(jìn)行持續(xù)性建設(shè)大道重要方向。
“運(yùn)維管理”
?
通過(guò)不停的學(xué)習(xí)有效的管理思路,運(yùn)維團(tuán)隊(duì)建立即時(shí)通訊溝通平臺(tái),在工作中實(shí)施,“走動(dòng)式管理“、“PDCA”(即計(jì)劃(plan)、執(zhí)行(do)、檢查(check)、調(diào)整(Action)),定期帶著問(wèn)題對(duì)現(xiàn)場(chǎng)進(jìn)行巡視、發(fā)現(xiàn)問(wèn)題糾正問(wèn)題和了解現(xiàn)場(chǎng)存在的問(wèn)題和不完善的細(xì)節(jié)等問(wèn)題,定期與員工進(jìn)行交流,鼓勵(lì)大家對(duì)工作提出好的建議,在即時(shí)通訊平臺(tái)進(jìn)行及時(shí)溝通,最大程度做到專人負(fù)責(zé)責(zé)任制,跟進(jìn)問(wèn)題的整改檢查和后續(xù)的持續(xù)完善的循環(huán)管理方法,減少“報(bào)喜不報(bào)憂”的不良現(xiàn)象。
運(yùn)維計(jì)劃
通過(guò)運(yùn)維“三控、三管、一協(xié)調(diào)”措施對(duì)運(yùn)維工作的運(yùn)維成本、運(yùn)維品質(zhì)、運(yùn)維效率進(jìn)行目標(biāo)控制,對(duì)運(yùn)維安全、代維服務(wù)商、信息進(jìn)行管理,對(duì)運(yùn)維各技術(shù)小組運(yùn)維工作的協(xié)作協(xié)調(diào)。加強(qiáng)對(duì)團(tuán)隊(duì)各小組人員安全培訓(xùn)、技術(shù)實(shí)施培訓(xùn),技術(shù)文件的規(guī)范化、周期性的演練、團(tuán)隊(duì)建設(shè)。
資料免費(fèi)送(點(diǎn)擊鏈接下載)
史上最全,數(shù)據(jù)中心機(jī)房標(biāo)準(zhǔn)及規(guī)范匯總(下載)
數(shù)據(jù)中心運(yùn)維管理 | 資料匯總(2017.7.2版本)
加入運(yùn)維管理VIP群(點(diǎn)擊鏈接查看)
《數(shù)據(jù)中心運(yùn)維管理》VIP技術(shù)交流群會(huì)員招募說(shuō)
加入學(xué)習(xí)群掃描以下二維碼或者添加微信:wang2017bj
總結(jié)
以上是生活随笔為你收集整理的数据中心实现高效运维的秘诀的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。