SQL Server--疑难杂症之坑爹的Windows故障转移群集
--==============================================================
估計(jì)是春節(jié)前最后一次寫(xiě)博客,也估計(jì)是本年值班最后一次踩雷,感嘆下成也SQL SERVER,敗也SQL SERVER。
--==============================================================
場(chǎng)景描述:
操作系統(tǒng)版本 :Windows Server 2012 數(shù)據(jù)中心版本
數(shù)據(jù)庫(kù)版本 :SQL SERVER 2012 企業(yè)版,版本號(hào):11.0.5582.0
問(wèn)題描述:數(shù)據(jù)庫(kù)配置Alwayson環(huán)境,同機(jī)房2節(jié)點(diǎn)同步自動(dòng)切換+跨機(jī)房異步,實(shí)現(xiàn)高可用性自動(dòng)故障轉(zhuǎn)移,由于有四個(gè)節(jié)點(diǎn),因此選擇奇數(shù)即3節(jié)點(diǎn)的群集仲裁,但當(dāng)其中一節(jié)點(diǎn)(仲裁節(jié)點(diǎn)或非仲裁節(jié)點(diǎn))發(fā)生硬件故障導(dǎo)致重啟,便可能“引發(fā)”群集之間香菇丟失通信,然后群集開(kāi)始對(duì)各個(gè)群集節(jié)點(diǎn)"已從活動(dòng)故障轉(zhuǎn)移群集成員身份中刪除群集節(jié)點(diǎn)XXX",最終群集把所有仲裁節(jié)點(diǎn)刪掉,群集自身掛掉,群集發(fā)生故障,導(dǎo)致上層依賴(lài)的Alwayson無(wú)法正常提供服務(wù),處于“正在解析”狀態(tài),直到重啟的節(jié)點(diǎn)恢復(fù)正常==>群集正常==》Alwayson正常。
假設(shè)有ABCD四個(gè)節(jié)點(diǎn),AB和CD分別在兩個(gè)機(jī)房,ABC三節(jié)點(diǎn)配置為仲裁節(jié)點(diǎn),C節(jié)點(diǎn)發(fā)生故障,從群集時(shí)間中發(fā)現(xiàn):
ABC三節(jié)點(diǎn)先后從故障群集中被移除,然后仲裁丟失群集服務(wù)關(guān)閉。
--=====================================================================
根據(jù)MS專(zhuān)家給出的分析,懷疑網(wǎng)絡(luò)問(wèn)題,事件1135也明顯提示由于網(wǎng)絡(luò)問(wèn)題導(dǎo)致,而機(jī)房也查出部分出現(xiàn)該類(lèi)故障的服務(wù)器使用了有問(wèn)題的AOC線纜。
但是,問(wèn)題總是在但是之后,為什么網(wǎng)絡(luò)中喜歡在服務(wù)器宕機(jī)的時(shí)候出來(lái)湊熱鬧呢?一組Windows故障轉(zhuǎn)移,當(dāng)不出現(xiàn)問(wèn)題的時(shí)候,一年多沒(méi)有出現(xiàn)網(wǎng)絡(luò)問(wèn)題,就偏偏恰好在服務(wù)器宕機(jī)的時(shí)候網(wǎng)絡(luò)“抖動(dòng)”呢?因?yàn)榉?wù)器宕機(jī)產(chǎn)生的興奮還是恐懼導(dǎo)致抖動(dòng)呢?
同機(jī)房的網(wǎng)絡(luò)應(yīng)該比較值得信賴(lài)吧,一個(gè)異地機(jī)房的服務(wù)器宕機(jī)導(dǎo)致同一機(jī)房的網(wǎng)絡(luò)抖動(dòng)也不太科學(xué)吧。
--=====================================================================
另外一個(gè)錯(cuò)誤提示為:A與掛掉的C握手未在40秒內(nèi)完成握手
難道群集節(jié)點(diǎn)之間這么重感情么?跟一個(gè)掛掉的節(jié)點(diǎn)握手都等待這么長(zhǎng)時(shí)間?要不要等到地老天荒呢?
?
科普下,如果出現(xiàn)類(lèi)似狀況,如果發(fā)生宕機(jī)的服務(wù)器無(wú)法盡快重啟成功,在故障轉(zhuǎn)移群集無(wú)法正常啟動(dòng)下,可以使用 net stop clussvc來(lái)停止本地群集服務(wù)器,然后再使用net start clussvc /fq來(lái)強(qiáng)制將本地群集服務(wù)啟動(dòng),以便盡快使Alwayson回復(fù)正常提供服務(wù)。
?
--====================================================================
一些不太靠譜的建議,供各位參考:
1. 對(duì)于跨機(jī)房的仲裁節(jié)點(diǎn),能不用還是別用吧,實(shí)在不行在同機(jī)房弄個(gè)服務(wù)器做文件共享仲裁也行
2. 兩節(jié)點(diǎn)的故障轉(zhuǎn)移群集,一定要配置文件共享或磁盤(pán)見(jiàn)證
3. 群集屬性中策略一欄,盡量配置下““指定時(shí)段內(nèi)重新啟動(dòng)的最多次數(shù)”:
--====================================================================
吐槽下,Alwayson號(hào)稱(chēng)秒級(jí)別的故障轉(zhuǎn)移啊,很誘惑,的確很多時(shí)候這個(gè)讓DBA很放心,收到故障短信的時(shí)候,早已自動(dòng)轉(zhuǎn)移并恢復(fù)提供服務(wù),DBA可以放心地洗個(gè)澡刷個(gè)牙換身衣服再來(lái)處理故障。但是理想是美好的,現(xiàn)實(shí)是殘酷的,AO大部分情況下還算給力,出現(xiàn)BUG無(wú)法正常切換的幾率較低(注意是較低不是沒(méi)有),但架不住坑爹的Windows故障轉(zhuǎn)移群集,地基不好,樓再結(jié)實(shí)也容易塌啊!
期望SQL SERVER能再次崛起,也期望作為SQL SERVER DBA能再像以前那樣驕傲地說(shuō)“SQL SERVER,肯定沒(méi)問(wèn)題”。
?
又是一年年關(guān),看看身邊小伙伴一個(gè)個(gè)歸心似箭,突然害怕過(guò)年,混好的已經(jīng)悄然睡去,混的差的早已失眠成習(xí)慣。
愿各位朋友春節(jié)快樂(lè),有錢(qián)沒(méi)錢(qián),回家過(guò)年!
來(lái)年再見(jiàn),來(lái)年再戰(zhàn)!
?
轉(zhuǎn)載于:https://www.cnblogs.com/TeyGao/p/6318189.html
總結(jié)
以上是生活随笔為你收集整理的SQL Server--疑难杂症之坑爹的Windows故障转移群集的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 阿里矢量库图标在线链接的使用方法,引入,
- 下一篇: 嵌入式系统中看门狗概述。。。