关于Exchange邮箱服务器角色故障排查及解决思路分享
? ? 在最近一次關(guān)于Exchange服務(wù)器故障中,出現(xiàn)了員工無法進(jìn)入郵箱的問題,最直接方法來登錄OWA頁面,看看正常不正常,反映出來的報(bào)錯(cuò)信息如下:
???? 當(dāng)接到這個(gè)報(bào)障后,第一時(shí)間,當(dāng)時(shí)有人問到是不是公司的CAS服務(wù)器掛了?當(dāng)然還是如果對郵件服務(wù)器足夠了解的話, 這個(gè)報(bào)錯(cuò)一定不是郵箱服務(wù)器CAS出現(xiàn)故障,因?yàn)槿绻鸆AS出現(xiàn)問題,您也到不了這個(gè)頁面的,所以根據(jù)產(chǎn)品提供服務(wù)來判斷,能打開OWA頁面,說明CAS服務(wù)器是正常的,出現(xiàn)這個(gè)報(bào)錯(cuò)是在用戶輸入帳號和密碼后出現(xiàn)的,那么其實(shí)不用去思考,故障點(diǎn)一定出現(xiàn)在郵箱服務(wù)器角色上,好帶著這個(gè)排錯(cuò)思路我們來看看郵箱服務(wù)器角色吧。
???? 當(dāng)打開EMC控制臺時(shí),所以數(shù)據(jù)庫全為宕的狀態(tài),所以這也就是為什么用戶在網(wǎng)頁方式輸入郵箱帳號及密碼后,提示郵箱不可用的原因了,但是數(shù)據(jù)庫全為宕狀態(tài)的根本原因又是什么呢?根據(jù)經(jīng)驗(yàn)有極大的可能是郵箱數(shù)據(jù)庫所在的存儲盤滿了,OK,那么來看看,發(fā)現(xiàn)數(shù)據(jù)庫所在磁盤可用空間為幾百KB。
???? 現(xiàn)在要做的事情,就是盡快清理出空間來先恢復(fù)主體業(yè)務(wù),可用方法有如下:
1.數(shù)據(jù)庫采用了DAG,那么可以先把副本庫刪除,保證每個(gè)主數(shù)據(jù)庫所在的磁盤有足夠的空間,但是隱性的風(fēng)險(xiǎn)在于如果主數(shù)據(jù)庫宕掉,又恢復(fù)不起來,那故障影響范圍就更大了。
2.通過清除Log的方法釋放空間,此方法還是比較穩(wěn)妥的,至少能先把主、副數(shù)據(jù)庫掛起來,而且不會(huì)影響業(yè)務(wù)使用。
3.開啟日志循環(huán)功能,但需要卸載故障數(shù)據(jù)庫,且需要時(shí)間等待。
???? 所以最后選擇了第二種方法,清除Log,那么OK,這里我采用如下命令清理數(shù)據(jù)庫log文件,GUI下也可以,但是數(shù)據(jù)量過大,很有可能會(huì)導(dǎo)致系統(tǒng)假死,而且清理起來要比較費(fèi)事。
forfiles /s /m *.log /d -4 /c "cmd /c del @file /f"
上邊這條命令的意思是刪除4天前的日志,清理后發(fā)現(xiàn)空間釋放出來幾十個(gè)G,再來看數(shù)據(jù)庫狀態(tài),已經(jīng)正常掛載和同步,那么OK,此時(shí)至少在郵件量不大的情況下能恢復(fù)業(yè)務(wù)。
?? 好,接下來就要考慮的是如何增加存儲的問題了,由于環(huán)境中是在esxi中搭建的虛擬化,方法有如下幾種: ??
1.直接對郵箱服務(wù)器角色存儲盤擴(kuò)容,但由于是生產(chǎn),所以還是有一定風(fēng)險(xiǎn),如果擴(kuò)盤失敗,那么會(huì)帶來郵箱服務(wù)器整體真正宕機(jī)。
2.新增單獨(dú)的存儲盤,并且由于之前是日志與edb數(shù)據(jù)庫文件位于同一個(gè)盤下,所以我們在增加新的存儲盤時(shí),要增加2塊,一塊用于存放edb文件,另一塊用于存放log文件,也在數(shù)據(jù)庫的恢復(fù)性上做了優(yōu)化這樣,增加新存儲盤后,再新建新的數(shù)據(jù)庫,將原存儲盤中較大的數(shù)據(jù)庫郵箱進(jìn)行遷移,此項(xiàng)操作雖比較耗時(shí),但是還是相對來說比較穩(wěn)妥的方法。
3.增加新的郵箱服務(wù)器角色,將出問題的原存儲盤中的郵箱數(shù)據(jù)庫分別增加副本至新的郵箱服務(wù)器中,但是此方法雖也是比較穩(wěn)妥的方法,但是從服務(wù)器增加搭建再到同步副本,仍是很慢的方法。
?? ? 所以最終在解決根本性問題時(shí),選擇了方法二,這樣既能調(diào)優(yōu)Exchange數(shù)據(jù)庫存放結(jié)構(gòu),又保證不會(huì)出現(xiàn)更大的問題,唯一可能要注意的就是要時(shí)時(shí)觀察原數(shù)據(jù)庫存儲盤,如是空間接近不足時(shí),要用上述命令刪除日志,來保證遷移的順利,當(dāng)然也通過這種方法起到了釋放空白空間的作用,遷移結(jié)束后,先將原數(shù)據(jù)庫卸載,觀察如果郵箱無問題,就可以直接刪除舊的數(shù)據(jù)庫了。
??? 當(dāng)然,存儲盤是有限的,而日志文件的增長又是比較迅速的,所以盡可能在企業(yè)環(huán)境中增加備份軟件對日志進(jìn)行備份來減少日志增加量及完整性,如果實(shí)在沒有條件搭建備份平臺,那么也可以數(shù)據(jù)庫新建后,開啟日志循環(huán)功能,來控制日志容量的增長。
??? 當(dāng)然,最后還想說的是運(yùn)維工作本身是一件非常謹(jǐn)慎的事情,所以遇到事情還是應(yīng)該冷靜下來,先確認(rèn)問題點(diǎn),快速恢復(fù)業(yè)務(wù),同時(shí)找到最穩(wěn)妥的解決辦法來保證從根本防止此類故障問題,這次故障其實(shí)還有一個(gè)原因就是上一代管理員在對郵件平臺規(guī)劃中并沒有考慮到更長遠(yuǎn)的問題,數(shù)據(jù)庫存儲空間不做規(guī)劃,導(dǎo)致數(shù)據(jù)庫日志在增長后,無法及時(shí)清理,所以做任何平臺,都應(yīng)該本著規(guī)劃為先,測試及評估為中,實(shí)施為后的思想,多想想當(dāng)前規(guī)劃是否會(huì)成為自己運(yùn)維的增加了更大的風(fēng)險(xiǎn)。
??? 這篇文章只起到一個(gè)排錯(cuò)思路的分享,更多的還是然望能通過這個(gè)案例,來說明存儲空間及備份在企業(yè)中的根本作用和必要性。
本文轉(zhuǎn)自wangtingdong 51CTO博客,原文鏈接:http://blog.51cto.com/tingdongwang/1640968,如需轉(zhuǎn)載請自行聯(lián)系原作者
總結(jié)
以上是生活随笔為你收集整理的关于Exchange邮箱服务器角色故障排查及解决思路分享的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux共享上网
- 下一篇: LFS安装ifconfig命令