遇到虚拟系统内存问题怎么办?Hypervisor帮你除bug
服務器可靠性取決于識別錯誤并從錯誤中迅速恢復,否則可能導致服務器上所有虛擬機同時宕機的系統(tǒng)錯誤,內(nèi)存錯誤就是其中一個重要的示例。很多內(nèi)存錯誤是不容易重現(xiàn)的“軟”錯誤,但如果沒有及時解決可能會導致整個服務器宕機。
隨著內(nèi)存子系統(tǒng)設計的改進,內(nèi)存錯誤記錄在每個DIMM上的部分串行存在檢查芯片的日志文件中。系統(tǒng)可以使用錯誤數(shù)據(jù)識別可能存在問題的地址,避免使用包括可疑地址的那些地址頁。例如熱備份功能, DIMM上的一個錯誤可能會導致內(nèi)容被交換到一個已安裝的備份DIMM,服務器停止使用有問題的DIMM,并提醒技術(shù)人員空閑的DIMM已經(jīng)被調(diào)用。
Hypervisor也可以讀取內(nèi)存錯誤日志然后對有問題的內(nèi)存地址做出正確的決策。例如,非常規(guī)數(shù)量的糾正錯誤,比如使用糾錯碼修正錯誤可能意味著DIMM即將發(fā)生“硬”錯誤。像VMware的ESXi這樣的hypervisor可能會停止使用有問題的地址頁,避免內(nèi)存錯誤升級并可能破壞虛擬機或者整個系統(tǒng)。
同時,這類錯誤隔離行為能夠向hypervisor事件日志報告發(fā)現(xiàn)的錯誤,甚至觸發(fā)管理告警以便于進一步調(diào)查。服務器可以繼續(xù)運行直到技術(shù)人員能夠?qū)⑻摂M機遷移到其他服務器并將遇到麻煩的系統(tǒng)下線以進行詳細的故障診斷與修復。即使內(nèi)存故障診斷測試沒有給出確定的結(jié)論,預先替換可疑的DIMM也是理所當然的事兒。
內(nèi)存是核心的虛擬化資源,往往也是服務器整合時很有限的資源,但內(nèi)存技術(shù)一直在不斷完善。hypervisor一直都支持過度分配,能夠識別并重新分配空閑的內(nèi)存,新系統(tǒng)能夠在多個虛擬機之間共享通用的內(nèi)存內(nèi)容,而壓縮能夠緩存空閑頁面,不需要進行磁盤交換。上述技術(shù)進步有助于更好地使用資源、提升整合比率、減少內(nèi)存錯誤、提升虛擬環(huán)境的可靠性。
本文轉(zhuǎn)自d1net(轉(zhuǎn)載)
總結(jié)
以上是生活随笔為你收集整理的遇到虚拟系统内存问题怎么办?Hypervisor帮你除bug的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LoadRunner对不同协议的选择
- 下一篇: 视频大变革:需要技术,也需要情怀