linux mcelog 运行,服务器硬件检测(采用mcelog)
mt 內存監控:mcecheck.py
raid監控:?check-raid
mcelog 是 x86 的 Linux 系統上用來檢查硬件錯誤,特別是內存和CPU錯誤的工具。
安裝方式
yum install mcelog
運行
mcelog
查看日志方式
/var/log/mcelog
MCE 0
HARDWARE ERROR. This is?NOT?a software problem!
Please contact your hardware vendor
CPU 1 BANK 8 TSC 1193fd60c6699?[at 2000 Mhz 1 days 18:56:49 uptime (unreliable)]
MISC 8f44960800095840 ADDR 4a9f3b1c0
MCG status:
MCi status:
Error overflow
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Transaction: Memory read error
Memory read ECC error
Memory corrected error count (CORE_ERR_CNT): 18
Memory transaction Tracker ID (RTId): 40
Memory DIMM ID of error: 1
Memory channel ID of error: 0
Memory ECC syndrome: f449608
STATUS cc0004800001009f MCGSTATUS 0
作為一個企業服務器管理員,面對服務器莫名宕機或者主動重啟,歷經折磨后判斷為內存問題引起,可當看到內存多達幾十條時,難道要單條測試?要真這樣,估計領導也要廢了你吧。有沒方便有效的方法去速度定位那個DIMM槽內存或者在日常監測內存正常與否呢?下面介紹下linux系統下的監控方法--MCElog。
What are Machine Check Exceptions (or MCE)?
A machine check exception is an error dedected by your system's processor. There are 2 major types of MCE errors, a notice or warning error, and a fatal execption. The warning will be logged by a "Machine Check Event logged" notice in your system logs, and can be later viewed via some Linux utilities. A fatal MCE will cause the machine to stop responding and the details of the MCE will be printed out to the system's console.
What causes MCE errors?
There most common reason for MCE events to occur are:
1.Memory errors or Error Correction Code (ECC) problems
2.Inadequate cooling / processor over-heating
3.System bus errors
4.Cache errors in the processor or hardware
##一般來說當有錯誤提示時,需要優先注意內存問題,但由于現在內存控制器是集成在cpu里,所以有個別情況是由CPU問題引起的##
Installmcelog-1.0_pre3_p20120918.tar.gz
Mcelog安裝
#tar -zxvf mcelog-1.0_pre3_p20120918.tar.gz ? ?解壓出來
#cd ?andikleen-mcelog-0f5d023 ? ? ? ? ? ? ? ? ?進入解壓出來的文件夾
#make
#make install ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?編譯和安裝
Mcelog相關文件
/dev/mcelog?設備文件
/var/log/mcelog ? ?messages日志文件
/etc/mcelog/mcelog.conf配置文件
/var/run/mcelog.pid
默認故障日志只記錄在/var/log/mcelog,并不記錄到系統日志中。
如果需要在系統日志中也體現,需修改/etc/mcelog/mcelog.conf文件,將前面#去掉,并保存。
Mcelog相關設置
1.mcelog的隨系統啟動,查看boot下的config文件,可以看到mce模塊隨機啟動
2.配置mcelog后臺運行
#mcelog --daemon
3.查看mcelog日志文件
由于各廠家服務器內存槽位設計可能不同,這邊關于錯誤中的cpu0 bank5內存槽位定位不做討論。
總結
以上是生活随笔為你收集整理的linux mcelog 运行,服务器硬件检测(采用mcelog)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux bind日志级别,BIND日
- 下一篇: linux下的遥控器软件下载,Linux