日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > linux >内容正文

linux

linux mcelog 运行,服务器硬件检测(采用mcelog)

發布時間:2023/12/2 linux 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 linux mcelog 运行,服务器硬件检测(采用mcelog) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

mt 內存監控:mcecheck.py

raid監控:?check-raid

mcelog 是 x86 的 Linux 系統上用來檢查硬件錯誤,特別是內存和CPU錯誤的工具。

安裝方式

yum install mcelog

運行

mcelog

查看日志方式

/var/log/mcelog

MCE 0

HARDWARE ERROR. This is?NOT?a software problem!

Please contact your hardware vendor

CPU 1 BANK 8 TSC 1193fd60c6699?[at 2000 Mhz 1 days 18:56:49 uptime (unreliable)]

MISC 8f44960800095840 ADDR 4a9f3b1c0

MCG status:

MCi status:

Error overflow

MCi_MISC register valid

MCi_ADDR register valid

MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR

Transaction: Memory read error

Memory read ECC error

Memory corrected error count (CORE_ERR_CNT): 18

Memory transaction Tracker ID (RTId): 40

Memory DIMM ID of error: 1

Memory channel ID of error: 0

Memory ECC syndrome: f449608

STATUS cc0004800001009f MCGSTATUS 0

作為一個企業服務器管理員,面對服務器莫名宕機或者主動重啟,歷經折磨后判斷為內存問題引起,可當看到內存多達幾十條時,難道要單條測試?要真這樣,估計領導也要廢了你吧。有沒方便有效的方法去速度定位那個DIMM槽內存或者在日常監測內存正常與否呢?下面介紹下linux系統下的監控方法--MCElog。

What are Machine Check Exceptions (or MCE)?

A machine check exception is an error dedected by your system's processor. There are 2 major types of MCE errors, a notice or warning error, and a fatal execption. The warning will be logged by a "Machine Check Event logged" notice in your system logs, and can be later viewed via some Linux utilities. A fatal MCE will cause the machine to stop responding and the details of the MCE will be printed out to the system's console.

What causes MCE errors?

There most common reason for MCE events to occur are:

1.Memory errors or Error Correction Code (ECC) problems

2.Inadequate cooling / processor over-heating

3.System bus errors

4.Cache errors in the processor or hardware

##一般來說當有錯誤提示時,需要優先注意內存問題,但由于現在內存控制器是集成在cpu里,所以有個別情況是由CPU問題引起的##

Installmcelog-1.0_pre3_p20120918.tar.gz

Mcelog安裝

#tar -zxvf mcelog-1.0_pre3_p20120918.tar.gz ? ?解壓出來

#cd ?andikleen-mcelog-0f5d023 ? ? ? ? ? ? ? ? ?進入解壓出來的文件夾

#make

#make install ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?編譯和安裝

Mcelog相關文件

/dev/mcelog?設備文件

/var/log/mcelog ? ?messages日志文件

/etc/mcelog/mcelog.conf配置文件

/var/run/mcelog.pid

默認故障日志只記錄在/var/log/mcelog,并不記錄到系統日志中。

如果需要在系統日志中也體現,需修改/etc/mcelog/mcelog.conf文件,將前面#去掉,并保存。

Mcelog相關設置

1.mcelog的隨系統啟動,查看boot下的config文件,可以看到mce模塊隨機啟動

2.配置mcelog后臺運行

#mcelog --daemon

3.查看mcelog日志文件

由于各廠家服務器內存槽位設計可能不同,這邊關于錯誤中的cpu0 bank5內存槽位定位不做討論。

總結

以上是生活随笔為你收集整理的linux mcelog 运行,服务器硬件检测(采用mcelog)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。