aix linux运维,运维老司机分享的八个AIX日常运维经验及案例
原文來自微信公眾號(hào):AIX專家俱樂部
【經(jīng)驗(yàn)分享】在AIX啟動(dòng)時(shí),打開debug模式
經(jīng)常遇到aix無法啟動(dòng),但又不知道pending在哪,因此打開啟動(dòng)過程的debug模式,對(duì)于診斷問題有很大的幫幫助。下面是打開debug的方法:
打開啟動(dòng)debug先進(jìn)入微碼模式(啟動(dòng)界面中輸入8)
boot -s trap
進(jìn)入kdb
dbgopt
選擇要debug的內(nèi)容
重新進(jìn)入kdb
輸入g
分享者:崔增順
【經(jīng)驗(yàn)分享】odm庫修復(fù)方法
分享者:崔增順
【經(jīng)驗(yàn)分享】如何收集filemon數(shù)據(jù)
filemon -O all -o filemon.out;sleep 30;trcstop
語法:
filemon [ -d ] [ -i Trace_File -nGennames_File] [ -o File] [ -O Levels] [ -P ] [ -T n] [ -u ] [ -v ]
#filemon-o fm.out -O all ; sleep 30 ; trcstop
輸出結(jié)果保存在fm.out 中。輸出字段說明如下:
最活躍的文件
? #MBs 此文件在測(cè)量間隔時(shí)間內(nèi)的傳送量(以 MBs 為單位)。各行按照此字段降序排列。
? #opns 在測(cè)量周期內(nèi)的文件的打開次數(shù)。
? #rds 文件讀取調(diào)用的次數(shù)
? #wrs 文件寫入調(diào)用的次數(shù)
? file 文件名稱(文件路徑全稱在詳細(xì)報(bào)告中)。
? volume:inode 文件駐留的邏輯卷和在相連文件系統(tǒng)總的 i-node 數(shù)目。此字段可以被用來把文件和在詳細(xì)的 VM 段報(bào)告中顯示的其相應(yīng)的永久段關(guān)聯(lián)起來。此字段對(duì)在執(zhí)行過程中創(chuàng)建和刪除的臨時(shí)文件可以為空。
最活躍的段
? #MBs 此段在測(cè)量間隔時(shí)間內(nèi)的傳送量(以 MBs 為單位)。各行按照此字段降序排列。
? #rpgs 從磁盤讀入段中大小為 4-KB 的頁面數(shù)
? #wpgs 從段中寫入磁盤大小為 4-KB 的頁面數(shù)(page out)
? #segid 內(nèi)存段的 VMM 標(biāo)識(shí)
? segtype段的類型:工作段、永久段(本地文件)、客戶機(jī)段(遠(yuǎn)程文件)、頁表段、系統(tǒng)段或者包含文件系統(tǒng)數(shù)據(jù)的指定永久段。
? volume:inode 對(duì)永久段來說,包含相關(guān)文件的邏輯卷名稱和文件的 i-node 數(shù)目。此字段可以被用來把段和在詳細(xì)的文件狀態(tài)報(bào)告中顯示的其相應(yīng)的文件關(guān)聯(lián)起來。對(duì)非永久段來說,此字段為空。
最活躍的邏輯卷
? util 邏輯卷使用率。
? #rblk 從邏輯卷讀取的大小為 512 字節(jié)的塊數(shù)。
? #wblk 寫入邏輯卷大小為 512 字節(jié)的塊數(shù)。
? KB/s 每秒鐘平均傳送速率,單位 KB。
? volume 邏輯卷名稱。
? description 文件系統(tǒng)安裝點(diǎn)或是邏輯卷類型(paging, jfslog, boot,or sysdump)。例如,邏輯卷 /dev/hd2 是/usr類型;/dev/hd6 是 paging 類型以及 /dev/hd8 是 jfslog 類型。有時(shí)也可能出現(xiàn)被壓縮的這個(gè)字眼。這意味著所有的數(shù)據(jù)在被寫入磁盤前都會(huì)以 Lempel-Zev(LZ)壓縮技術(shù)自動(dòng)壓縮,在從磁盤讀取時(shí)則自動(dòng)解壓縮。
最活躍的物理卷
? util 物理卷使用率。
注:邏輯卷 I/O 請(qǐng)求在物理卷 I/O 請(qǐng)求前后啟動(dòng)。總的邏輯卷使用率將會(huì)看起來比總的物理卷使用率高。使用率用百分比表示,0.10 是指 10% 的物理卷在測(cè)量時(shí)間間隔內(nèi)繁忙。
? #rblk 從物理卷讀取的大小為 512 字節(jié)的塊數(shù)。
? #wblk 寫入物理卷大小為 512 字節(jié)的塊數(shù)。
? KB/s 每秒鐘平均傳送速率,單位 KB。
volume 物理卷名稱。
? description 有關(guān)物理卷類型的簡(jiǎn)單描述,例如, SCSI 多媒體 CD-ROM 驅(qū)動(dòng)器或 16位SCSI 磁盤驅(qū)動(dòng)器。
文件系統(tǒng)的安裝點(diǎn)(mount point)及文件的i節(jié)點(diǎn)(inode)可與命令ncheck一起使用,來找出相對(duì)應(yīng)的文件。
分享者:崔增順 張文正
【案例分享】/dev/null 2>&1 文件過大導(dǎo)致根目錄爆滿
在日常檢查維護(hù)過程中,發(fā)現(xiàn)小機(jī)分區(qū)/目錄89%,90%,
du -axg / |sort -rn|head
查找出/根目錄下最大的10 個(gè)文件,發(fā)現(xiàn) ‘/dev/null 2>&1’文件非常大,占比達(dá)60%,而且rootvg所剩余的空間不足,無法進(jìn)行擴(kuò)容。在IBM官網(wǎng)查詢手冊(cè)以及證實(shí)后,發(fā)現(xiàn)此文件不停增大為AIX6.1的系統(tǒng)BUG。在觀察了近1個(gè)月后,在和童確認(rèn)。在dfkdr分區(qū)上進(jìn)行嘗試刪除。之后,,進(jìn)行刪除操作。根目錄恢復(fù)正常。
http://www-01.ibm.com/support/docview.wss?uid=nas74d33539b559cc0308625792900533a8f
Description
The /var/opt/tivoli/ep/rusntime/nonstop/bin/cas_src.sh script writes a file “/dev/null 2>&1” which might fill up the / filesystem.
This happens with agents that have the following cas.agent fileset version:
cas.agent 1.4.2.32
Common Agent Services Agent
Work-around and fix notes are detailed below.
判別是否存在BUG
lslpp -L cas.agent
可看到Level為1.4.2.32,C F
BUG腳本為
cat /var/opt/tivoli/ep/runtime/nonstop/bin/cas_src.sh
…
else
CAS_SRC_LOG=”/dev/null 2>&1”
fi
…
Bug 2 : After installing TL7 and at system reboot, the Director agent is automatically enabled.
處理方式:
1.disable cas_agent 操作命令: stopsrc –s cas_agent
2.disable the cas_agent entry in /etc/inittab 操作命令:chitab “cas_agent:2off:/usr/bin/startsrc –s cas_agent >/dev/null 2>&1”
3.在/dev下執(zhí)行rm nul*1
分享者:ACDante
【案例分享】多CEC柜 9117-570更換FSP后報(bào)無法開機(jī),代碼報(bào)B1551380
原因:沒有按HMC流程更換FSP,換上去的FSP的”processing unit identifier”記錄的是B2,B2設(shè)置只能支持單柜,不支持多CEC柜。
解決:powered off狀態(tài)時(shí),進(jìn)入ASM把”processing unit identifier”改為B3。
Note: This feature is available only when the system is powered off. This operation resets the service processor.
To change the processing unit identifier, do the following:
1.On the ASMI Welcome pane, specify your user ID and password, and click Log In.
2.In the navigation area, expand System Configuration.
3.Select Processing Unit Identifier.
4.Enter the desired information into the 2-character text area. Supported processing unit identifiers are shown in the following table:
5.Note: Processing unit IDs are not applicable for IntelliStation? POWER? 185, 7037-A50, and the 7031-D24 and 7031-T24enclosure models.
6.Click Save settings to complete the operation.
分享者:姜恒
【案例分享】AIX6100-06-06系統(tǒng)bug引起down機(jī)
某機(jī)器操作系統(tǒng)版本6100-06-06,系統(tǒng)down機(jī),生成dump文件。
Problem:
System crash with following stack
CRASH INFORMATION:
CPU 3 CSA F00000002FF47600 at time of crash, error code
for
LEDs: 30000000
pvthread+02BD00 STACK:
[00009500].simple_lock+000000 ()
[00450E24]netinfo_unixdomnlist+000824 (??, ??, ??, ??,
??, ??)
[0451214C]netinfo+00006C (??, ??, ??, ??, ??, ??)
[004504DC]netinfo+0000FC (??, ??, ??, ??)
[00003850]ovlya_addr_sc_flih_main+000130 ()
[kdb_get_virtual_memory] no real storage @
FFFFFFFFFFFEF20
[100002640]0000000100002640 ()
[kdb_read_mem] no real storage @ FFFFFFFFFFF5E30
bug原因
File lock is taken before checking whether the file type is
socket.
該故障因netstat -f unix 命令引起系統(tǒng) crash, 是iBM bug 引起
建議單獨(dú)提升bos.mp64包補(bǔ)丁包或者整體升級(jí)到6100-06-12-1339(SP12)
官網(wǎng)解釋:
IV09793: SYSTEM CRASH IN NETINFO_UNIXDOMNLIST APPLIES TO AIX 6100-06
http://www-01.ibm.com/support/docview.wss?uid=isg1IV09793
File lock is taken before checking whether the file type is
socket.
分享者:qb306
【案例分享】一次HACMP的回車
記得印象很深刻的一次,當(dāng)時(shí)并沒有陪過HACMP,但維護(hù)的環(huán)境中有一臺(tái)出報(bào)的系統(tǒng)找到了我。當(dāng)時(shí)是打電話聯(lián)系當(dāng)時(shí)做這套系統(tǒng)的技術(shù)支持。逐步檢查HACMP的配置,檢查后。本來應(yīng)該推出,但是當(dāng)時(shí)手抖。習(xí)慣性的敲了回車。什么配置都沒有改動(dòng)。但是卻報(bào)了錯(cuò)說讓我重啟生效,那時(shí)候才知道HACMP無論配置有沒有改動(dòng)。敲了回車就認(rèn)為是修改了配置。要重啟。
分享者:pysx0503
【案例分享】某企業(yè)HACMP軟件,在網(wǎng)絡(luò)交換機(jī)變更是引起down機(jī)
某企業(yè)HA cluster log, IP switch down時(shí)引起雙節(jié)點(diǎn)halt,系統(tǒng)版本7100-03-03,HA版本6.1sp13
Error description
In HACMP 6 with rsct.core.utils 3.1.4.9 or higher, if all
IP networks are lost and at least one non-IP network is
functioning, the Group Services subsystem will core dump when
trying to send packets to be routed through Topology Services
(across the non-IP connection). This will cause a node halt.
Customers with PowerHA 7, or HACMP 6 customers with no non-IP
networks (such as rs232 or disk) are not in danger. Also this
will not happen if only one node is still running, since there
will be no other cluster members to send messages to.
日志如下
Nov 21 01:35:46 masterserv1 daemon:notice topsvcs[8192030]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6zV5DL.mbpHK/ONs/o.Ama/……………….:::Reference ID:
:::Template ID: 173c787f:::Details File: :::Location: rsct,nim_control.C,1.39.1.41,6717 :::TS_LOC_DOWN_ST Possible malfunction on local adapter Adapter i
nterface name en2 Adapter offset 1 Adapter IP address 192.200.192.52
Nov 21 01:35:49 masterserv1 user:notice HACMP for AIX: EVENT START: fail_standby masterserv1 192.200.192.52
Nov 21 01:35:49 masterserv1 user:notice HACMP for AIX: EVENT COMPLETED: fail_standby masterserv1 192.200.192.52 0
Nov 21 01:35:51 masterserv1 user:notice HACMP for AIX: EVENT START: fail_standby masterserv2 192.200.192.53
Nov 21 01:35:51 masterserv1 user:notice HACMP for AIX: EVENT COMPLETED: fail_standby masterserv2 192.200.192.53 0
Nov 21 01:40:34 masterserv1 daemon:notice topsvcs[8192030]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6zV5DL.GgpHK/DLG.o.Ama/……………….:::Reference ID:
:::Template ID: 173c787f:::Details File: :::Location: rsct,nim_control.C,1.39.1.41,6717 :::TS_LOC_DOWN_ST Possible malfunction on local adapter Adapter i
nterface name en0 Adapter offset 0 Adapter IP address 102.200.192.52
Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: Called, state=ST_UNSTABLE, provider token 1
Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: GsToken 2, AdapterToken 3, rm_GsToken 1
Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: GRPSVCS announcment code=512; exiting
Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 CHECK FOR FAILURE OF RSCT SUBSYSTEMS (topsvcs or grpsvcs)
Nov 21 01:40:36 masterserv1 daemon:err|error haemd[15204586]: LPP=PSSP,Fn=emd_gsi.c,SID=1.4.1.37,L#=1395, haemd: 2521-032 Cannot d
ispatch group services (1).
Nov 21 01:40:36 masterserv1 user:notice HACMP for AIX: clexit.rc : Unexpected termination of clstrmgrES.
Nov 21 01:40:36 masterserv1 user:notice HACMP for AIX: clexit.rc : Halting system immediately!!!
原因是補(bǔ)丁IV55293: HAGSD CORE DUMP WHEN IP NETWORKS LOST, 需要升級(jí)rsct文件集。
官網(wǎng)解釋:
http://www-01.ibm.com/support/docview.wss?uid=isg1IV55293
分享者:qb306
本文鏈接:http://www.yunweipai.com/11845.html
總結(jié)
以上是生活随笔為你收集整理的aix linux运维,运维老司机分享的八个AIX日常运维经验及案例的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 培智学校计算机课教案,培智数学教案
- 下一篇: linux 其他常用命令