服务器负载信息失败,网络故障分析案例:负载均衡系统造成网络业务访问失败...
許多企事業單位的核心業務系統通常對穩定性、性能和擴展性有很高的要求。應用負載均衡設備通過對服務器建立有效的健康檢查和負載均衡機制,提供一種高性價比、透明的容錯方法擴容網絡設備和服務器的帶寬、吞吐量和數據處理能力,提高網絡的靈活性和可用性。這些特性使得應用負載均衡備受青睞。但同時負載均衡出的問題也會經常讓網管人員“頭痛”。這里我們分享了一個典型的由于負載均衡設備造成的業務訪問失敗的案例。
與鏈路負載均衡設備一樣,作為流量轉發的一環,應用負載均衡設備也可能導致業務訪問失敗。
1.1?? 問題描述
1.1.1 故障環境
客戶端通過10.189.96.171訪問客服web,負載均衡設備-1的IP為10.189.96.169,負載均衡設備-2的IP為10.189.96.170,負載均衡設備-1和負載均衡設備-2通過自身的IP與客服web( 10.191.121.x)通訊,負載均衡設備轉發客戶端的請求,然后再將響應轉發給客戶端。
1.1.2 故障現象
客戶端通過189.96.171訪問Web服務器,會出現404 not found提示:
圖 1?2
客戶端直接訪問客服web的IP則不會出現問題,懷疑負載均衡設備轉發存在問題,需要找到數據進行驗證。
1.2 ? 分析過程
1.2.1 分析思路
本故障中出404 NOT? FOUND錯誤的原因有兩個:
一個客戶發起的請求不存在,
二是負載均衡設備轉發客戶端的請求存在問題。
原因一的分析確認方法:
提取404 NOT FOUND會話中的客戶端請求,直接訪問可以確定客戶的請求是否有效,經驗證,出現404 NOT FOUND提示的請求直接可以訪問,從而排除了第一個原因。
原因二的分析確認方法:
將客戶端的請求與負載均衡設備轉的請求進行對比分析,確定負載均衡設備的轉化是否存在問題。這也是這次分析的重點。
1.2.2 前期分析準備
通過客戶反饋,找出錯誤提示的會話,提取關鍵字:
圖 1?3
經過與用戶確認,每個出錯頁面的content=“WebLogic Server”;
數據流信息包括客戶端IP、sessionID等關鍵字;
提取正常訪問數據,為對比分析做準備。
客戶端與負載均衡設備正常的通訊數據:
圖 1?4
客戶端的請求里包括詳細的get請求,客戶端IP、 sna_cookie和login_cookie信息。
負載均衡設備與服務器的正常通訊分析:
圖 1?5
負載均衡設備(10.189.96.70)發起請求,包含的信息與客戶端發出的請求信息一致。
1.2.3 分析過程
由于需要完整抓取客戶端到負載均衡設備和負載均衡設備到客服web的所有數據,而且該現像不定期出現,所以鏡像負載均衡設備端口,并部署科來網絡回溯分析系統進行數據采集,等問題重現后提取數據包分析。
圖 1?6
客戶端與負載均衡設備的通訊數據分析:
客戶端(10.191.138.210)發起GET請求,請求數據1.601KB,內容包括客戶端IP、 sna_cookie和login_cookie等信息,服務器10.189.96.171響應404 NOT FOUND,客戶端的端口為1359。
圖 1?7
再看客戶端與負載均衡設備的數據流信息驗證:
圖 1?8
客戶端的請求里包括詳細的get請求,客戶端IP、 sna_cookie和login_cookie信息,且服務器的錯誤響應包含content=“WebLogic Server”。
負載均衡設備與服務器的通訊分析
提取負載均衡設備與服務器的通訊,設置高級過濾器:(請求里的cookie有客戶端的IP信息,數據流包括WebLogic Server,還可以通過sessionID等)。
圖 1?9
負載均衡設備(10.189.96.70)發起請求,請求數據826B,小于客戶端的請求數據(未見get請求),服務器10.191.121.32響應404 NOT FOUND,負載均衡設備的端口為1359,與客戶端的端口一樣。
與客戶端的請求綜合對比分析可知,負載均衡設備與服務器端通訊的請求不完整,未見sna_cookie信息,但通過login_cookie,客戶端IP,sessionid等信息可以確定這是與客戶端請求負載均衡設備的同一會話,且服務器的錯誤響應包含content=“WebLogic Server”。
圖 1?10
1.3 ? 分析結論與建議
負載均衡設備轉發的請求與客戶端發出的請求不一致,導致客戶端訪問客服web出現4O4 NOT FOUND提示,該問題與客戶端和服務器無關,應是負載均衡設備的轉發存在BUG。
1.4 ?價值
當應用出現不能訪問時,我們通常會懷疑是某個網絡設備或端點設備的問題,比如本案例我們懷疑是應用負載均衡的問題,但如果缺乏有效的手段和工具,排查問題將會耗費大量的時間。
通過網絡分析技術能夠幫助用戶進行數據包級的精細分析,可以看出數據包在傳輸中是否存在異常,迅速定位異常節點,從而進行快速排障。
總結
以上是生活随笔為你收集整理的服务器负载信息失败,网络故障分析案例:负载均衡系统造成网络业务访问失败...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 运算服务器v9型号,v9云服务器
- 下一篇: oracle12c安装卡住_window