MSR系列路由器之应急锦囊
--孙培浩
1 什么是紧急情况
对于网络运维来说,紧急情况就是指网络设备运行中突然出现业务中断的情况,必须第一时刻恢复业务,问题排查等操作必须放在业务恢复之后。
2 紧急情况下如何处理
出现紧急情况的时候,通常第一时间想到的是重启设备或者更换其他备份设备。
如果是更换其他备份设备,对于后续的问题定位影响还比较小;但如果是重启设备,且业务在设备重启后恢复,那么后续的问题定位难度是相当大。
因此,我们提出一个折中的办法,就是在紧急情况下短时间内收集一些简单信息,然后做重启等操作。这样既不影响业务的恢复,也能尽可能的帮助后续的问题定位。
在业务不通的时候,MSR路由器一般处于三个状态:
l 设备不能Telnet登陆设备,Console口连接后无任何输出,也就是设备不能登陆。
l 能通过Telnet、Console口等登陆到设备,并且能正常的执行命令,也就是设备可以正常登陆;
l 设备断电重启后,反复自动重启,无法正常启动。
2.1 设备不能登陆
在业务中断且设备不能登陆的时候,我们需要在重启设备之前,做如下操作:
步骤1 将设备前后面板指示灯显示情况拍照记录;
步骤2 使用超级终端通过Console口连接到设备,并记录会话;
步骤3 将设备断电重启,在启动时进行内存检测;例如:
设备断电启动,将提示是否检测内存,输入“Y”进行内存检测。
System is starting...
Press Ctrl+D to access BASIC-BOOTWARE MENU
Do you want to check SDRAM? [Y/N] Y.................................
SDRAM Check OK!
步骤4 收集启动信息;
步骤5 设备启动后,收集设备诊断信息及logfile文件。收集方法如下:
使用命令display diagnostic-information收集设备诊断信息,执行该命令后,会选择提示是否将信息输出到终端或者保存为一个文件到存储介质。
[H3C] display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:
如果选择“Y=save”,则诊断信息将保存为一个文件到存储介质。
[H3C] display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y
Please input the file name(*.diag)[flash:/default.diag]:
Diagnostic information is outputting to flash:/default.diag.
Please wait...
Save successfully.
如果选择“N=display”,则诊断信息将直接显示到终端,需要注意的是,终端应提前设置会话记录,以防止信息丢失。
通过FTP或TFTP等方式将设备存储介质上logfile目录中获取logfile文件,logfile文件目录进入方法如下所示:
<H3C> cd logfile/
<H3C> dir
Directory of flash:/logfile/
0 -rw- 2091739 Oct 14 2013 15:48:48 logfile.log
261760 KB total (233774 KB free)
如业务在设备重启后恢复,则可将以上收集的设备启动信息、内存检测信息、设备诊断信息及logfile文件反馈,以帮助后续的问题定位。
2.2 设备可以正常登陆
在业务中断且设备可以正常登陆的时候,我们需要在重启设备之前,做如下操作:
步骤1 将设备前后面板指示灯显示情况拍照记录;
步骤2 使用超级终端通过Telnet或者Console口连接到设备,并记录会话;
步骤3 在设备上做ping操作,确认是否业务网络是否可达,例如:
打开ICMP模块debug开关。
<H3C> debugging ip icmp
<H3C> terminal monitor
<H3C> terminal debugging
在设备上ping远端业务IP地址,确认是否可达。
<H3C> ping 172.32.123.1
PING 172.32.123.1: 56 data bytes, press CTRL_C to break
*Oct 15 09:14:28:902 2013 H3C ADDR/7/debug_icmp:
ICMP Send: echo(Type=8, Code=0), Dst = 172.32.123.1
*Oct 15 09:14:28:905 2013 H3C ADDR/7/debug_icmp:
ICMP Receive: echo(Type=8, Code=0), Src = 127.0.0.1, Dst = 172.32.123.1
*Oct 15 09:14:28:905 2013 H3C ADDR/7/debug_icmp:
ICMP Send: echo-reply(Type=0, Code=0), Src = 172.32.123.1, Dst = 127.0.0.1
*Oct 15 09:14:28:906 2013 H3C ADDR/7/debug_icmp:
ICMP Receive: echo-reply(Type=0, Code=0), Src = 172.32.123.1, Dst = 127.0.0.1
Reply from 172.32.123.1: bytes=56 Sequence=0 ttl=255 time=6 ms
……
--- 172.32.123.1 ping statistics ---
5 packet(s) transmitted
5 packet(s) received
0.00% packet loss
round-trip min/avg/max = 6/6/6 ms
操作完成后,需要将debug开关关闭,命令如下:
<H3C> undo debugging ip icmp
<H3C> undo terminal monitor
<H3C> undo terminal debugging
步骤4 收集设备诊断信息;
使用命令display diagnostic-information收集设备诊断信息,执行该命令后,会选择提示是否将信息输出到终端或者保存为一个文件到存储介质。
[H3C] display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:
如果选择“Y=save”,则诊断信息将保存为一个文件到存储介质。
[H3C] display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y
Please input the file name(*.diag)[flash:/default.diag]:
Diagnostic information is outputting to flash:/default.diag.
Please wait...
Save successfully.
如果选择“N=display”,则诊断信息将直接显示到终端,需要注意的是,终端应提前设置会话记录,以防止信息丢失。
如果设备使用了IPSec、MPLS功能,则建议在重启前收集对应模块的一些状态信息,以帮助后续问题排查;
IPSec模块需要收集的信息:
display ike sa
display ike sa verbose
display ipsec sa
MPLS模块需要收集的信息:
display ip routing-table
display mpls lsp verbose
display mpls ldp session verbose
display mpls ilm
display mpls nhlfe
display bgp peer
display bgp vpnv4 peer
display bgp vpnv4 all routing-table
display bgp vpnv4 all routing-table lable
步骤5 将设备断电重启,在启动时进行内存检测;
设备断电启动,将提示是否检测内存,输入“Y”进行内存检测。
System is starting...
Press Ctrl+D to access BASIC-BOOTWARE MENU
Do you want to check SDRAM? [Y/N] Y.................................
SDRAM Check OK!
步骤6 收集启动信息。
步骤7 设备启动后,收集设备诊断信息及logfile文件
使用命令display diagnostic-information收集设备诊断信息,执行该命令后,会选择提示是否将信息输出到终端或者保存为一个文件到存储介质。
[H3C] display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:
如果选择“Y=save”,则诊断信息将保存为一个文件到存储介质。
[H3C] display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y
Please input the file name(*.diag)[flash:/default.diag]:
Diagnostic information is outputting to flash:/default.diag.
Please wait...
Save successfully.
如果选择“N=display”,则诊断信息将直接显示到终端,需要注意的是,终端应提前设置会话记录,以防止信息丢失。
通过FTP或TFTP等方式将设备存储介质上logfile目录中获取logfile文件,logfile文件目录进入方法如下所示:
<H3C> cd logfile/
<H3C> dir
Directory of flash:/logfile/
0 -rw- 2091739 Oct 14 2013 15:48:48 logfile.log
261760 KB total (233774 KB free)
如业务在设备重启后恢复,则可将以上收集的设备启动信息、内存检测信息、功能模块状态信息、设备诊断信息及logfile文件反馈,以帮助后续的问题定位。
2.3 设备反复重启
如遇到设备断电启动后反复重启的情况,请按照收集如下信息并反馈。
步骤1 将设备前后面板指示灯显示情况拍照记录;
步骤2 使用超级终端通过Console口连接到设备,并记录会话;
步骤3 将设备断电重启,在启动时进行内存检测;例如:
设备断电启动,将提示是否检测内存,输入“Y”进行内存检测。
System is starting...
Press Ctrl+D to access BASIC-BOOTWARE MENU
Do you want to check SDRAM? [Y/N] Y.................................
SDRAM Check OK!
步骤4 收集启动信息;