• 文章搜索:
  • 唯快不破

        • 分享到...

        • 新浪微博
        • 腾讯微博
        • 推荐到豆瓣 豆瓣空间
        • 分享到搜狐微博 搜狐微博
        • 分享到QQ空间 QQ空间
        • 分享到腾讯朋友 腾讯朋友
        • 网易微博分享 网易微博
        • 添加到百度搜藏 百度搜藏
        • 转贴到开心网 开心网
        • 转发好友 告诉聊友
    • 推荐
    • 打印
    • 收藏

    MSR系列路由器之应急锦囊

    作者:  |  上传时间:2014-03-20  |  关键字:MSR系列路由器之应急锦囊

    --孙培浩

    1 什么是紧急情况

    对于网络运维来说,紧急情况就是指网络设备运行中突然出现业务中断的情况,必须第一时刻恢复业务,问题排查等操作必须放在业务恢复之后。

    2 紧急情况下如何处理

    出现紧急情况的时候,通常第一时间想到的是重启设备或者更换其他备份设备。

    如果是更换其他备份设备,对于后续的问题定位影响还比较小;但如果是重启设备,且业务在设备重启后恢复,那么后续的问题定位难度是相当大。

    因此,我们提出一个折中的办法,就是在紧急情况下短时间内收集一些简单信息,然后做重启等操作。这样既不影响业务的恢复,也能尽可能的帮助后续的问题定位。

    在业务不通的时候,MSR路由器一般处于三个状态:

    l 设备不能Telnet登陆设备,Console口连接后无任何输出,也就是设备不能登陆。

    l 能通过Telnet、Console口等登陆到设备,并且能正常的执行命令,也就是设备可以正常登陆;

    l 设备断电重启后,反复自动重启,无法正常启动。

    2.1 设备不能登陆

    在业务中断且设备不能登陆的时候,我们需要在重启设备之前,做如下操作:

    步骤1 将设备前后面板指示灯显示情况拍照记录;

    步骤2 使用超级终端通过Console口连接到设备,并记录会话;

    步骤3 将设备断电重启,在启动时进行内存检测;例如:

    设备断电启动,将提示是否检测内存,输入“Y”进行内存检测。

    System is starting...

    Press Ctrl+D to access BASIC-BOOTWARE MENU

    Do you want to check SDRAM? [Y/N] Y.................................

    SDRAM Check OK!

    步骤4 收集启动信息;

    步骤5 设备启动后,收集设备诊断信息及logfile文件。收集方法如下:

    使用命令display diagnostic-information收集设备诊断信息,执行该命令后,会选择提示是否将信息输出到终端或者保存为一个文件到存储介质。

    [H3C] display diagnostic-information

    Save or display diagnostic information (Y=save, N=display)? [Y/N]:

    如果选择“Y=save”,则诊断信息将保存为一个文件到存储介质。

    [H3C] display diagnostic-information

    Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

    Please input the file name(*.diag)[flash:/default.diag]:

    Diagnostic information is outputting to flash:/default.diag.

    Please wait...

    Save successfully.

    如果选择“N=display”,则诊断信息将直接显示到终端,需要注意的是,终端应提前设置会话记录,以防止信息丢失。

    通过FTP或TFTP等方式将设备存储介质上logfile目录中获取logfile文件,logfile文件目录进入方法如下所示:

    <H3C> cd logfile/

    <H3C> dir

    Directory of flash:/logfile/

    0 -rw- 2091739 Oct 14 2013 15:48:48 logfile.log

    261760 KB total (233774 KB free)

    如业务在设备重启后恢复,则可将以上收集的设备启动信息、内存检测信息、设备诊断信息及logfile文件反馈,以帮助后续的问题定位。

    2.2 设备可以正常登陆

    在业务中断且设备可以正常登陆的时候,我们需要在重启设备之前,做如下操作:

    步骤1 将设备前后面板指示灯显示情况拍照记录;

    步骤2 使用超级终端通过Telnet或者Console口连接到设备,并记录会话;

    步骤3 在设备上做ping操作,确认是否业务网络是否可达,例如:

    打开ICMP模块debug开关。

    <H3C> debugging ip icmp

    <H3C> terminal monitor

    <H3C> terminal debugging

    在设备上ping远端业务IP地址,确认是否可达。

    <H3C> ping 172.32.123.1

    PING 172.32.123.1: 56 data bytes, press CTRL_C to break

    *Oct 15 09:14:28:902 2013 H3C ADDR/7/debug_icmp:

    ICMP Send: echo(Type=8, Code=0), Dst = 172.32.123.1

    *Oct 15 09:14:28:905 2013 H3C ADDR/7/debug_icmp:

    ICMP Receive: echo(Type=8, Code=0), Src = 127.0.0.1, Dst = 172.32.123.1

    *Oct 15 09:14:28:905 2013 H3C ADDR/7/debug_icmp:

    ICMP Send: echo-reply(Type=0, Code=0), Src = 172.32.123.1, Dst = 127.0.0.1

    *Oct 15 09:14:28:906 2013 H3C ADDR/7/debug_icmp:

    ICMP Receive: echo-reply(Type=0, Code=0), Src = 172.32.123.1, Dst = 127.0.0.1

    Reply from 172.32.123.1: bytes=56 Sequence=0 ttl=255 time=6 ms

    ……

    --- 172.32.123.1 ping statistics ---

    5 packet(s) transmitted

    5 packet(s) received

    0.00% packet loss

    round-trip min/avg/max = 6/6/6 ms

    操作完成后,需要将debug开关关闭,命令如下:

    <H3C> undo debugging ip icmp

    <H3C> undo terminal monitor

    <H3C> undo terminal debugging

    步骤4 收集设备诊断信息;

    使用命令display diagnostic-information收集设备诊断信息,执行该命令后,会选择提示是否将信息输出到终端或者保存为一个文件到存储介质。

    [H3C] display diagnostic-information

    Save or display diagnostic information (Y=save, N=display)? [Y/N]:

    如果选择“Y=save”,则诊断信息将保存为一个文件到存储介质。

    [H3C] display diagnostic-information

    Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

    Please input the file name(*.diag)[flash:/default.diag]:

    Diagnostic information is outputting to flash:/default.diag.

    Please wait...

    Save successfully.

    如果选择“N=display”,则诊断信息将直接显示到终端,需要注意的是,终端应提前设置会话记录,以防止信息丢失。

    如果设备使用了IPSec、MPLS功能,则建议在重启前收集对应模块的一些状态信息,以帮助后续问题排查;

    IPSec模块需要收集的信息:

    display ike sa

    display ike sa verbose

    display ipsec sa

    MPLS模块需要收集的信息:

    display ip routing-table

    display mpls lsp verbose

    display mpls ldp session verbose

    display mpls ilm

    display mpls nhlfe

    display bgp peer

    display bgp vpnv4 peer

    display bgp vpnv4 all routing-table

    display bgp vpnv4 all routing-table lable

    步骤5 将设备断电重启,在启动时进行内存检测;

    设备断电启动,将提示是否检测内存,输入“Y”进行内存检测。

    System is starting...

    Press Ctrl+D to access BASIC-BOOTWARE MENU

    Do you want to check SDRAM? [Y/N] Y.................................

    SDRAM Check OK!

    步骤6 收集启动信息。

    步骤7 设备启动后,收集设备诊断信息及logfile文件

    使用命令display diagnostic-information收集设备诊断信息,执行该命令后,会选择提示是否将信息输出到终端或者保存为一个文件到存储介质。

    [H3C] display diagnostic-information

    Save or display diagnostic information (Y=save, N=display)? [Y/N]:

    如果选择“Y=save”,则诊断信息将保存为一个文件到存储介质。

    [H3C] display diagnostic-information

    Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

    Please input the file name(*.diag)[flash:/default.diag]:

    Diagnostic information is outputting to flash:/default.diag.

    Please wait...

    Save successfully.

    如果选择“N=display”,则诊断信息将直接显示到终端,需要注意的是,终端应提前设置会话记录,以防止信息丢失。

    通过FTP或TFTP等方式将设备存储介质上logfile目录中获取logfile文件,logfile文件目录进入方法如下所示:

    <H3C> cd logfile/

    <H3C> dir

    Directory of flash:/logfile/

    0 -rw- 2091739 Oct 14 2013 15:48:48 logfile.log

    261760 KB total (233774 KB free)

    如业务在设备重启后恢复,则可将以上收集的设备启动信息、内存检测信息、功能模块状态信息、设备诊断信息及logfile文件反馈,以帮助后续的问题定位。

    2.3 设备反复重启

    如遇到设备断电启动后反复重启的情况,请按照收集如下信息并反馈。

    步骤1 将设备前后面板指示灯显示情况拍照记录;

    步骤2 使用超级终端通过Console口连接到设备,并记录会话;

    步骤3 将设备断电重启,在启动时进行内存检测;例如:

    设备断电启动,将提示是否检测内存,输入“Y”进行内存检测。

    System is starting...

    Press Ctrl+D to access BASIC-BOOTWARE MENU

    Do you want to check SDRAM? [Y/N] Y.................................

    SDRAM Check OK!

    步骤4 收集启动信息;