居安思危,防火墙日常运维宝典
--金山
H3C安全防火墙产品采用业界主流的多核多线程网络处理器硬件架构和成熟稳定的Comware V5软件平台,为众多客户的基础数据通信网络提供安全防护。俗话说“小洞不补、大洞吃苦”,根据H3C技术支持中心长年收集汇总的设备运行情况分析,有很多典型的网络故障其根本原因就在于忽视了基本的日常运维工作。为保证防火墙在网长期稳定运行,网络管理工程师可以采取以下介绍的运维操作,以检查设备运行状态,提前规避故障风险。
1. 硬件运行环境检查
1.1 设备安装运行环境检查
1) 承重检查:
应根据安装防火墙及其附件(如机柜、接口模块等)的实际重量来估计地面承重要求,并确保安装场所地面的承重能力满足此需求。有关重量的规格参数可通过相应防火墙产品的《安装手册》或《安装指导》确认,该类文档可通过H3C公司网站获得。承载设备的机柜、机架等对硬件运行有着决定性的影响,如果不能为防火墙提供一个平稳、牢固的支撑,出现震动、倾倒等问题,后果将不堪设想。
2) 温度/湿度检查:
为保证防火墙正常工作,并延长使用寿命,机房内需要维持一定的温度和湿度。若机房内长期相对湿度过高,则容易造成绝缘材料绝缘不良甚至漏电,还可能发生材料机械性能变化、金属部件锈蚀等现象。若机房内长期相对湿度过低,绝缘垫片会干缩并且容易引起紧固螺丝松动,在干燥的气候环境下,还容易产生静电,危害防火墙上的CMOS 电路。温度过高危害更大,因为高温会加速绝缘材料的老化过程,使防火墙的可靠性大大降低,严重影响其使用寿命。设备对机房环境温度要求通常为0-45℃,对湿度要求通常为5%-95%(非凝露)。通常情况下,配备了空调系统的设备机房都可以满足上述温湿度要求,因此在日常运维过程中要经常关注空调系统的运行状态,测试机房内温度是否均匀,避免出现局部过热或者机柜内部通风不良的情况。
3) 洁净度要求
为保证防火墙的正常工作,机房内需维持一定的洁净度。灰尘对于防火墙的运行是一大危害,因为室内灰尘落在机体上会造成静电吸附,使金属接插件或金属接点接触不良,不但会影响防火墙寿命,而且容易造成通信故障。当室内相对湿度偏低时,更易产生这种静电吸附。除灰尘外,设备机房对空气中所含的盐、酸、硫化物也有严格的要求,因为这些有害气体会加速金属的腐蚀和某些部件的老化过程。灰尘对防火墙的散热也会造成较大影响,严重时可能造成风扇损坏,甚至阻塞散热孔,在这种状态下,势必会造成设备自身温度过高,出现温度传感器告警、启动过热保护单板自动下电等现象。一般而言,对机房内的灰尘含量及粒径要求,以三天内桌面无可见灰尘为限,当然,以最大程度减少灰尘为最佳。
4) 通风要求
目前防火墙产品(插卡形式防火墙采用宿主路由交换设备的散热风道设计)通常采用左进风、右出风的散热方式。为了保证防火墙具有良好的通风效果,要求防火墙的入风口及出风口处留有空间(建议大于 10cm),以利于防火墙机箱的散热。一般情况下,设备安装机房应该具有空调系统或通风系统,保证环境温度达到要求。避免出现通风不良引发散热问题。
5) 防雷击要求
尽管防火墙在硬件设计时已经针对防雷击进行大量的工作,但为了避免高强度的雷击造成设备故障,引起通信中断,应定期检查设备机箱的保护地线与大地连接是否良好可靠,检查交流电源插座的接地点与大地连接是否良好可靠,对于可能受雷击影响的电缆(如室外走线)应注意评估风险,适当加装防雷器件。保接地线与接地器件连接处时有出现生锈现象,这会影响接地线的相关电气性能,发生此类问题后应及时更换连接器件并做好防锈处理。
1.2 设备指示灯状态检查
1) 电源指示灯:
电源指示灯可以直观地反映设备电源模块的工作状态,正常时应为常亮状态,如果电源出现故障为常灭状态。部分设备支持配置多个电源,检查时需注意没有安装电源模块时,对应的电源灯为常灭状态。在电源状态检查过程中,如果发现可疑情况,应及时指出并反馈。
2) 系统指示灯:
系统指示灯主要反映了设备整体运行状态,正常时应为慢速闪烁状态,约1秒闪烁1次。如果检查过程中发现系统指示灯出现快闪,约1秒闪烁8次,则说明设备正在尝试加载软件并启动,若长时间停留在该状态,一般是由于设备的存储介质中没有可用的启动软件导致,须通过Console管理界面进一步作检查,确认设备存储介质中的版本文件是否正常,是否正确配置了启动文件。若系统指示灯处于常灭状态,则说明设备尚未加电,如果确认电源正常,则可能是由于设备硬件故障造成的,应及时向H3C技术支持中心反馈。
3) 槽位指示灯:
支持扩展插槽的设备,可以通过槽位指示灯检查对应槽位的硬件模块工作是否正常,安装扩展插槽后正常情况下指示灯应处于常亮状态,若指示灯常灭,则说明扩展插槽未安装好;如果确认已正确安装但指示灯状态仍不正常,则可能是设备硬件故障造成,应及时向H3C技术支持中心反馈。
4) 端口指示灯:
端口指示灯可以直观地反映设备物理端口的工作状态。接口速率指示灯反映了物理线路的传输速率协商情况,正常情况下应显示为绿色,若高速率端口协商结果为低速率状态,则会显示为黄色,提醒网络管理员在维护时进行检查确认。若网络线缆或光纤已经连接好,但连接指示灯不亮,则可能是线缆或光纤自身出现故障,需要立即进行检查。动作指示灯可以反映物理端口是否有收发数据,若指示灯常亮表示链路建立正常,闪烁表示该端口正在收发数据。对端口指示灯的检查可与对线缆或光纤的检查同时进行,重点查看电缆水晶头或光纤连接器是否连接可靠,避免出现线缆长期运行过程中因外力导致从设备端口中松脱的问题。
2. 软件运行状态检查
1.1 设备软件运行状态检查
1)检查防火墙硬件相关详细信息
通过执行<H3C> display device verbose 命令,可查看防火墙及接口模块的详细信息。包括:防火墙及接口模块的运行状态和硬件的版本等。设备工作正常时,可以查看到“Status:OK”、“Status:Normal”,若没有安装扩展卡,则相应的子卡插槽位置会显示“Status:Absent”。
<H3C> display device verbose
Status :OK
Type :RPU
Hardware :B
Driver :1.0
CPLD :3.0
SubCard Num :3
CFCard Num :0
Usb Num :1
The Fixed SubCard0 on Board0
Status :Normal
Type :Fixed Subcard
Hardware :B
Driver :1.0
CPLD :3.0
The SubCard1 on Board0:
Status :Absent
The SubCard2 on Board0:
Status :Absent
2)检查防火墙的软件版本
通过执行<H3C> display version 命令,可查看到防火墙软件及硬件版本信息。软件版本信息主要包含平台版本号和产品软件版本号,推荐网络管理员定期制定设备软件版本升级计划,保持设备运行更稳定的软件;在硬件信息中主要可以查看设备内存大小、BootWare版本号等,检查设备固定端口及扩展子卡识别是否正确。对于安装4GB内存的防火墙设备,由于Comware操作系统占用了部分内存空间,因此在显示的信息中内存容量会略少于4GB,此为正常情况。通过以上检查,网络管理员可以及早发现异常情况并分析处理。
<H3C> display version
H3C Comware Platform Software
Comware Software, Version 5.20, Release 3730
Copyright (c) 2004-2013 Hangzhou H3C Tech. Co., Ltd. All rights reserved.
H3C SecPath F1000-A-G uptime is 0 week, 0 day, 0 hour, 41 minutes
CPU type: XXXX
3840M bytes DDR2 SDRAM Memory
4M bytes Flash Memory
PCB Version:Ver.B
Back Board PCB Version:Ver.A
Logic Version: 3.0
Basic BootWare Version: 1.06
Extend BootWare Version: 1.06
[FIXED PORT] CON (Hardware)Ver.B, (Driver)1.0, (Cpld)3.0
[FIXED PORT] GE0/0 (Hardware)Ver.B, (Driver)1.0, (Cpld)3.0
[FIXED PORT] GE0/1 (Hardware)Ver.B, (Driver)1.0, (Cpld)3.0
[FIXED PORT] GE0/2 (Hardware)Ver.B, (Driver)1.0, (Cpld)3.0
[FIXED PORT] GE0/3 (Hardware)Ver.B, (Driver)1.0, (Cpld)3.0
[FIXED PORT] GE0/4 (Hardware)Ver.B, (Driver)1.0, (Cpld)3.0
[FIXED PORT] GE0/5 (Hardware)Ver.B, (Driver)1.0, (Cpld)3.0
[FIXED PORT] GE0/6 (Hardware)Ver.B, (Driver)1.0, (Cpld)3.0
[FIXED PORT] GE0/7 (Hardware)Ver.B, (Driver)1.0, (Cpld)3.0
[FIXED PORT] GE0/8 (Hardware)Ver.B, (Driver)1.0, (Cpld)3.0
[FIXED PORT] GE0/9 (Hardware)Ver.B, (Driver)1.0, (Cpld)3.0
[FIXED PORT] GE0/10 (Hardware)Ver.B, (Driver)1.0, (Cpld)3.0
[FIXED PORT] GE0/11 (Hardware)Ver.B, (Driver)1.0, (Cpld)3.0
[SUBCARD 1] The SubCard is not present
[SUBCARD 2] The SubCard is not present
3)检查防火墙电子标签信息
通过执行<H3C> display device manuinfo 命令,可查看到固化在防火墙硬件中的电子标签信息。其中,“DEVICE_NAME”代表设备型号,“DEVICE_SERIAL_NUMBER”代表设备生产序列号。电子标签信息与客户购买设备后能否正常获得维保有关,请注意将该电子标签信息与设备外壳、包装上的信息核对,若相关信息不一致,可及时向H3C技术支持中心反馈。
<H3C> display device manuinfo
slot 0
DEVICE_NAME:SecPath F1000-A-G
DEVICE_SERIAL_NUMBER:210235A0YEB10C000010
MAC_ADDRESS:3CE5-A6CC-8D21
MANUFACTURING_DATE:2013-01-06
VENDOR_NAME:H3C
4)检查防火墙CPU利用率统计信息
通过执行<H3C> display cpu-usage 命令,可查看防火墙CPU 利用率的统计信息。通常情况下,CPU利用率不超过20%。若CPU利用率持续较高,甚至出现业务应用受影响,可参考H3C技术支持中心提供的“云图”相关章节做进一步诊断。
<H3C> display cpu-usage
Unit CPU usage:
4% in last 5 seconds
4% in last 1 minute
4% in last 5 minutes
5)检查防火墙内存利用率统计信息
通过执行<H3C> display memory 命令,可查看防火墙内存的使用状况,其中“Used Rate”项显示的百分比数据即为内存利用率。若内存利用率持续较高,甚至超过95%以上,可参考H3C技术支持中心提供的“云图”相关章节做进一步诊断。
<H3C> display memory
System Total Memory(bytes): 1736419920
Total Used Memory(bytes): 253676976
Used Rate: 14%
6)检查防火墙会话统计信息
通过执行<H3C>display session statistics命令,可查看防火墙当前各种协议会话的新建速率,并发连接数等关键信息。若会话统计信息出现异常增加,需要及时关注网络流量情况,确认网络是否存在环路和攻击。
<H3C>display session statistics
Current session(s):451305
Current TCP session(s): 16912
Half-Open: 291 Half-Close: 1606
Current UDP session(s): 433679
Current ICMP session(s): 714
Current RAWIP session(s): 0
Current relation table(s): 0
Session establishment rate: 8181/s
TCP Session establishment rate: 930/s
UDP Session establishment rate: 7230/s
ICMP Session establishment rate: 21/s
RAWIP Session establishment rate: 0/s
Received TCP: 216787761122 packet(s) 104482682085768 byte(s)
Received UDP: 91313461066 packet(s) 6137066674600 byte(s)
Received ICMP: 1655138083 packet(s) 224519289422 byte(s)
Received RAWIP: 0 packet(s) 0 byte(s)
Dropped TCP: 836335 packet(s) 70207618 byte(s)
Dropped UDP: 133811 packet(s) 2297422 byte(s)
Dropped ICMP: 5376 packet(s) 37981 byte(s)
Dropped RAWIP: 825 packet(s) 33000 byte(s)
7)检查防火墙风扇工作状态
通过执行<H3C> display fan 命令,可查看防火墙风扇的工作状态。“Normal”表示风扇工作正常,“Absent”表示风扇不在位,“Fault”表示风扇出现故障。若网络管理员发现风扇存在问题,须尽快检查风扇物理工作状态,避免防火墙设备因散热不良引起网络中断问题。
<H3C> display fan
Fan 1 State: Normal
Fan 2 State: Fault
8)检查防火墙电源工作状态
通过执行<H3C> display power 命令,可查看防火墙电源的工作状态。“Normal”表示电源模块工作正常,“Absent”表示电源模块未安装或不在位,“Fault”表示电源模块出现故障。防火墙设备安装双电源后,若网络管理员发现其中一个电源故障,须尽快检查电源工作状态并修复存在故障的电源,避免两个电源同时出现故障时造成网络中断。
<H3C> display power
Power Information:
Power 1 Status: Normal
Power 2 Status: Fault
9)检查防火墙环境温度传感器工作状态
通过执行<H3C> display environment 命令,可查看防火墙的温度信息及温度告警门限。“Temperature”代表某个温度传感器当前探测到的温度值,“LowerLimit”代表对应传感器低温告警门限值,“Warning-UpperLimit”、“Alarm-UpperLimit”、“Shutdown-UpperLimit”分别代表一般、严重、关断级高温告警门限值。目前部分产品仅支持一般高温告警门限值。若网络管理员在日常运维过程中发现传感器反馈的环境温度值不正常,应及时检查设备机房环境,是否存在空调故障、设备散热条件不佳等问题。
<H3C>dis environment
System Temperature information (degree centigrade):
---------------------------------------------------------------------------------
Sensor Temperature LowerLimit Warning-UpperLimit Alarm-UpperLimit Shutdown-UpperLimit
hotspot 1 36 0 60 NA NA
10)检查防火墙系统时间
通过执行<H3C> display clock 命令,可查看防火墙的系统时间设置是否正确。系统时间正确与否,关系到防火墙日志等信息中的时间项是否准确、是否与其他网络设备的时间保持一致,推荐采用NTP方式为防火墙设备设置时间同步。
<H3C>dis clock
15:27:11 beijing Wed 10/16/2013
Time Zone : beijing add 08:00:00
以上H3C防火墙产品的各项检查操作中,除了人工目视检查外,还可以对部分软件运行状态通过SNMP网络管理平台执行自动化检测,以提高效率。关于检查周期,可视设备安装环境灵活制定。