IPS/ACG故障信息搜集一指禅
H3C入侵预防系统(IPS: Intrusion Prevention System)是是一部能够监视网络或网络设备的网络资料传输行为的计算机网络安全设备,能够即时的中断、调整或隔离一些不正常或是具有伤害性的网络资料传输行为,是对防病毒软件和防火墙的补充。应用入侵预防系统的目的在于及时识别攻击程序或有害代码及其克隆和变种,采取预防措施,先期阻止入侵,防患于未然。在必要时,它还可以为追究攻击者的刑事责任而提供法律上有效的证据。
H3C 应用控制网关(ACG: Application Control Gateway)是业界识别最全面、控制手段最丰富的高性能应用控制网关,能对网络中的P2P/IM带宽滥用、网络游戏、炒股、网络视频、网络多媒体、非法网站访问等行为进行精细化识别和控制,保障网络关键应用和服务的带宽,对网络流量、用户上网行为进行深入分析与全面的审计,进而帮助用户全面了解网络应用模型和流量趋势,优化其带宽资源,开展各项业务提供有力的支撑。
众所周知,Comware作为H3C网络操作系统平台以其丰富的功能和特性支撑着H3C众多网络产品的发展;而i-Ware专注于4~7层安全业务的提供,并对新业务进行探索和分析。两大软件平台相互促进、相互融合,为H3C完善的网络安全解决方案提供了基础。
我司IPS和ACG操作系统都是基于i-Ware平台。i-Ware平台是H3C为了解决越来越多的网络安全问题而自主研发、具有创新性的专用安全软件平台,支撑着H3C所有安全产品的发展。i-Ware从诞生之日起,就以解决网络安全为使命,以支撑4~7层业务发展为其核心竞争力,通过平台化方式,支撑H3C安全产品从低端盒式设备到高端框式设备以及插卡形态全系列化的产品开发。
H3C IPS和H3C ACG设备在我司安全产品中属于应用局点较多的产品,因此工程师们咨询的问题也比较多。之所以将这两款产品维护指导一起写,是因为它们都采用了i-Ware平台。i-Ware平台不同于Comware平台,在遇到问题收集信息的方式和方法都不太一样。
一般的咨询或者配置问题,我们只需根据官网文档配置指导来对照或者排查。如果遇到非配置问题,需要收集各种信息反馈产品线工程师分析时,掌握相关的收集方法是非常必要的,否则可能会影响处理问题的效率。IPS/ACG维护信息收集是本文介绍的重点。
一、 引流问题:
盒式设备不存在引流问题,可以在线直连也可以镜像。IPS/ACG插卡想要正常工作,需要将交换机或者路由器的流量通过OAA或者MQC引进来,检测完报文后再发送回宿主设备中去。当然,镜像的方式也可以,只是不能提供全面的功能。引流问题较多,分析原因,一个是不同的设备所支持的引流方式不同,还有就是配置点和注意点也比较多,需要对组网和流量走向有深入的了解。
有工程师反应设备的URL过滤不生效,攻击防范策略配置激活了防不住攻击等问题,怀疑设备本身功能有缺陷,后来一排查发现流量没引上来,或者只引了一个方向,另外一个方向没有。所以一些问题归根结底,是引流没成功导致功能不生效。
引流的配置案例和注意点在这里不再详细介绍,读者可参阅官网的相关文档。对于遇到功能不生效的问题,首先看策略配置是否正确,之后再判断双向流量是否都引上来。有两个检查引流的方法比较常用:“二层回退”和“实时报文统计”。
1. 二层回退
设备内置的监测模块以很高的频率定时地监测自身的健康状况,一旦探测到检测引擎、软件系统故障或者流量过大时,该模块会将设备设置成一个简单的二层交换设备。此时,设备对所有网络流量都不进行检测,网络流量将在两个接口之间直接贯通,从而保持网络业务的连续性。这个功能称为“二层回退”。
设备还支持用户手动设置设备进入/退出二层回退状态。我们就利用这个手动功能,开启二层回退状态,对数据包进行阻断,如果流量能引进来,那ping目的地址经过IPS/ACG时会不通。通过这种方式可以判断出流量是否引到设备上,是比较简便的判断方式。
实际上如果只有单向流量引流成功,二层回退阻断后也会有ping不通的现象。所以单靠二层回退可能还无法确认双向流量是否全部引上来,需要看“实时报文分布信息”。
2. 实时报文统计
报文统计模块提供了按照段和方向对实时报文的分布信息进行统计的功能。当用户设置开始进行统计时,设备会根据报文的大小将报文划分为7个区间(分别是0~63、64~127、128~255、256~511、512~1023、1024~1517和1518以上,单位为字节),每10秒钟统计一次在这10秒内的各个区间的实时报文的个数,并以状态图的形式显示给用户。用户可以通过查看实时报文统计状态图来了解网络的流量情况。
这项功能是基于段,所以在引流之后需要建立一个段,将需要检查的流量匹配,然后再打开此功能检测。
检测实时报文分布信息是有方向的,这样我们就可以确认是否两个方向的流量都成功引进来并匹配到相关段。
确认引流问题后,可以专心排查引流的配置,包括宿主设备的配置。若引流无问题,策略配置也正确,这时可以联系技术支持中心来协助排查。
当问题不再是配置问题时,可能需要收集设备本身的一些信息。工程师可按照下面介绍的将信息一次性收集过来,减少因收集信息不全造成技术支持中心处理问题缓慢。
二、 基本信息收集
1. 局点信息
故障局点 | XX市政府 | ||
反馈人/ID | XX | 联系电话 | |
Email: | |||
设备远程登录方式 | 如果能够远程登录,请提供登录方式(ip地址、帐号、口令) |
局点信息有助于了解业务类型,提供远程登陆方式方便产品线工程师或者研发在必要时经用户同意进行远程问题解决。同时,故障将被记录,以便此局点日后出现问题时作参考。
2. 当前组网的情况
组网信息对排查问题非常重要,比如出现环路,来回路径不一致等都需要用实际组网拓扑来分析。
简单的组网可以直接画示意图,复杂组网请附详细组网图。组网图请尽量标明各设备的IP地址或网段、接口,便于分析日志和实验室复现问题
3. 故障现象
故障现象用文字描述,尽量详细细致,并实事求是。在确认故障的过程中,最好多测试几次,作比较需要考虑有哪些其他因素影响。
用户反映的现象,有时描述比较复杂,比较乱,最好现场或者远程确认故障。
4. 现场处理过程及疑问
在故障发生后做了哪些,故障发生前修改了什么配置,这些应详细描述。现场处理过程中看到的一些异常现象以及产生的疑问很有可能是解决问题的突破口。
5. 相关信息收集
在做了局点描述和故障现象描述之后,我们需要从设备本身收集一些信息。这些信息是重点,尤其是遇到产品问题时,可以给产品线工程师和研发提供一个精确的信息数据来分析。需要通过以下命令来收集:
5.1 版本信息
<H3C>display version
H3C i-Ware Platform Software
i-Ware software, Version 1.10, Ess 2113P03
Signature database, Version IPS 1.2.206, AV_SS 1.1.239
Copyright (c) 2004-2012 Hangzhou H3C Technologies Co., Ltd. All rights reserved.
Without the owner's prior written consent, no decompiling nor reverse-engineering shall be allowed.
SecBlade IPS Uptime is 7 week(s), 2 day(s), 20 hour(s), 32 minute(s)
CPU type: RMI XLR732
Flash Memory: 4M bytes
CF card Memory: 488M bytes
Pcb Version: Ver.A
CPLD Version: 2.0
BASIC BOOTWARE Version: 1.19
EXTEND BOOTWARE Version: 1.19
[SLOT 0] LST1IPS1A1 (hardware)Ver.A, (Driver)1.0, (Cpld) 2.0
版本信息可知版本的平台以及目前版本存在的已知问题。
5.2 设备CF卡、硬盘、风扇、电源的状态信息
<H3C>dis device cf-card
CF card status Ok.
<H3C>dis device harddisk
Harddisk 0 status Ok
<H3C>dis fan
Status of fan 0 : OK.
Status of fan 1 : OK.
<H3C>dis power
Status of power 0 : ERROR.
Status of power 1 : OK.
<H3C>
此信息可查看设备硬件状态。尤其是CF卡,系统启动时组件加载不成功有可能是CF卡的原因。
5.3 CPU、内存使用率(连做3次,将3次结果都保留下来)
<H3C>dis cpu-usage
CPU usage is 3.
<H3C>dis cpu
CPU usage is 3.
<H3C>dis cpu
CPU usage is 3.
<H3C>dis memory
System Total Memory(Mbytes): 2026
Total Used Memory(Mbytes): 880
Used Rate: 43%
<H3C>dis memory
System Total Memory(Mbytes): 2026
Total Used Memory(Mbytes): 880
Used Rate: 43%
<H3C>dis memory
System Total Memory(Mbytes): 2026
Total Used Memory(Mbytes): 880
Used Rate: 43%
CPU和内存的高低可以判断设备是否过载还是因为某个功能异常,过高也有可能处理大量的攻击报文。处理三次,是为了取一个稳定的平均值,防止在收集信息时正好遇到峰值,导致误判。
5.4 搜集诊断信息文件
<H3C> system-view
[H3C]collect diag_info 192.168.20.22
诊断信息能提供比较全面的故障信息,是重点文件。
把诊断信息文件h3c.debug上传到tftp服务器保存下来。
5.5 系统信息
收集系统信息需要登入web界面收集(截图)。
图为系统状态界面,可以看到设备主要模块的健康状态。
5.6 接口信息
接口信息能判断接口是否有物理故障,参数是否一致,这是丢包或不通的原因之一。
<IPS-1>display interface
Interface meth0/1
input packets 49004645, bytes 3605556992
output packets 17844, bytes 2208332
administration state UP, line state UP
1000Mbps-speed mode, full-duplex mode
Link speed type is autonegotiation, link duplex type is autonegotiation
combo enable copper
inet add: 10.255.255.31, Mask 255.255.255.0
Interface meth0/2
input packets 0, bytes 0
output packets 0, bytes 0
administration state DOWN, line state DOWN
unknown-speed mode, unknown-duplex mode
Link speed type is autonegotiation, link duplex type is autonegotiation
combo enable copper
inet add: 0.0.0.0, Mask 0.0.0.0
Interface meth0/3
input packets 0, bytes 0
output packets 0, bytes 0
administration state DOWN, line state DOWN
unknown-speed mode, unknown-duplex mode
Link speed type is autonegotiation, link duplex type is autonegotiation
combo enable copper
inet add: 0.0.0.0, Mask 0.0.0.0
可附上WEB接口配置的信息(系统管理/网络管理/接口配置):
5.7 工作模式
进入系统管理/设备管理/工作模式
安全策略阻隔功能不生效,但是有日志,很有可能连接模式错误。旁路模式只上报日志。采用什么样的连接模式和应用模式,根据实际情况来确定。因此工作模式的检查比较重要。
5.8 下载WEB上的系统日志
进入日志管理/系统日志/日志查询,查询所有日志后,将其结果导出到CSV并保存。
系统日志可以看到设备状态变动的记录。
5.9 下载WEB上的操作日志
进入日志管理/操作日志/日志查询页面,查询所有日志后,将其结果导出到CSV并保存。
操作日志记录了用户对设备的所有操作,包括管理员登陆情况。
5.10 下载WEB上的攻击日志(IPS可选)
如果开启了攻击功能,在遇到攻击时会记录攻击情况。如果有攻击日志,请收集过来以便参考。
进入日志管理/攻击日志/日志查询页面,查询所有日志后,将其结果导出到CSV并保存。
IPS有病毒检测功能,如果有病毒日志,请进入日志管理/病毒日志/日志查询页面,查询所有日志后,将其结果导出到CSV并保存。
注意,动作类型为阻断和告警的日志都要查询并导出保存。
5.11 下载WEB上的数据日志(可选)
如果开启带宽管理里面的服务管理,并记录了日志,可以查看不同五元组流量使用的应用服务情况以及带宽。
进入日志管理/服务日志页面,查询所有日志后,将其结果导出到CSV并保存。
5.12 下载WEB上的URL日志(可选)
ACG和IPS都有URL过滤的功能,如果记录日志,也请导出来。
进入日志管理/URL日志页面,查询所有日志后,将其结果导出到CSV并保存。
5.13 导出配置文件
进入系统管理/设备管理,配置维护,点击导出配置文件即可。
以上便是IPS/ACG在出现问题或者产品故障时处理的基本方式。首先需要检查下发策略的配置是否正确,再检查流量是否双向引导设备上来(盒式设备无此问题)。若配置无误,则需要根据上文提到的步骤来收集相关信息,以便技术支持中心和研发协助排查问题。
一指禅功夫在手,如治“病”神医,啥问题都不怕!