欢迎user
河南省电力信息网络应用系统非常庞大,有详细规划的系统多达37个,涉及服务器,小型机,磁盘阵列各种设备共164台。维护人员日常工作非常繁琐,工作量很大,对应用系统难以精确监控,也不能够及时的发现问题。
因此,客户非常需要一套完整的主机应用监控系统,对现有的应用平台进行逐个监控。需要详细了解到应用系统的各种参数,包括硬件服务器的状态和应用平台的状态。还要求在任何一个应用平台出现告警之后,能够通过短信或邮件等方式直接通知指定的维护人员,进行及时的处理。
1.监控系统信息获取
iMC APM可以自动获取服务器名称、IP地址、系统版本、CPU个数、磁盘大小、内存大小、适配器配置信息等所有设备硬件信息(硬件型号、配置信息等相关信息),同时可以获取服务器对应的VLAN信息、设备端口信息。
2.服务器的运行状态
可以监控服务器运行状态、服务器磁盘状态、网卡状态、进程总数等;服务器运行时间、所有硬件设备状态、进程状态(进程名、进程号、进程数量、是否有异常进程、僵尸进程等),并进行告警提示,同时可以对告警进行根因分析。
3. 服务器CPU运行情况
可以监控服务器CPU运行情况:用户时间百分比、CPU系统时间百分比、CPU运行队列进程个数;统计瞬时和平均CPU占用率、并可进行阈值设定,进行告警;统计每个CPU的占用率和每个CPU运行队列中的进程信息(进程号、进程名等),同时可以实现对虚拟机的CPU占用率,内存分配等情况进行监控。
4. 报表输出:
可以实现报表输出 : 报表数据可以以表格或图形显示。统计报表数据可以保存为word、HTML、Excel等常用文字格式,可以根将报表以指定格式打印出来或输出到其他外围存储设备上,同时支持PDF、XML、CSV、TXT等格式,支持多种图形展示:包括条形图、饼图、曲线图、甘特图、面积图、圆环图、三维梯形图、三维曲面图、XY 散点图、雷达图、气泡图、股票图、漏斗图等。
5. 定制报表:
可以定制报表:支持自定义报表;定制表格支持数据的多类汇总方式,同时提供可视化报表设计环境:提供所见即所得的报表设计环境,可以拖放报表的组成元,例如报表标题、数据库字段等。预览界面所看到的报表与打印出来后的报表效果保持一致。
6. 报表分类:
可以实现报表分类功能:支持报表分类管理,根据主机、数据库等采集数据来源进行分类,也可根据使用者自身管理需要进行分类,并支持多级分类。
同时提供针对网络设备和链路的分类报表,实现对于系统的全面数据显示。
7. 应用系统监控:
可以对应用系统进行监控:能够以业务系统为组织核心,形成支撑该系统的主机、数据库和中间件等相关资源的拓扑,并在缺陷产生时,影响的软硬件和应用系统告警展示等。
8. 告警提醒
可以实现发生告警时,监控系统可通过邮件形式通知指定负责人,同时满足手机客户端监控软件,可以实时查看服务器情况,收到告警信息、设备监控信息。
可以实现发生告警时,监控系统可通过手机短信形式通知负责人,同时足手机客户端监控软件,可以实时查看服务器情况,收到告警信息、设备监控信息。
9. 故障自动智能分析
可以实现在发生业务障碍时自动智能分析问题/故障的根源,预警其对业务可能产生的影响,从而有效协助运维管理人员主动、高效、及早地发现、预见问题。可通过告警归并,依据主机、数据库、中间件、应用系统拓扑及关联关系,进行智能分析,将告警定位到最上层源头,同时可以实现针对网络、链路、服务器、应用软件进行系统关联性分析,实现故障的快速定位。
10. 系统配置管理子系统
具有系统配置管理子系统:1)业务对象类型管理;2)业务关联管理类型管理;3)业务关键性能指标类型管理;4)告警、预警类型管理;5)告警、预警级别管理;6)用户、分组、角色管理;7)分权管理;8)用户个性化设置管理等。
实际部署1套iMC v7平台,配置APM组件及400应用监控License,截至目前共监控了200个应用(点位),这些应用对应不同的服务器及系统,如目录、门户、邮件、DNS、GIS等,这些系统为电力的生产提供基本保障。省通信部门对业务系统及其重视,为了保障生产,省公司采用主机监控平台来及时发现各业务系统中出现的各种问题。这些应用按照所提供的服务分为37个组,每个组对应不同的厂家及维护小组。而将来随着业务的发展及业务系统的调整,点位数量会继续增多。
河南省电力公司有独立的短信平台,为了让告警信息能够及时的发送给对应的维护人员,H3C iMC团队对河南省电力短信平台进行了适配的二次开发 , 使维护人员可以按照应用分组进行指定,配合河南省电力短信平台,通过分组进行发送,每个分组对应1个负责人。下面就二次开发的若干功能进行细节说明。
1. 应用分组功能
为了明确维护人员的责任范围,客户要求对37个应用进行分组,每个分组都设置有一个管理员的账号,使用该账号只能访问指定分组的监控信息。同时,基于该分组创建维护人员信息,在短息平台中,关联该维护人员的手机号码,并规定在发生重要告警的情况下,通过短息的方式点对点的进行通知。
由于河南省电力的乙方集成商众多,应用系统也划分给了不同的公司维护,因此需要基于不同的乙方集成公司划分不同的维护权限。比如,上图就为恩湃公司所负责维护的应用系统,包括企业门户,门户应用等系统。恩湃的主要职责就是维护电力的各种门户网站及相关业务系统。
基于该功能,客户能够清晰的对维护人员的职责进行定义,在出现故障的时候第一时间通知最熟悉该系统的维护人员,责任到人。后期基于APM系统的协助,电力公司将对各个维护人员进行绩效考核,包括响应时间,处理时间以及故障发生率等。APM的应用分组系统为河南省电力实现精细化运维提供了有力的支撑。
2. 应用拓扑功能
应用拓扑功能是河南省电力客户非常喜欢的一个功能,因为它可以直观的显示应用之间的联系,应用服务器同物理网络之间的联系,在业务系统出现故障的时候,应用拓扑可以协助维护人员快速定位问题出现在哪一个应用中。
(1) 目录服务器系统
上图为目录服务系统,可以看到所有的目录服务应用均基于Linux系统运行,该系统共19台物理服务器,分别提供不同的目录访问应用。所谓目录系统可以认为是电力的认证系统,用于电力内网业务系统的保护。
上图为目录系统的总体拓扑,可以看到主要的业务访问在目录-AG服务器上。AG指的是业务访问网关,为了保证电力内部系统的安全,所有用户访问任何一个内部系统的时候,首先要连接到AG服务器, AG服务器就是用户认证的网关, 用户在连接到AG服务器之后,输入用户名和密码,AG服务器就会将这些信息发送到IDS服务器上,通过IDS服务器对用户名和密码的判断,返回一个结果,是允许或不允许该用户登陆到指定的业务系统。其余的目录服务器主要用于存储各个系统的账号信息。通过几个服务器集群的互相配合,构建一个完整的目录服务系统。
(2) 门户系统
门户系统是河南省电力的门户网站,是河南省电力对外展示企业形象的平台,门户系统是电力的核心业务系统之一,在其中使用了多台小型机作为门户系统的核心业务支撑。
上图为应用系统的逻辑联系图,可以看到后端支撑门户系统的包括ORACLE数据库,WEBLOGIC应用及其他业务应用系统。
上图为应用系统的物理连接图,可以看到ORACLE数据库,WEBLOGIC应用均配置在小型机上,使用的是IBM的AIX操作系统,通过RAC集群的方式为业务提供高可靠性,其余的PC服务器为各种应用提供前端访问服务。比如,10.230.1.206这个服务器就是一个在线人员统计的服务器,使用的是SUSE Linux Enterprise Server 10的操作系统,包括两台IBM x3850服务器,提供的服务包括: 全省内容管理地市级联、门户在线人员统计(向数据库存储数据)、门户在线人员统计(从数据库读取数据)、在线人数删除程序(对每天登陆次数大于20次的用户)、weblogic提供服务、领导信箱功能等。两台服务器为主备功能。
APM系统有效的提高了维护效率,使得原有繁琐的维护工作变得简单。使用一个监控平台就可以监控所有的应用系统,自动化的对所有监控信息进行采集。彻底摆脱了原有逐机登陆,逐点扫描的工作模式。可以全面快捷的了解到应用平台软硬件的状态。通过短信告警联动,随时随地的掌握应用平台的健康状况。