UIS之维护速战
一、UIS简介:
1. UIS概述
UIS统一基础架构系统是对整个机架架构的创新,它融合了:
l 计算(刀片服务器B390、B590系列)
l 存储(刀片存储D3000)
l 网络(虚拟网络连接Virtual Connect模块、刀片交换机B6300系列)
l 电源、风扇散热系统等
这种融合架构对于数据中心的集成和优化起了很大作用。融合架构部件较多,如何快速、有效、全面地进行维护日志的收集和解读,将对于我们定位UIS问题有很大的帮助。
本文将简单介绍一下UIS统一基础架构系统中的OA(Onboard Administrato)管理模块,以及如何通过它来收集UIS各类部件的维护日志,并介绍OA日志的解读方法。
2.OA模块简介
OA模块可以说是刀片机箱的大脑,它主要有下面几个功能:
l 检测组件的插入和卸下
辨认组件(产品名称、部件号和序列号),通过读取FRU EEPROM(只需部件接通电源)获取,针对刀片服务器需通过 iLO芯片获取FRU EEPROM信息,VC(Virtual Connect)通过MP(Management Processor)管理芯片获取FRU EEPROM信息。
l 管理电源和散热
控制所有组件的电源状态;读取整个机箱内的各个温度传感器,然后更改机箱中不同区域的风扇速度,以使能耗降到较低,并使散热效率升到较高高。
l 控制组件(包括远程控制和远程控制台)
l 获取组件的固件版本信息,并可更新这些组件
IT管理员可以通过下面三种方式访问OA:
l 通过Web浏览器(GUI)
l 通过文本命令行(CLI)
l 通过内置在刀片机箱前面板的LED显示器(Insight Display)
推荐使用GUI管理方式访问OA,进行UIS的管理和维护日志信息收集。下面将介绍如何通过OA进行UIS各部件维护日志的收集。
二、UIS维护日志:
2.1 UIS日志种类介绍
UIS统一基础架构根据构成部件划分,主要有四大类日志:
l 刀片服务器主动健康系统日志(Active Health System Log,简称AHS日志)
主动健康系统功能集成在服务器iLO芯片中,只要服务器加电,即使不开机也会记录服务器硬件信息,能够监控所有重要的硬件配置、操作事件和硬件状态。当服务器出现疑似硬件问题时,通过解读AHS日志能够很好的判断、定位问题。
l 阵列卡ADU诊断报告
ADU(Array Diagnostics Utility)诊断报告需要在服务器阵列卡中进行操作收集,它能够收集、诊断当前阵列卡所管理的磁盘驱动器、逻辑驱动器(Raid)等状态信息,如刀片服务器和D3000刀片存储中的磁盘告警、故障,以及阵列降级等问题。
l 网络互连模块日志
UIS统一基础架构中,针对互连接入主要有两大网络模块:VC模块和刀片交换机。
VC模块可以提供VC Supportdump日志用于定位模块问题;刀片交换机可以提供Diagnostic-information诊断日志进行模块问题定位。
l OA管理模块Showall日志
OA管理模块的Showall日志通过各部件上的iLO、MP、EEPROM芯片能够采集整个UIS的刀片服务器、刀片存储、网络互连模块以及风扇、电源系统、温感等状态信息,能够从整体上把握UIS各个部件的工作状态,快速定位UIS的相关问题。
2.2 UIS日志收集
UIS不同日志的收集方法不同,比如通过OA、iLO等模块收集。下面将介绍四大类日志的收集方法:
2.2.1 AHS日志收集
AHS日志可以直接通过iLO界面进行收集:
1)打开IE浏览器,输入iLO的URL地址“https://IP”,其中的IP地址为iLO的地址信息。比如输入:https://192.168.21.104,然后输入iLO的用户名和密码信息。
2)下载AHS日志:在“Information->Active Health System Log”界面选择AHS日志范围,然后点击“Download”下载AHS日志。
3)点击“Download”按钮后,将AHS日志下载到本地磁盘,得到文件后缀名称为.ahs的文件。
2.2.2 ADU诊断报告收集
当需要更深入地诊断磁盘或阵列硬件问题的时候,可按照如下方式收集ADU报告。
1)SUV转接头插到刀片服务器前部SUV接口上,U盘插入SUV外接USB口。
ADU诊断报告需要进入阵列卡的SSA(ACU)功能模块并使用U盘进行收集。另外,由于刀片服务器上没有直接的USB口,需要SUV转接头插到刀片服务器前部的SUV接口上,进行USB接口的扩展,从而接入U盘收集ADU日志。
2)在服务器启动的过程中,根据提示按<F5>键,进入SSA(ACU)功能模块。
进入刀片自带P220i阵列卡SSA(ACU)功能模块:
如果刀片服务器使用D3000刀片存储,那么进入D3000的阵列卡P420i进行维护、管理,需要通过使用D3000的刀片服务器启动界面进入SSA(ACU)功能模块,需在P420i下的提示按<F5>键(第二个阵列卡的F5)进入,如下图:
3)以P220i阵列卡SSA界面为例,在SSA配置界面,选择阵列控制器下的“Diagnostics/SmartSSD”选项卡,点击“Run Array Diagnostic Reports”按钮。
4)选择相应的阵列卡,点击“Generate Diagnostic Report”按钮来保存诊断报告。此时需要确保服务器已经插入了U盘。
如下界面表示服务器正在生成诊断报告。
5)选择保存日志的USB设备,点击右下角的“Save Report”按钮下载到U盘。
诊断报告保存完成后,拔出U盘。查看U盘,可以发现ADU报告的压缩包。
2.2.3 VC Supportdump日志收集
1) 下载最新版本的VCSU(Virtual Connect Support Utility),在Windows系统下双击进行安装。
2)安装Virtual Connect Support Utility之后,在Windows中选择“开始->程序->Hewlett-Packard->Virtual Connect Support Utility->Virtual Connect Support Utility-Command Promp,打开VCSU命令行界面,如下截图:
3)收集Supportdump文件:
输入如下命令:
vcsu -a supportdump -i <oa ip> -u <oa管理员账号> -p <oa管理员密码> -vcu <vcm管理员账号> -vcp <vcm管理员密码>
如上图,注意完成后的提示信息(SUCCESS:Support dump file download and saved)表示Supportdump成功采集并保存,收集的Supportdump文件在VCSU的安装文件夹中可以找到。
2.2.4 OA Showall日志收集
OA Showall日志可以通过OA界面进行收集:
1) 打开IE浏览器,输入OA的URL地址“https://IP”,其中的IP地址为Active OA的地址信息。比如输入:https://192.168.21.110,然后输入OA的用户名和密码信息。
2) 收集Showall日志:在“Enclosure Information->Configuration Scripts”界面点击“SHOW ALL”查看OA Showall日志。
三、OA Showall日志解读:
OA是整个UIS的管理中枢,维护人员在排查、定位问题时,OA的Showall日志能够帮助我们快速排查、定位问题,下面将介绍对OA Showall日志重要部分的解读。OA Showall日志从维护常用字段来看有如下常用关键字段:
关键字段 | 可查看内容 |
SHOW HEALTH | 查看UIS整体各部件工作状态 |
SHOW DISPLAY EVENT | 查看UIS各部件重要事件日志 |
SHOW SYSLOG | 查看系统日志,包含OA、刀片服务器、VC的管理芯片日志记录 |
SHOW INTERCONNECT | 查看网络互连模块相关信息 |
SHOW FRU | 查看UIS中支持查询备件号的部件相关信息,方便进行备件更换。包含OA、刀片服务器、网络互连模块、风扇、电源等,基本涵盖UIS中的所有重要部件 |
SHOW SERVER | 查看刀片服务器的相关信息 |
SHOW FIRMWARE | 查看UIS所有部件的固件版本信息 |
3.1 SHOW HEALTH日志解读
我们维护时一般先从SHOW HEALTH部分着手,它主要包含:Enclosure Health、Blade Health、Interconnect Health、Power Supply Health、Fan Health、Onboard Administrator Health六大部分,根据这六大部分的状态我们再看是否需要看更具体的细分日志。以下只拿出部分日志简要说明:
3.1.1 Enclosure Health
Enclosure Health记录UIS8000机框供电、风扇冷却系统的健康状态,如:
Enclosure: OK //机框状态由以下两个状态决定
Power Subsystem: OK //机框供电子系统
Cooling Subsystem: OK //机框风扇冷却子系统
3.1.2 Blade Health
Blade Health记录刀片服务器的健康状态,如:
Blade Health:
Bay Status Problem Corrective Action
1 OK
2 OK
3 Absent
刀片槽位1、2刀片服务器状态正常,刀片槽位3没有安装刀片服务器。
3.1.3 Interconnect Health
Interconnect Health记录网络互连模块的健康状态,如:
Interconnect Health:
Bay Status Problem Corrective Action
1 OK
2 OK
3 Absent
网络互连模块槽位1、2状态正常,网络互连模块槽位3没有安装网络互连模块。
3.1.4 Power Supply Health
Power Supply Health记录电源模块健康状态,如:
Bay Status Problem Corrective Action
1 OK
2 OK
3 Absent
4 OK
5 Absent
6 Absent
电源槽位1、2、4状态正常,电源槽位3、5、6没有安装电源模块。
3.1.5 Fan Health
Fan Health记录风扇的健康状态,如:
Bay Status Problem Corrective Action
1 OK
2 OK
3 OK
4 OK
5 OK
6 OK
7 OK
8 OK
9 OK
10 OK
风扇槽位10个风扇全部安装,且全部状态正常。
3.1.6 Onboard Administrator Health
Onboard Administrator Health记录OA模块的健康状态,如:
Bay Status Problem Corrective Action
1 OK
2 OK
两个OA槽位均安装了OA模块,且工作状态正常。
3.2 日志分析实际案例
【问题现象】工程师小S反馈某局点UIS上有刀片服务器无法正常开机启动。
【处理过程】
1)经过远程电话支持,可以确定有问题的只有这一个刀片服务器,更换刀片槽位后故障跟随刀片服务器走,且现场查看UIS供电上没有异常。所以,基本可以确定刀片服务器存在问题,请小S反馈OA Showall日志(收集日志时,问题刀片安装在槽位2)。
2)通过SHOW HEALTH中的Blade Health部分,可以明确的看到刀片槽位2服务器状态Error,并且建议检查MP日志,即服务器的管理芯片iLO日志。
Blade Health:
Bay Status Problem Corrective Action
1 OK
2 Error Device Failure MP reports device has failed. Check MP log for more details.
3)通过SHOW SERVER STATUS ALL查看刀片服务器的具体信息:
Blade #2 Status:
Power: Off
Current Wattage used: 0
Health: Failed //刀片状态Failed
Unit Identification LED: Off
Virtual Fan: 0%
Diagnostic Status:
Internal Data OK
Management Processor OK
I/O Configuration OK
Power OK //供电状态正常
Cooling OK
Device Failure Failed //设备硬件状态Failed
Device Degraded OK
VCM Configured OK
iLO Network OK
Mezzanine Card OK
可以确定刀片服务器供电正常,但是存在硬件错误。
4)进一步按照日志中的排查建议,通过SHOW SYSLOG SERVER ALL查看服务器的管理芯片的重要日志记录(OA通过iLO芯片获取而来的IML日志)发现:
<EVENT
SEVERITY="Critical"
CLASS="Rack Infrastructure"
LAST_UPDATE="12/09/2013 04:27"
INITIAL_UPDATE="12/09/2013 04:13"
COUNT="26"
DESCRIPTION="Server Blade Enclosure Inadequate Power On:Not Enough Power(Enclousure Serial Number **********,Slot2) "
记录到的信息是刀片服务器供电不足导致,需要确认UIS整体供电功率是否超负荷。
5)查看机框电源信息SHOW ENCLOSURE POWER_SUMMARY:
Enclosure Bay Output Allocation:
Bay Power Allocated (Watts DC)
Devices 2169
Interconnects + 214
Fans + 500
-------
= 2883
可以看到电源模块已经输出的总功率为2883瓦。
Enclosure Output Power Summary:
Enclosure Watts DC
Power Capacity 4900
Power Allocation - 2883
Power Available = 2017
电源系统还有2017瓦的供电能力,所以不存在UIS供电系统功率不足问题。
那么,该问题已经很明确,属于刀片服务器主板自身供电异常导致服务器无法正常开机启动;由于刀片服务器没有可拆卸的电源背板,供电背板集成在主板上,所以需要更换刀片服务器主板解决该问题。保险起见,后续也采集了该服务器的AHS日志来佐证该故障。
最后,工程师小S更换刀片主板成功解决该问题。
四、小结:
本文主要介绍了UIS中的各种维护日志以及这些日志的收集方法。由于UIS部件较多,OA Showall日志可以统筹全局帮助我们快速定位某些问题,或者定位到问题部件。可是,也因为OA日志有着自身的局限性,如采集的日志由于种类繁多,所以针对刀片服务器、网络互连模块等部件更细化的日志无法记录,所以当使用OA Showall日志快速定位到问题点却又无法准确判定的问题时,我们还需要如AHS、ADU、VC Supportdump、刀片交换机Diag等日志协同定位问题。