由于业务功能的高度集中性,决定了数据中心网络设备对于可靠性要求非常之高,网络设备需要达到99.999%的可靠性标准。而在这种近乎苛刻的可靠性要求下,网络设备在一年时间内允许中断的最长时间仅仅为5分钟左右,这么短的时间对于网络中的核心层框式设备来说,可能还不足以完成一次设备完整重启。那么假使网络设备因为解决软件Bug或者支持新特性而需要升级版本解决,如何保证网络的高可靠性呢? ISSU就是本文介绍的一种设备侧软件升级解决方案。
图1 网络设备升级是最常见的运维事件
ISSU是In-Service Software Update全称的首字母缩写,是一种能够保证在IRF升级过程中业务不中断或者中断时间较短的升级方式,是H3C针对下一代数据中心解决方案提出的一种全新理念的设备软件版本升级解决方案。通过ISSU技术方案,可以满足客户对于网络设备升级的三大要求:
l 对网络设备当前运行业务无影响,实现在线升级;
l 升级方式简单,升级过程可控;
l 具有快速回退功能,实现版本升级的风险可控性;
对于传统的网络升级来说,即使网络架构本身部署较好了冗余实现,但是因为版本升级导致的协议复位、链路震荡、设备重启等原因,都会对在线业务产生一定的丢包影响。ISSU技术对设备自生的版本更新机制进行了优化,从而实现了真正意义上的平滑升级,图2以IRF组网描述了ISSU升级过程,其中ISSU的新技术创新主要表现为:
图2 ISSU升级过程原理图
l 通过ISSU LOAD,实现了主备控制模块分步升级。该技术可以保证主备控制模块在运行软件版本不一致的情况下,也能实现主备模块控制握手的实时同步,在IRF组网中,在备框升级后依然保证IRF系统的完整性;
l 通过版本自动回滚功能,可以方便的实现智能化的版本回退机制。ISSU升级功能一启动,自动回退就会被触发,只有当用户对新版本的运行状况进行了确认(ISSU ACCEPT)后,新版本的升级才算告一段落。否则,在ISSU升级完成(ISSU COMMIT)前,设备都可以实现自动或手工方式的回滚功能。
l 通过HOT-PATCH技术,实现了LPU(线卡单元)模块的在线升级。对于兼容版本的ISSU升级,LPU模块无需通过重启来实现新版本的加载,在线状态下就可以实现版本更新,这可以彻底解决LPU模块重启引起的链路震荡引起的业务丢包。
l 通过ISSU零丢包技术,实现了IRF组网的无丢包升级。零丢包技术的实现载体是通用的802.3ad协议,通过对LACP报文的扩展属性字段的重新定义,可以实现在跨框聚合的组网环境下,即使发生聚合链路端口成员状态的切换,也能保证业务不丢包。
本文主要介绍了H3C提升网络设备可靠性的维护特性ISSU,网络设备的平滑升级和风险控制是大多数网络运维人员需要面对的难题,ISSU作为一种新颖的解决方式也许让你感觉到了设备可维护性的优化对于设备运维带来的巨变,H3C一直致力于提高客户对产品的良好体验,后续会给大家陆续介绍提高设备可维护性的产品技术。
当前H3C的数据中心级网络产品,从接入层的S5800、S5500-EI,到核心层得S9500E、S12500,都已经实现了ISSU平滑升级功能,虽然当前由于版本兼容性的限制,在实际应用中存在一定的限制,但是不可否认,ISSU肯定指明了是未来网络设备平滑升级的研究方向。