大型机宕机显尴尬,该向谁问责?

标签:虚拟化服务器安全

访客:42179  发表于:2013-01-05 10:50:40

IBM大型机永不宕神话破灭,两地三中心备份成摆设。12月15日下午,中国银行采用的大型机突然宕机,时间长达4个小时。

在本次宕机事件中,大家讨论最多的就是为什么系统没有在第一时间切换到备份服务器,一般说来备份分为本地和异地备份两部分,也是许多数据中心都在应用的模型。在金融行业中,一种名为“两地三中心”容灾备份系统的概念,许多银行也都在采用这样的备份模式。但是从这次宕机的结果来看,备份系统并没有起到丝毫的作用。

调查显示,大家一致认为,中国银行没有迅速切换到备份系统,一方面要归咎于金融行业的业务特殊性和大型机所带来的心理安全感。一般来说目前灾备中心采用主备模式,多数情况下IT设备处于闲置状态。平时这些设备可以用于测试环境或者准生产环境,提高了设备使用率。此外,采用虚拟化技术,将灾备中心的服务器配置成多台虚拟机,分给不同的用户所使用,充分地使用硬件资源,也降低了灾备中心设备的能耗。另一方面,银行的灾备系统主要以模拟方式进行,通过桌面模拟演练和Call Tree演练,验证灾备体系的可用性和有效性,只是大家迷信于大型机的“稳定、可靠”,备份系统恐怕从未应用过,更别提在关键时刻担当重任。

更重要的原因是,本次宕机的是负责信用卡业务的服务器,如果启用备份系统,由于存在应用上的未知性,没人知道启动之后会出现什么问题。而据供职于央行的某位IT顾问透露,任何时候银行系统出现问题,都需要一把手拍板做决定,其他人没有这个责任和胆量启动预备系统。由此也不难理解为什么本次中国银行宕机事件没有迅速解决的原因了。
对于本次大型机宕机事件,各位怎么看,本次事故该向谁问责?是技术问题还是管理问题?如何避免类似事故的发生?

评论(4)

您可以在评论框内@您的好友一起参与讨论!

    1. 朱磊 1.上线前做过充分测试吗,之前也听说过有失败的案例,如切换到备机后无法在切换回主机。 2.流程及应急相应通道是否畅通。 3.授权和管理制度是否合理明确。 4.定期的检测和预防措施有做准备? 5.运营状态及趋势状态和安全状态是否有梳理明确。 6.应急处理的方式及相关人员是否能第一时间相应。 7.重点并不是追溯责任,如何从失败中吸取教训,总结经验,最终实践才是关键。

      回复[1] 2013/01/05 19:41

    1. 阿朱 双机,异地灾备其实都是心理安慰,真实情况都不尽如意。
      别听厂商们的忽悠。

      真正的google的分布式云计算环境技术,还没公开普及商用呢。                                                                                          

      回复[1] 2013/01/05 14:23

    1. 徐蕊 腾讯的专题不错

      回复[1] 2013/01/05 11:30

    1. 石娜娜 对于IT运维而言,没有一成不变的选择,也没有永远安全的设备!您所在的企业灾备如何做呢?

      回复[3] 2013/01/05 11:04

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");