有大机,有灾备为何还被灾?——从中行大机宕机4小时说起

标签:CIO灾备大机

访客:69459  发表于:2013-01-05 11:39:17

【腾讯数码消息】

12月15日下午,中国银行采用的IBM大型机在运行过程中突然宕机,时间长达4个小时。
大型机一直给人以“稳定、安全”的概念,事实上这也正是IBM在宣传时所特意强调的,但本次大型机的宕机无异于对这种说法进行了驳斥。


政府、国防、安全、电信、金融、交通、医疗等关系到国计民生的行业的关键业务来说,都需要遵循“5个9”(99.999)、“6个9”(99.9999%)甚至“7个9”(99.99999%)的标准来加以评估,而这些标准代表的,就是一台服务器每年的非计划停机时间分别只有5分钟、30秒和3秒钟。由此我们可以想象本次4小时宕机的时间是多么漫长,所造成的损失又是多么巨大。

作为单机系统来说,无论设计得如何精妙,维护得如何稳定,都不可能保证100%的无宕机。

在本次宕机事件中,网友们热烈讨论的就是为什么系统没有在第一时间切换到备份服务器,一般说来备份分为本地和异地备份两部分,也是许多数据中心都在应用的模型。在金融行业中,通行一种名为“两地三中心”容灾备份系统的概念,许多银行也都在采用这样的备份模式。但是从这次宕机的结果来看,备份系统并没有起到丝毫的作用。

笔者认为,之所以中国银行没有迅速切换到备份系统,还要归咎于金融行业的业务特殊性和大型机所带来的心理安全感。一般来说目前灾备中心采用主备模式,多数情况下IT设备处于闲置状态。平时这些设备可以用于测试环境或者准生产环境,提高了设备使用率。此外,采用虚拟化技术,将灾备中心的服务器配置成多台虚拟机,分给不同的用户所使用,充分地使用硬件资源,也降低了灾备中心设备的能耗。另一方面,银行的灾备系统主要以模拟方式进行,通过桌面模拟演练和Call Tree演练,验证灾备体系的可用性和有效性,只是大家迷信于大型机的“稳定、可靠”,备份系统恐怕从未应用过,更别提在关键时刻担当重任。

更重要的原因是,本次宕机的是负责信用卡业务的服务器,如果启用备份系统,由于存在应用上的未知性,没人知道启动之后会出现什么问题。而据供职于央行的某位IT顾问透露,任何时候银行系统出现问题,都需要一把手拍板做决定,其他人没有这个责任和胆量启动预备系统。由此也不难理解为什么本次中国银行宕机事件没有迅速解决的原因了。

原文链接:http://digi.tech.qq.com/zt2013/syibm/index.htm?pgv_ref=aio2012&ptlang=2052

这一话题迅速在e行网QQ群内引发了CIO的热烈讨论。

灾备的成本,多少个9,才是合适?
领导一看宕机,CIO绩效都没了……
平时没事,但要是做灾备,老板掏钱就磨叽……
在这个案例里,为什么“没人敢承担切换带来的问题的责任”
真切过去发生什么,谁都没把握……
真正上线了,谁敢让替身随便上。。
不要说银行系统了,企业内部重要的系统,肯定也会有同样顾虑的……
如果一直有不断的备份系统演习。。那还好。
但谁会不断的演习备份系统呢,演习增加预算啊。


关于这个话题,你有什么问题?一起来讨论一下吧!

评论(46)

您可以在评论框内@您的好友一起参与讨论!

    1. 赵思伟 个人感觉,宕机4小时不是问题,主要问题是:责、权、利。 上述问题主要的体现了国内的企业对责和权的看法,你们认为呢 ?

      回复[0] 2013/01/06 00:12

    1. 冯磊 感谢@姜正林 @李培志 两位嘉宾抽出宝贵时间,以闪电般的速度,就今天上午社区内热议的话题,展开一个小时的问答讨论。同时也感谢各位在线提问的CIO嘉宾互动。业务连续性是CIO的最根本任务之一。中国银行down机的例子在社区内引起的广泛关注说明了这一点。由于时间的关系,今天的线上讨论暂告段落。大家有问题,还可以提出,我们会继续跟踪!再次感谢各位!

      回复[0] 2013/01/05 15:04

    1. 张海波 看来不能迷信大牌?

      回复[3] 2013/01/05 15:03

    1. 冯磊 时间快到了,能否请两位总结一下对这个案例以及企业业务连续性的看法?在线讨论之后,我们应该继续思考什么问题?@姜正林 @李培志

      回复[1] 2013/01/05 14:54

    1. 冯磊 还有一个问题:保持业务连续性,涉及到一个组织文化的问题。如何让企业有高度重视业务连续性的意识?这个是不是不用CIO操心?

      回复[3] 2013/01/05 14:50

    1. 冯磊 【转自微博私信】 作为一家银行,本身就不能说自己是什么“我们一般的企业”,两地三中心的同城备份中心是肯定要实时在线的!数据是要实时同步的!换句话说,备份中心要像生产中心一样进行运维,业务可以做到自动的实时无缝切换!出了问题才来看备份中心的运行状态,来决策要不要切换业务,那说明数据没同步,业务没热备,当然不敢切换了。这本身就说明中行这个案例里,所谓的两地三中心根本是有名无实,同城中心的设备有没有上电?有没有跑相同业务?如果没有,那还叫两地三中心吗?

      回复[3] 2013/01/05 14:46

    1. 冯磊 请问两位,在现在云计算的环境下,保持业务连续性会有什么新的做法吗?新技术是否会催生新的模式?

      回复[3] 2013/01/05 14:44

    1. 冯磊 @ 姜正林: @ 李培志: 谈到备份系统的闲置率,有一个问题是,有人说备份系统有时候会做“生产中心”用。这是否是一种不负责的态度?为什么要这样做?成本的考虑?

      回复[3] 2013/01/05 14:34

    1. ccch 换个角度看,菜刀即是日常生活工具也能用来当凶器,一把好枪放在老百姓手里,也就是一杆废铁。好的东东运用如何不是商品本身功能,而更多的要看后期使用!尤其是做信息化的“三分技术七分管理”,重在管理,而非技术本身。难说这次宕机事故不是中银自身原因。作为IBM也应该日常进行巡检和监理,协助客户来处理日常运维。不要等到出事故了,才来补救!大数据时代,是容不得一秒宕机的。

      回复[2] 2013/01/05 14:29

    1. 冯磊 @ 姜正林:@ 李培志 ,都说备份系统的演习要有个频率,这个频率现在是否都能落实?大家都觉得中行是没演练好。那怎样保证演练到位?

      回复[4] 2013/01/05 14:28

    1. 冯磊 @ 李培志: @姜正林 :业务部门在保持业务连续性当中,应当起到什么作用?需要哪些人合力?

      回复[1] 2013/01/05 14:25

    1. 冯磊 银座网-高勇(16314199) 14:18:03 一般本地环境就对连续性做了充足的考虑,等用到灾备的时候... 所以,业务连续性不能指望备份系统的切换?

      回复[1] 2013/01/05 14:24

    1. 冯磊 【转自微博】较短时间内可以恢复的系统应该不会选择切换到容灾中心,尤其是核心系统肯定优先恢复而不是切换。是这样吗?

      回复[1] 2013/01/05 14:19

    1. 王维 灾备系统和运营系统之间有一个很关键的东西就是运营数据的一致性,中行交易量的数据级别能够实时的做到运营系统和灾备系统一致可能还是非常复杂的,也不一定能做到100%的一致,但是金融的数据是非常敏感和重要的。切换之后,如果数据不一致,可能带来的影响更为不好。

      回复[1] 2013/01/05 14:18

    1. 石娜娜 @ 姜正林:姜总您好,在您看来,本次中国银行宕机事件没有迅速解决的重要原因是什么呢?

      回复[2] 2013/01/05 14:18

    1. 殷勇 当业务正常运转的状态下,老板通常是看不到投资于灾备的价值的,但这却是CIO心头最敏感的地方,请问两位领导,如何在不发生事故的状态下,说服老板投资于灾备系统?

      回复[3] 2013/01/05 14:15

    1. 冯磊 @ 姜正林:做的时候为了交钥匙,但是灾备有多少人个能真正交钥匙?这里面多少人包括CEO、CIO。哪些因素会造成假的交钥匙?

      回复[1] 2013/01/05 14:13

    1. 朱暑冰 为什么中行的领导不敢下命令切换系统呢?可能的原因如下:
      1:平常没有做切换演练,比如定期一年两次,而且是真实条件下切换。
      2:在两次成功切换演练的间隙,确保主/备系统的任何变化都是灾备ready的,包括技术、流程、人员。

      回复[3] 2013/01/05 14:11

    1. 冯磊 【转自微博】武剑锋: 理论中的“灾备”是应对地震、海啸等导致整个数据中心能源停止供应或者通讯全部中断的。如果只是一台设备的故障,不一定需要启用“灾备”,启用“热备”或者“冷备”可能更有效。另外,如果是软件的bug被触发那么更可怕,一时半会是解决不了的。——这个有点专业,两位嘉宾怎么看?您所在的企业怎么做热备、冷备?@姜正林 @李培志

      回复[3] 2013/01/05 14:08

    1. 殷勇 期待各位CIO踊跃交流呀,这个话题,谈着谈着,干货就出来了.

      回复[1] 2013/01/05 14:06

查看更多
<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");