盘点全球数据中心灾难史 看数据中心选址与灾备

标签:业务连续性

访客:44057  发表于:2013-01-21 14:25:28

  

数据中心,支撑整个IT系统正常运转的后台架构,囊括了计算、存储、网络等多种IT资源。也正是因为数据中心地位的重要性和在现代社会生活中扮演的重要角色,使得数据中心的安全和持久稳定运行成为了人们极为关注的问题。然而,前段时间飓风桑迪为代表给数据中心带来的灾难性创伤,再次引发了人们对数据中心的安全担忧。本文,将为读者介绍全球数据中心遭遇到的灾难事故,并从中总结得出数据中心安全杀手以及如何防范等问题。

  本月早些时候,飓风桑迪重创美国东海岸,尤其是支持着整个工业园运转的数据中心在此次飓风肆虐中因断电而瘫痪,造成了难以挽回的巨大损失。

  那么,数据中心常见的杀手有哪些呢?换句话说,究竟有哪些因素会影响数据中心的正常运行、而需要我们特别加以重视的呢?一般说来,以下因素或者灾害对数据中心会带来较大危害:

  一、洪灾

  毋庸置疑,曾经泰国洪灾给硬盘产业带来的影响就可以“窥一叶而知春秋”,数据中心也同样害怕汹涌的洪灾;

  二、火灾

  俗话说“大火无情”,一旦出现火灾事故,后果不堪设想。也正是如此,数据中心往往都备有消防装备;

  三、网络中断

  光纤网络在很多偏远地区并不常见,如果路由器、交换机出现宕机或者人为误操作(误配置)导致网络中断,后果同样不堪设想。没有网络的数据中心宛如一座孤岛——对于提供 网络或者云服务的数据中心来尤其如此;

  四、电力中断

  相比网络中断,电力中断带来的麻烦更大。没有电力的数据中心就如同一堆废铁;

  五、地震

  去年日本大地震带来的影响,大家可能都历历在目。身处地震带或者地震频发周边的数据中心尤其要注意在防震方面的设计和构建。

  2011年日本大地震致数据中心受损

  另外,数据泄露、系统崩溃、网络攻击、人为失误和冗余出错,都会给数据中心的正常运营带来巨大危害。下面,我们将为大家介绍曾经遭遇过巨大创伤的数据中心。

  【事故档案】

  时间:2008年3月19日

  地点:美国

  起因:火灾

  损失:数据中心遭毁,历时十天才得以修复。

  火烧威斯康辛数据中心

  2008年3月19日,美国威斯康辛数据中心被火烧得一塌糊涂。根据事后统计,这次大火已经烧掉了75台服务器、路由器和交换机,当地大量的站点都瘫痪。该数据中心属于当地一家“Camera Corner/Connecting Point”的公司所有,该公司主营网站托管和其他IT服务。

  这次事故,给当地网站带来了巨大损失。耗时10天的修缮和重新部署,才使得这些网站得以上线。该公司CEO Rick Chernick也一再强调,公司为该数据中心投放了火灾险,而且数据中心的警报装置减轻了火灾带来的进一步损害。

  然而,该数据中心耗时十天才得以完全恢复过来,足以说明该数据中心在当时并没有完备的备份计划。

  同样还遭遇火灾影响的数据中心,有来自莫斯科的ISP服务器机房。根据监控画面我们知道,该数据中心起火原因是墙壁上的电闸开关短路而导致的。工作人员利用手中的各种工具将涌向服务器的烟雾和火花进行扑灭。然而值得称赞的是,尽管如此,该机房并没有中断电力。因为他们部署了UPS系统,这一点对于其他数据中心的设计和建筑来说都极具参考意义。

  Fisher Plaza数据中心变压器起火引发火灾

  2009年7月,位于西雅图的Fisher Plaza数据中心的变压器起火引发火灾。此次火灾影响甚大,造成了包括微软Bing Travel、Authorize.net、Redfin、Big Fish Games、Survey Analytics等网站服务器的中断运行。这次事故在同一时间段引发了很多其他数据中心的宕机。

  从此次灾难中,我们应该学会在选择数据中心服务商的时候,应该了解事故发生后网站需要多长时间从宕机中恢复过来。如果答案在几天甚至几周,那么可以考虑选择其他更值得信赖的服务商。

  另外,我们也特别需要有完整灾备计划的事后措施,在数据中心场地和周边,务必有科学合理的消防设备和设计方案,数据中心的各个角落应该有尽可能多的消防器材。(在不影响通行和通风散热的情况下)

  【事故档案】

  时间:2009年9月9日

  地点:土耳其

  起因:暴雨引发洪灾

  损失:数据中心遭淹

  水淹Vodafone数据中心2009年9月9日,土耳其伊斯坦布尔遭遇暴雨并引发了洪水。疯狂肆虐的洪水淹没了该市Ikitelli区的大部分地段,也淹没位于该区的Vodafone数据中心。

  城市里的很多Vodafone(沃达丰)手机用户都因该数据中心被淹而无法使用通信服务。上图展示的是监控摄像头拍下的画面:数据中心的一名员工在收集自己的东西撤离数据中心。

  伊斯坦布尔Ikitelli地区所处位置

  伊斯坦布尔Ikitelli地势较为低洼,南北毗邻爱琴海和黑海。因此,在遭遇暴雨的时候就特别容易引发洪水。此次洪水在当地造成了很大的影响,甚至街道上的很多车辆都被冲走。

  Datacom网络中心遭暴雨冲击

  同样遭受洪灾影响的,还有来自澳大利亚的Datacom网络中心。这次洪灾发生在澳洲的时间是在2010年,当时的大暴雨将Datacom主机代管中心的天花板冲毁,使得服务器、存储和网络设备都遭损坏。起初该公司否认出现问题,但随着事故在网络上得到曝光,人们逐渐知道了真相。

  Hunt Valley数据中心遭遇水管侵袭

  Hunt Valley数据中心也曾遭遇了“有惊无险”的侵袭。在2008年的时候,洗手间的一根管道爆裂并涌出大量的水。好在该中心的服务器机柜设计较为合理,离地间距为4英寸(1英寸=0.0254米),而且管理人员在午休回来后及时发现并处理了该险情。

  从以上几个实例中我们不难发现,为了避免洪灾对数据中心带来的潜在危害,我们应该对数据中心的选址、海拔、机柜离地间距甚至是整个数据中心建筑物的设计,都需要有一个充分的科学论证,以防后患。

  【事故档案】

  时间:未知

  地点:未知

  起因:光纤被淹

  损失:业务中断

  这起事故源自国外一名IT管理人员发出的视频而得出。在视频中,由于下水管道爆裂,位于地下室的数据中心被水浸入。

  可能有人会问,仅仅是下水管道爆裂怎么会引发网络中断呢?(不是洪水,数据中心也没有被淹没)。其实,主要原因是当时一家电信公司打算将光线网络铺设在下水管道上,并通过下水管道的走向来安排布线。图中所示的就是光纤网络被爆裂管道的水所淹没的场景。

  除了网络中断,也有电力中断的例子。比如接下来要介绍的数据中心。如上图所示,工作人员按惯例检查UPS的电压和电流情况。然而,当他进入数据中心的时候,其中一个UPS宕机并且火花四溅,烟火瞬间弥漫整个机房。

  天花板上的管道漏水也是数据中心一大杀手

  另外,我们这里还要介绍一种意外事件带来的潜在威胁。当IT管理员周末步入数据中心查看的时候发现,机房顶端的天花板已经湿透并逐渐往下渗水。渗出来的水流入到地面并不断积压。管理员发现后立即将水桶放到渗水的位置,避免水位进一步提升。

  经过后来的检查发现,这些水来自于空调管道,而这些管道被铺设在天花板上方,而且没有经过严密的密封处理。

  无论是空调管道还是下水道,其实都是设计方面存有缺陷。对于这种问题,在搭建数据中心的时候就需要严格按照设计要求来执行。同时,也需要进一步加大对UPS和数据中心物理设施的常规定期检查。

  【事故档案】

  时间:2011年3月11日

  地点:日本

  起因:9级地震

  损失:设备受损

  3月11日,日本遭受了9级大地震,上万人失去了生命,数百万人受到严重影响。在此次地震中,日本东京的IBM数据中心也受损严重。包括很多大型机和传统服务器受损,服务器机柜东倒西歪,金属外框也出现了变形,甚至有些大型机的线缆都暴露在外。

  9级地震发生后的IBM数据中心

  不过,由于IBM数据中心线缆长度和松紧度的合理设计,而且,作为自动触发进行错误检查的一项预防措施,IBM存储单元也同样保持正常运行。在此次地震中的IBM服务器还能正常运行。

  遭地震影响的IBM数据中心

  另外值得一提的是,2012年初的时候,加尔各答的一家银行被大伙无情吞噬。烟雾扩散至楼上九层。消防员赶来的时候,该机房也被火烧掉面目全非,只留下了机柜的空壳和天花板上的一些线缆。

  前面我们给大家介绍了遭受洪灾、火灾、网络中断、地震破坏的数据中心,从这些灾难事件中,我们也深刻地体会到灾害的无情和凶猛,也意识到在设计规划、建造部署数据中心的时候,需要经过多番论证,建立多套应急措施和备份系统。

  根据全球保险公司Axa安盛的一份报告,80%的中小企业在遭受重大事故后的18个月内都面临着关门破产或者难以为继的困境。与此同时,更大型公司在遭受重大事故时,则会蒙受巨额的财产损失和名誉

  下面,我们将为大家提炼出几个构建数据中心值得关注的问题。这些对于保障IT系统7×24不间断运行、为业务发展提供源源不断的支持所应该具备的要素:

  一、数据中心的选址

  正如我们前提提到的,很多发展洪灾的数据中心,都是位于地势低洼、临近河道或者海边的地理位置。而且很多地震频发或者环地震带也不宜构建数据中心。选址问题,重点可以考虑自然地理条件、配套设施、周边环境、成本因素、政策环境、高科技人才资源环境、社会经济人文环境。

  全球数据中心分布位置一览

  二、建立数据中心灾备计划

  即使发生诸如地震、水灾、雷击、火灾、机器故障这些偶然事件,也必希具备很高的安全可靠性以保证业务不会停止。为了提高数据中心的安全可靠性,有必要建立完善的数据中心灾备计划。

  灾备计划其实应该包括软硬件层面。软件层面包括人为的风险评估、定期审查、软件系统的相互依存和备份。硬件层面包括硬件冗余、UPS、数据备份、异地灾备等等。

  三、融合数据中心

  由于成本和备份关键系统和数据同步的复杂性,很多企业不惜代价创建一个备份数据中心。随着业务的发展,数据中心的问题与日俱增,数据中心管理者所面临的压力和挑战也越来越大,企业业务的不断调整和改变让数据中心总体架构面临极大的压力、有限的物理空间让数据中心扩展性和灵活性有所限制。

  为此,融合数据中心是唯一的出路,只有通过有效的整合才能够让传统数据中心升级成为一个智能化、自动化、高效化的数据中心。

  四、虚拟化技术

  很多明智的企业都转向虚拟化,从而大大降低成本。在紧急情况下,这也是快速恢复IT活力的一种方式。利用虚拟化技术,可以将操作系统、应用软件和数据打包装入到基于操作系统之上的应用软件中。封装的应用程序可以很容易的传输到场外——作为数据的一种传输方式,并为远程计算机用户提供访问。虚拟化技术可以大幅减少停机时间,将宕机时间从数天减少到数小时。

  当然,在数据中心的具体产品层面,比如在应对地震等自然灾害的时候,可以将数据中心构建在减震器上面——用金属和橡胶制成并安放在建筑物内的隔离层,可以吸收地震发生时带来的震动。某些数据中心拥有楼级和机架级的减震隔离层。此外,所有的服务器机架设施,冷却设备和其他设施都牢牢地受到地板的保护。

      更多精彩内容,详见原文:http://www.ciodongcha.com/plus/view.php?aid=1205

 

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");