阿里云唐洪:飞天云时代的数据中心新架构

标签:大数据数据中心云计算阿里云中国技术商业论坛

访客:55932  发表于:2013-11-21 10:09:40

【导读】大数据价值的实现,与云计算密不可分。希望未来中国互联网一半以上的计算都在该平台发生的阿里云,在飞天云时代其数据中心将如何架构?

阿里云唐洪:飞天云时代的数据中心架构

阿里云总裁王坚曾说,“阿里云计算本质是在做‘信任’生意,是客户让阿里云知道怎么做云计算。”阿里云将如何取信客户,赢得市场呢?11月8日,阿里云飞天负责人唐洪向“2013中国技术商业论坛”大数据专场嘉宾分享了自己这些年来,在阿里云计算平台的技术实践及其体会。

【为整个云生态提供最基础服务】

2008年,阿里云开始做云计算。虽然不是中国最早做云计算的,但是现在阿里云却是中国最大的云计算服务提供商。今天有几十万个应用部署在阿里云平台上。它覆盖了中国的每一个省、自治区、直辖市包括香港特区、台湾,唯一一个不在的里面是澳门。其中有很多应用都是大家比较熟悉的。比如唱吧,一个几十人的公司做了中国最火的卡拉ok网站。还有这两个月比较火的天弘基金,即支付宝上面的余额宝。天弘基金在两个月前在基金列表里属于倒数第几名的基金公司,今天已经是中国最大的货币基金。还有一家杭州公司,做的应用是趣拍,短视频,跟一家非常大的互联网公司做的微视产品竞争,等等。

阿里云的定位是为整个云生态提供最基础的服务。在数据中心层面,我们有自己的数据中心,也可以和合作伙伴共建数据中心,底层开放。唯一我们自己想做的是飞天的开放平台,提供整个云计算基础服务。在平台方面,我们也会提供应用服务,欢迎第三方应用服务,而且将更大的空间留给第三方应用服务。阿里云的原则是,只想做最基础的服务。我们唯一可能会自己做的事,就是比如别人不太想做的或者没有能力做的事。

我们有一个愿景,就是希望未来,中国互联网一半以上的计算在阿里云平台上发生。

之所以有这样的定位,是根据我们对云计算本质的理解。

第一,云计算是一个相当大的规模。互联网时代其实也是一个大数据的时代,互联网每天产生2.5EB数据,每40个月翻一番。这些数据是活的数据,不是粒子数据。这些数据我们要进行分析,这个分析需要很大的计算

量。淘宝每天有几十亿元的交易规模。根据这些交易数据,我们需要在每天凌晨0-6点分析用户的交易数量和用户行为。没有大规模计算,我们不可能在一定时效内完成。

第二,低成本。这不是IT成本,我们认为可以降低足够低以至于改变人类的习惯。芬兰这个国家,自己供电能达到用电的80%,其他靠输入。夏天的时候,引入邻国挪威和瑞典的水电;冬天的时候,引入俄罗斯的核能发电。

真正能够达到低成本,很大的技术关键就是要调度,需要把不同资源根据波峰波谷进行“消峰填谷”。再比如,一个创业公司的发展在一开始很难预期,服务运营是按使用量收费。我们可以很容易做到弹性的拓展,而服务运营也代表安全。一如你用自来水的时候,不会相信有人投毒。

【兼具谷歌和亚马逊特点的飞天云】

基于我们对云计算本质的理解,我们设计飞天开放平台时主要有两个目的:第一以大规模同用的计算平台为基础。一则大规模本身就是云计算的特征,我们云计算数据中心提供的计算能力,可以支持很多不同的应用;二用同一套平台支持离线和在线的服务。

第二用Web API的方式提供服务,所有服务都是即时开通,按量付费。用户使用服务的时候,不需要知道后台的边界,也不需要知道数据在哪个平台发生的。从某种意义上来说,飞天开放平台架构的设计兼具谷歌和亚马逊云平台的特点。

飞天的技术特色,第一飞天是通用的技术平台,它是用同一个平台支撑离线和在线的服务。我们可以提供实时在线滚动升级,并且我们可以提供分布式的监控和诊断。所有的系统没有单点,它采用了非常高可用的架构,能达到99.9%的可用性。

今年8月15日,飞天有5千台的集群在平台上线。我们建了飞天5K标志物,每天数据存储是1PB,我们也做了计算,100TB的排序在我们的平台上30分钟就可以完成。在5K集群上,如果你的密码是9位或者9位以上,我们都可以攻破。如果你的密码是9位以下,我建议大家选一个更强一点的密码。

我在前面提到,云计算最大的问题是低成本的问题。飞天是怎么用技术手段降低成本的呢?

一般来说,云计算成本有三大块,第一是硬件成本。除了传统的大批量的议价能力之外,飞天的架构可以帮助我们降低硬件成本。所有飞天集群服务器的配置都是标准化。

第二是人力成本。我们要维护这些服务。要降低这个成本,关键是每个运维人员能够维护的服务器的台数。我们的架构其实以数据中心作为部署单元,而不是按每个应用作为部署单元。我们把每个运维流程进行标准化管理,运维不需要到机房做很多东西。最后在飞天架构设计里面,采用了自组织,自适应的架构。我们的扩容、升级都是自动完成的,不会影响到服务的可用性。当整个系统有单点的故障的时候,整个系统会进行检测,并把这些故障隔离掉,绕开。

第三是资源效率问题。大多数情况我们的计算资源是富余的,我们可以通过压缩降低存储的使用量,还有排重的方法降低存储的使用量。我们还可以用资源复用,这个方法的挑战就是安全控制,资源隔离,你跑一个应用的时候,不会干扰另一个应用的执行。

(简介:从2009年2月4号开始写代码;2010年8月27日,飞天在阿里巴巴平台上开始成为计算平台;2011年7月28日,阿里云官网上线;今年8月15日,正式投入生产。目前,已在杭州举办了第三届开发者大会,并成立阿里云产业联盟。)(顾琳琳/整理)

关于更多精彩内容,详见:中国技术商业论坛暨领袖峰会

评论(3)

您可以在评论框内@您的好友一起参与讨论!

    1. 黄小东 不错

      回复[0] 2013/11/21 15:35

    1. 钟况况 大多数情况我们的计算资源是富余的,我们可以通过压缩降低存储的使用量,还有排重的方法降低存储的使用量。 这个思路很好呀

      回复[0] 2013/11/21 15:26

    1. 江海鸣 用过,但好象极一般。主要是不稳定

      回复[0] 2013/11/21 14:48

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");