云数据中心新架构——阿里云飞天负责人 唐洪

标签:阿里云技术商业热点中国技术商业论坛及领袖峰会

访客:97494  发表于:2013-11-08 09:46:48

关于更多精彩内容,详见:中国技术商业论坛暨领袖峰会

唐洪:我今天演讲的主题是飞天云时代的数据中心架构。大家知道今天的论坛是关于大数据的,当然云计算跟大数据也是密不可分的。今天我之所以取这个话题,因为我在阿里云是做飞天开放式的云计算的平台。我们也想在这里跟大家分享一下,这么多年,阿里云在云计算的技术实践里面的一些体会。

云数据中心新架构——阿里云飞天负责人 唐洪

阿里云是2008年开始做云计算的,可能那时候还不是中国最早做云计算的,但是现在阿里云是中国最大的云计算服务提供商,这里面的logo都是部署在阿里云平台上的企业的各种应用。今天有几十万个应用是部署在阿里云平台上面的。它覆盖了中国的每一个省自治区直辖市,包括香港,台湾,包括西藏和青海,唯一一个不在的里面是澳门。我们看到这里面很多的应用可能是大家比较熟悉的。

比如说唱吧,一个几十人的公司做了中国最伙的卡拉ok的网站。还有一个公司叫玩蟹科技,它是一百人的公司,大概10月份的时候,被掌区买了,他们卖了17亿,他们也部署在阿里云上的。还有这两个月比较火的天弘基金,也就是支付宝上面的余额宝。天弘基金在两个月之前在基金列表里面属于倒数第几名的基金公司,今天已经是中国最大的货币基金了。他们后台平台也跑在阿里云上面。这是杭州的一家公司,做的应用是趣拍,他们是做短视频的,他们跟一家非常大的互联网公司做的产品微视竞争,我觉得他们比微视做的还好。还有杭州的博采传媒,他们把之前挣的所有的钱投资做了一部电影昆塔(音译),他们的渲染量是阿凡达的6倍。这是前两天刚刚公布的在线保险公司,众安保险,他们也是跑在阿里云上的,作为一个保险公司没有一家地面的销售网点,他们所有的业务都是在网上完成的。云计算能够帮助很小的一个团队,很小的一个公司完成很大的团队和很多的公司才能完成的事。

我们的定位是为整个的云生态提供最基础的服务。在数据中心这层我们有自己的数据中心,也可以和合作伙伴共建数据中心,底层也是很开放的。唯一我们自己想做的就是飞天的开放平台,提供了整个云计算基础服务。平台方面我们也会提供应用服务,我们也欢迎第三方的应用服务,我们更多的空间留给第三方应用服务。我们的原则,我们只想做最基础的服务,我们唯一可能会做的自己做的事,比如说别人不太想做的,或者别人没有能力做的事。我们有一个愿景,我们希望中国互联网一半以上的计算未来在阿里云平台上发生。

我们之所以有这样的定位,根据我们对云计算本质的理解。第一它是一个大规模。刚才吴总也说,在互联网的时代,其实我们也是一个大数据的时代,互联网每天产生2.5EB数据,每40个月翻一番。这些数据是活的数据,不是粒子数据,每个人在互联网行为中点击这些数据,这些数据我们要进行分析,这个分析需要很大的计算量的。我们的淘宝每天有几十亿元的交易规模,这些交易规模,我们需要在每天的凌晨0-6点分析用户的交易数量和用户行为。没有大规模的计算,我们不可能在一定时效内完成。

第二是低成本,这个不是IT成本,我们认为可以降低足够的低以至于改变人类的习惯。我们小的时候,我们形成一个家庭富裕的程度就是楼上楼下电灯电话,电话是一个奢侈品,今天已经不考虑打电话花多少钱。为什么电会便宜?就是靠调度完成。芬兰这个国家,自己供电能达到用电的80%,其他都是靠输入的。夏天的时候,他们的邻国是瑞典和挪威,夏天的时候引入挪威和瑞典的水电,冬天的时候,就引入俄罗斯的核能发电。真正能够达到低成本,很大的技术的关键就是要调度,需要把不同资源根据波峰波谷进行消风填谷。(音译)

一个创业公司的发展在一开始很难预期,服务运营就是按使用量收费的,我们可以很容易做到弹性的拓展。服务运营也代表安全。你用自来水的时候,你不会相信有人投毒。

基于我们对云计算本质的理解,我们设计飞天开放平台的时候有两个主要的设计目的,第一我们希望以大规模同用的计算平台为基础,大规模本身就是云计算的特征,我们为什么强调通用这个词呢?大家想做一个大型的发电站来说,你发的电可以满足很多人用电的需求。我们云计算数据中心提供的计算能力,也可以支持很多不同的应用的。

另外我们希望用同一套平台支持离线和在线的服务。这也是刚才我讲到的,因为我们强调的是调度,所以我们希望把波峰波谷用资源共享的方法提供调度的效率。

第二个我们希望用web api的方式提供服务,我们所有的服务都是即时开通,按量付费,用户使用服务的时候,不需要知道后台的边界,也不需要知道数据在哪个平台发生的。某种意义上来说,飞天开放平台架构的设计兼具谷歌和亚马逊的特点。

这张图是整个的飞天架构图,构建分布是系统标准的服务。这两个服务把LINUX集群抽象成很大的超云计算机。集群部署和集群空间开放也是飞天开放平台很有特色的设计。在飞天平台里面部署和内核是很重要的组成部分。ECS,SLB是弹性计算服务,OTS,RDS都是存储级别的服务。ODPS和OSPS是面向数据的处理服务。

OSS是无结构数据,类似图片,视频,音频,OTS是半节化的数据,RDS就是传统的关系型数据库的数据。OSS目标是10PB以上的数据量级,OTS也有数据标的概念是100TB,RDS是单表1TB量级。OSS没有事务,OTS是有限事务,RDS是完整事务支持。

飞天的技术特色,第一飞天是通用的技术平台,它是用同一个平台支撑离线和在线的服务,我们可以搜索240亿王爷立宪也处理,130亿网页的在线服务,邮箱,日处理邮件亿量级,日发邮件千万量级,10毫秒级访问延时,它有更加灵活的地线作业框架。我们可以提供实时在线滚动升级,并且我们可以提供分布式的监控和诊断。所有的系统没有单点,它采用了非常高可用的架构,能达到99.9%的可用性。

今年的8月15号飞天有5千台的集群在平台上线,我们建了飞天5K标志物,每天数据存储是1PB,我们也做了计算,我们在100TB的排序,在我们的平台上30分钟就可以完成。以前最好的是雅虎是73个分钟,我们的平台比全球最好的平台快了一倍以上。

你们在网上浏览的时候,可能有一些注册帐号或者密码,你们的密码在7个数字以上的举下手。已经不是很多了。如果是8个的?9个的?恭喜你们,你们举手的听众,你们的密码还是比较安全的,在5K集群上,如果你的密码是9位或者9位以上,我们都可以攻破。如果你的密码是9位以下,我建议大家选一个更强一点的密码。

刚才我讲到了云计算最大的问题是低成本的问题。我们是怎么用技术手段降低成本的?成本有三大块,第一块是硬件成本,这方面除了传统的,比如说你有大批量的议价能力之外,飞天的架构可以帮助我们降低硬件成本。所有飞天集群服务器的配置都是标准化。如果每个不同的应用都要不同的硬件配置的话,是不是对每种机型都要进行冗余,这样的话你的供应链管理就非常麻烦了。

第二块成本是人力成本,我们要维护这些服务。要降低这个成本,关键我们每个运维人员能够维护的服务器的台数。我们的架构其实以数据中心作为部署单元的,不是说每个应用作为部署单元。我们把每个运维流程进行标准化管理,运维不需要到机房做很多东西。最后在飞天架构设计里面,采用了自组织,自适应的架构。我们的扩容,我们的升级都是自动完成的,不会影响到服务的可用性。当整个系统有单点的故障的时候,整个系统会进行检测,并把这些故障隔离掉,绕开。

第三块资源效率问题。大多数情况我们的计算资源是富余的,我们可以通过压缩降低存储的使用量,还有排重的方法降低存储的使用量。我们还可以用资源复用,这个方法的挑战就是安全控制,资源隔离,你跑一个应用的时候,不会干扰另一个应用的执行。

我们从2009年2月4号开始写代码的,2010年8月27日,飞天在阿里巴巴平台上开始成为计算平台,2011年7月28阿里云官网上线,2013年8月15日,我们的5正式投入生产,2013年10月24,我们举办了第三届开发者大会,在杭州举行的,我们成立了阿里云产业联盟。

关于更多精彩内容,详见:中国技术商业论坛暨领袖峰会

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");