青云黄允松:云计算是“IT 2.0”

访客:16671  发表于:2015-09-25 15:57:07

【导读】受到2003-2004年刚刚起步的AWS在海外市场的影响与启示,长期受IT前沿科技熏陶的三位青云创始人看到了机会,也预见了自己的未来。2012年的愚人节,在北五环的一个普通的不能再普通的民房里,黄允松与他的另外两位合伙人用手机拍了三张照片,青云QingCloud就算正式成立了。而后开始了创业的探索,本文系青云QingCloud CEO 黄允松在QCUC 2015上的演讲,讲述了青云QingCloud从筹划、到创业再到未来发展规划的心路历程。

青云黄允松:云计算是“IT 2.0”

我最近出差比较多,见过很多不同行业的客户。他们会谈论云计算可以帮助我们做什么?是否需要在当前的阶段考虑这样的事情?“Future is Now”是今天大会的主题,因为我们不认为这是可以再去犹豫的事情了。但是大家依然在争论,现在我的机房跑得挺好的、IT基础设施跑得挺好的,实际上只是因为你的企业依然是一个封闭的企业,套用历史上的一个词叫做“闭关锁国”。公司正在有一个趋势,就是打开大门做生意,首先是“社交”,社交并不是两个陌生人通过一个网站或者App交朋友,而是技术层面API的开放、标准化、相互调用,以及自定义的授权方式,基础设施层面也是逐渐开放的过程。今天介绍生意可以标准化和相互的调用以及社群的方式,更重要的是基础设施的层面也是逐渐开放的过程。

很久以前,我们每个人都不会想着把自己家的IT设备放在别人家,但是今天这是广泛存在的。接下来更加广泛的存在是,可以透过互联网的模式大规模的使用来源非常广泛的资源和能力。现在大家对自己手机上的App是非常熟悉的了,手机和电脑上有很多的应用程序,公司的运转都离不开IT或者说软件了,比如财务记帐软件已经深入人心了,销售团队管理自己客户时需要庞大的CRM系统。因此,在公司的整个发展过程中,软件或应用系统为每一个人工作和生活创造了无穷无尽的可能性,而这种可能性背后支撑它的是什么?90年代的时候,微软创始人比尔盖茨就曾经讲过,让每一个人的桌面上都有一台电脑,后来有人讲“Information in your figures”。

计算机系统的变化是逐渐复杂并且逐渐网络化的过程,会大大超出人类掌控的范畴,软件或者应用对我们的经济、工作和生活影响越来越大,就算战争也离不开IT了。我们能得出一个很有意思的结论,在这些应用背后的IT基础设施会变得至关重要。现场如果有数据中心或者运维人员会非常有认知,如果是非常重量级的应用,在IT基础设施上花费的人力和心血是超乎想象的,一旦出错后恢复的过程是非常漫长和艰难的,这就是我所说的技术到了一个需要变化的时代。

从基础设施的角度,大家可以找出很多的特点,其中稳定可靠非常关键,如果基础设施不稳定可靠,上层的应用也不会有100%的可用性。我们不想去谈“几个9”的问题,而应该是接近100%的 可用性和可靠性,这不仅需要在应用架构层面做好功课,从做基础建设时就要打好地基,为什么我会非常强调经济性?“廉价”不表示不计后果的去降价,如果关注 青云的商业理念,大家会非常的理解,我从不认为一个完全没有合理利润来源的项目是能够长治久安的。如果说我从青云的角度为你交付一个非常廉价的服务,但是 公司五年以后就倒闭了,对你来说是好还是坏?我经常讲“免费就是天下最贵的”,各位应该都曾经用过一个免费的服务,几年后所有的数据不见了。廉价来自于技 术本身结构的变化,使得我们建设和运维的成本降得很低。IT支出在每个行业都是巨额支出,尤其是那些重度依赖于IT行业的人,比如说银行业,应该有那么贵吗?我们需要打个很大的问号。这不是财务层面要解决的问题,做预算管理从是治标不治本的,真正的治本在底层技术的组件结构上。基于此,两年前我们创建了青云QingCloud,取自于“青云直上”、“平步青云”的吉祥之意。我们不希望前面讲的梦想最后都没有落地,所以我非常强调要接地气。

讲一段我们以前的小故事,我们产生这个想法是很多年前了(近十年),我们做这家公司是2012年开始的,我们特别选择了愚人节,照片上就是当时用林源的手机拍了三张照片。我们最早是在北五环的民房里,那个房子非常的脏,我们自己贴壁纸、换马桶,因为没有机房,我们把厨房加了个玻璃罩,从中关村买了很多PC机,就把公司做起来了。从技术层面有几点需要跟大家分享:

第一,我们的诉求在哪里?这对于创业公司是有参考价值的。我们刚开始面对的情况是,Amazon AWS项目已经从美国03、04年开始萌芽起步,它能够为大家提供的IOPS的能力大概是“千”这个数量级的;与此同时硬件行业,他们提供的至少是“万”级别的,两者最起码差了十倍,全球排名第一的云服务商和传统的硬件供应商相比差了十倍。这肯定是不入流的生意,所以很容易可以理解会持续这么长时间的亏损。

为什么大家都在在文件系统级别去做块设备级别开发和功能的提供呢?我们尝试了很多方案之后,大概失败了五次,我们决定换一种模式去做,如果我们将不同设备上的硬盘做成一个硬盘池进行管理的话,实际上这个问题就得到解决了,这其实就说RAID系 统,但它不是分布式的。如果有一种机制能让它变成分布式的,那么问题就解决了,这里的成本非常高。一方面是开发成本,最大的问题是防止脑裂,因为宏数据到 处都是,一旦发生网络灾难数据就不一致了,我们称之为脑裂——“大脑分裂”,如何解决是个很大的问题;另外会消耗大级别的块复制,如何平衡成本的问题,这 对同行业或者类似行业会有参考的价值,对于我们的用户也有参考价值。

很多人会疑问,为什么QingCloud能做到几万IOPS,或者为什么可以做到好几百I/O的 吞吐能力,是因为级别够低,我们在块设备级别做的。再比如说网络,到今天为止还有人说网络不重要,网络怎么会不重要呢?我们三个人当时也是有争论的,当时 有两条路可以走,第一条是快速上线,大家知道什么是互联网思维,就是快,做底层技术不能快,上线之后砸了怎么办?肯定不可以快,所以我做功能开发从来没有日程表,要寻求好而不是寻求快。我们能不能做到又快又好呢?那是做梦,好的一定比别人慢一些。当时一条路就是快速上线,就跟Linode一样,我们直接VPS上 线,做一个漂亮的界面就可以上线了,但是我们最终否定了这条路。否定的原因在于我们到底要交付给市场一个怎样的产品,所以早期有一些路是不能犯错的。我们 当时想了一件很简单的事情,如果两个用户同时在青云上,但他们彼此居然在三层网络上互通,没有一点安全性可言,客户的数据就有泄漏的风险,作为云服务商就 会出来道歉,这样会不断打击这个市场,使得传统的IT继续顽强的生长,而新型的IT模式没有任何机会,这是不负责任的做法。因此我们整个项目上线延迟了三个半月,一直拖到2013年7月才正式对外开放,这也是我们上线只有两周年的原因。

如何定义QingCloud或者说Cloud,如果讲的非技术一点,我认为simplified(简单)和integrated(完整)更重要一些。不管是什么应用,基本上都需要后端的关系数据库,中间有应用层服务器,最前面是web层,或者说反向代理层,中间可能有缓冲层,可能再加上事件机制等,每个组件都有很多种选择,但是对于最终用户来说意义有多大?每个组件的复杂度是超乎想象的。因此,simplified和integrated是至关重要的。另外是coordinate,当你的设备只有一百台的时候可能没什么感觉,但是如果设备是一百万台,你准备如何解决运维问题?你起码每天会收到1-2份故障报告,这些故障可能严重到没有任何预兆的情况下,你的服务器会突然的下线而数据没有了。在座诸位的公司超过十万台的比比皆是,如果十万台里任何一台设备出现问题的话,how to coordinate?这也就是P2P机器人运维系统的重要性。我很高兴看到技术媒体也在逐渐往这个方向走,前两天看到一篇文章,讲到以机器代替人的模式会成为唯一的方向,其中的观点基本上和我的观点是一致的。P2P机器人运维系统我已经讲了一年半了,对于云计算大规模化的角度来说是非常关键的。在我们的系统里面,我不关心数据中心在哪里,也不关心数据中心里有多少种设备,任何一台物理设备都是可以随时下线的。

没有任何一个人类能做到这一点,我强烈推荐大家看一部科幻文艺电影《机械姬》(Ex Machina),只有四个人物,讲AI(人工智能)的。里面有台词分享给大家“AI不是会不会来的问题,而是什么时候来?”在青云的系统中,我更喜欢叫它机器智能(MI),因为我们解决的是机器的问题,而不像《机械姬》里解决的是谈情说爱和欺骗的问题。青云最底层是硬件,往上是IaaS层,这里还有个orchestration(编排)层,使用过Cloud Foundry、Docker、Rocket等模板化部署或配置工具的会对这层很熟悉,它将传统的中间件层高度自动化,就像我们在IaaS层将传统的IT运维自动化。orchestration层包括数据库、队列、容器等,大家可能对PaaS这个词更熟悉,未来人们会逐渐忽略掉中间件的产品细节,我们也会有不断在各个公司、各个研究机构的投入,当然会花费很多时间,但毫无疑问会为我们展现非常美妙的未来。

因此,我们从IaaS到orchestration,再到PaaS,这是一个自然而然演变的过程。再往上层是Apps,他们会关心技术细节吗?当然不会。虚线以下都是透明的,App之间可以通过API相互协作,于是我们会得到一个自动化的社会。我不认为云计算是一个新的产业,云计算没有底层创新的能力,仍然是传统IT行业的延续,因此我更愿称之为“IT 2.0”。

关于云计算技术我只强调两点:第一,全虚拟化。很多人认为硬件就可以了,但是如果我没有任何预兆把你硬件的电源线拔了,需要多长时间可以恢复,你可能说需要几个小时;如果虚拟化层面,不要说十台,更多的都可以很快解决,虚拟化最大的好处就是敏捷,对于现代的IT系统来说,敏捷是至关重要的,因为“坏”是绝对要发生的事情,我们要接受它。第一是可以快速的恢复,第二是让影响变到最小,这就是全虚拟化的重要性。比如网络,很多人做SDN/NFV时跟青云的思路不一样,我可以很骄傲的告诉大家,2013年3月26日我们发布Bata版本时,我们就在互联网(qingcloud.com)上直接售卖SDN/NFV的设备,迄今为止在互联网上卖虚拟网络设备的应该还是不多的。大家唯一担心的是全虚拟化带来的性能损耗,但是这个问题基本上已经不存在了,在CPU级别基本可以控制在1%以内,有效率几乎可以达到99%;网络层面可能大家觉得损耗会比较大,但青云会在未来的大约两到三个月之内会发布最新的SDN 2.0,最大的改变是TCP/IP协议栈,会提升现有性能的5到8倍,我们内部定的指标是10倍。所以可以看到虚拟化网络的性能几乎等同于物理网络的性能。

因此,全虚拟化是我非常强调的,另外一个是智能调度系统,只有通过全自动的智能调度系统才能保证资源层面的全透明,创新的自由一定来源于没有担忧。为什么我 觉得只有这两点才会赢得创新的自由,因为只有足够的廉价才会引来创新的自由。在我们十几岁的时候可能有梦想,因为成本太高所以无法实现。二十几岁的时候也 有梦想,但是在北京租个房间每月可能要两千块,还要吃饭、打电话、坐公共汽车、打车、买衣服,可能就没法实现这些梦想,我们把这些创新的希望寄托在非常廉 价、几乎跟水电一样廉价的IT资源和能力上。我希望看到的未来:如果是公有云的服务的话,我希望看到在财政平衡的情况下,IT的资源和能力几乎是不要钱的,就跟家里买电买水是一样的。

我们为什么非常不愿意强调公有云和私有云之间的差异?实际上云计算是IT工业的延续,也可以叫IT 2.0。我们根据应用的范围,如隐私程度的强弱,可以将不同的业务跑在不同的环境里,通过杰出的网络技术,很容易将它们联合在一起。系统集成的角度来说,不管是硬件自动化还是公有云、私有云,我们可以通过开放的API联合在一起,形成一个统一的系统。2009年有本书叫《Big Switch》,中文名叫《大转折》,它的作者是IT行业很有名的未来学家,他特别喜欢做预言。他有个很有意思的观点,他认为25年以后全世界大约只有五台电脑,其中有一台电脑应该是Google,还有一台是Amazon,他认为微软可能是其中的半台电脑,另外两台没有讲明,但给了很多候选。这一说法表明了一种趋势,就是融合,即异构的系统最后融合成一个统一的系统,我们要通过开放的系统来达成。

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");