郑立峰:腾讯大数据和云存储

标签:大数据云存储腾讯存储大会

访客:33238  发表于:2014-06-19 12:35:58

主持人:谢谢,我们很期待亚马逊在中国为大家提供更好的云服务。接下来这家公司也是我本人的跟踪领域,我非常尊敬和喜欢的一家国内互联网公司,很多人都说这家公司的云来晚了,我本人并不这么认为。从现在来看这家公司的云更多透露出一种神秘感,如果用一部最近很流行的一部电影来说我觉得可以用隐秘而伟大来形容。所以我现在有请腾讯云北京研发中心总监郑立峰先生为大家带来演讲,他演讲的主题是腾讯大数据和云存储,有请。


郑立峰:各位来宾大家好,我今天演讲的主题是腾讯云大数据和云存储。腾讯在技术方面一直比较低调,而且对外公开的一些技术方面的信息是比较少的。但是腾讯在技术方面的研发实力可以说是一直持续的在积累,包括分布式计算、分布式存储、大数据各个领域很多基础产品我们都是自主研发的。今天我主要侧重讲一下云存储和大数据方面的事情,其他的一些话题我今天先不讲。
腾讯诞生也有16年了,在这16年里面也诞生了很多广受中国网民喜爱的产品,它的访问量以及它的数据存储,地方链接,还有很庞大的数据量这些都在技术方面提出比较大的挑战。我们很多业务都是每天在线用户会超过1亿,如果没有非常好的技术体系支撑的话,业务发展是会受到影响的。腾讯云其实是把腾讯已有的一些基础技术逐步的包装成产品开放出来这样来做。实际上腾讯云也已经诞生有四年了,我们是2010年就开始做腾讯云这件事。在头三年里面一直没有对外开放,主要是给腾讯的合作伙伴用。腾讯的开放平台,2010年他是开放到2013年之间也已经积累了比较大的用户群,有上万家腾讯的合作伙伴用上了腾讯云。在2013年9月份的时候腾讯云正式对外开放。从2013年9月9日到现在也就是过去了9个月里面,其实我们的宣传推广有一些在做,但是做的也不是那么多。在这9个月里面也是积累了接近1万家各行各业的用户,举一些典型的例子,有互联网游戏公司比较多,互联网行业当中的移动应用类的以及网站类的也有挺多,包括比较知名的厂商爱互动,还有一些证券公司,国内的安迅证券,各行各业一些厂商都进来了,我们在9个月里面腾讯云取得了非常迅猛的发展。今天我主要讲技术方面多一些,产品方面事情讲的少一些。
腾讯云其实做了很多事情,有云服务器、监控、安全,当然也么多业务当中存储还是我们非常重要的块业务。因为一个企业基本上是离不开数据存储这个业务。腾讯的存储产品主要分为几个产品,一个是NoSQL高速存储。我7、8年前做互联网的时候,那时候网络的架构基本上都是Web程序,连数据库,也能支撑很大的量。我清楚的记得我们当年差不多8年前,用Web程序连接数据库也能支撑一天访问量上亿的PV,但是一天要支撑十亿PV或者是几十亿PV,单纯靠数据库肯定撑不住的。所以在这样的被今夏行业里面有一个非常知名的开源产品,他每秒钟能支撑十万次、十几万次的访问,这样一种支撑能力能够让大型的网站能够得到良好的支撑。但是这个产品也有一些不足之处,就是内存存储。首先他能存储的数据量比较小,八年前内存也比较贵,存储的量也比较小。他虽然快,但是他有这样的一些局限,导致很多只能把最热的数据放进去,次热的数据很难放进去,因为他的存储很小。如果说要都放进去的话,要对一两百G的内存这个成本很高的。
我发现我来到腾讯之后,腾讯企事业有一个类似的产品自主研发的,还没有用开源的产品,但是这个产品其实就是我们现在对外开放的NoSQL高速存储。腾讯自主研发这个产品已经有四五年了,他为了更好的支撑行业当中的协议标准,为了支持协议,他有比他更强的地方就是他能够持久化存储,能够把原来存储在内存当中的存储到硬盘上。硬盘是多样化的,可以是HTB,包括固态硬盘,用户可以根据自己对速度和成本的需要自己来存储。我们经过这么多年发展,我们的存储的成本降到非常低,用户可以享受高速存储可以非常低的成本,做互联网的产品离不开这个高速存储服务,尤其是海量访问级别的。
他有哪些特点呢?我先讲他产品的特点首先他是兼容memcached协议,他是持久化存储,存在不同的介质,价格不一样。他可以自动扩容,数据存储量大的时候他会自动扩,你不用去操心。我记得我做互联网十几年了,很多年前我们发现数据量扛不住了,要扩出几台机器来,还要忙活一些事情,把原来的散列重新散列,把数据进行搬迁。这个数据在这个服务商,客户可以完全不用考虑,自动扩,自动搬迁,服务不中断。这对互联网的业务,你在早期的时候访问量非常小,随着业务量的发展,你的扩容是不太可控的。也许一个世界杯的到来,访问量一下爆增,世界杯过去之后你的访问量又下降的很大。互联网一个很大的特点就是事件性特别强,尤其是微博、媒体类服务事件性非常强,这种自动扩容能力是真的是省心省事的。搬迁的过程当中还容易丢失数据或者是出差错,事情来的很突然,你的临时准备方案不充足情况下容易出错。这个服务是非常的基础的能力,帮大家在平常的业务当中能够把这些事情避免掉。透明切换是说我要增加设备或者是减少设备,对中断业务完全无感知,整个就是不断扩大,全透明。平滑备份,我们备份技术也是想了很多招,首先可能会把内存拷贝下来,会通过流水不断来记录,整个备份的时候对业务是没有太大的影响,业务访问不会有延迟现象发生。我们是可以支持多列访问,有点像表格概念,可以一次提取多列数据。至于可靠性、可用性,数据其实大家可能没太多感知,但是我可以说的是我们这个服务运营四年多以来,没有出现过数据丢失的情况也没有出现过服务中断的情况。这个服务基本上接入我们的一万多家客户当中都会用我们的服务。我不敢说一万年怎么样,这个事情很难说。
刚才说的这些方面我可以简要介绍一下,用户的请求进来到Access层,就是到了代理层,到了代理层之后下面才是真正的存储,主要提供服务的存储我们把他叫成Master,备用的存储叫做。Master坏了,备用的存储可以提供服务,如果两个都宕掉情况之后,我可以通过冷备数据。这个流水记录我们也是用的腾讯大数据里面的分布式文件系统,基本上不用担心说这个流水会丢。会通过冷备和流水快速的进行服务的恢复,所以有几重安全机制保障,我们几年运营下来没有发生过一起数据丢失,大家也没有在新闻上听说腾讯云数据发生了灾难或者是发生了重大数据丢失的这样一些情况。
这个服务他很重要的一个特点就是访问快,因为访问快才能支撑海量的访问。所以我们的接入层也好以及提供服务的这些存储,他都是在内核态运行,减少了内核态和用户态切换,访问单机可以支撑到19万次每秒,能够支撑到一个什么样的量级呢?我估摸着怎么也能支撑每天十亿次的访问这样子。其实能够覆盖到很大的一个互联网的业务。
腾讯云第二个存储服务是云数据库,这是一个数据库集群,还是讲7、8年前一个故事,大家那会主要是通过这类数据库提供数据服务的。我还清楚的记得当年我在做互联网的时候,有一家大型的电子商务公司说他们的电子商务交易量非常大,撑不住了,怎么办。买国外的上数据库特别贵,每次要搭集群或者是成套成套加,都是按照CPU算钱的,非常非常贵。自从行业当中诞生开源数据库之后,整个成本降低非常快。但是开源数据遇到一些问题,他没有很好的集群化,也没有很好的高可用性和高可靠性。这时候腾讯自身的应用多元化,包括电子商务和支付业务对数据的需求还是非常大的。这样的背景下腾讯也是在开源数据库基础上研发了很多年,把一些开源能力不足的地方逐步补全,这是把高可用性、高可靠性,透明切换,多重保障机制,很可靠这些都是类似的一些能力。其实现在这个服务也是腾讯自身大多数业务都已经在使用了。包括我们现在腾讯投资的大家也知道最近腾讯投资很多公司,我们也想把这样的技术能力输出到很多投资公司里面去,他们也面临访问量增长很快这样的一些问题。
传数据库采用的备份技术是采用Hadoop的,不断的加机器,存储空间不断扩大,我们备份相对来说还是比较可靠的。这个架构当中有一个腾讯自主研发的负载均衡服务用在数据库层面。当你访问量大的时候,我们负载均衡服务会将服务请求会匀到不同的上面去。
首先我们的节点部署是全国部署,经过这么多年发展,腾讯在争夺境内有很多的网络接触点,我们客户访问我们的网络存储服务的时候可以访问我们就近节点,速度上会快一些。他也会支持非结构化的数据,比如说视频、图片这些,腾讯本身产生的数据非常庞大,可以放在上面。我们的微云服务,现在超过5G或者是25G就开始收费,微云比较大气,免费10T,在座各位可以去申请使用。只要你开通公众号就可以免费使用。我们免费10T之后,很多客户为了用微云开通,国外很多客户类似网盘产品基本上都是收费的。我们的微云也是用了对象存储服务,访问也会比较快,访问纯图片会比较快。
还有这里我着重介绍像腾讯开放数据平台,简要介绍一下,腾讯开放数据平台是一套腾讯的大数据分析计算平台,腾讯自身很多大数据的分析存储业务都在上面。这个我记得有两千台机器,现在把这个集群开放了,大家能做什么,大家把自己的程序丢上去,就可以在里面跑。以前可能你要自己搭一个大数据集群,怎么也得花个五台、十台机器是已经费事的,我们现在开放2000台给大家用,把程序丢上去就可以进行海量的计算。产生很多数据怎么办?腾讯开放数据平台可以很好的跟我刚才所介绍的这些数据存储服务对接起来,你输入的数据可以通过对象存储来输入,输出可能输出表格或者输出数据的话可以输出到云数据库。这样对你的大数据的分析业务会有一个比较大的提升,便利不少。我们很多高校和科研机构,我建议你们不要再搭自己的集群了,费十台机器,可能一天也就用一个小时,23小时是闲置的。这样的话很浪费。其实腾讯大数据平台2000台机器开放出来,利用各个客户的错峰,大家使用数据不一样,错峰错过,把数据很好的利用起来,流程标准化。前一段时间我跟海军总装部的朋友聊,他们说开源的是不是会不安全,我们自己改过一些东西。我刚才介绍我们的云数据存储都是腾讯自己研发,安全方面得到验证,我们操作系统也系改过的,大家可以比较安心的使用,也欢迎我们更多的政府、国企以及企业界的朋友来使用。
微博的数据今天暴涨20%,你找不到驱动的原因是什么。这个关键就是帮你找到他为什么涨,他涨的背后的人群是哪些,主要是寻找这些因素。其实这样一个能力就是分析出涨跌背后的关键要素是什么,这个服务主要就是干这个用的。腾讯自己的业务也在使用,他涨了,我们要分析他为什么涨,我们要放大他的涨势。
另外信鸽是一个通知服务,腾讯的信鸽是结合大数据分析能力的,我们可以帮你推到比如某个区域人群,也可以帮你推到不同属性的人群。我今天就讲这么多,谢谢大家。

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");