KOHadoop和Spark|中兴飞流布局第三代大数据技术

访客:13946  发表于:2016-12-15 11:12:39

英国公投出结果第二天,腐国人民一觉醒来发现自己的资产贬值了;特朗普当选的第二天,财经新闻纷纷报道“黄金强势突破1320美元/盎司大关,全球股市哀嚎遍野,美元指数大跌近2个百分点”,朋友圈里也在刷屏“抢购黄金、坐等上涨”,到了上周意大利公投结果出来,理财达人们已经在迅速操盘的同时,心惊肉跳地关注稍晚一点出结果的奥地利总统选举了。

这是中兴飞流CEO吕阿斌在强调“实时”处理的重要性时举的一个例子。中兴飞流是中兴通讯在今年2月份成立的大数据子公司,CEO吕阿斌即是原中兴通讯云计算与大数据产品负责人。据介绍,中兴飞流目前的核心产品是具有独立自主知识产权的Yita引擎,和基于Yita引擎的JDH大数据平台;Yita引擎基于数据流基础理论思想,从运算机理上创新,处理速度和性能远远优于传统计算组件。

数据流KO控制流

信息的全球化和实时化,对于吃瓜群众过来说,是围观的对象从街头巷议扩大到了国际八卦;对于操盘手来说,是更多的参数、更强的敏感度和更快的决策;对于科技产业来说,则是搭建好技术基础。

记得去年采访一家在时间系统领域的行业领导企业,那是小编第一次接触这个领域,听CTO介绍如何将时间的精确度提高到极限、介绍微秒级的误差会带来怎样的损失,当时受访人举的正是资本市场操盘手的例子。

精确的时间很重要,晚了一个微秒,可能多少亿就没了;那么数据的实时处理更重要,信息的快速处理让时效变得有意义。否则就像节奏缓慢的生活剧,少看几集照样连得上戏,抢时间没有必要。于是云计算、大数据企业使出了浑身解数,让数据流转地更快、时间更有意义。

在这个过程中出现了第一代大数据技术Hadoop和第二代大数据技术Spark,(具体的技术分析按下不表,因为小编不懂。。。)但是,在挑战实时处理海量的非结构化数据时,科学怪人们显然觉得哪怕Spark也不够亮眼,而是寄希望于开发出第三代大数据技术。中兴飞流的成立就是希望能在第三代大数据技术的基础研发中占有一席之地,并且,他们押宝在“数据流”。

“数据流”并不是一个新概念,早在上世纪70年代就面世了,但当时的时代选择了“控制流”,使其成为了延续至今的主流的运算机制。吕阿斌对二者进行了简单的解释:“当我们对数据进行复杂计算时,需要算法,比如分类、聚类算法、深度学习、神经网络。在算法中,如果数值需要做转换,那么通常会带来衰减,而且绝大部分是负衰减;在大数据的处理中,一次积分运算就有可能导致结果出现巨大的变化。简单来说,数据流和控制流的区别就是细粒度的异步计算;数据流的特征使得其运算过程中不会导致太多的衰减。”

中兴飞流CTO郑龙表示,目前YITA的性能是Spark的10倍以上:“控制流是把数据攒一部分到内存里,然后开始计算,这样内存就要负担数据的缓存和计算。数据流的基本思想不是载入、计算、载出,是一边抽一边计算一边往外吐;用这种方式计算,数据载入的内存量压的非常低,大量内存留给了数据计算,所以能够更加高效利用内存。整体来说我们做YITA的出发点就是从海量、实时、智能三个角度来应对现在大数据给我们提出的新的挑战。”

飞流的“诗和远方”;从基础到业务

一直以来,底层技术似乎都是舶来品,中国的公司似乎更擅长在技术平台之上做应用、做业务。吕阿斌坦言:“第一代大数据以Hadoop为代表,这个浪潮我们错过去了,中国在这里面哪个组件是中国贡献的?说不出来。第二代以Spark、Storm这种内存计算、实时计算为雏形的时候,也没有我们。”

而这种“拿来主义与”的便利也让渡出了极大的主动权。随着来自人才和资金的底气越来越足,国内的企业开始了向底层技术争地盘的努力,之前5G标准的新闻带来的国人振奋便是一个好的开头。

现在中兴飞流和YITA在做当年Hadoop的事,郑龙说:“我们希望到了下一代大数据核心技术,至少我们能在里面贡献一个很重要的、很有意义的一个模块、一个组件。大数据已经走到第三波了,我们希望能够掌握自己的核心竞争力,不再被牵着鼻子走。在往前走的过程中,在把示范性的应用系统做好、给用户以信心的同时,我们也在准备将它开源出来,把它贡献成为中国的甚至世界的财富,这是我们技术人的诗和远方。”

当然,作为中兴通讯的“亲生仔”,飞流还是有更大的野心的,郑龙也分享了飞流的整体发展方向:“我们先把基础平台做起来,在这个平台上再做企业化的版本、做发行版的版本,一直贯穿到应用领域,所以我们既要掌握核心竞争力又要掌握核心的业务能力,并把它贯穿在一起。”

人才总是公司头疼的问题,尤其对于想走在前面的公司。据了解,中兴飞流目前拥有一支40人左右的高学历研发团队,另外,它还联合MIT成立了一个数据流的STC(special technical committee),集合了当今对数据流最有贡献的人,包括美国工程院院士、数据流的先驱第一人杰克丹尼斯、我国的数据流权威高光荣教授、梅宏院士,等等。

 

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");