访客:14798  发表于:2014-10-29 20:54:35

大数据分析:spark在推荐算法上效率高出mapreduce数十倍 腾讯做了个试验,在千台集群节点上做相似度计算。 可以看出在MapReduce上的实现的性能远远低于在Spark上的性能,使用JOIN的方法使得网络通信开销非常大,五百亿数据集的任务执行时间超过12个小时,千亿数据集任务执行时间超过24个小时;GraphX采用的同样是二维图划分,但是由于其是一个面向通用的图计算框架,维护了复杂的数据结构和计算流程,造成性能下降。同时,GraphX在网络稳定性方面存在许多问题,当集群规模达到600台时便会有大量的任务失败。 与前两者相比,TDW-Spark在集群为200台时在两个数据集上都获得了较大的性能增长,所消耗时间少于GraphX的一半。当集群规模从200台扩充至600台,TDW-Spark在五百亿节点对数据集上获得加速比218%,在千亿节点上的加速比为280%;当集群规模从200台扩充至1000台时,加速比分别为279%和350%。因此,TDW-Spark不仅在性能上获得了很大的提升,还可以在千台规模的集群之上稳定运行,同时获得良好的水平扩展能力。 Spark是目前Apache中最活跃的开源项目之一,已经形成了一套成熟的大数据处理生态系统,为大数据处理提供了强有力的支持。TDW目前维护了上千台的Spark集群,支持了公司多个业务的挖掘分析和实时计算类任务,我们会在易用性和稳定性方面进行进一步的改进和优化,构建强大的大数据处理平台,给业务提供更有力的支持

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");