腾讯薛伟:快速模型更新在精准广告推荐中的应用

标签:大数据腾讯Spark

访客:25459  发表于:2014-04-20 13:59:08

【人物简介】

薛伟

腾讯精准推荐中心广告推荐负责人。2006年在北京航空航天大学取得博士学位, 同年加入IBM中国研究院, 2011年加入腾讯数据平台部。一直从事云计算、海量数据分析和数据挖掘、精准推荐相关的研发工作。

摘要:精准推荐的数据环境是快速变化的,无论是用户还是被推荐物品,都在快速地出现、变化、消失。用于推荐的机器学习模型必须够快地更新才能更好地适应这种变化。

什么原因吸引你钻研Spark技术?

我在Spark第一篇论文出来之后就开始关注这项技术,在Spark-Project还没有版本编号的时候就开始关注这个开源项目了。当时Spark吸引我的主要有两点:第一点就是速度,In-Memory的计算可以达到比Hadoop高一个数量级的速度,这一点非常吸引像我们这样大量使用Hadoop进行数据处理和计算的应用者;第二点就是Spark优雅的编程模型,个人认为这一点传承自Scala这种面向对象程序设计思想和函数式程序设计思想结合非常好的语言,Spark优雅的编程模型还非常有助于我们移植现有Hadoop上的程序。主要就是基于这两点理由,我们选择了Spark作为很重要的一个分布式计算平台,来支撑我们日常的业务。

-对于解决哪些问题Spark独具优势?

从我们的实践经验来看,Spark在大/中规模数据迭代和交互式数据处理方面有优势。之所以不单纯的说是大数据,是因为Spark一个重要优势是In-Memory计算,而现在Memory还是要比磁盘存储小一些。不过Spark社区很活跃,相关的技术还在不断地发展当中。Spark的优势领域应该还会不断地扩大,我们也在一直保持关注。

-目前企业应用Spark最大的困难是什么?

我想这个问题的答案取决于企业想要拿Spark来干什么。对于我们团队来说,Spark目前主要是用来做分布式并行计算,特别是机器学习模型的训练,此外还有一些交互式数据分析方面的应用。这些应用都是作为生产系统的一部分来对外提供服务。个人觉得对于这些应用来说,目前使用Spark最大的困难是QoS。因为Spark速度快,所以我们对它的QoS要求会比对Hadoop的要求更高,我们除了关心运行稳定性、速度和容错这些指标,我们还会关心延迟之类的指标。在提供交互式分析服务时,这方面要求还会更高一些。随着集群规模扩大,集群上跑的作业数目增加,特别是当需要和其他分布式计算基础设施(如Hadoop)分享物理资源的时候,QoS的保障会变得越发困难。据我所知社区在这方面有不少的研究项目,我们这边也有人在跟进这方面进展并做一些实践工作。

-根据您的了解,目前Spark发展的情况如何?

我从技术和应用两个角度谈谈个人的感觉吧。技术方面,个人感觉Spark这几年成长很快,自身的成熟化、为支持新型应用而做的技术扩展以及上下游生态系统的建设都有长足进步。在应用方面,我们是比较早就开展应用实践的,我们看到了实际的好处,相信业内关注Spark并且付诸实践的同仁也都有相同的感受。近几年来无论是公司内还是公司外,我都看到越来越多的人在用Spark。总的来说,社区在成长技术在发展,个人觉得Spark发展得挺好,而且有更远大的发展空间。

-请谈谈你在这次大会上即将分享的话题。

这次大会我报告的题目是“快速模型更新在精准广告推荐中的应用”,主要是分享我们在互联网精准推荐领域运用Spark和其他相关技术的一些经验和思考。这个分享更多的是关于应用而不是关于技术本身,我会介绍我们的应用场景,为什么需要用到Spark、如何搭配使用上下游的技术来发挥最大的效力,以及最终在生产实践中取得的效果。

-哪些听众最应该了解这些话题,这个话题可以帮助听众解决哪些问题?

因为我这个题目是和应用密切相关的,个人觉得那些对Spark技术应用跃跃欲试的听众会对我的题目感兴趣,同时我也希望对那些已经有Spark应用经验的听众也有参照和借鉴作用。不敢说解决什么实际问题吧,能够抛砖引玉促进技术交流,繁荣社区就很好了。

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");