豆瓣王守崑:大数据时代社交图谱与兴趣图谱的融合

标签:大数据豆瓣中国技术商业论坛个性化推荐

访客:40767  发表于:2013-11-26 13:43:48

【导读】在中国社交网络江湖里,不但幸存下来而越活越滋润的豆瓣“秘籍”是什么?豆瓣如何通过挖掘社交网络数据,盘活人们的“兴趣”生意?

请输入标题

11月8日上午,豆瓣网首席科学家王守崑在“2013中国技术商业论坛暨领袖峰会”剧场论坛上,讲述关于豆瓣网“无数据不互联”下的社交图谱与兴趣图谱的融合创新探索。

【什么是大数据?】

第一,如果把全球所有的移动电话和用户的通话记录放在一起,这叫大数据吗?有的人说这算大数据。第二所有门户网站,比如中文门户网站、几个大的门户网站等每天产生的新闻,这算大数据吗?有人说算,有人说不算。第三,全世界的各个机构的电话簿跟它的地址综合在一起,也是非常大的数据量,这也算大数据吗?

就我个人来看,大数据的第一个条件是“超线性增长”,增长得特别快。“超线性”的狭义含义就是增长的斜率必须固定,且大于1;广义含义即即便是线性的,只要你大于1,就叫超线性增长。在这里用的是广义,就是你只要斜率大于1就算超线性。

该词由美国一家研究所一位物理学家提出。借鉴这个理论,大数据就是一个数据源产生数据,首要条件是必须得以线性增长,然后快,这是第一个。第二个它必须有复杂的内部结构。为什么说要有复杂的内部结构呢?如果仅仅是简单的数据机构,没有办法分析出更深的结果,没有办法从里面得到更多的信息。有复杂的数据结构之后,再配合上超线性的增长,我们就可以从里面分析出很多有意思的结果,能够获得一些很深的洞察。

满足这两个条件最简单的例子就是大家每天接触的互联网。首先它是网络,网络的本质就是互相有连接。比如我们这个大厅有100多人,假设150人,如果是线性增长,我们每个人产生的数据肯定是以一定比例的线性增长,但是如果我们之间互相认识,两两之间都认识,这就是一个平方量级,就是150×149,或者150平方的关系。在这个关系上产生的数据就叫做超线性增长的数据,具备这样条件的把它叫做大数据。

此外,为什么现在大家会更多的讨论什么是大数据呢?那是我们现在能够以非常低的成本去接触大数据,从大数据中挖掘出有意思的信息。

回来再看前面所说的三个数据源,关于第一个数据源,我为什么会认为它是大数据?因为我们之间的通话、交往的过程,它是一个网络状的,是超线性增长的,并且我们通话内容是非常复杂的,具有复杂的数据结构,包括我们的时间及方方面面的算法。第二如果只是每天产生的新闻,它不算大数据,为什么?因为这个量有限,每天也就是大概几十万、上百万条,而且每天增长也是有限的。但是,如果把用户的浏览记录甚至把新闻的内容,比如对这个文本做分解,把文本之间产生互相的联系的话,这就算大数据。因为这些新闻网站的用户量非常庞大,从浏览记录能够分析出用户的兴趣,这个超线性的增长,它的数据结构会是非常复杂的一个结构,所以这个算是大数据。第三数据源,它不算大数据。虽然它的量非常大,几十亿,上百亿的量,但是它的数据结构非常简单,并且它的增长不是超线性的增长,仅仅是线性的增长。

【豆瓣的“个性化推荐”生意】

豆瓣上线已经有8年多时间。我们专注于一个都市青年的文化圈和生活的线上服务。我们自己管这叫基于兴趣图谱的社会化网络服务。

从上线开始我们就做一件事情,那就是个性化推荐。依据用户的历史兴趣或他表现出来的偏好,给他推荐他可能感兴趣的但他还不知道的东西。够帮你发现未知,这是个性化推荐所能做到的最重要的一点。它跟搜索引擎不一样,你做搜索时必须心里有一个想法,或者你知道是什么东西,比如搜现在热门电影。但是如果你不知道想看什么电影,这时“推荐引擎”就可以帮到你。

个性化推荐到今大概有20多年的发展历史。最早在Web1.0时代,那时有非常多垃圾邮件,当时用协同过滤的算法找到这些垃圾邮件的发送者。随着亚马逊把“个性化推荐”用到它的电子商务网站之后,其他很多网站都使用了这种个性化推荐的技术,豆瓣在2005年一上线我们创始人就使用了“个性化推荐”技术为大家服务。

从目前来看,个性化推荐可以用在社交图谱、社交网络里面,可以用在兴趣图谱里面,比如豆瓣,还有一些电子商务网站,用户依据兴趣挑选商品和挑选产品这两大纬度。纵向来看,我们可以把这项服务分成信息服务,是工具类以及交易类的服务。

目前“个性化推荐”在基于交易的兴趣图谱和基于信息的兴趣图谱上使用最多。豆瓣对各种各样的产品都去做推荐,这也是我们尝试后的一些结果。比如单曲推荐、图书推荐、小组推荐,都会获得很好的效果。

我们用几个纬度衡量个性化推荐的效果,一条目数和用户数,一个是时效性和多样性,比如时效性,这个产品出来多长时间之后,用户就对它没兴趣了。

比如新闻,一般来说我们的经验是一天半以前的新闻用户就不会有兴趣了,但是比如书的话,时效性非常强,几百年前几千年前写的东西,人们还在读。兴趣的不同,对个性化推荐的选择会有很大的影响。我们还尝试很多我喜欢的这些东西,可能稍微偏技术性一点,就是用不同的算法,不同的模型看个性化推荐在不同纬度上的表现。结论是比较简单的算法,如最简单的协同过滤算法,其实它在各个方面都有必须好的结果,也就是在数据量达到一定程度之后,其实算法和选择更多需要看你实际用户的需要,其实往往简单的算法会有好的一些结果。

个性化推荐技术可以给豆瓣带来非常大的效果上的提升。它最大的优势就在于新用户的转化率,尤其是新用户在头几个访问的时候,如果你能抓住他的兴趣,迅速给他推荐一些他感兴趣的产品,或者是感兴趣的信息,它的转化率将大大提升。豆瓣上线没过多久我们就发现在依据兴趣社交会给用户的活跃度带来很大的提升,所以我们在产品中也加入一些社交元素。

【移动互联网下一件大事】

我们做社交图谱时,发现其比兴趣图谱要复杂的多,它的复杂其实来源于一个是人与人关系的复杂性。人跟产品之间的关系相对比较简单,我喜欢这个产品,我不喜欢这个产品,这个描述大概能描述你80%的情况。

但是人跟人之间的关系就很复杂,没有一个简单的或者清晰的模型去描述这个复杂性,或者人与人之间关系很难用单一纬度描述。第二人与人之间交互在网站上表现成文字,现在互相回帖或者互相说话等,这个语义的复杂性也不是现在计算机技术能够完全掌握,或者完全攻克的一个难题,所以语义的复杂性也带来描述人和人之间关系的复杂性。

豆瓣解决这个问题的一个办法是,我们用人来描述人,结合编辑的一些力量,结合算法的力量,用人描述一群人,给每一群人找到一些代表性的人物,然后用这些代表性的人物的特点表现他的兴趣描述整个一群人这样的特点。我们把人和人之间的社会关系用到个性化推荐,也取得了不错的效果。

兴趣图谱跟社交图谱的一个重大区别,在兴趣图谱中人群更多是一个生人的网络,大家来到兴趣图谱之前互相之间不太认识,依据兴趣来结合新的网络。但是,社交图谱更多是熟人的网络,尤其是强社交的关系,像大家现在用的微信,手机里的通讯录等等,这个是熟人的关系。不同人群它表现出的特点其实也不太一样。

比如社交图谱在黏性上和频度上都很高,但它在持久性上,有时候有的产品比较高,但是有的产品其实也没有那么高。兴趣图谱一般来说黏性和频度都没有那么高,但是它的持久性会比较好一些,因为兴趣一般都会是长期的兴趣。依据这样不同的特点,在我们做个性化推荐的时候可以有不同的一些考量。

豆瓣把社交图谱融入兴趣图谱也有一个很大的提升。首先是推荐准确率提升了,纯粹用兴趣图谱做推荐的时候,新用户转化率比较好。把社交图谱融合进来最大的挑战其实就是数据层面的挑战。

我们有上亿量级的用户,每个用户细分的兴趣大概有上千种,我们整个用户的兴趣。每个用户相对比较强的社交的关系有几百种。乘起来就会是一个非常大的数据量,也即我们会用几十万的维的向量描述一个人,甚至摆成一千量级的数据描述一个人,我们还要找人跟人之间的关系,在数据上就会是非常大的一个挑战,也是我们每天的工作要做的事情。

对豆瓣而言,我们期待下一代推荐系统是除融合兴趣图谱和社交图谱外,给用户一个引导,能够帮助用户发现它真正有价值的东西。其实现在个性化推荐往往很难解决一个“惊喜”问题。我们主要要解决的就是帮助用户进一步探索他未知的,而且对他很有用的,能给他带来惊喜的推荐领域。

在现在网络融合的时代,有云计算好的基础,有强大的社会网络和兴趣网络,然后随着移动互联网的发展,我认为个性化推荐将是整个互联网包括移动互联网的下一件大事。(顾琳琳/整理)

关于更多精彩内容,详见:中国技术商业论坛暨领袖峰会

评论(3)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");