LinkedIn:数据是件疯狂的事

访客:21662  发表于:2014-05-27 13:23:50

截至到2013年2月,LinkedIn在全球30多个不同国家已经拥有2亿用户。平均每2秒增加一个新用户,这个速度已经持续好几年了,还有加速的倾向。到目前为止,大约有270万个不同公司在LinkedIn的网站上建立了公司主页,提供产品、服务、招聘信息和广告。
       目前,LinkedIn的业务本身有三条最主要的产品线,一是人才解决方案,占53%的业务量,二是市场推广解决方案,占27%的业务量,三是针对付费会员的高级订阅服务。张溪梦领导的部门叫商业分析部,用他的话就是“负责所有和钱相关的分析”,商业分析部的工作范畴有五个——产品、销售、市场推广、开发和运营,运营又分不同部门,比如广告运营、销售运营、市场运营、商业运营。
       “目前为止,LinkedIn是我工作过的公司里最依赖数据的。”张溪梦说,LinkedIn的所有业务都基于数据模型——LinkedIn.com上的增长和用户体验生成大量数据,LinkedIn据此开发新的产品为付费或不付费的用户提供各种不同新的产品和价值,这些新产品和价值又进一步刺激增长,增加客户黏度,这就是LinkedIn基本的业务模型。

最依赖数据的公司

“你可能认识的人”是linkedin推出的主要功能之一,它可以帮助用户找到自己想要保持联系的人。从后台运营角度看,该功能要求数据时刻保持更新状态,这需要数据科学家时刻跟踪linkedin不同应用间的数据。然而,五年前,当Jay Kreps开始做这件事时,情况却不容乐观。
       “我最初来到linkedin时,公司并没有任何基础设施”,linkedin首席主任工程师Kreps在最近一次接受采访时说道。他最初是以数据科学家的身份来到LinkedIn的,他原以为该公司会有一些质量好的数据拿来研究,但事实证明,该公司基础设施问题更需要他的关注。
       当时linkedin的基础设施问题到底有多大?以“你可能认识的人”功能为例,当时该功能只是运营在一个仅通过几个脚本和启发式算法提供信息的孤立的甲骨文数据库上,在这种情况下,数据更新需要六个星期(如果宕机需要重启,则需要更长的时间),而这种情况也是建立在数据库正常工作的前提下。但当时该数据库已经六个月不能正常工作了,Kreps讲到。
       随着linkedin用户规模增大,当数据规模超过服务器负载时,公司采取的办法并不是添加更多的服务器节点,而且去掉一些占用太多计算能力的匹配启发式算法。所以,占用掉kreps大部分工作时间的并不是写算法,使得“你可能认识的人”提供的信息更准确,而是部署hadoop基础设施,并建立Voldemor分布式数据库,随后Azkaban和Kafka也随之建立。Azkaban是个简单的批处理调度器,用来构建和运行Hadoop作业或其他脱机过程,Kafkakafka则是一种高吞吐量的分布式发布订阅消息系,处理消费者规模的网站中的所有动作流数据。
Kreps的上述工作仅仅是linkedin搭建数据基础设施工作的一部分,其实,这些都是在为linkedin搭建一个跟其他互联网公司一样的数据环境,这意味着,该公司应用程序开发者和数据科学家还有很大的发挥空间,进行数据挖掘,开发更多新产品新功能。
      Bhaskar Ghosh是LinkedIn数据基础设施工程的高级主管。据他介绍,他所在的团队搭建了一个包括针对特定工作负载设计的在线、离线、近线系统的数据架构。在线系统处理用户的实时交互信息;离线系统,主要是Hadoop和Teradata的一个数据仓库,处理批量数据和分析工作负载;近线系统处理类似“你可能认识的人”这类的功能、搜索和linkedin社交图谱数据,这类数据对处理和更新速度的要求不像在线系统那么高。
       Espresso是linkedin一个非常重要的数据库系统。与Voldemort不同的是,Voldemort是以亚马逊Dynamo为蓝本的键值存储,用来处理高峰时期的特定数据,而Espresso是一个事务性一致的文档存储,用来替代甲骨文横跨公司整个业务的在线数据库。Espresso的设计初衷是为了提高LinkedIn收件箱的服务水平,且linkedin计划在今年晚些时候开放Espresso源码。
       根据技术总监Bob Schulman介绍,Espresso的出现是“因为我们在邮箱可扩展性和灵活性方面遇到了问题。邮箱需要存储大量的数据,并且需要与用户的活跃度保持一致,邮箱里还需要一个功能搜索引擎,以便用户在短时间内可以找到他们所需要的信息。
       由于历史遗留问题,开发者只能在应用层面解决可扩展性和可靠性问题,他解释到。
       然而,首席软件架构师Shirshanka Das指出,“试图通过代码解决问题并不一定是个长期的策略。”这些东西往往会非常迅速消减掉团队和员工的热情”,他说,“你永远不会知道下一个瓶颈什么时候到来。”
       Schulman和DAS也在一些技术项目上合作,例如,针对分布式系统的开源集群管理架构Helix和开源数据总线(Databus)。LinkedIn于2月26日开源了其低延时变化数据捕获系统Databus,该系统可以在MySQL以及Oracle数据源上捕获数据,当下LinkedIn只开源了Oracle上的连接器。Databus作为LinkedIn生态系统中的一致性保障组件,在低延时的情况下仍然具有高有效性;而其最大的特点莫过于无限制lookback能力及丰富的subscription功能。
       到目前为止,LinkedIn一直在改善其近线系统和在线系统,所以下一步要做的就是要完善离线系统。该公司已经为一般的工作负载使用hadoop,包括数据抽取、模型建立、探索性分析和近线应用的预测数据计算,Ghosh想要把这项工作做的更深入一步。
他提出了一个多元化的愿景,其中大部分都以Hadoop集群和关系数据库系统之间的紧密集成为核心。其中一些目标包括更好的ETL框架、即席查询、替代存储格式和集成的元数据框架,这将为进行各种数据分析提供便利。
       完善的基础设施加上高质量的数据会让数据科学家的工作更加轻松和开心。Yael Garten是linkedin的一位高级数据科学家。她说,更好的基础设施让她的工作轻松了许多。像Kreps一样,她也被LinkedIn深深吸引了,因为该公司有那么多有趣的数据可以拿来研究。只是她很幸运,没有像Kreps一样赶上linkedin早期基础设施薄弱的时候,当时的基础设施真是连1000万用户的数据都不能处理。至目前为止,她说,她还没有遇到一个解决不了的问题是基础设施无法处理大规模数据。

独特盈利模式

LinkedIn在精准职业用户数据平台的基础上建立了一个高效、稳定、可再生的生态体系,这体系包括:近2亿高素质职业用户的精准信息;利用用户信息解决了招聘和广告的不对称问题因此成功货币化;定位准确,始终坚持以“用户规模和使用深度”为目标的产品观。
       起步之初,LinkedIn在用户的定位上就更为明确——高端职业用户;LinkedIn的用户使用习惯和定位娱乐的其它SNS不同,这类用户在SNS网站的页面锁定非常明确,很少有“漫无目的”游览。正是这样的用户规模、完整信息、用户质量和使用习惯,推动了LinkedIn的货币化。
       目前,LinkedIn靠招聘、广告、订阅三种方式盈利,凭借庞大的精准信息数据库,LinkedIn为客户解决了“信息不对称”的这个最大的问题,形成了一个主动、真实的高效率招聘机制,完备个人信息形成的大数据平台成为了为招聘企业开源节流的关键。
       在人才获取环节,LinkedIn在整个1.74亿用户中进行过滤搜索,打破以往只能招聘到岗位申请者的局限,SNS平台使得招聘对象范围急剧扩大,同时招聘企业通过设定地点、技能、以往公司、教育背景等多个关键词,能迅速、准确地锚定最匹配的人才,从被动等待“愿者上钩”变成了主动猎取。
       在沟通环节,尤其对于并非岗位申请者的匹配人才,LinkedIn的用户数据平台派上了大用场,“猎物”的兴趣、职务、小组、讨论等信息在其profile上一目了然,通过LinkedIn的网络联系到该人后,针对其个人身份进行的沟通自然水到渠成,从而避免了唐突的联系,对于高端人才这种“水到渠成”的礼貌显得尤为重要。
       LinkedIn在招聘上的成功恰恰是因为他不是一个招聘网站,而是一个以用户为中心建立起来的SNS平台,信息的真实、数据的庞大、关系网络的勾连让传统时代困扰招聘者的信息不对称问题迎刃而解,招聘变成了一件更透明、更准确、更多管道、更人性化的事情,文本简历的单向历史或许要过去了。
       LinkedIn在精准度上有着所有SNS网站的共性。企业可以根据广告的性质确定目标用户,然后根据关键词筛选广告投放的人群,如地域、职业、教育背景、公司,在选定用户的主页显示。这就意味着不同的用户看到完全不同的广告,形成了完全定制化的动态页面。

强势的“弱互动”

相比于Facebook和Twitter的强互动,LinkedIn就是弱互动。但这种带有“圈子文化”色彩的不充分的弱互动,正是其独特的价值所在。对于LinkedIn用户来说,每天都登录发帖显得毫无意义,而只能说明这个人不在工作状态。
       基于人际关系的SNS是一个天然的招聘市场。实际上,作为特殊一类SNS的LinkedIn解决的既不是Facebook的泡与被泡,也不是Twitter般的看与被看,而是猎与被猎的问题。这种崭新的应用场景决定了LinkedIn里面不需要party,无需虚拟礼品,并且要严格与虚假、冗余信息绝缘——LinkedIn并不打算变得社交化,它甚至在2008年才允许用户上传头像。
       实际上,LinkedIn不但不进行娱乐,并且还通过筛选和防御机制,严格控制着人际关系的互动,以保障信息的含金量。
       例如,它对站内用户发送信息有严格的限制,基本账户可以发送的站内邀请极为有限,动辄就告诉你发送更多的站内邀请需要付费升级账号,或让你只能通过双方都有直接联系关系的中间人转发联系邀请。
       又如,系统会要求你注明联系的类型,有“同事”、“同学”、“业务联系人”、“朋友”及“陌生人”等几个选项。如果对方填写的简历和你的简历并未显示出是同事或同学的关系,系统会要求你添加相应的工作和学习经历。收到站内邀请后,用户可以采取三个行动:“接受”、“存档”或标注为“我不认识这个人”。
       实名、高端社交与弱互动(即有限分享),此三者正是LinkedIn取得成功的前端原因。这三个定位保证了LinkedIn可以沉淀下真实世界中最有商业价值的那部分社会关系并作为数据金矿来挖掘。

评论(1)

您可以在评论框内@您的好友一起参与讨论!

    1. 冯磊 LinkedIn在招聘上的成功恰恰是因为他不是一个招聘网站,而是一个以用户为中心建立起来的SNS平台。

      回复[0] 2014/05/28 09:01

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");