Kaggle寻找数据科学界的老虎伍兹

标签:产品模式达沃斯技术先锋kaggle

访客:36411  发表于:2013-09-09 07:05:56

Kaggle的最大意义不仅是一个大数据分析的众包平台,而是创造了一个全新的劳动力市场和评价体系。

Kaggle寻找数据科学界的老虎伍兹

让电脑对一份论文打分,能给出可靠的分数吗?通过分析一个人在Twitter等社交媒体上的社交信息,就能探测出他(她)的个性特征以及患精神病的危险程度吗?这些看似疯狂的想法,都是一家名叫Kaggle的在线网站曾举行过的比赛项目。

这是一家位于美国旧金山的初创企业,一个拥有近11万名数据科学家的在线社区,一个大数据分析的众包平台,在2010年启动,2011年11月获得了1100万美元的风险投资。

与Kaggle合作的公司或机构,提交一些相关数据到Kaggle平台,进而提出一个问题,Kaggle网站上来自世界各地的计算机科学家和数学家,也就是现在所说的数据科学家,将领取任务,通过竞赛产生最好的模型并获得大奖(奖金由那些需要情报的公司提供),而且有机会提供咨询服务,而与Kaggle合作的公司或机构将最终拥有数据分析的结果、模型等知识产权。

换句话说,Kaggle在数据问题和数据解决方案架起了一座桥梁。Kaggle对于参赛的数据科学家是免费的,它在组织这些竞赛时会向企业收取费用。

到目前为止Kaggle已经做出了许多突破性成功,包括帮助改进了微软Kinect体感产品。

在Anthony Goldbloom看来,Kaggle上举行的竞赛,就像是职业高尔夫球巡回赛,他们试图借此找到数据科学世界里面的伍兹(Tiger Woods)。今年29岁的Anthony是Kaggle的联合创始人兼CEO。

Kaggle成功的关键就是它的社区:近11万名在线的数据科学家。这也是目前世界上最大的数据科学家社区。它是怎样吸引到第一批用户的?在Anthony看来,数据科学竞赛是“吸引最聪明的,最奇怪和最有创意的数据科学家的非常有效的方式”。Kaggle早期是通过机器学习竞赛来吸引用户。早期的比赛项目比如基于悉尼的历史交通数据来建立一个算法,来预测在悉尼的旅行时间等。

Kaggle目前的用户主要分布在北美,澳大利亚和东欧。“我们通过与腾讯的合作,得到了一个来自中国的‘招生大户’。” Anthony说。Kaggle与腾讯的合作,帮助后者解决了两个问题,帮助腾讯建立了一套预测腾讯不同广告的点击率效果的算法,以及给腾讯微博建立了一种“关注”算法。

在Kaggle的客户名单上,GE、微软、Facebook、Tesco、福特等赫然在列,甚至包括NASA(美国宇航局),当然它也服务规模较小的企业,帮助客户解决所有的数据科学问题,例如提高销售预测,客户细分,留住客户,优化定价等等。

Kaggle并不是以众包方式专注于大数据分析领域的唯一一家创业公司,类似的还有CrowdAnalytix,TunedIT等。Kaggle的优势是什么?

“超过10万名的数据科学家在线,而且极其活跃,Kaggle已经形成具有流动性的数据科学人才的市场。 TunedIT和CrowdAnaltix没有太多的数据科学家,也不是一个活跃的社区。”Anthony这样回答。

Kaggle还投资于基础设施建设,藉此能够向企业或机构客户提供安全的数据托管服务,据Anthony介绍,这种服务也是大部分客户所要求的。

事实上,Kaggle还有一个创新之处,即该公司的新服务Kaggle Connect。通过该服务,Kaggle可以对接这样的“供需”:有特殊要求的企业或机构客户,可以聘请到最适合解决这个问题、具有特殊技能的数据科学家。Anthony称他们是数据科学家里的“精英”,在Kaggle网站上排名前1%的一半,相当于大约500名数据科学家。

Kaggle是如何发现这些大数据分析领域的精英的?Anthony说,通过他们在科学竞赛中的表现,以及通过“竞赛”积累积分在Kaggle上获得的排名。据悉,Kaggle的排名榜,在专业人士圈内有很大影响力,也成为该领域人员技术水平高低的公认标杆。

如此看来,Kaggle不仅仅是一个大数据分析的众包平台,而是创造了一个全新的劳动力市场和评价体系。对于那些希望利用大数据分析改进业务的企业来说,Kaggle的大数据分析的众包模式,正好解决了两大难题:人才和想法。

这已经是趋势性的需求:一方面,随着数据量的爆炸性增长,尤其是互联网企业掌握的数据越来越多,如何利用这些数据成为了决策者们所关心的问题。另一方面,数据科学家成为了当下以及未来最稀缺的资源。根据McKinsey的预测,在未来6年,仅在美国本土就可能面临14万至19万具备深入分析数据能力人才的缺口,同时还有150万数据管理人员和分析师的缺口,他们能通过分析大数据为企业做出有效的决策。

市场如此之大,像Kaggle这样的初创企业面临的最大挑战是什么?“如何教育客户,让他们敏锐地意识到转型的数据科学的价值。”Anthony说。Kaggle团队的愿景是,希望帮助每个行业中每家公司,每家公司中的每个部门,实现数据科学的力量。

未来的世界是大数据的世界,所有的人都预测在这个领域内将来会产生一批伟大的公司。Kaggle会是其中之一吗?(《IT经理世界》资深记者 贺文 /文)

点击进入“达沃斯技术先锋2014 ”专题,阅读更多先锋创业公司精彩文章

评论(3)

您可以在评论框内@您的好友一起参与讨论!

    1. 菱歌的夏天 Kaggle的排行版在我看来就相当于一个精英人士排行榜,作为各个领域的精英份子,相信很多人都会对于自己的排行很感兴趣。这就如同为何微信的“打飞机”会火,古代的武林大侠为什么要天天去比试,争夺个天下第一一样。作为佼佼者,对外界或许表现的并不明显,但潜在的意识里必不可少的会有竞争意识,否则也不可能成为领域的顶尖人物,Kaggle通过类似于竞赛的形式,自然能够获得这些精英们的关注,他们理所当然的希望通过Kaggle能够给自己一个定位,同时也通过比赛让更多的人了解自己。而作为Kaggle也非常期待越来越多的精英能够关注Kaggle,他们的参与和关注是Kaggle能够进行大数据分析,提供解决方案的基础,Kaggle的愿景必然是非常宏大的,大数据时代中相信Kaggle能够成为最具价值的公司之一。

      回复[1] 2013/09/09 09:13

    1. 西湖小鱼 Kaggle是大数据时代下一种有益的尝试,通过提出一个众包理念,试图借助全世界的人才资源来去解决一个大问题。Kaggle让我在面对一些问题时,多了一种全新的解决方案,比如我们可以将其作为一种形式的任务去发布,而通过全世界各地的精英人才去对我们所提出的问题进行分析,这种多角度、多元化的分析结果,必定能为我们提供一个数据模型,通过这个数据模型我们再去整合资源得出我们所需要的结论。

      回复[1] 2013/09/09 08:44

    1. 沈诗理 有点累,必须付出代价

      回复[0] 2013/09/09 07:20

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");