Big Data:正利用数据改变世界

标签:大数据新闻

访客:25780  发表于:2012-05-14 14:50:54

Robin走进纽约Maidson大街9917层时,像个异类。他有可能也叫Roby,反正他没带名片。他迟疑地看着里面端着酒杯彼此交谈的年轻人,而自己头发花白。好在他看到了投影仪的幕布上硕大的字样:“Big Data”(大数据)

他已和数字打了20年交道,不过是在金融行业。采集数据、建立模型、预测价格的走向,这是他每天都在做的事。我不喜欢这份工作,这些数据是冷冰冰的,当你处理完这些数据后,你没有成就感。他说,我想要做些改变,去面对那些更加活生生的、有趣的数据。所以他来了这个由咨询公司Dalberg组织的讨论会。

他说的那些活生生的、有趣的数据来自于社交网络—TwitterFacebookFoursquare以及不断新冒出来的新应用。在TwitterFacebook刚出现时,鲜有人知道除了吐槽炫耀自恋外这些碎碎念有什么用,但现在这些被称为数据,是价值尚未发掘完全的资源。

尽管在过去的几十年里,像Robin这样的程序员和数学家不断在和数据打交道,但是SoLoMo(SocialLocationMobile)带来的海量数据依然是个新挑战在一分钟内,Twitter上新发的信息数超过10;Facebook上有超过600万的浏览量。而且和单纯的数字不同,这些数据是含义丰富的文字,以及比文字更复杂的图片、音频和视频。

实际处理起来,这并不比金融行业中的数据更加有趣。Robin想要离开的真正原因可能是华尔街的萧条。再多的统计数据与模型也不能防止整个经济的下滑和小概率事件发生带来的股灾,无数人正在失去华尔街那份体面的工作。而处理社交网络的大数据却是朝阳行业,人们开始发现大数据或许能让他们和华尔街一样赚钱即便现在还没有那么多。

最主要的盈利模式只有一个。在线广告已经成为了过去十年财富创造最可靠的来源。把消费者和销售者配对起来,以及创造新的消费者和销售者,这对于任何市场来说都是最重要的问题。”Jeff Hammerbacher告诉记者。2006年以前,他还是Robin的华尔街同行,但后来他成了最早加入Facebook的数据分析师之一,以研究科学家的身份帮助马克·扎克伯格搭建了最早的数据分析模型。换个更直白的说法:弄清楚用户点击广告的动机和方式。

Facebook开启了互联网公司在盈利模式上的想象力,尽管有谷歌(微博)在先,但在线显示广告,甚至商业信息可以作为网站内容一部分这件事,还是给人们提供了不一样的思维方?式。

从公元前6世纪的亚历山大图书馆,到把一切都数字化的谷歌,再到SoLoMo时代,数据的获取正在变得越来越细致,也越来越个人化。创新咨询公司Frog(Frog Design)在一份全球市场调查中发现,消费者对信用卡公司、在线零售商和科技公司的信任度最高,超过87%的调查者都乐意与这些公司分享个人数据。与此同时,因为对后台操作不了解,人们往往不知道自己已经分享了哪些个人数据。在Frog的另一份调查里,只有20%的人认为分享了自己的网络搜索关键词。而事实上,你并没有办法避免分享这部分数据。

大数据的挖掘和分析就像任何行业一样,一开始只是Jeff Hammerbacher这样的个人研究者,但很快会发展出分工细致的专业服务公司。

Dalberg办公室步行10分钟之遥的地方,有家叫Social Flow的创业公司,它也许可以算作是内行。它和Twitter是合作伙伴,在Big Data行业中生机勃勃。它分析数据,告诉广告商什么是正确的时间,谁是正确的用户,什么是应该发的正确内容。广告商爱这家公司,这让这家公司已经有了40多名员工。

这家成立于2009年的公司在2011年说服了在微软(微博)研究大数据的专家Gilad Lotan从波士顿搬家到纽约来和他们一起创业。Lotan看起来很年轻他的专家资质来自于从2008年起就研究Twitter上的庞大数据,而不是像Robin那样直到今天才想要一探究竟。

你还记得2008年伊朗大选风波吗,每个人都在Twitter上转发,让人惊讶。”Lotan说。之后,他开始围绕伊朗大选做关于信息传播的模型。当时他还在微软工作,这些研究很快被用在了微软Bing搜索上,这是首个可以直接搜索社交媒体信息的搜索引擎。每秒都有大量新内容产生,而且是非结构化的。这和传统的搜索很不一样。”Lotan说。

Lotan喜欢将这些大量的数据分析后的结果可视化,使得那些非技术人员也能轻易明白这些数据在表达什么。在本拉登被射杀后,他所做信息图谱可以让人们清晰地看出,在白宫发出官方消息前谁引爆了Twitter上的消息传播。当然,在他开始在Social Flow工作之后,他会把客户请到办公室,将包含这些公司的信息图谱展现出来:有些是普通的时间轴,有些像蒲公英,有些则是铺满整个画面的泡泡,泡泡中显示这些客户的粉丝正在谈论什么话题。

现在《经济学人》使用Social Flow的服务来分析自己的受众群,并且选择在什么时间来推送一条什么样的消息;而百事可乐则用这种服务比较不同的营销活动会得到什么样的传播效果。这些公司并不吝于为Social Flow的服务付费。

事情看起来就是这样,除了广告,其他行业似乎还不知如何参与进来。Jeff Hammerbacher解释说,这是数字化让广告业的效率和产出变得更加容易衡量。就好像那句广告业的名言,你知道有50%的投入被浪费了,只是你不知道是哪50%现在你能清楚看到那50%在哪里。TwitterFacebook上的点击和转发数量能精确告诉广告商这个促销要比那个火热多少,Foursquare则告诉这些广告商人们和他们的家人朋友都去过哪里。尝过这些甜头之后,广告商会关注任何受到用户欢迎的新应用,甭管它是不是刚刚冒出来的。

Jeff Hammerbacher不觉得这是好事,2011年他就对《彭博商业周刊》说,我一代中最聪明的人都在想着怎么让更多人点击广告,这真是糟糕透了。然后他就去了硅谷当时创立不久的一家数据分析公司Cloudera,这家公司制作与任何形式、任何规模的数据相匹配的开源软件,很多公司以此为平台建立了自己的商业模式。难得的是,尽管开发开源软件,Cloudera还是能靠销售和服务支撑起目前将近200人的团队。

Jeff Hammerbacher不缺乏志同道合者。Robin慕名而来的这场讨论会里大多数人都对除了广告还能做什么感兴趣,他们不懂分析和挖掘,但想知道趋势和数据的未来。

我在纽约市应急管理部门工作,搜集纽约的地理信息和数据,医院、警察局、天气变化等等,然后为可能发生的紧急事件提供预案,一位叫做 Timothie Biggs的女士介绍自己,也许我们以后也会搜集社交网络上的数据,因为你会更快地知道发生了些什么。

甚至举办这次活动的Dalberg公司也不是懂行的人。它成立于2001年,是一家为企业、政府和非营利性组织提供和经济发展、气候变化与公司治理有关的策略的公司。在2011年年末,这家公司觉得也许应该将TwitterFacebook这类社交媒体加入到自己的分析中来。而这次讲座就是他们做的一次尝试。

有个叫Robert Kirkpatrick的演讲者,是联合国(微博)秘书长执行办公室的官员。他和一些科研组织一起基于Twitter等社交媒体上的数据来研究通货膨胀、失业率等社会问题。他们给这个项目起了个名字,叫做全球脉搏”(Global Pulse)。这个名字很容易让人想到Twitter2009年给自己的战略定位:如果我们拥有10亿用户,那我们就是地球的脉搏(If we had a billion users, that will be the pulse of the planet)

的确看起来现在大数据以及数据挖掘更多和广告有关,创业公司们从广告上也更容易赚钱。但我想,也许这些分析方法和成果能运用到别的方面去。”Robert Kirkpatrick?说。

他们挑选了一些话题作为实验。在一个被称作为面包实时在线价格”(Real-Time E-pricing of Bread)的项目中,Global Pulse6个拉丁美洲国家建立了每日价格指数。这个研究发现在线零售价格由于和线下价格的波动有联系,能比官方的数据更早发现通货膨胀的苗头。

在另一个研究中,Global Pulse希望发现社交网络中情绪和失业率之间的关系。在爱尔兰,当社交网络上困惑沮丧这些指标升高3个月后,失业率也会升高;而在美国发生在失业率升高之前持续升高的是愤怒这一指标。当然,也许对政府部门而言更有意义的是失业之后他们在谈论些什么:在失业指标上升2个月后人们在谈论房子,这也许意味着他们准备卖掉自己的房产;在过后的几个月,谈论公交地铁的在上升,这也许意味着他们承担不起开车的油费,或者已经准备将车卖掉。

政府现在得到的数据是滞后的,他们做出的决定也非常缓慢。等政策做出几年后发现有错时,时间也不可能倒流。”Kirkpatrick?说。他觉得如果一个政府做决定能像广告商根据数据分析更新自己的营销策略一样快,那也许这个世界会变得更美好一些。

但这些数据还远没有到可以直接使用的地步。机器无法理解一句话是陈述还是反讽,数据太多太复杂了,有时你得问出对的问题,”Kirkpatrick?说,而且,机器也无法像人一样理解不同的情景。例如通过数据你能发现乌干达很多人在卖掉自己自行车,但机器不能马上知道他们卖掉自行车的下一步可能就是买一把机关枪。

这也是和我以前处理的数据不一样的地方,Robert聊完之后Kirkpatrick?说,我以前处理的数据就是指数字,不包含情感或其他引申含义。

越来越多的行业开始和数据打交道。美国联邦政府在2012329日宣布将投入超过2亿美元在大数据研究上,而你会在这篇文章后面看到更多以各种方式利用数据的公司,它们都来自以色列,不仅仅因为以色列在大数据领域的创业公司尤多,还因为这些公司更为关注公共服务领域,无论是Takadu这样的为居民用水处理数据的公司,还是Given Imaging这样的胶囊摄像头公司。

在线浏览和在线购买都变得非常容易估量。当你有估量方法,你就可以研究科学。在这个意义上,我这一代中最聪明的人则在推动科学的前进。”Jeff Hammerbacher说,但我不确定如何整合我们的社会,才能让致力于解决长期挑战的人觉得自己得到了应得的回报,这是一个值得问出口的问题。

有些行业面临的问题是数据量还不够大。谷歌创始人谢尔盖·布林的太太安妮·沃斯基创立的23andme是一家基因公司。他们希望用户能提供足够的唾液,而他们则回报给用户一份报告来了解自己和家族潜在的与基因有关的疾病。在46日,这家位于硅谷的公司邀请了一些有轻度帕金森症的患者到他们的办公室,对于他们而言,要研究帕金森综合症,目前的样本量还是不够大。

事实上有更多的行业和领域被建构在越来越庞大和复杂的数据基础上与此相关的公司也正在收到风险投资的青睐。大数据不仅仅是一个时髦词汇,我相信它有真正的未来,硅谷顶级风险投资机构德丰杰(Draper Fisher Jurvweston)创始合伙人Tim Draper对记者说,我们需要分辨出哪些是未来的趋势,哪些是时髦的概念,而大数据无疑是个趋势。

Tim Draper认为,未来更多的与复杂的数据相关的创业公司会陆续出现,而并非由大公司主宰一切。这些数据将分散在各个领域,你的行车路线、你经常出现的地点、你喜欢的颜色、经常买的东西,社交网站上的观点和言论,这些都会成为个人数据的一部分,它们可以用来被服务每个?人。

而位于加州Palo Alto的创业公司Alohar开发的Placeme正是这样一款产品。它看上去是一款普通的地理位置应用,而事实上,它能自动记录你经常出现的地理位置,并自动生成为数据图表这些信息会帮助分析每日的行程路线、生活必需场所,甚至驾驶里程与汽油存量的关系(因为它知道你上一次在哪里加过油),它们在一起将会变成一款个人生活助理工具”—这应该是复杂的数据聚合在一起对个人直接产生辅助(而非广告)的第一个工具。

“Siri是人们的语音助理,但它不是一款真正智能处理人们需求的产品,Placeme的数据处理会让它变成一款个人的智能助理工具。”Alohar创始人Sam Liang对记者说。这家公司获得了从事分布式计算系统和数据分析处理长达数十年的斯坦福大学教授David Chariton的投资他也是迄今世界上最庞大的大数据公司谷歌的第一位投资者。

一年多以来,Jeff Hammerbacher看到的数据挖掘趋势是催生更多的开源工具包,也就是他在后面那篇对谈里提到的那些陌生的名字。它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。

我深信科学是社会一切美好事物的伟大来源。数据则是被科学管理着的世界的代表。在广告于过去十年变得无比成熟的同时,许多产业甚至还没有进入数字时代,比如医疗。”Jeff Hammerbacher说。

但正如他所言,不幸的是,我人生中大部分期待有朝一日要被解决的问题,都不会因为更精准的广告迎刃而解。

还有更重要的事情要做。

 

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");