大数据的陷阱

标签:大数据营销

访客:20758  发表于:2014-02-13 12:30:07

我们很多时候都会被误导,认为大数据的作用是让历史告诉未来。其实不然。

胡泳 郝亚洲/文

9月6日,中国选手李娜迎战美国名将小威廉姆斯。IBM在综合了美网过去8年的全部数据之后,为参赛球员制定了比赛制胜策略,指出获得赢球的3个关键指标:1、一发得分率超过69%;2、4~9拍相持中得分率要超过48%;3、发球局30~30或40~40时得分率要超过67%。

比赛结果是,李娜溃败。IBM高调地宣布李娜仅仅完成了三项制胜策略中的一项,而小威廉姆斯则完成了自己三项制胜策略中的两项。
很多人会问,李娜为什么不照着IBM的策略去打球?

美国著名的博客纳特·西尔弗在《信号与噪音》中提出了一个命题,数据究竟是对于我们的未来有所帮助的信号,还是毫无意义的噪音。西尔弗成名于奥巴马选举期间。当时,奥巴马和罗姆尼的选战正在胶着,人们都看不出谁有可能获胜。西尔弗用棒球的统计方法得出结论,奥巴马必胜。这一准确预测让他名声大噪。但是,西尔弗很快就开始反思,利用大数据获得成功预测的案例远没有失败的多。为何?

为什么911的时候,美国政府会忽视将要有恐怖袭击的信息,就像当年的珍珠港事件一样?为什么握有大量数据的经济学家预测不出经济危机?为什么美国职业棒球大联盟中,球探依然无法被数据所取代?因为,“自从有了印刷机,我们的世界已经经历太多。信息不再那么稀有,我们拥有的信息太多,甚至多到无从下手,但是用的信息却寥寥无几。我们主观地、有选择地看待信息,但对信息的曲解却关注不够。我们以为自己需要信息,但其实我们真正需要的是知识。”

原来,人的主观愿望是决定看到信号还是听到噪音的关键因素。当美国情报部门收到种种美国即将遭到恐怖袭击的信号时,他们并没有采用相关性思维将其联系起来。2010年,一位民主党议员给西尔弗打电话,让他告知自己能否保住席位。西尔弗说你有99%的机会,你应该把自己的竞选基金捐献给民主党相对弱势的地区,可是,这位议员并不愿意为了1%的风险去帮助别的议员。

当当事人的主观愿望不积极的时候,大数据对他们来说不过是噪音而已。同样,数据也会因为主观意愿具有欺骗性。《赌神》中,周润发扮演的赌神一直有一个转戒指的习惯。对手通过观看大量的录像发现了这一动作,并认定当赌神转动戒指的时候,就是他出千的时机。结果,在一场生死之战中,赌神欺骗了所有人。他在转动戒指后并没有出千,结果导致对手崩溃。如果按照今天的观点来看,对手在进行数据分析的时候,过于强调了直接的因果性,模型中缺少了变量。这个最大的变量就是当事人的心理状态。

这也是西尔弗一再强调的。作为美国本土知名的棒球统计专家,他打造的PECOTA系统被认为是最权威的棒球比赛统计工具。就在《点球成金》一书在美国大红大紫之后,球探这个职业一度陷入低谷,各个球队都疯狂地迷恋上了数据。然而,西尔弗认为事实证明,球探最后还是击败了数据。

数据系统的判断依赖的是历史数据,而球探除了依赖历史之外,还要依赖于现场判断。西尔弗举了红袜队明星佩德罗亚的例子。他说数据系统告诉自己,佩德罗亚会是很有潜力的新星。事情的发展也如他所料,但是当西尔弗靠近佩德罗亚的时候,才发现,佩德罗亚坚定的信念和专注力才是决定他在场上可以出色发挥的关键。而这两点,都是数据系统无法感知的。

回到IBM为大满贯球员打造的制胜策略上。在和几位国内资深的网球评论员交流之后,我发现大家对这个所谓的大数据系统除了觉得好玩之外,并没有实用的价值。首先,这套系统不能预测。其次,这种依赖于历史数据得出来的结论,早已被球员的教练团队烂熟于胸。对于李娜来说,教练员的任务不是把这些数据告诉她以便进行针对性训练,而是侧重于心理辅导。

而且,若要IBM为李娜设定的三个指标都达标的话,需要两大因素支持。首先是李娜的临场心理状态。打球不比下棋,想到的可能做不到。其次,在于对手的压迫程度。面对小威这样的力量型选手时,李娜的发挥空间会被大大压缩。而这两大因素又是紧密联系在一起的。

我们很多时候都会被误导,认为大数据的作用是让历史告诉未来。不然,甚至在网球这样的领域里,历史数据常常会成为陷阱。大数据之大,一方面在于原始数据库的规模之大,更在于实时流动量之大、数据来源之大。就像西尔弗所言,一个好的棒球预测系统必须具备三大要素:考虑球员表现的外在因素;区别看待运气和技术因素;了解球员的表现和年龄变化之间的关系。

有意思的是,在另一场女子网球比赛中,一位球员做到了IBM为其制定的三项指标中的两个,她却失败了。胜利的一方,只完成了一个指标。

评论(5)

您可以在评论框内@您的好友一起参与讨论!

    1. 梁璧君 如果楼主有时间回复,请你讲一下数据相关性的内涵,可以吗?

      回复[0] 2014/02/13 14:15

    1. 梁璧君 IBM搞的体育大数据预测系统,纯粹就是个玩具。不信你去IBM公司内部,找不同部门的人,看看他们对大数据的认识是否统一

      回复[0] 2014/02/13 14:14

    1. 程建 很有启发意义!

      回复[0] 2014/02/13 14:06

    1. 温玉良 我只问楼主一个问题,就是你没有数据积累,数据建模如何完成?不依靠历史数据,预测分析的依据是什么?不要想当然就说话呀

      回复[0] 2014/02/13 13:51

    1. 王志鹏 大数据的作用是让历史告诉未来。其实不然。这文章实在是有新意

      回复[0] 2014/02/13 13:22

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");