关于大数据的思考

标签:大数据

访客:19081  发表于:2012-10-02 14:04:00

大数据涉及三个方面的问题,1. 大数据的价值。从大数据中能挖掘出哪些有价值的信息?2. 大数据的来源。尤其是,如果掌握着大数据的公司或机构,不愿意分享这些大数据怎么办?3. 大数据的处理技术。为了从大数据中,挖掘出我们想要的信息,目前的技术,能解决那些问题,尚存哪些难题?

[1]2012 年 7 月 31 日,伦敦奥运会女子羽毛球女双比赛,中国女双组合“于洋、王晓理”,对阵韩国“郑景银、金荷娜”。韩国女双组合“河贞恩、金旼贞”,对阵印尼“波莉、乔哈里”。


这四对组合不约而同地选择了消极比赛,不求赢,但求输。原因很简单,因为如果她们赢了,在后续的淘汰赛中,她们就会遭遇本国队友,自相残杀。所以,为了在后续淘汰赛的分组中,避免与本国队友分在同一小组,这四对女双组合,都不约而同地选择了消极比赛。

结果,她们被取消了参赛资格。

对于这个严厉的处罚,国际羽联的解释是,“她们没有尽全力去赢得比赛,这样的行为明显有害于羽毛球运动”。

造成 8 名运动员,不约而同消极比赛的原因,是比赛规则的不合理。

要求运动员每场比赛,都必须“尽全力去赢得比赛”,否则就被取消参赛资格。即便这个理想主义的准则,在现实比赛中,客观上难以遵守。

这个判断,仅仅是我们的臆测,还是客观事实?我们拿数据说话。

[2]在“魔鬼经济学(Freakonomics)”一书中,分析过日本国粹,相扑比赛中的猫腻。


日本职业相扑分 6 段,最高段是“幕内”,共有 42 个席位,次等“十两”,共有 28 个席位。相扑大赛每年举办 6 场,分别在 6 个不同城市举办。每次大赛连续比赛 15 天。幕内和十两,这两个最高段位的运动员,每天都要比赛,所以共参赛 15 场。

每次大赛的 15 场比赛的输赢次数,将决定相扑运动员的段位的升降。假如在前 14 场比赛中,一名运动员的输赢次数是 7-7,那么最后一场比赛,就成为生死之战。反之,如果在前 14 场比赛中,另一名运动员的成绩是 8-6,或者 9-5,那么最后一场比赛的成绩,对他的段位没有影响。另外,假如一名运动员的胜局次数超过 10 场,他就有可能获得额外的奖励。

假如在第 15 场比赛中,对阵的两名运动员分别是 (A1, B1),A1 在先前 14 场比赛中的输赢次数是 7-7,而 B1 是 8-6。那么 B1 会不会故意放水,消极比赛呢?

“魔鬼经济学”一书的作者,统计了从 1989 年到 2000 年,历次比赛的记录。他先查看每次相扑大赛的第 15 天的比赛日程,得到一个参赛者名单 {(A1, B1), (A2, B2), … }。在这个名单中,他挑选出 7-7 运动员对阵 8-6 运动员的那几个组合。例如A1在先前 14 天中的比赛成绩是7-7,并且 B1 的成绩是 8-6,那么 (A1, B1) 组合就被选中。而 A2 在先前 14 天中的比赛成绩是 10-4,那么就把 (A2, B2) 组合删除掉。

对于某个组合,例如 (A1, B1), 如何预测A1 战胜 B1 的概率?一个简单有效的办法,是统计在以往的比赛中,A1 对阵 B1 的输赢次数。以往的比赛,不仅包括本次大赛的前 14 天的比赛,而且包括以往的历次大赛。

假如类似于 (A1, B1) 这样的组合还有 (A5, B5)、(A9, B9)、(A17, B17) 等等。我们可以按照相同的办法,预测出每对组合中,Ai 战胜 Bi 的概率。按照这个办法,“魔鬼经济学”的作者统计了 Ai 们战胜 Bi 们的平均概率。

这个概率是 48.7%。这个数字是合理的,它说明 7-7 运动员的实力,的确比 8-6 运动员稍弱,但是差距不大。

但是比赛的实际结果,完全违背了我们的预测。Ai 们战胜 Bi 们的概率,不是 48.7%,而是 79.6% !

相似的戏剧性也出现在 7-7 运动员对阵 9-5 运动员的情景中。

根据以往的比赛成绩,7-7 运动员击败 9-5 运动员的平均概率是 47.2%。但是实际比赛结果,7-7 战胜 9-5 的赢面,高达 73.4% !

如何解释这种戏剧性的差距?有一种解释是,第 15 场比赛,对于一名7-7 运动员来说,是背水一战,决定了他的段位的升降,高昂的斗志,促使他们超常发挥。而对于 8-6 和 9-5 运动员而言,比赛输赢没有任何影响,所以他们普遍缺乏斗志。

真是这样吗?

每次大赛结束后,参赛运动员们休息两个月,然后移师另一个城市,迎接另一次大赛。假如在另一个城市的另一次大赛中,Ai 再度遭遇 Bi,Ai 的胜率是多少呢?

照理说,这时双方的压力都暂时减缓,应该回归到正常的水平,换句话说,Ai 战胜 Bi 的概率,应该回归到正常水平,48.7%。

但是统计结果,却只有 40% 左右,比 48.7% 的期望值明显低了许多!

如何解释这个现象?“魔鬼经济学”的作者提醒我们,“幕内”共有 42 个席位,“十两”共有 28 个席位,全部加起来只不过 70 个参赛选手。这 70 个选手之间的关系,错综复杂,他们背后的教练之间的关系,更是剪不清理还乱。

他们之间会不会有默契,前一场你放水,后一场我回报?会不会有人幕后操纵比赛?

还是用数据说话。在随后的 Ai第二次对阵 Bi时,Ai 胜出的概率,又神奇地回归到了正常水平,48.7%!

Ai 战胜 Bi 的概率,从正常的48.7%,到关键局的雄起的 79.6%,到后续再度交锋时的萎靡的 40%,再到第二次相遇的回归正常的 48.7%,这个戏剧性的大起大落,是否印证了“前一场你放水,后一场我回报”的猜测?

更蹊跷的是,曾经有两位相扑运动员,打算向外国媒体披露日本相扑黑幕。就在他们国际记者招待会开始前几个小时,他们双双神秘死亡,连病症都相同。随后日本警方宣布调查结果,没有发现他杀证据!

评论(1)

您可以在评论框内@您的好友一起参与讨论!

    1. 石娜娜 为了从大数据中,挖掘出我们想要的信息,目前的技术,能解决那些问题,尚存哪些难题?

      回复[0] 2012/10/02 14:07

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");