从十一黄金周出行看大数据的准确度

标签:大数据

访客:38379  发表于:2016-10-08 10:10:36

近年来,大数据研发及其应用引起了社会各界的高度关注。大数据基于云计算的数据处理与应用模式,使其能被撷取、管理和处理,并为决策提供依据。因此,全世界范围内掀起了大数据应用的热潮。近几年,大数据被赋予了神一般的能量,好像只要凭借大数据就可以解决一切难题。那事实真是这样吗?我们不妨从刚刚结束的十一黄金周来看看大数据在我们生活中的应用问题。

1

百家争鸣的十一大数据发布

十一黄金周,终于到了尾声。而这其中非常值得关注的一件事便是业内巨头纷纷玩起了十一黄金周大数据。无论是“未堵先知”的路线规划,还是热门景区的错峰出游,甚至是高峰期排长队的餐馆排行榜,企业纷纷用大数据的力量为消费者进行出行提示。各种版本的避堵攻略背后,一场数据能力的PK赛正在上演。

小编专门关注了一下网络上关于大数据的信息,发现有数家企业发布了相关的大数据报告,呈现出一派百家争鸣的气象。早在十一黄金周开始之前,百度与人民网舆情监测室就共同发布了《2016十一出行预测大数据报告》,阿里也联合滴滴出行联合发布了《十一出行预测大数据报告》。两大巨头纷纷用大数据来预测十一黄金周的走向。黄金周开始之后,易到用车发布的《十一热门景点出行报告》,百度地图的路况数据实时监测;携程旅游对旅游订单大数据的监测,分别从不同的方向对十一黄金周的数据进行了监测和分析。可以说今年十一黄金周是大数据的应用最蔚为壮观的一年,这也从侧面反应了大数据热的兴起。

有趣的是各家数据竟然互相打架

为人们的出行提供决策的数据依据,数家巨头纷纷发布自己的大数据报告,如果大家的数据一致的话,无论从哪个方面来说都是一件皆大欢喜普天同庆的事。然而当各家的数据开始打架的时候,这个皆大欢喜似乎就要打上引号了。而这种打架体现得最明显的就是两份最权威的预测报告,也就是百度的《2016十一出行预测大数据报告》和阿里的《十一出行预测大数据报告》。可以看到,两份报告的数据预测大的方向基本是一致的,但是一些细节上存在一定差异。比如说对于热门景点的预测和出行状况的预测。

根据百度《报告》的数据,统计出了全国热门景区景点TOP20,数据显示最受欢迎的是杭州西湖风景区,其次是北京的奥林匹克公园,排名前五的分别是西湖风景区、奥林匹克公园、外滩、天安门和五台山风景名胜区。而阿里《报告》的数据,则给出了与百度不同的预测。据阿里《报告》的数据显示,杭州西湖、北京颐和园和成都的宽窄巷子会成为人数最多的景点。排名前五的分别是杭州西湖、北京颐和园、成都宽窄巷子、嘉兴乌镇和丽江古城。除了排名第一的杭州西湖,其他的数据两份报告有明显差异。


百度《报告》预测的全国热门景区景点TOP20

百度《报告》预测的全国热门景区景点TOP20


阿里《报告》预测的全国热门景区景点TOP10

阿里《报告》预测的全国热门景区景点TOP10

对于出行状况的预测两者也有一定差异。根据百度《报告》的数据,十一出行时间将会呈现规律性的集中现象。假期头尾两天均十分拥堵,假期中间时段路况相对较好。细化到具体时间节点,10月1日8时和10月7日16时的道路拥堵程度最高。而在阿里的《报告》中,假期堵车的预测时间则被提前到了9月30日,据阿里《报告》显示:9月30日的平均下班时间将提前2个半小时,即从15:00开始进入晚高峰状态,并一直持续到19:00,两者的数据呈现明显差异。当然,我们现在并不是在比较两份数据谁更为准确,因为根据十一期间的真实数据我们会发现,两份预测数据都存在一定的偏差,而且纠结于一份过去的数据并没有太大的意义。我们接下来要讨论的是,是什么原因导致了两份数据的差异?而这种差异能对我们以后依靠大数据进行决策带来什么启发?

为何不同的数据报告会有较大差距?

这主要是不同的数据报告其数据来源不同所导致的结果。百度的数据是来自于百度地图与旗下的各类O2O软件的数据录入,而阿里的数据则主要是来自是自己庞大的阿里O2O系与滴滴日常收录的乘车信息;易到用车的数据则主要来自于其会员的用车出行数据;携程旅游的数据来源则主要是其平台上会员的旅游订单数据。

有一点我们可以非常肯定的是,以上的几份报告所获得的大数据都并不是全面的,基于他们用户总量不足的原因,他们皆无法获得足够全面的数据。我们都知道,数据量的增加有助于减小数据的误差,可以大大地提高分析的精准度。尽管我们一直说着大数据,但是我们其实并不能得到真正的海量的大数据。因此,抽样是不可避免的。而且这不仅仅是观测不到总体数据的问题,即时能够,我们也并不能去观测数据总体。比如说,我们要统计一批火柴的点着合格率,不可能把所有火柴都点燃。

同时,归纳演绎法能总结一般规律,却在偶然事件面前无能为力。一起偶然发生的交通事故就可能造成大数据无法预料的蝴蝶效应,引发大规模的拥堵。这种事故不可预测,其后果也很难提前预知,在国庆节这样的大车流的情况下,一起这样的偶然事件足以推翻大数据的预测。

总结:不可神话大数据

实事求是的说,大数据确实能为我们的决策提供预测与参考依据,而且这种参考对我们的决策有着非同一般的意义与价值,这也是近几年之所以兴起大数据热潮的根本原因。然而在面对大数据时,我们也要保持冷静,不能神话大数据,我们必须明白,大数据肯定不是万能的,即便大数据再强大,它也只是基于现实数据进行的一种分析,可以给我们提供参考,但这种参考的价值不应该被无限制的放大。

且不论大数据应用在获取数据时,所面临的隐私侵犯等等法律和道德层面的问题,仅仅是上文所提到的数据获取不全面问题,和大数据分析所面临的偏差问题,就需要我们在面对大数据应用时要拥有足够的冷静了。总而言之,大数据应用只是一个工具,可用而不可尽信,不可神话,这才是使用一件工具时的正确态度。正如我们所知,百度和阿里对于十一黄金周的预测都有正确的地方,却都没有全对,这便是大数据应用的现实。

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");