大数据进阶阅读

标签:大数据管理

访客:31259  发表于:2013-12-20 17:08:47

在你出生的那一刻:男孩、7斤8两,而你的父母不再争论你长得像谁,因为他们早就知道了关于你的一切。计算机通过计算你的基因、出生环境等遗传信息,数据分析的结果你会有43%像母亲、57%像父亲,而你的未来的一切更是清晰可见:你的智力水平决定你只会上当地大学(你就不用太努力读书考清华、北大或者耶鲁、哈佛了)、你不擅长滑雪但擅长跑步(跳远也不太行)、你是个异性恋会喜欢棕色头发的苗条女孩(根据GPS和其他信息的推断,她将会在你隔壁的隔壁的医院出生,只不过比你晚两年)、你喜欢喝可乐(会热爱可口可乐,去超市就不用考虑百事可乐或其他牌子了)如果关于你的一切已经注定,当真实的你来到人世,你是打算努力拼搏一把过个真正属于自己的人生,还是打算按照计算机计算出的“你”的状态过这一世?

这不是痴人说梦,更不是杞人忧天,而是一个真实如“少年派”的寓言。即使玛雅人的末日预言不靠谱,但大数据技术的演进已经驱使人类来到了一个新世界的门口,肉身的人类将和虚拟的自己并存,有时候他们是无法分辨的两者。正在到来的大数据革命,正在改变着人类的社会和生活——你,无法逃脱。

大数据时代到来

美国伊利诺斯大学的Kalev Leetaru教授发现:“过去50年,纽约时报共产生了30亿单词,如今Twitter每一天都能产生80亿单词。”没错,你承认这是一个数据爆炸的时代,不过你也许更关心另一个问题:到底什么样的数据才能被叫做大数据?

信息技术管理专家涂子沛认为,“大”是虚指,大数据中的“大”指的是人类有能力发现数据中蕴藏的大价值。他在《大数据》一书中论述了摩尔定律、普适计算、数据挖据、社交媒体和云计算是如何共同作用促成大数据的出现:摩尔定律带来的硬件存储性能增长与价格降低为大数据形成了优良的性价比前提;普适计算带来的万物互联的数据布局;数据挖掘让数据成为可以知道行动、产生价值的知识;社交媒体带来的24小时在线使得人们可以利用算法预测公共卫生和突发事件;云计算所形成的完整产业链和大规模的商业应用为大数据提供存储空间和访问渠道爆发的大数据意味着人们的社会生活将发生巨变。

一个微博上的故事也许能说明这个问题——硅谷帕洛阿托市中心有家创业公司,专门对公共大数据做分析。如果一个中东人士买了单程机票进入美国,连续两次参观迪士尼,并购买化学品,这套分析软件会发出预警,据说这套软件很受政府和大零售商的青睐。大数据因此被美国政府视作科技领域的首要挑战。2010年12月的美国总统科学技术顾问委员会中指出:“如何收集、保存、维护、管理、分析、共享正在呈指数级增长的数据是我们必须面对的一个重要挑战”。

的确,大数据将为很多领域带来根本性的改变,统计学便是其中之一。传统统计学中的普查和抽样方法都是静态和定时的,只能提供瞬间的记载。而人类本身充满不确定性,其动作也是连续且动态的,因此大数据所能提供的实时、多源和传统统计学融合之后,将得到相对更高质量和及时的统计结果。

对历史数据的研究,将有望改善犯罪、城市拥堵等社会问题。美英两国3所大学合作将英国240年的罪犯庭审记录输入电脑,以研究犯罪情况发展的趋势、触发的原因以及和社会背景之间的关系。借助大数据的“显微镜”观察人类行为,类似的数据应用将带来更多的社会管理模式创新。而整个社会将向智能化迈进——计算机和网络更加智能,人与人之间的合作、任务之间的对接会更精准,国家和社会的运行成本会越来越低。

数据改变企业经营

商业社会中,大数据将是创新和竞争的新技术。2007年信息经济学教授托马斯·达文波特就前瞻性地指出:“一些公司已经把它们商业活动的每一个环节都建立在数据收集、分析和行动的能力之上了。所有的公司都可以从它们的成功当中学习”。

涂子沛认为,今天,无论企业是否出于自愿,企业本身已经身处数据之中——企业内部信息系统、ERP所产生的每一条带有具体含义和价值的数据,与外部环境中由大众掌握的社交媒体等产生的模糊数据,以及社会生活中的人口、天气和其他公司的外部数据。来自社交媒体的负面信息可能使企业本身“苦练”的产品质量、品牌价值等内功一夕之间发生根本性的变化。“老罗挑战西门子冰箱”的微博大事件,足以让每一个企业警醒并关注来自消费者的信息。天气等公共问题的瞬息变化更是企业必须要善用的信息。暴雨、极寒等极端天气之下,应对得当的企业能够迅速捕捉到商机。比如羽绒制衣等企业如果了解到今冬的严寒,提前采购原料将会帮助其占得市场先机。这就要求以信息管理系统为代表的精确数据必须和来自社交媒体等来源的企业外部数据整合。涂子沛认为,对于企业来说,过去那种精准数据占90%、其他数据占10%的状况将被改变,来自社交媒体等来源的外部数据将占到50%以上。

基于数据的竞争将提高组织的日常运营效率,找出可以省钱的地方和机会;基于数据的分析结果提高决策速度和质量、增强预测能力,从而更好地理解客户和市场需要。企业因此要学会计算数据的投资回报——数据价值和数据成本的比值。因此降低数据成本,增加优质数据价值都是企业要关心的方向。自动化工具、使用云存储等都可能成为企业降低数据成本的方法,而社交化ERP对更多、更全面数据的收集,建立负责数据质量的数据治理队伍和流程,使用更新更成熟的数据工具、搭建数据整合分析平台都是数据增值的有效方法。其中,人们熟悉的数据挖掘、商务智能(BI)和证析(Analytics,泛指企业一切和数据相关活动,包括绩效和风险分析)等工具,可在大数据时代进行多源和实时的应用。

一个典型的商业应用是迪士尼乐园。迪士尼是孩子和童心未泯的成人的天堂,每个乐园里都有100多个项目,但每一项目前等待的排队人群常常令人兴致大减。为此迪士尼公司使用10多年的历史数据,结合天气、旅游等数据预测每一条队伍每一天每一小时所需的排队时间,游客可以参考这个分析结果安排自己在园区内的游览次序。为了处理突发情况,迪士尼公司还同时收集Twitter数据更新每一条队伍的排队等候时间。这可以使每位游客平均每人节省4个小时,提升游客们进园游玩的乐趣。

大数据在公共领域同样大有用武之地。美国宾夕法尼亚州政府分析全州感冒药片的销量、对比系统保存的历史数据以判断是否会发生大面积流感,同时分析儿童的就诊率,并对比历史数据,也对Twitter进行文本分析,以实时监控各地区流感爆发、传播和分布情况。

从数据开放到公民社会

公共领域的数据是一个社会的基础性数据,因此其开放和权利问题备受重视。2010年英国首相卡梅伦的一段话最能说明这个问题的重要性:“新的‘数据权’最令人激动。这将确保人民有权向政府索要各式各样的数据,用于社会或者商业创新。通过这些措施,我们可以创建一个最开放、最负责和最透明的政府。使用这些数据、开发这些数据,让我们负起责来,一起努力,创建一个现代民主的典范。”目前全世界已经有31个国家和地区都开放了公共数据。

美国政府在2009年便设立Data.gov开放公共数据,其目标和使命陈述中是这样描述的:“Data.gov的主要目标是开放联邦政府的数据,通过鼓励新的创意,让数据走出政府、得到更多的创新型应用。Data.gov致力于政府透明,全力把政府推向一个前所未有的开放高度。它带来的开放将巩固我们国家的民主,提高政府的效率和效能。”基于Data.gov提供的数据,民众和商家得以推出航班延误分析系统、商品召回手机查询系统等具有社会创新意义的应用。

涂子沛认为:“大数据时代正在呼唤下一波社会化浪潮:一个更开放的社会、一个权力更分散的社会、一个网状的大社会”。而无论企业还是政府都需要进行相应的创新。中国有望在数据变革中更快地发展,孕育更成熟的公民社会。

大数据进阶阅读

大数据的威胁

不过,并非所有人都对此信心满满。2011年开播的美剧《疑犯追踪》(Person of Interest)可以看作是影视艺术者对大数据应用的某种反思。在这部2012年开播第二季的美剧中,一个Geek科学家帮助政府建立了反恐数据库,但是他却发现被政府弃之不用的大量数据中隐含着一些不到反恐级别的犯罪行为,比如多项数据分析显示某位公民会在某个时间被劫杀。无法坐视他人被害的Geek科学家找到了一个被注销了身份的特工,请他去干预。结果很多意想不到的情况发生了,有些人因为提前干预而得救,而有些人本身就是即将成为罪犯的那个人。

一个问题出现了,国家机关和社会有权干预甚至惩罚一个即将犯罪或者有可能犯罪的人吗?正如开头我们所描述的那样,如果大数据在你出生之时便已经知道你有可能成为杀人犯,难道从你一出生就要对你实现监控吗?政治预警意味的小说《1984》中极权的老大哥又将再现吗?

不仅仅是编剧和作家对此有所担忧,牛津大学网络学院互联网研究所治理与监管科研项目负责人维克托·迈尔-舍恩伯格教授,在和肯尼斯·库可耶合著的《大数据时代》一书中在肯定了大数据的核心功能是预测之外,更发人深省地提出:“也许,大数据预测可以为我们打造一个更安全、更有效的社会,但是却否定了我们之所以为人的重要组成部分——自由选择的能力和行为责任自负。大数据成为了集体选择的工具,但也放弃了我们的自由意志”。

大数据进阶阅读

他指出,大数据的不利影响并不是大数据本身的缺陷,而是人们滥用大数据预测所导致的结果。大数据预测是建立在相关性基础上的。而人们习惯从因果关系视角理解世界。一旦大数据预测被滥用,人们要为还未实施的未来行为买单,那么人类社会的道德指标将被预测系统所取代,人会一直受到集体意志的冲击。如果这一切成为可能,大数据将会把人类禁锢在可能性之中。你未来很有可能考不上清华、北大,那么你还要为此进行努力吗?要知道乔布斯可不是因为对于市场调查数据的信任而推出革命性的苹果系列产品,他的秘诀是第六感。而人类对数据的执迷会使得数据以良莠参半的方式统治人类本身。仅仅为了收集数据而收集数据,或者赋予数据根本无权得到的信任。

维克托提醒人们——那些尝到大数据益处的人,不要将大数据运用到不适用的领域,不要过分膨胀对大数据分析结果的预测。越来越多想要从大数据中掘金的人会导致对其的盲目崇拜。至少,现在人们已经看到,面对大数据,保护隐私的核心技术已经不再适用了。

匿名一向被视作信息利用中的保护方式之一。但在大数据面前,匿名会完全失效。2006年美国在线(AOL)公布了大量的旧搜索查询数据,本意是希望研究人员能够从中得出有趣的见解。当然这个数据库被精心地进行了匿名化处理——用户名称和地址等个人信息做了加密处理。但是几天之内,《纽约时报》还是在几天之内通过把“60岁的单身男性”、“有益健康的茶叶”、“利尔本的园丁”等搜索记录综合分析考虑后,发现数据库中的4417749号代表的是佐治亚州利尔本的一个62岁寡妇塞尔玛·阿诺德。这种“监视私人生活”的行为引发了公愤,导致美国在线首席技术官和两名员工被开除。

可收集的数据越来越多、结合越来越多不同来源数据的行为导致了匿名化的失效。美国科罗拉多大学法学教授保罗·欧姆(Paul Ohm)是研究去匿名化危害的专家。他认为针对大数据的去匿名化还没有很好的办法,只要人们有足够的数据,无论如何都做不到完全的匿名化,而且不仅仅是传统数据会受到去匿名化的影响,人们的社交关系图,也就是人们之间的相互联系也会同受其害。

寻找“驯兽员”

如果不加控制,大数据将会成为一头怪兽,吞噬人类社会既有的生活和思考方式。这就要求人类信息管理准则重新进行定位。不过由于这一过程过于迅速,人们也许只有几年时间进行“责任与自由并举的信息管理”变革。

《大数据时代》一书认为有四件事情人们必须现在开始行动:首先要从个人许可使用个人信息改为数据使用者承担相应责任,发明并推行新技术进行隐私保护,使用“差别隐私”——将数据模糊处理,促使对大数据库的查询不能显示精准的结果,而只有相近结果。

其次,保护个人动因,拓宽对公正的理解,人们可以并应该为自己的行为而非倾向负责。

第三,由于大数据的运作是在一个超出人们正常理解的范围之上,因此人们需要寻找“驯兽员”——大数据程序员。他们将是计算机科学、数学和统计学领域的专家,也许首席数据科学家会是这一类人。

云基地大数据实验室首席数据科学家郑毅可能是维克托所说的“驯兽员”之一,这个将Analytics译作“证析”,并出版同名书籍的人多年从事数据挖据和商业智能及证析工作。《证析》一书用偏技术的方法探讨计算从数据交易、记录到对数据的分析、比较、提炼、再分析从而产生影响决策的正确认识过程,这一生涩的单词代表着数据应用的思想和方法。也许这类维克托所形容的兼具黑客精神的“程序猿”会成为制服大数据猛兽的人。这些大数据时代的垄断者会像19世纪垄断美国铁路、钢铁生产和电报网络的强盗大亨一样掌握强势的权力。

大数据进阶阅读

最后,关于大数据的阅读,需要提醒读者的是这里有进阶阅读的法则——如果你喜欢“美国林达”般的故事叙述,你可以从涂子沛的《大数据》一书开始,大量资料和背景介绍令人读起来轻松不累;当你对大数据有了初步认识,你可以接着看《大数据时代》,这本书促使你反向思考大数据带来的隐忧,在思想性上更有引导意义;而如果你是个高度钻研又爱动手的“程序猿”,正在商业智能、证析的应用上有所困惑,建议将《证析》一书当作工具书来使用、阅读。


评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");