大数据引论

标签:大数据管理

访客:26785  发表于:2013-10-11 09:24:02

目前国内各行业对大数据的理解出现了乱象,我们亟需对大数据的基本概念和源流做清楚的梳理。

大数据引论

 表面上来看,“大数据”概念的火爆可以归结到迈尔-舍恩伯格写的《大数据时代》和涂子沛写的《大数据》。前者引爆了“大数据”的概念,并着重从社会变革的角度阐释了数据思维的重要性。后者则更像是一部信息开放史,阐述了信息对于社会发展的影响程度。

其实,在很大程度上,“大数据”更像是一种以迎合方式制造的概念,好似生产中的定制化一样,数据使用单位觉察到数据在决策和治理方面的重要性,又不知道该如何表达与之前的“信息社会”、“商业智能”等概念的区隔,“大数据”的登场对他们而言可谓是久旱逢甘霖,他乡遇故知。

客观来看,这两位作者都没有把大数据的概念清晰地阐述出来。在这里,之所以强调概念的重要性并非要教条化,而是出于对目前国内各行业对大数据的理解出现了乱象。几乎所有企业都握着自己手里那些数据,跃跃欲试地说要迎接大数据时代。而他们中的大部分尚不知道自己的数据成色到底如何,更不知道如何分析与使用。

信息化社会的表征

伦敦大学社会学教授韦伯斯特眼中的“信息社会”并非仅仅是信息产量猛增的社会。他认为如果把信息从人类社会图景中抹去的话,并不会有什么与过往社会图景根本的区别。韦伯斯特说的并非毫无道理,因为当我们被各种符号包裹着的时候,总会希望它们能远离自己。

因此,韦伯斯特认为“语义“是识别信息社会的重要标志,也就是信息本身所承载的意义。在韦伯斯特的眼里,语义是一个人文词汇,对于信息的质量只能依靠一种精英式的直觉来判断。比如,鲍德里亚就会认为信息变成了无意义的符号,我们最后所面对的不过是一个符号社会。但是,鲍德里亚所描述的就真的仅仅是消费社会而不是意义社会吗?

2007年在哈佛大学举行的“计算社会科学”研讨会确立了“社会化计算”的地位。社会化计算源于社会化软件的兴起,如今,这类计算是基于社交网络的数据结构。用户之间的联系程度,谁和谁的关系近了多少还是远了多少,这是无法在第一时间用数据体现出来的。

社会化计算的功能就是把我们凭借意识判断的过程数据化,但这一计算方式并没有得到更多人的关注。社会化计算把韦伯斯特的“语义说”进行了科学量化,从而很好地弥补了人文与科学的缝隙。毫不夸张地说,信息社会的到来,应该是伴随着社交网络的崛起和社会化计算的应用。

从目前我们看到的关于大数据的各种描述,大数据与之前数据分析的很大不同是对于非结构性数据的重视与分析。所谓非结构性数据,恰恰更多地是以社交网络为载体。哈尔滨工业大学专门从事社会化计算研究的丁效告诉笔者,他们小组最近基于社交网络上的用户情绪反应,做了一个预测首周电影票房的模型,准确率达到80%。而此前,他和他的导师同样利用社会化计算的方式,画出了一个新浪微博的消息树,将信息引爆的路径用图形的方式展现了出来。显然,社会化计算的预测功能更加符合人们对于大数据的期待。

如果说在社交网络崛起之前,所谓的“工业社会”与“后工业社会”的区别是因为信息的激增导致了社会结构的方方面面出现了巨变,且呈现出了符号化的特征,那么在社交网络崛起之后,社会化计算得以将各种符号背后的意义深度挖掘,尤其是是用符号学无法合理阐释的因果性在这里变成了网络之下的相关性。进一步说,社会化计算让信息社会的概念走出了实质性的一步。

大数据时代正是信息社会从“量”走向“质”的表征,或者说信息化社会在大数据时代才算是真正到来。

殊途同归

革命性科学理念的推广,往往离不开商业应用,因为商业化是实现技术闭环的最有效方式。前文提到的信息社会在大数据之前是处于“量”的时代,这还是一种概括性描述。在局部的商业领域,数据的价值分析早已经在上个世纪末展开,那时人们将其命名为“商业智能”(BI)。

数据分析的职能始终围绕着“客户关系管理”(CRM)搭建模型,主要解决两个问题:客户细分和预测。一位在国内较早为企业提供数据挖据和分析的工程师表示,数据分析是“商业智能”规划中的一个部分,大数据只不过是丰富了“商业智能”的主题,也就是“商业智能”可以较以前做更多的事情了。他认为,“大数据”有别于之前的数据分析,是因为数据源越来越多,数据量越来越大。

除了传统具有数据积累习惯的行业,比如电信业、银行业,当下数据量的激增更多是基于电子商务的兴起,而目前对数据挖掘和分析需求更多的也是电子商务公司。

这种直接面对客户端的数据挖掘和分析,是企业最直接用到的。通过对既往消费行为的分析,从而划分客户群体,做精准营销。他们的数据依据是用户以往行为记录,也可以说是结构型数据。比如某人消费了多少次,每次多少钱。那位国内较早从事数据挖掘的工程师目前就在为淘宝上的几位大卖家提供第三方的数据挖掘服务。卖家在拥有用户行为分析的数据前提下,可以更加精确地指定品牌推广计划。

数据源的扩容则是偏向于社交网络和未来的物联网应用,用户提供非结构型数据的入口会越来越多。

为了与社会化计算相区别,我们可以将其这种直接面对客户端的结构型数据挖掘称为传统的数据挖掘。而事实上,传统数据挖掘和社会化计算是一个殊途同归的过程。最后都要回归到聚类问题,分类问题,描述性问题,关联问题,序列问题,异常性问题这六大主流问题之中,虽然在过程中的算法各有不同。

大数据的目的

大数据解决的是心物间隔的问题。

这个结论正是由上述的基于客户的传统数据挖掘和社会化计算得出。传统的数据挖掘方法是以确定性数据为主,假设了数字可以准确地表达人的需求。比如连续买了一年这个牌子的产品,就会假设这个用户是该品牌的忠实消费者。在哲学上,这是一种物化的体现。

社会化计算则充分利用了社交圈子中的关系强弱来预测用户的需求,这是更多地利用了表面的相关性,比如从我对好友说喜欢宝马车来推测我可能喜欢某个牌子的手表。这就是迈尔-舍恩伯格说的相关性。

以Facebook为代表的社交网络所形成的数据更多指向用户的内心表达,在哲学上就是“心”的体现。之所以说,后现代经济较之现代经济具有了“湿”的特征,正是因为后现代经济中多了很多“心”的要素。大数据的哲学意义正在于此。从这个角度看阿里巴巴入股新浪微博,可以看做是在打通结构性数据和非结构性数据之间的通路。

Google代表的算法和Facebooke的算法到底有什么不同,哪一个更能代表未来?Google的算法是基于关联性,比如它的广告推荐系统,就是利用用户的使用痕迹进行精准推荐。Facebook的算法则是基于关系图谱,当然最近Facebook认识到了关系的脆弱性,它有开始打造兴趣图谱。这两种算法的应用场景不同,很难说到底哪个更具备未来性。

定义大数据

从广义来说,大数据是一种基于数据量越来越大、信息源越来越多而实现管理智能的思维形态。从狭义来说,大数据就是一种特殊的IT平台。按照传统的IT架构,数据处理能力是有上限的。Google在2003年和2004年公布了关于GFS、MapReduce和BigTable的三篇技术论文,这也成为后来云计算发展的重要基石。随后,著名的Hadroop基于这三篇论文诞生,其创始人Doug Cutting带着这项技术转投Yahoo!,并将其打造成了一个易于开发和运行处理大规模数据的软件平台。

这种基于模块化搭建起来的开源IT架构,使得数据量的处理能力无限上涨。这是大数据得以实现的硬前提。

在思维层面上,大数据在三个方面具有颠覆性的意义:

可视化思维:大数据的一个重要功能就是把抽象问题直观化,也就是可视化。哲学在这里是否要发生一个质变,还不得而知。如果,Google或者百度的神经网络算法成功的话,也许哲学就不复存在了。

数据化思维:这也是中国人思维里最缺少的东西,更是中国企业在大数据时代伊始阶段四处抓瞎的原因。

心物合一:这是最高级的问题。主体和客体哪个更真实的争论也许可以到此为止,大数据可以利用社会化计算和行为数据分析,得出一个精准的结论。

不过,对于企业管理者而言,看待大数据时应该避免高估数据挖掘和低估数据挖掘,只要把它作为正常企业业务流程中的一个重要环节即可。

在使用大数据时可以尝试如下思路:

先判断数据能不能在某个环节产生价值;规划和选择大数据方案;大处着眼,小处着手。切忌在伊始阶段就上马大系统,大格局。(胡泳 郝亚洲/文)

评论(3)

您可以在评论框内@您的好友一起参与讨论!

    1. 童其中 大数据一来,什么全贴上大数据标签了

      回复[0] 2013/10/11 11:16

    1. 邹震 很不错的文章呀

      回复[0] 2013/10/11 10:04

    1. 王德生 大数据是有效果,但现在的人们更多地利用大数据进行炒作。你可以看一下,原来商业智能就可以实现的效果,现在非吹成是大数据的功劳。而大数据最精彩的相关性,没见过有更精确的解释的

      回复[0] 2013/10/11 09:33

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");