【张卡尔面对大数据 - 04】 维基一下大数据 (2)

标签:大数据存储CIO阅读

访客:25596  发表于:2012-12-21 10:08:27

按照维基百科的定义,大数据通常包括那些尺度超越了通常被用来在可以接受的持续时间内进行获取、标注、管理和处理数据的软件工具的能力的那些数据集合。
换句话说,如果数据量大到无法用通常的软件进行有效处理了,那么这样的数据就会被认为是大数据。这里并不存在一个明显的界限。并不是说,超过了某一个数据量就一定是大数据。相反,大数据的尺度是一个不断地移动着的靶标。目前,也就是2012年,如果一个单一的数据集的尺度   在几十TB到若干PB,就可以被认为是大数据。
说到大数据,许多人就会立即想到大型的存储装置。当然,如果不能首先存取如此大量的需要的数据,那么后续的其它工作也就很难继续进行。另一方面,解决了数据储存问题,也还远远不够。数据是用来被使用的, 不是仅仅被用来存放的。存储了N年的商场监视视频固然很好。处理这些视频,计算你商场客流的移动模式,以便进行相应的营销利用才是正果。
为了应对大数据的困难,出现了新型的大数据工具的平台,旨在发现大量的数据中所包含的“道理”。这其中的典范之一,就是Apache软件基金会的Hadoop大数据平台。这个开源的框架支持高度数据的分布式应用。其主要的本事是在有许多大宗商品级的计算机所构成的集群系统上面运行应用。我会另外专门谈谈这个当前炙手可热的计算平台。谷歌的数据备份磁带设施意一角
Meta Group(现在是Gartner的一部分)的分析师Doug Laney在2001年的一份研究报告及相关的座里面,将数据增长的挑战和机遇定义为3维度的,也就是增长的Volume(数据数量)、Velocity(数据进出的速度)和Variety(数据类型和来源的范围),也就是体量、速率和多样。这就是所谓的描述大数据的3V’s模型。2012年,Gartner进一步将其定义修订为:大数据是大体量、大速率和/或大多样的信息资产。这种信息资产性需要新形式的处理,从而能够进行被强化的决策、内行的发现和流程的优化。
附图是谷歌的数据备份设施。远处竖立的是可以前后移动上下其手的取放备份磁带的机器手。

【注】已发布的本系列文章如下,方便您参考:
【张卡尔面对大数据 - 03】 麦肯锡报告《大数据:创新、竞争力和生产力的下一个前线》的读后感(1) / http://www.cio.com.cn/eyan/view/20733
【张卡尔面对大数据 - 02】维基一下大数据(1)/ http://www.cio.com.cn/eyan/view/20661
【张卡尔面对大数据 - 01】大数据的大小/ http://www.cio.com.cn/eyan/view/20629

评论(2)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");