大数据应该属于云吗?

标签:大数据技术前沿数据分析云计算

访客:23549  发表于:2012-05-22 10:12:05

您看了今年的预测了吗?去年几乎都是关于云的,今年排在第一位的话题是“大数据”。看起来云对于大多数分析师来说已经是过时的新闻了。

让我们先为这个术语做一个定义,以便于肯定我们在谈些什么。根据Wikipedia,大数据是一个适用于无法在可承受的运行时间内、无法用常用的软件工具来捕获、管理和处理数据的专业术语。尽管大数据并没有指定某一个特定数量,这个词常在说到从几十TB到很多PB的数据时用到。例子包括网络日志,RFID,传感器网络,社会网络,社会数据(由于数据革命的社会),互联网文本和文件,互联网搜索索引,呼叫详细记录,天文学、大气科学、基因组学、生物地球化学、生物和其他复杂和/或跨学科的科研,军事侦察,医疗记录,摄影档案馆,视频档案和大规模的电子商务 。

管理数据

现在很清楚了。实际上,世界的“数字宇宙”正处在持续增长的过程,2011年增长1.8ZB,2015年预计增加8ZB,到了2020年预计增加35ZB。(顺便说一句,为了准备这篇文章,我学了一个新词,ZB,泽它字节或皆字节),其中70%的数据是由个人产生,85%的数据包含了非结构化数据。我们管它叫人类信息。每秒钟增加97000条贴子,每分钟增加1200万个文本,每天增加2.94亿封电子邮件。

您知道吗,现今一次跨越美国的单程商务飞行可以产生240TB的无线传感数据?最关键的问题不再是捕获数据,而是存储数据。在目前进行的项目中,我们用一万个无线传感器在一个15分钟的试验里收集了1.35TB的数据。用一条稳定的56MB无线连接,我们需要大概42个小时来收集和存储数据,所以我们需要发明新的数据传输机制和方法。有趣的是在过去10-15年里,我们从没有足够的数据来做决策发展到了彻底的数据超载。现在,我们仍然无法做决策,因为我们通常无法将相关数据从噪杂的信号中筛选出来。

不管是为了灾难恢复,还是备份或执行计算密集的分析或运算,在云里存储数据的时间和成本往往会被人们忘记。所以,第一个要提出的问题是数据是否需要在第一时间存储在云里,或是是否不应该采取一个混合方式,整合公有云和企业IT资源(私有云或传统系统)。让我们来看一个例子,我们将已经在云里的社交网络数据和企业信息结合在了一起。

了解您的用户行为

如果您想知道这个世界是如何看您的产品、品牌和服务的,您最好看看微博、博客和论坛。过去人们在当地酒吧抱怨某项服务有多么差,现在他们在微博上这么做。如果您想保持竞争力就不能再无视这个事实。

我们做的一个高级商务和技术主管的调查显示企业通常只利用了可用信息的5%,48%的企业没有实施一个有效的信息战略,并且只有2%的企业可以在正确的时间提交正确的信息,并在百分之百的时间内支撑企业成效。

根据定义,我所提到的社交媒体数据是存储在云里的。但是在理想情况下,公司想要将这些数据与他们自己的用户信息交叉关联。实际上,惠普实验室在他们的“项目融合”里就是这样做的。他们学会了通过结合社交媒体和公司的数据来预测用户行为。显而易见,很多大公司不想把他们的用户数据都迁移到云里,所以关键是要能够将多个来源的数据整合到这样的分析中。

惠普的方法

惠普意识到需要提供不仅是搜索结构化数据的能力,而且还能对大量的非数据化结构数据进行扫描的优势的重要性。通过结合关注结构化数据的Vertica分析平台和Autonomy基于语义的计算方法,惠普现在可以为您提供一个环境,让您真正清楚发生了什么。多个信息来源的组合让您可以将数据保留在原来的地方,同时又可以充分利用已嵌入其中的信息。这就是我们所说的人类信息时代。

所以大数据仍然可能被炒作,但是数据仍就在那里,企业需要考虑到这一点。看看我们现有的工具,如我们在项目融合中所示范的,并且将来会有更多的新工具出现。

作者:美国惠普(HP)博主Christian Verstraete

原文链接: http://www.enterprisecioforum.com/en/node/3541

评论(1)

您可以在评论框内@您的好友一起参与讨论!

    1. 孙连焕 您真的需要看看这个,因为它能给您的业务带来优势。如果您不这样做,而您的竞争对手有可能会这样做。那将是个真正的遗憾,不是吗?

      回复[0] 2012/05/22 10:14

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");