BI与数据仓库推动大数据时代变革

标签:大数据技术前沿BI

访客:23219  发表于:2012-05-14 14:47:22

大数据的定义是高科技领域内非常精细的事件驱动数据的采集和分析。这涉及到互联网的派生数据,这些派生数据的规模远远超出了网站的分析能力。它还与传感器数据相关,而对于大部分传感器数据我们直到最近才丢弃。现在,那些有很大价值的数据,将更有利于我们深入了解业务运转和与客户的互动。这才是能否被称为大数据的标准。

大数据不仅是一种数据仓库技术或BI(商业智能)的升级版,同时也是一场革命。大数据的宣言:无需恐惧毋庸置疑,大数据是一场大变革。

第一次世界技术革命时,我们正在考虑的不是如何减少数据数量和如何把它归档,而是如何收集更多的数据并对其进行分析。那时,我们并不怕受到受到数据量的威胁,而是在寻找额外的数据,以帮助我们发展业务,进一步了解我们的政府和社会。

后来,磁盘和存储的低成本与价格下降推动了商品服务器集群的分散式处理趋势。虽然我们收集、处理和分析大数据已经有相当长的一段时间了,但直到如今,我们所使用的方法依然是低效率,并缺乏经济性的。但这场大变革中有着我们一直想知道但以前又不曾涉及的数据,所以,现在的我们无需恐惧。

2012年:大数据年代?

大数据正在成为主流,它从科学和高科技公司的专用技术转变为企业IT应用程序的专用技术。大数据作为IT工具的主流,对IT领域有重大的影响,其可用性和易安装标准是高于科学与高科技公司界对大数据的要求的。这就是为什么我们会看到像微软这样的公司,可以通过Web浏览器来实现利用云基础大数据技术,从而进军游戏行业。

为了更好的使大数据与企业相融合,我们应该实现技术的细化和降低经营成本。眼下,很多大数据工具都是粗糙的或昂贵的,或者是需要能够实施操作的高度专业化的技术人员的辅助。不过,这种情况正在逐渐改变,而且,它从侧面也证明了大数据革命的光明前景。

Spreadmarts不是大数据,但他们也有自己的作用大数据和我们习惯使用的电子表格模型和数量运算有什么不同吗?电子表格技术员们一直在做分析,但肯定不是大数据,因为Excel不符合前面对大数据集的定义。直到2007年,Excel才可以处理超过有16,384行的电子表格。但是,它还是不能处理较大的业务数据量,这方面它比大数据逊色许多。

当然,大数据分析的结果可以利用Excel来进一步计算和探讨。事实上,微软已经开发了一个与Excel连接的附件,与Hadoop连接的数据仓库接口,还有象征性的大数据技术。大数据工作就像经过以Excel为基础的分析和粗糙的编辑之后的后期制作。

从另一方面上看,BI(商务智能)和DW(数据仓库)是相辅相成的,这对大数据而言是一件好事。大数据让落后的、传统的技术,为涵盖比以前更广的操作和交互范围的数据集提供见解。我们可以在全新的环境下继续使用熟悉的工具,从而实现对看似不可能或随意的事情的访问。

自然语言处理和大数据关于用Hadoop开展自然语言处理(NLP)的解决方案已经产生了。该解决方案涉及到了Python编程语言和一套称为NTLK(自然语言工具包)。另一个例子是苹果的SIRI技术在iPhone上的应用。用户只需与SIRI进行对话,就能从一个庞大的领域专家团队那里得到答案。有趣的是,大数据技术将有助于改善自然语言技术,例如,对更大数量的书面作品进行处理和对算法的理解。因此,大数据将变得更容易使用。  来源:chinabyte

评论(1)

您可以在评论框内@您的好友一起参与讨论!

    1. 行行摄摄中 这里我们先弄清楚几个概念,结构化数据、半结构化数据和非结构化数据。结构化数据可以在关系数据库中找到,多年来一直主导着IT应用;半结构化数据包括电子邮件、文字处理文件以及大量发布在网络上的新闻等,以内容为基础,这也是谷歌和百度存在的理由;而非结构化数据广泛存在于社交网络、物联网、电子商务之中。伴随着社交网络、移动计算和传感器等新技术不断产生,有报告称,超过85%的数据属于非结构化数据。

      回复[0] 2012/05/14 15:27

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");