大数据的小世界

标签:大数据商业智能存储数据仓库

访客:16582  发表于:2012-05-18 13:45:09

当我们谈论大数据和数据仓库时,提及Hadoop几乎是不可避免的。

但Hadoop并非空穴来风,就像大多数的大数据技术,它在这一领域与其它技术具有密切的关系。在这种情况下,Hadoop利用映射/缩减技术形成一种数据框架,用以存储数据,而且获得这些数据的应用程序可以运行,可以追溯到另一种数据仓库技术: 企业搜索。

企业搜索,也称为实时搜索,是一种数据存储的方法,应用搜索的观念并将其应用于大量的非结构化或部分结构化的数据(如文件)的收集时。

最好的文件储存系统将利用某种XML或基于SGML的标记,让那些文件的内容很有条理。但在现实中,文件会与这种理想的标记有些出入。这也正是企业搜索的用武之地了。

企业搜索产品,比如ElasticSearch, Apache Lucene和 Apache Solr,用一种被称为切面的概念,让你能像关系型数据库中的字段那样处理文件中的数据。从本质上来说切面是反相索引,让你在一份文件中找到具体的信息,如地址或者其它的客户信息。

企业搜索最好用在你把一大套这种类型的文件精选一遍时,而且需要做一些简单的数据挖掘或商业智能(BI)分析。结构化数据越多越好: 企业搜索在处理网络博客这样的文件时确实很好,它有一致的结构化足以能够更深的数据挖掘。

企业搜索和当前被大肆宣传的Hadoop之间的连接在于两种技术的创造者:Doug Cutting。Cutting目前是商业Hadoop供应商Cloudera的一位架构师,他在1998年把, Lucene一起作为一种Java搜索引擎库。

但是生活(与网路的兴起)让Cutting远离了他的Java项目。到2000结束之际,Cutting选择把这个完美的搜索引擎库在SourceForge的 GPL授权之下开源。在潜在用户强烈的回推之后,Cutting后来将授权转向了更少限制的 LGPL。

在该项目于2001年被邀请加入Apache软件基金会时,Cutting被鼓励带着它们去报价,从那时起Lucene就在ASF的保护之下,并在Apache开源协议下授权。

Cutting继续在Lucene工作 ,开发技术进入开源Nutch搜索引擎,它相对于Lucene这样的平台来说是一种完全在线的应用程序。Nutch也偏向于适应于网络搜索,并使用了许多企业搜索中的特性,如网页的抓取,文件格式及文字检测和语法分析。

但是,就算Nutch证明了它的强大功能,它也不能扩展到足以搜索企业级的数据集。多结点的安装,甚至只有四个节点,也将被证明很难管理。在Nutch中任何超过1亿页的空间配置和资源管理都将证明是难以承受的。

因此在2008年,Hadoop诞生了,它利用分布式计算技术并成为Nutch运行的新框架。Hadoop分布式文件系统再加上MapReduce(两者都在谷歌项目上被模仿),将是Nutch框架运行的基础。

Cutting的Lucene不仅培育了基于MapReduce的 Hadoop技术的创造,它还形成了其他企业搜索技术的基础。特别是ElasticSearch和Apache Solr都是使用了Lucene 的Java搜索库的企业网络搜索工具。

在企业搜索领域对于这两个工具哪个更好有很多的争论。据说Solr非常快,但ElasticSearch的分布式能力意味着可以在许多分布式资源上共享工作,因此能提供类似的性能。

技术的进化很有趣,但不只是从一种单纯深奥的立场。了解这些技术如何融合在一起,会让用户更好地了解哪一种解决方案更适合他们。

评论(1)

您可以在评论框内@您的好友一起参与讨论!

    1. 朱东 有点意思。有进一步介绍的资料吗?

      回复[0] 2012/05/25 16:58

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");