Hadoop:打开大数据之门的金钥匙

标签:大数据重磅推荐技术前沿Hadoop

访客:22662  发表于:2012-03-01 10:00:24

大数据是眼下很多企业面临的一个挑战,由于数据量非常巨大,而且数据类型异常复杂,传统的基于关系型数据库的存储和分析办法显露出不足。Hadoop的出现给人们带来解决大数据问题的希望,特别是一批著名的大企业,如谷歌、雅虎、JP摩根大通等,成功地利用Hadoop开发出了开源的大数据管理系统,让人们看到了Hadoop在解决大数据难题时的巨大潜力,很多企业纷纷决定引入Hadoop,来解决自己的大数据难题。

不过,专家提醒,在决定利用Hadoop构建自己的大数据管理系统之前,一定要确保自己充分了解Hadoop。采用Hadoop之前最好先对技术人员进行必要的培训,以确保技术人员具备必要的数据分析专业知识。显然,并不是所有的企业都能成功地开发和部署Hadoop应用的。目前,Hadoop还是一个刚刚起步的市场,有很多厂商提供与Hadoop有关的产品和服务,其中有些是基于云的SaaS服务。

最重要的是,一定不要盲目跟风,每个企业都有自己的特殊需求,都有自己的技术条件。根据Forrester的市场调查,目前,在美国只有1%的Hadoop项目是真正应用于生产环境中的。“这个数据肯定将在未来一年翻一番或两番。” Forrester分析师吉姆·库贝勒斯(James Kobielus)表示。他呼吁企业要保持谨慎,因为相关的技术还在演进之中,技术更新非常快。

可以肯定的是,与传统的数据库管理系统相比,Hadoop有自己的优势,尤其是它既能处理关系数据库中的结构化数据,同时也能处理诸如音视频等非结构化数据,而后者在现实世界中普遍存在,要远远比结构化数据更为常见。Hadoop系统还可以根据数据的规模和问题的复杂程度轻松地扩展。

“Hadoop的应用真正改变了我们对数据的理解和使用方式。” eBay用户体验、搜索和平台副总裁休·威廉姆斯(Hugh Williams)表示。eBay如今拥有的数据量高达9个PB,这些数据既有Terabyte系统所产生的结构化数据,同时也有Hadoop系统产生的非结构化数据。

“你可以在同样的硬件资源上运行各种不同类型的工作负载。相比而言,在Hadoop之前我们使用硬件资源的方式太呆板、太不灵活了。”威廉姆斯说,“如今,你能以一种与过去完全不同的方式来充分发挥集群的计算能力。这将大大降低公司创新的门槛,从而有助于组织的创新。Hadoop功能太强了。”

随需求增长自由扩展

位于美国佐治亚州德卢斯市的Concurrent公司是较早采用Hadoop的公司之一。这个公司对外销售流媒体系统。同时,它还替客户保存和分析大量的视频数据。为了更好地应对待处理数据量的不断增长,两年前Concurrent采用了Cloudera公司的Hadoop CDH系统。

“Hadoop是我们解决大数据难题必不可少的工具,借助它我们在很短的时间内就能完成海量数据的处理。”Concurrent公司工程总监威廉·拉扎罗(William Lazzaro)说。

拉扎罗介绍,Concurrent有一个部门专门收集和保存客户的视频点播统计数据,Hadoop的部署给这个部门解决了一个很大的难题。“我们有一个客户,现在一个月就可以新生成30亿条记录,我们预计,在未来3个月,它每月的数据量将会达到10亿条。”

很长时间以来,Concurrent公司有两个大的难题:一个是传统的关系型数据库无法处理诸如视频这类非结构化数据,另一个是需要进行处理和存储的数据量成倍增长。“我们的客户希望要保留4?5年的数据。”拉扎罗解释说,“如果它们每天的数据量达到PB级,对我们而言,将是一个非常的挑战。”

他说,幸运的是,Concurrent的工程师发现,采用Hadoop他们可以应对其客户不断增加的数据量带来的巨大处理和存储压力。“测试过程中,工程师们曾经完成过每天为客户处理20亿条数据记录。如果数据量再增加,我们只要往节点中加入服务器,就可以马上获得所需要的处理能力。整个系统的可扩展性非常好。”拉扎罗说。

他说,作为比较,该公司采用传统的数据库来完成同样的工作。他们发现Hadoop的主要好处之一是,在数据量增加时可以很容易和迅速地增加硬件,同时,还不需额外的授权费用,因为它是开源软件。“这是Hadoop与传统的关系数据库系统相比 一个非常大的不同。”拉扎罗说。

位于美国加利福尼亚州圣克拉拉市从事生命科学和基因组研究的NextBio公司也是Hadoop的用户,它们所从事的人类基因测序和相关科研工作涉及的数据量也非常庞大。

“我们有非常多的各种基因组数据,需要与其他数据进行关联和比较,我们采用Hadoop来帮助完成这些工作。”NextBio工程副总裁萨特南·阿拉克(Satnam Alag)说,“我们通过Hadoop来对大量的公共数据进行各种分析,很多组织需要这些研究结果,如制药公司、学术研究等。”NextBio使用的是MapR公司的一个Hadoop分发版本。

他说,一个典型的完整的基因组序列可以包含120GB?150GB的压缩数据,要对这些数据处理需要500GB的存储空间。过去,要分析一个基因组序列就要3天,今天,用30?40台服务器运行Hadoop,NextBio的工作人员在3?4个小时内就可以完成。“对于那些必须要对这些数据进行全面分析的应用程序,这种效率的提升是非常有用的。”

Hadoop另一大优势是,只要简单地增加更多的节点就可以保证系统的处理能力得到增加。“如果不用Hadoop,系统的扩展将是一件具有挑战性的工作,成本高昂。”他说这种所谓的横向扩展 给由普通服务器组成的Hadoop集群中增加节点是一种性价比非常高的扩展系统方式,“Hadoop框架能自动地管理群集中失效的节点。”

他说,这极大地改变了公司增加计算能力来满足其需求的方式。“我们不希望在硬件资源上就花上数百万美元,我们没有这么多的钱。”

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");