处理大数据挑战:分布式计算的作用

标签:大数据分布式计算

访客:32754  发表于:2012-04-10 11:13:00

Eric Williams善用“大数据”的诀窍,并可以避免它可能导致的数据管理问题。他的诀窍是这样的:从小的动作开始,快速证明业务价值,并与针对所有信息运行分析查询的最终用户保持密切联系。

Williams是Catalina营销公司的执行副总裁兼首席信息官,该公司位于美国佛罗里达州圣彼得堡,公司使用从零售商收集到的忠诚度卡片跟踪和预测世界各国个体消费者的购物习惯。多亏了数据仓库设备与预测分析软件的结合,卡塔丽娜公司才能妥善管理这么大量的数据。在“大数据”这个词汇进入IT术语之前,一直使用的是词汇“海量数据集”。

在最普通的一天中,单单从美国的零售商那里,该公司就会收到5.25亿条数据。在Catalina公司的系统中,存储着大约八千亿行客户数据,包括了2亿美国人过去三年来的购买历史。

Williams对组织开展大数据管理和分析策略的建议很简单,就是:不要试图收集所有可用信息,并把这些信息简单地扔到数据仓库中,供业务用户或者分析专家焦头烂额地提取。相反,当你从数据仓库或者其它数据库加载大量信息时,应该通过分析关键业务数据的子集来开始分析流程,这是有意义的模式,这种方式容易证明大数据管理方法的价值,并在克服大数据挑战中获得经验。

Williams说:“拿你的信息为例,信息可能来自有限的时间段或者有限的产品集,你可以找一个人来做,他可以帮助做一些分析。这个人并不是必须是博士才能做这件事,大部分时候是需要他为做商业决策的人提供一些意见。”

大数据管理已经成为IT界讨论最热烈的趋势之一了,因为企业都面临着处理大数据集存储的挑战,挖掘信息的能力可能给他们带来极大的竞争优势。比较复杂的问题是,事实上大数据安装可能包括来自内部系统的结构化事务数据和来自各种数据源(包括系统日志,呼叫详细记录,以及社交媒体网站比如Face book和Twitter)的非结构化信息。

大数据管理中分布式计算的作用

例如,clickstream数据使得公司可以跟踪人们在网站,PC电脑以及移动设备上的行踪。那会产生大量的数据。Tony Iams是Ideas国际公司的一位副总裁兼高级分析师,该公司是位于美国纽约Rye Brook的一家IT研究机构。Iams说,(大数据量)好处是组织可以使用数据“建立比以往更准确的用户行为分析”。但是这么多数据需要被适当地结构化和管理,这样才有可能实现。

Jill Dyche是Baseline咨询集团公司的一位合作伙伴,他认为在大数据管理中对数据分类是关键的第一步。Dyche在Grants举行的2011年BI峰会上说:“当我们与客户谈到这一点时,我们会很快转到数据分类上来。因此,他们不只是把数据搬运到数据仓库平台或者数据集市,而要真正看看数据是什么以及怎么使用它们。”

通常情况下,大数据定义的特性之一就是:数据量大到单独一台数据库服务器不能有效处理的程度。此外,非事务数据类型(比如:Web日志和社交媒体交互信息)也不总是适合于传统的关系型数据库,用Gartner公司分析师Merv Adrian的话叫做“另类大数据”。这样,许多用户组织引入了大数据管理,采用了分布式计算或者进行扩容,还采用了各种模式。组织通常会围绕开源技术进行构建,比如Hadoop,MapReduce和NoSQL数据存储技术。

按照Williams的说法,分布式方法在Catalina营销公司非常奏效。他说:“网格计算或者连接标准化PC类型装置并使他们协同工作的整体想法是最有意义的事情了。它真的可以扩展我们的数据量大小,我们可以非常成本有效和高效地做到这一点。”

Williams实施的另一策略就是每月举行用户组会议,该会议部分是为帮助Catalina保持其数据仓库设备运行在最佳水平而设计的。Williams说这些会议非常关键,因为他们使IT员工能看到业务用户的需求是怎样的,他们期望运行的查询是什么样的,这些信息是可能随时间推移变化的。

他说:“我们一起工作,理解他们的运营方式,他们运行的内容以及分析展示的内容。”这样的流程使得他的团队意识到现存数据结构和查询参数“要适应用户需要并不是最优化的。” Williams说,数据结构已经为适应新的查询类型进行了修改。

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");