【张卡尔面对大数据 - 13】西尔斯的大数据(3)

标签:大数据服务器电子商务

访客:155232  发表于:2013-04-03 01:12:01

西尔斯最初的Hadoop是一个在笔记本电脑上面运行的单一节点的试验系统。2010年初,西尔斯发布了第一个拥有20多个节点的集群。那个时候,一个主要的数据处理的瓶颈是ETL,也就是抽取、转换和加载。Shelley博士对去除ERL多少有点狂热。

“ETL是一个古老的技术。对于大公司来说,因为你创建了数据的多个拷贝,ETL既没有效率也是浪费。”“由于不能够把所有东西都放到一个地方,人人只能使用ETL。但是Hadoop改变了这个。作为一个原则,我们现在只有当绝对必需拷贝的时候才拷贝数据“。

西尔斯并不能在一夜之间就去除ERL。它首先把ERL工作里面最慢和最繁重处理的那些步骤转移到Hadoop上面。例如,有一个ERL过程,原先在一个集群的分布式服务器上面使用IBM的DataStage软件,需要运行20小时。其中的一个在DataStage上面需要10小时的步骤现在在Hadoop上面只需要17分钟。

这么做,其实有一个缺点。将工作FTP到Hadoop和把结果FTP回ERL服务器需要90分钟。这是西尔斯的一次进行一步ETL的这个手法的代价。西尔斯在不断地将这个过程中的步骤搬动,直到全部数据转换的工作负载都在Hadoop上面完成。将一个步骤转入生产过程一般需要不到两周的时间。西尔斯计划完全去除ETL。但是,这种分步骤进行的方式对业务不会带来中断与担心。

Shelley博士将Hadoop看作是一个大的IT生态系统的一部分。他认为像Teradata这种系统在西尔斯会继续是一个重要和关注的角色。当时,在多少遗留系统可以被Hadoop取代的这个问题上,他肯定是属于比较极端的一翼。

西尔斯的主干Hadoop集群拥有将近300个节点和2PB的数据。这些数据大部分都是结构化数据,例如顾客的交易、收银销售(POS)和供应链数据。Hadoop系统创制了数据的两份拷贝,因此总的数据量是6PB。西尔斯在大数据方面相对领先。例如,沃尔玛2012年早些时候报告说,已经扩容了一个实验性的10个节点的Hadoop集群,进行电子商务分析。而西尔斯在2010年就超过了这个规模。

目前,西尔斯将其所有的数据保存到个体交易的层次和多年的历史,而不是只保存那些汇总数据,或者向曾经做过的那样,对某些数据规定一个季度的应用窗口。这些数据是作为原始数据。西尔斯可以在Hadoop之内按照需要快速有效地对这些数据进行重构和组合。

在西尔斯,Hadoop并不是作为一个科学项目。重要的报表也在这个平台上面运行,包括财务分析、向证卷交易委员会提供的报表、物流计划、以及供应链、产品和顾客的数据分析。对于专项查询和分析,西尔斯使用Datameer。这是一个电子表格风格的工具,支持在Hadoop上面不需要拷贝或者移动数据地直接进行数据探索和可视化。采用了Datameer之后,西尔斯可在3天里面开发出过去IT需要6-12周才能开发出的互动报表。过去的做法需要繁重的IT支持来进行ETL、数据立方和有关的测试。现在,业务线上的强力用户们正在开发大多数的新报表。

图为Yahoo里面运行的Hadoop集群。上面文字如此写道:
- 我们有1万多台的机器上面运行着Hadoop;
- 我们最大的集群目前是1600节点;
- 将近1PB的压缩过、没有进行复制的用户数据;
- 我们每周大约运行10,000个搜索工作。

评论(1)

您可以在评论框内@您的好友一起参与讨论!

    1. 徐蕊 从这里开始,就比较技术了,但是可以讲给正在部署的人听。

      回复[9] 2013/04/03 08:27

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");