【张卡尔面对大数据 - 16】西尔斯的大数据(6)

标签:大数据数据管理

访客:21411  发表于:2013-04-12 15:47:36

开始的时候,西尔斯的那些老派Cobol程序员对Hadoop相当轻视。但是,他们中的许多人结果成为了很迫切和相对有技能的Pig语言的采用者。这种语言主要用于在Hadoop 上面运行MapReduce支持下的计算。以前需要3-5千行Cobol语言程序才能完成的任务,用Pig可以减少到只用几百行代码。西尔斯学会了如何从大型机的IMS数据库将数据加载到Hadoop,然后如何将结果数据集带回大型机应用。这个可不是简单平凡的工作,因为这里牵涉了各种压缩数据格式的转换,已经数据的打包和拆包。(左图是某个Hadoop会议的产品展示区)

Hadoop后面隐含的大想法是引入使用尽可能多的数据,同时又尽可能地保持数据结构的简洁。以往的做法往往把事情复杂化,把东西用多个分别的文件表示和分割。现在新的做法的主要目的不是节约空间,而是要去除数据表的并表joint操作、进行数据的去规范化、也就是将所有的数据放到一个大文件中,从而进行各种分析。

这对那些多年使用SQL关系数据库的熟手们来说,是个有点匪夷所思的做法。这里需要改变人们的思考方式:在你拉出数据进行应用的时候,才对之套用某种结构。而不是像关系数据库的那种传统处理手法 - 在把数据加载到平台前,就事先规定一套数据的结构规范。Hadoop的做法的一个最佳实践是保有原始形式下的数据,使得用户保有高度的灵活性,可以与时俱进地用许多种方法来组合和检验数据。

Shelley博士说:“如果3年后,你找到了一种新的寻访或者分析,那也不要紧。因为数据并没有拘泥于固定的结构,你只需要拿到原料数据,然后将数据转换成你需要的任何格式”。

尽管Shelley博士在取代遗留系统方面非常大胆,但是他还是很谨慎地将Hadoop描述成一个生态系统的一部分。例如,当应用要求快速分析的时候,西尔斯仍然使用Teradata和InfoBright,但是,Hadoop目前是西尔斯的数据管理战略的中心,主攻大规模的重量级提升,而关系工具们则扮演了战术的角色。

对于如何切入Hadoop,Shelley博士如此建议:“你必须快速大胆,但是不要冒那些愚蠢的风险”。他建议要开始于一个由于足够的痛楚使得人们会加以关注的业务需要。而且人们看到可以实现这个业务需要的实在的好处。说到这个,有点讽刺地,即使在其自己使用Hadoop来解决巨大业务问题方面,例如,向顾客提供个性化的促销方面,西尔斯也还是有许多留待证明自己的地方。Shelley博士谈论了许多对于Hadoop的概念性应用。他只是零散地给出一些了在速度和供给方面的收益。但是他也并没有提供零售商已经实现了的实在的好处的清晰案例。西尔斯在采纳Hadoop和开发特殊专长等方面做得很好,特别是在大型机方面。但是Hadoop能够真正帮助西尔斯来个华丽转身吗? 

7月终结的季度的西尔斯的业绩表明,在提取了利息、税收、折旧和摊还之前的收入提升163%。但是同一商店的销售额方面,西尔斯却下降了2.9%,凯马特甚至下降了4.7%。西尔斯的解释是,它正在销售那些数量比较小但是利润比较高的物件,其中部分或许可以归功到更加智慧的定向和促销。但是西尔斯不可能通过萎缩来达到伟大。随着对手沃尔玛和塔吉特获得市场份额,它们的采购力量和挤压西尔斯的利润空间的能力也会随之增长。

如果可以快速接触和分析过去10年的医学病历数据,这会改变医生们如何诊断和治疗病人?快速数据处理是否可更加有效地发现金融服务中的虚假?目前都在专注选择和搭建可以处理那些大数据工作的下一代平台。Hadoop就是这个平台吗?业界仍然有如此种种许多疑问,有待分晓。

评论(5)

您可以在评论框内@您的好友一起参与讨论!

    1. 徐蕊 7月终结的季度的西尔斯的业绩表明,在提取了利息、税收、折旧和摊还之前的收入提升163%。但是同一商店的销售额方面,西尔斯却下降了2.9%,凯马特甚至下降了4.7%。——这句话足可以让国内的老板们对大数据放手

      回复[5] 2013/04/15 14:02

    1. 徐蕊 Shelley博士是谁?

      回复[1] 2013/04/12 17:15

    1. 杨明 猪语言。Pig都能当程序员了。

      回复[4] 2013/04/12 16:06

    1. 石娜娜

      供应商之间正在使用Hadoop,进行提供最好的工具的竞争。然而,随着供应商开始花更多的时间开发附属
      品,而不是优化整个解决方案;或选择合作伙伴时无意造成了瓶颈,这些优化可能功亏一篑。

      回复[1] 2013/04/12 16:03

    1. 石娜娜 先没看内容,只看文章排版就让人赏心悦目!

      回复[1] 2013/04/12 16:01

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");