庖丁解牛—数据剖析与数据质量评估之大不同

标签:数据管理数据剖析数据质量评估

访客:26038  发表于:2012-10-22 14:28:42

在数据管理领域存在着这样一个普遍性问题:相对于数据质量评估而言,数据剖析的意义更容易产生混淆。

有些人会混淆使用这两个术语,原因当然是显而易见的。

因为第一次使用数据剖析工具挖掘数据源时,我们可以在数据质量层面上做到管中窥豹,获取大量的洞察力。实际上,这些早期的调查就是我们开始计算的数据评估。

而以下对评估一词的定义能够帮助我们了解为什么许多人是错的:

评估:确定事物的价值、意义或程度;

许多人将数据剖析当成数据质量评估的开始点和结束点,最终导致他们失去了确定剖析结果的能力。

1.以一种平衡、正确的方式进行评估;

2.对业务有意义;

3.反应特定问题的真实程度

事实上,我们缺少了几个关键的阶段,所以我们有必要在一个更全面的工作流程中展开讨论。

第一步:数据剖析(发现数据质量要求)

在此,我们利用数据剖析软件(非评估软件)来开始发现之旅。我们得找到一些规则与要求,能帮助我们在下一环节的数据质量评估中火力全开。

举个例子来说,数据剖析能够帮助我们发现价值的频率与模式,使我们相信某一特定属性就是独一无二的产品代码。如果是单独的数据剖析,我们也许可以找到一些感知上的缺陷与异常点,但是就代码质量评估这一角度来讲,除非我们建立更严格的质量定义,否则数据剖析就会功亏一篑。

除此之外,还有一些很重要的考虑:

1.代码具备一定的业务功能吗?还是它只是多余的?

2.代码的质量是由其他属性所决定的吗?比如厂家代码或者其他一些属性值的集合。

3.我们能分解代码,从而获得更多的信息来帮我们确定质量的价值吗?

所以,在第一步的剖析过程中,我们实际上开始的是数据质量要求的收集,而不是接下来的评估活动。

第二步:创建数据质量要求

在配备了数据剖析洞察力这一有力武器之后,我们就要开始定义一些数据必须遵守的质量规则。为什么非此不可呢?答案很简单。我们需要一个有效的方式,能够拿一系列被认可的标准与我们的数据质量作比较。数据剖析仅仅只是发布调查结果,而没有任何的支持率或是上下文验证。

举例来讲,在之前的一个任务中,我们发现大部分装有场内设备的公用事业机构都面临着位置信息的主要问题。剖析的结果也略显暗淡无光,因为40%的设备没有正确的位置值。

然而,这个剖析的结果并不意味着就是正确的数据质量评估。原因如下:

  • 大部分的设备实际上是备件或者已经报废了
  • 大量设备属于其他合作伙伴,因此不应该算在范围内
  • 一些设备实际上是由其他系统控制,所以应该根据设备的类型,从其他数据来源收集位置数据。

因此,一目了然。数据剖析功能虽然可以帮助我们找到数据质量的规则与要求,但是除非我们确定并且建立某种质量规则,否则我们无法得到正确的评估结果。

第三步:数据质量评估

迄今为止,我们已经剖析了数据,发现了一系列的数据质量要求与规则,现在,是检验成果的时候了。

在记录传递和规则基础上,我们无法创建一个正确的数据质量评估。(站在一个纯粹主义者的立场,要想得到一个正确的数据质量评估,唯一的方法就是验证真正的数据源。当然,这未免显得不够实际,强人所难)

所以回到之前的那个例子,我们要基于一个更严格的规则集合来评估设备的位置,而不是依赖剖析数据的结果。我们可以利用剖析功能去验证那些违反数据质量要求的值(比如函数,长度等),但是我们的目标是确定每个值是否满足异或反对已被认可的标准集。

通过这个方法,我们可以勾画出一幅更清晰的数据质量“健康”图。在第一次运行数据剖析软件时,数据会出现大量的缺陷,许多公司会理解乱了阵脚。然而,如果他们能够高瞻远瞩,按部就班地顺着数据剖析的结果,收集需求,数据质量评估这样的流程走下来,他们就会对自己数据的真实情况了然于胸。

那么您怎么看呢?数据剖析跟数据质量评估是两兄弟吗?静候您的高见。

评论(3)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");