模型,该死的模型…还是统计学

标签:CIO专栏数据模型统计学

访客:24275  发表于:2012-04-28 16:56:00

现今形形色色的企业都在他们的数据中心以黑洞吸附质量的方式吸附信息:稳固的、无休止的和单调的。鉴于事物的稳步增长需要注意的是,找到数据的含义和找到存储和管理数据的方式挑战一样的大。

了解概念、文字、媒体物料、传感数据的变化、或者由系统日志和其他数据反射的人类行为之间的关系在很多情况下都是我们从数据中提取含义的关键。比如数据中心房间A的温度在每天同一时间都升高了15度,这个数据的含义是即时显现出来的(说明房间A的冷却系统要能处理更高的负载)。

每天同样的温度峰值也许还有其他的含义,这只有通过了解其与其他数据间的关系才能被搜集到;如果这个峰值始终遵循PR部门在一系列赞助下发布的新网络视频,这也许意味着这一系列的通用性已经达到了顶峰(因为上升的温度是一致的,并没有不断增长)。

当分析师遇到这种无助的问题时,他们往往因为对内在因素缺乏认知而被阻碍或误导 – 他们不知道这些有问题的项目是如何互相影响的,或者他们有了错误的认知,所以这让他们无法梳理出这些数据和信息到底是如何互动的。尚未知道这些数据之间的关系可能是怎样的,他们往往根本什么也看不到。在错误理解数据关系的情况下,他们可能会描画出无用的结论。对业务来说知道web服务器负载和数据中心温度直接有关联是否更加重要?或者知道其公关举措中的一个已经使其有效性达到了顶峰?

因为数据之间的关系尚未被了解清楚使得业务反应速度遭到了阻碍。分析师们在工作上所依赖的关系心理模型可能无法帮他们看到任何有用的东西,他们用的相关工具和统计学也许能帮他们看到一些有用的东西。统计学不会在事先不知道答案的情况下有什么妨碍。像自然语言的统计翻译(相对于语言模型驱动的翻译),业务和IT分析软件可以在分析师不知道他们寻找的是什么的情况下梳理出数据之间的关系。业务可以更迅速的应对紧急模式下的数据。

结束语:随着宇宙中的相关数据越来越超出人类所能认知的范围,无论是由于数据量还是数据的变化速度,以分析工具的模式提供援助将变得越来越重要。

原文链接:http://www.enterprisecioforum.com/en/blogs/jburke/models-damned-models-or-statistics

作者:美国 John Burke

评论(9)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");