【CIO提问】怎样解决数据延迟

标签:数据延迟

访客:24096  发表于:2012-11-19 08:44:09

有一个一直以来存在的障碍,与技术架构不能满足新的需求有关,即将来自源系统的数据和大量数据集提供并及时载入BI分析平台。总的来说,由于无法提供快速获取统一实时数据的途径,也就无法提供集成分析性能给越来越多的业务用户。数据延迟的问题一天不解决,数据的供应就会继续成为增长生产力和精准业务决策的绊脚石。
各位老大,您遇到这个问题怎么办?@朱暑冰 @耿峰 @田洪莲 @姜波 @黄嘉粤 @kairin @赵思伟 @战凯 @张嘉奕


评论(8)

您可以在评论框内@您的好友一起参与讨论!

    1. 张岩 不从技术角度说,从运用角度来谈如何解决,我们针对这个问题的实际解决方式是:
      1. 在上BI系统之前就预估到了这个问题,因此在系统内架设了近百个不同纬度的数据分析模块,虽然开放给各部门使用的仅有一半,一旦需要集成性的实时分析时,我们可以快速的从多个分析模块同步进行数据分析,基本不会碰到数据延迟问题。
      2. 设定关键KPI,当数据延迟和数据缺失时,运用以往数据针对缺失数据相关KPI指标的数据,进行加权计算,模拟出缺失数据,完成分析。

      回复[2] 2012/11/26 14:53

    1. 姜稳 随着大数据时代的到来,我们面对的问题不只是数据挖掘,还有数据延迟。您怎么解决这个问题呢?

      回复[0] 2012/11/20 17:02

    1. 马剑 抛开业务瓶颈不说,如果只是技术瓶颈,可以考虑采用内存计算技术。
      Oracel有Database Machine,SAP有HANA,再古老的还有BWA这类内存计算的技术解决方案。
      如果是业务层面的问题,例如需求不清导致数据建模不规范,更改报表要从数据源修改做起,那么什么硬件系统都是经不起折腾的。说白了,BW就是用空间换时间,但准备好如此巨量的各个分析聚合层次纬度的数据也是需要大量时间的。

      回复[0] 2012/11/20 16:14

    1. 陆彬 数据延迟很纠结,因为看数据的人不同,对于数据延迟的理解就不同,不考虑运维部门,对于业务部门来说真正对数据实时要求的是客服部,物流仓管,财务等,不 过好处是这类信息通常是单独通路的,是按业务流实时在流动的,一般都能保持实时,而大部分延迟是说的数据分析这块,比如老板看的报表,市场人员分析看的各 维度数据,但是这个其实都都不用实时,所有的分析大部分是基于短期内数据,同期历史数据对比等,而这些数据大部分已经存在于系统中,并且已经建立好了模型 或程序,可以随时看,包括实时运营看实时数据,这块都是可控的,我个人遇到最不可控的数据延迟问题,其实是业务部门突发的对数据需要加工的问题,而此时由 于数据是在技术部手里,当业务部门提出需求,到技术部处理完数据,这个是有段时间的,而这种需求一般都是比较紧急的,这个时间差是比较头疼的。其实我们采 用的办法也算是不是办法的办法,就是在业务部门配备了分析数据的人员,然后直接开放数据权限给业务部门,他们可以实时处理,而自己搞个临时系统处理,暂时 脱离技术部,这个就对人员招聘时的要求比较高了,也是个头痛的地方。

      回复[1] 2012/11/19 20:49

    1. 黄嘉粤 BI是统计分析数据,是运营用,但是不是实时的数据处理,所以很多时候这个延迟看看是什么范围来说,关键一点,先建个数据仓库,才有机会说到此,业务数据逻辑清洗的过程也是入库过程,这点会很关键。

      回复[0] 2012/11/19 12:57

    1. 朱暑冰 对中国绝大多数客户来说,昨天甚至上周的数据来做分析都足够了,想想自己公司的老大层CXO多久做一个决策就明白了。如同木桶理论,单独拉高BI系统的实时性没有用。如果真有实时性的要求,如网上购物时的推荐,瓶颈也大多在用户采购模式的建模分析上。
      最后,一切都具备,就是需要实时,也有很多技术可以实现。如SAP的HANA,DB中的数据变化可以实时复制到HANA中,马上分析。甚至SAP现在已经提供了CRM直接跑在HANA上(用HANA做DB),省掉了ETL的步骤,直接分析。BPM之上BAM实际也是在内存中直接分析流程中的实时数据。




      回复[2] 2012/11/19 09:32

    1. 赵思伟 做个数据仓库吧,BI分析基本上是积累的数据,而不是当前的正在产生的数据,所以在建数据仓库的过程中,我们就应该将源数据进行拆分存储至数据仓库,然后BI进行分析决策时可直接接驳数据仓库利用初步分析后的数据进行再次决策分析。

      回复[3] 2012/11/19 09:21

    1. 黄选锋FIGE 换一个思路,BI的数据,不能采用当前数据,一般是隔天数据;这个不是运营统计数据,所以,隔天给出不影响决策判断;其次,统一的数据源管理,是必要的,这个需要在BI之前对个种数据源需要清洗,关键是确定原则,去那些数据,如何取法,,那些直接去,那些转换,以及先后顺序,数据量级,处理时间等每个环节需要有检测,数据数据流是否连贯通常,最后监控,数据流那里出现问题,即可清晰,清楚的了解,在进行集中。

      回复[2] 2012/11/19 09:02

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");