非结构化的大数据设想

标签:大数据BI数据挖掘OLAP挖掘算法

访客:34613  发表于:2013-07-02 17:02:36

#CIO演进#

一、结构化的大数据进化

     传统的关系型数据是目前信息系统应用最多的数据库平台,随着信息系统的深入应用,数据仓库的建立和多维度的数据分析要求日益增加,于是乎,数据挖掘、联机分析处理(OLAP)、商务智能(BI)的概念和应用日盛。

    国内大多数的中小型企业,主要用来报表展现,KPI指标分析和企业绩效考核。对更深次层的决策模型和预测模型、预警模型良好应用的较少(个人观点)。   

    国外的商业智能的几种常见的数据挖掘算法,比如:决策树、聚类分析、贝叶斯算法、关联分析、神经网络、时序分析、线性回归等经典流行的挖掘算法,对国内的大多数IT从业人员来说,更多的是在学习和研究中。
    所以本人认为的大数据是BI的进化,更深层次的应用仍然需要行业大佬们任重道远的责任和推广。

二、非结构化的大数据设想

    非结构化数据的载体众多:各种电子文档、图片、声音、网页、微博、微信等等。目前感觉没有很地的处理这类“大数据”,因为这些数据不太适用关系型数据的挖掘算法。
  
    个人设想:把各种电子文档进行标签分类。类似WORD文档的摘要、自定义文档属性等形成关键词,结合搜索引擎工具,做好大数据的知识、属性分类管理。再或者,对电子文档进行软件分词,再结合标签属性库(标签模型库)进行类似聚类、关联分析,以此来收集、整理成结构化的数据。再应用结构化数据进行挖掘算法分析,得到大数据的金矿。(个人观点,抛砖引玉)

评论(7)

您可以在评论框内@您的好友一起参与讨论!

    1. 周延峰 我了解的一种大数据的概念是,所有的数据都是结构化的数据,电子邮件,图片等实际上也有他的结构。只是原有的管理系统无法很好的处理它,所以认为他们是“非机构化的”。
      而hadoop,xml,sgml等技术和标准的出现,实际上已经令传统的非结构化数据越来越结构化了。
      至于数据分析方面,我同意你的观点,国内目前还是以静态数据报表的应用多。在动态实时数据分析方面,应用还是非常落后。

      回复[0] 2013/07/08 21:31

    1. 杨垒 对于个人设想部分,好像与企业知识库,企业文库中心等知识管理方面的架构很相像,现在也有专业做这方面的。

      回复[0] 2013/07/05 07:55

    1. bsmi-申宏杰 这个,无法置评。

      回复[0] 2013/07/03 22:28

    1. 谭雯 大数据时代谁与争锋![em_0]

      回复[0] 2013/07/02 23:41

    1. 张卡尔 我觉得,陈总还是需要认真关注一下这些方面的行业进展。例如数据仓库,在大数据等冲击之下,几乎都或许会崩盘了。大数据是否BI的进化不重要。重要的是,大数据不只是BI,也不知是数据挖掘。你对非结构化数据的标签处理设想,有点开行业倒车。酱紫想一想。谷歌同雅虎之争,是谷歌搜索,雅虎分类。雅虎的分类,就是打标签哦。

      回复[1] 2013/07/02 21:48

    1. 殷勇 强烈支持!#CIO演进#第一篇!

      回复[1] 2013/07/02 17:36

    1. 张嘉奕 感谢陈总分享,话题已推送至e行网“热点精华”页面

      回复[0] 2013/07/02 17:17

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");