民族证券大数据“淘金”记

标签:大数据

访客:27851  发表于:2012-08-10 14:12:32

在今天这个大数据时代,几乎各行各业都流传出关于大数据的神奇故事,证券业也不例外——根据国外媒体报道,美国印地安那大学和英国曼彻斯特大学的学者通过提取Twitter上的关键词分析公众情绪,再将情绪曲线与道琼斯工业指数进行对照分析,发现可以提前3-4天预测股市大盘走势。基于此,他们已经推出了欧洲第一只基于社交媒体的对冲基金。

不过,这只是发生在国外的大数据案例,国内的证券公司究竟如何理解大数据?他们是否已经开展了大数据实践?为此,《网络世界》记者特意采访了中国民族证券有限责任公司(以下简称“民族证券”)信息化建设相关负责人万方(化名)。

“虽然提起大数据,人们有意无意地都会强调非结构化数据,但根据业界公认的大数据的定义,大数据包括结构化数据,半结构化数据和非结构化数据,而在我们眼中,不论何种类型的数据,它们都是值得重视,饱含价值的,因此,我们针对结构化数据和非结构数据都开展了相关实践。”万方说。

据介绍,三年前,民族证券就启动了“数据中心”项目。该“数据中心”并非指传统的IDC,而是指整合信息系统中的各个数据孤岛,制定数据规范,进行数据治理,实现数据的一致性,准确性和完整性,以便于数据挖掘和分析。

万方表示,目前这个数据中心里绝大多数都是结构化数据,其数量已经达到TB级。“这是我们民族证券积累了多年的数据,不可能不对它进行整理和利用。事实上,几乎所有企业在试图挖掘数据价值时,都会首先从历史积累的结构化数据入手。”他说。

民族证券最终选择美国勇攀科技(Alpine Data Labs)的数据挖掘软件对这部分数据进行分析利用。勇攀科技技术总监顾斯阳告诉记者,该公司的产品不仅支持对传统结构化数据,也支持非结构化数据。

顾斯阳将企业在大数据挖掘过程中面临的挑战归纳为三方面:第一,数据方面的挑战,企业要了解自己掌握多少数据,数据的纯净度如何,数据的可信度有多高等;第二,流程方面的挑战,企业做出正确决策的前提是数据挖掘和决策的流程是正确的;第三,人才方面的挑战,企业需要掌握正确的数据挖掘方法的专业人员将数据转化为价值。顾斯阳表示,勇攀科技提供大数据解决方案正是很好地解决了这三大挑战,帮助用户快速获取数据价值。

不过,民族证券并没有部署勇攀科技面向非结构化数据挖掘与分析的功能模块,而是从研究角度出发,进行独立研发。据万方介绍,他们主要是从网络上采集非结构化数据,导入数据仓库,建立业务的处理模型,而硬件平台这方面则全部采用的是基于英特尔处理器的x86服务器。万方表示,从该研究项目中,他们收获了许多宝贵经验,而最值得与业界同仁分享的主要有以下几点:

一是基于自然语言的分析其实比较难,最好将分析主题定得细一些,处理难度才会小一些;二是建设底层基础架构建设时,要在计算、存储与网络之间找到最佳平衡,才能满足大数据采集、存储和分析的需求。这一点,英特尔亚太研发有限公司总经理英特尔何京翔博士也持同样观点,他也强调,对于企业而言大数据是一个涉及到服务器、存储、网络和软件的整体解决方案,要从全局考虑;三是做大数据的分析与应用,全靠企业自身的话还是很有难度,而且不见得是最省事的方式。“我们很多工作花在平台的研究和开发上了,但最核心最有价值的工作其实是建立分析模型,应该将精力聚焦于此。因此,我建议企业用户在大数据平台建设上借助商用的大数据解决方案,如果要选择开源的技术,也最好采用有企业支持的开源解决方案。”万方说。

笔者以为万方的建议很切合实际。诚然,目前百度、淘宝等一些互联网公司是基于开源Hadoop技术来处理大数据,但绝大多数公司都不具备这样的技术实力,选择有商业支持的Hadoop发行版更加省时省力。例如,中国联通和海康威视就借助英特尔Hadoop解决方案,快速开展各种与大数据相关的应用实践。

“总之,我们认为还是要先建立数据中心,把整个数据资源整合起来,在此基础上引入大数据,才更有可能达到预期。”万方特别提醒道。

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");