大数据分析 ─ 知变与机遇

标签:电子商务安全转型商业智能云计算

访客:30669  发表于:2014-05-06 14:59:06

大数据分析 ─ 知变与机遇

             嘉宾主持:计世传媒集团运营总裁 《 IT经理世界》 出版人/总编辑黎争

论坛嘉宾:

Ø 中国太平洋保险(集团)股份有限公司信息技术中心数据分析与洞见部负责人赵杰

Ø 中国联通集团平台与云计算研究中心主任张云勇

Ø 民生银行电子银行部高级专家翟南宾

Ø 中国生物医学统计学会副会长、军事医学科学院生物医学统计学咨询中心主任、博士生导师胡良平

Ø 赛仕软件研究开发(北京)有限公司总经理刘政

黎争:尊敬的各位朋友,大家上午好,接下来有请本次环节重量级的嘉宾,第一位是中国太平洋保险股份有限公司信息技术中心数据分析与洞见部负责人赵杰先生;第二位是中国联通集团平台与云计算研究中心主任,张云勇先生。第三位是民生银行电子银行部高级专家翟南宾先生,第四位是中国医学统计学会副会长、军事医学科学院生物医学统计学咨询中心主任胡良平,第五位是赛仕软件研究开发有限公司总经理刘政。感谢各位嘉宾的到来,咱们这个嘉宾的构成,我觉得非常好,各个行业的代表性,而且基本上覆盖了我们大数据应用的主要行业。大数据这个概念是从前几年兴起,起初大家对这个大数据概念迷惑,到现在大数据的应用已经变成一个应该是星火燎原之势,所以我们第一个话题想请各位嘉宾直接深入主题,结合各自在各个领域里面的应用,各个行业的特点,来谈谈大数据的价值是什么,因为只有价值挖掘出来,我们大数据的应用才有更好的前景。首先有请赵先生,保险行业的话,数据的大和价值,对保险行业,根据您自身的体会,它究竟表现在哪些领域里。

赵杰:非常谢谢李总,也非常谢谢SAS能给我们这样一个交流的机会,今天的人非多,我是来自太保,按照我们在一线从市场的占有率来说,我猜测里面30%是我们太保的顾客,第一男同胞可能比较多,第二是开车的比较多,大数据对于保险公司意味着什么,我前年看BCG,一篇很有名的文章,包括北美很大的保险企业,保险企业是没有脸的,他都做的非常大,体量都非常大,但是一般人很少知道,因为保险不是一个快速的消费品,所以说大数据对于我们来说很重要的一点,这个大是对于客户上,围绕客户我们能够怎么样更广泛的把他能够获取到。获取到的是什么,关键是SAS赠给我们的书,那个点数成金,我觉得这个来讲,关键你要从里面获得insight,说白了,我们有八千万客户,占到全国人口4.8%,这八千万体量这么大的客户,到底他的需求是什么,他的偏好是什么如果不知道这个,作为一个企业,往后从生存上问题都非常大。所以太保三年前我们启动了一个,也是吴总前面说的,我们战略去转型,想从一个以产品为中心的公司变成一个以客户为中心的公司。

黎争:打断你一下,你刚才讲的一个关键点,从产品到以客户为中心,咱们现场要不要做一个调查,你有八千万用户,咱们现场有上千人,咱们看看有多少是太保的用户。是太保的用户是举一下手。

赵杰:好像比我预计得要少一点。

黎争:我估计大家都比较含蓄,但是我看见吴总举手了,吴总估计是大数据里面比较大的数据,财险、车险额度都比较大。

赵杰:我们对吴总的服务可能不够好。

黎争:但我觉得您的机会也非常大,这里面有很多的潜在用户,以用户为中心的机会也来临了。

赵杰:第一个是从战略上,像我们原先,你可以到我们网上看我们的产品,出生30天到65岁都可以买,我们做的大众市场,没有差异化的,我们现在希望往差异化上走,我们希望20到49的能占到65%,从购买上来看,男性的地位越低,女同胞掌握家里的钱袋子,她关心家人的健康。这些大的趋势,根据客群的差异化,战略这东西出错的可能性比较小,关键怎么去落地,在操作层面上,怎么样能够让它真真正正去落地,就是说大数据洞见出来的,让这些insight能够变成你市场的活动,能够变成你新的产品和新的服务,这个路未来非常长,我们刚刚起步,我相信在座的很多嘉宾企业可能比我们太保做得好得多,所以我想借此机会,能够得到一些启发。

黎争:大概总结一下,赵先生认为这个大数据,我不知道你讲得对不对,最大的价值是在大的数据里面怎么去寻找差异化的价值,差异化的价值寻找得越好,大数据的价值发挥得越来豪华刚才太保说有八千万用户,但是咱们联通用户肯定超过八千万的从数据量汇聚来看,电信运营商应该是有深刻理解的,您认为对于电信运营商来说,怎么从管道,要寻找更多的价值,我相信大数据对运营商来说是个比较大的机会,请张先生谈谈您的理解。

张云勇:我也非常荣幸参加这个会议,现在大数据非常热,我们中国联通对大数据也是非常重视,正如主持人说的,从数据量体量这个角度讲我们是比较大的,我们至少有五大系统,一个是计费计量的BSSI系统写就是用户每个月要交钱的,第二个是网络管理的,另外还有一些平台系统、网络系统、外部合作系统,每一系统的数据实际上如果汇总起来的话都是P一级的,有些可能达到数百P的级别,这是我们理解的数据量的概念,关于这个价值我们也初步梳理了一下,大概有这么几个层面,第一个是客户服务这个层面,我们利用大数据的分析,可以提高客户的黏性,提高客户的忠诚度,降低客户的离往,降低客户的投诉。第二点,我们企业内部的经营分析和决策分析,我们利用海量的数据,用户的一些销售的数据,来针对性的制定用户的一些市场发展策略,包括套餐,包括终端补贴等等。第三点是我们的一些创新产品的孵化,可以来分众的对一些用户的偏好进行大数据的分析,来点到点的推出一些移动互联网的应用,来提高移动互联网应用的渗透比和用户的使用率和使用黏性。第四点对企业的变革包括组织架构的优化,大数据也起来达到非常重要的作用,简单讲就是八个字,降本增效,提升管理。大数据无论对我们中国联通企业内部还是对我们发展用户这两个方面来讲,都是非常具有价值的,因此我们最近在大数据方面也做了非常多的一些动作,我底下会分头跟大家来做报告。

黎争:张主任回答没法总结了,因为他总结得非常好。但是我有一个问题,您刚才讲到大数据运用好的话,可以增加客户的黏性,还能够增加新的客户,根据您的工作的话,中国联通运用大数据之后,中国联通用户的增长情况怎么样?

张云勇:我们是这样的,先说客服吧,没有用大数据之前以及用了之后,客服投诉下降至少10个点,这个数字是非常吸引人的,因为作为国企,国资委和工信部每年考核联通有一个指标就是客户投诉,这个下降对我们贡献非常大。第二发展用户,本身用户数并没有去统计,但是UP值确实有一个提升,很简单,我们把用户的消费信息、计费信息和他的终端信息匹配起来,我们可以分析出用户的一个数据使用习惯,他的套餐,来针对性地给他推广一些数据应用,来提升他套餐的档次,进而提升他的UP值,这个没有具体统计,目前来讲大家有目共睹,我们的UP值实际上是比较高的。

黎争:一升一降挺重要的,10%的降,成本也能降不少。谢谢。

现在互联网金融非常热,携广大用户共同创造产品,大量的用户本身是金融产品的一部分,所以从这个角度来看金融行业对大数据的应用的话,我觉得这个背景非常的有意思,咱们民生银行一直是在银行创新领域里面做得比较领先的,请翟先生,您是高级专家,您怎么看大数据在金融行业里面的价值的应用,尤其是民生银行在这方面有哪些新的突破?

翟南宾:先感谢今天吴总要求,因为对SAS这个是有一种个人情怀,我自己刚才还说,工具也好,公司也好,个人有比较深的情结在里头。我2009年回来就加入民生银行,要回答这个大数据,我觉得所有的数都是一个相对的概念,我也不知道什么时候突然间从小数据变成了大数据,我也不知道哪天就发生了这种变化,我们经济学经常讲微观经济,宏观经济,还有人讲中观经济,我不知道这个延续的过程。我自己感觉这是第一点的认识。第二点,现在对大数据我觉得可能我自己感觉不是说什么东西越来达到越多就一定越好,这也是我个人的一种认识,我觉得纯粹的谈这种海量、洋量,海和洋多大我觉得不是最重要的事情,重要的是海洋底下存的石油有多少,能不能勘探出来,能不能加工,为民造福,我觉得这个可能是最终目的,所以从大,我们讲大数据的时候,最常用的概念就是四个V,我自己能够感受到的周边的环境,我觉得肯定是在变化,我觉得现在感受得可能比较直接一些的是,从我自己这几年感受,数据的多样性可能来得更快一些,比如说我们现在做的互联网金融或者我们讲民生银行搞的直销银行,所谓直销银行本质上是客户不要到网点上去开户了,可以在手机端、网上开户交易,这个牵扯到一个问题,牵扯到数据的多样化,传统上你可能去签个字,留一大摞文字的东西要签个合同,可能去网点,去买理财产品,这些都是可以电子化,完全可以在一起。我觉得形式上的变化对我来讲感受更深一点。最后一个是它的价值,这个价值究竟怎么体现,用我们银行的术语来说,实际上是一个决策支持,决策支持不管是目前从营销、风险、财务、运营等等角度来看,现在我觉得应该说在银行这个体系里,我觉得在信用卡领域这块做得比较精细化一些。当然对公业务这个是撇开的,因为银行里头业务板块很多,像对公业务、私人银行等等,传统的这种,我们讲的金融市场等等,还有公司很多,这块的数据本身也不是那么大,用户也不是那么多,主要是在零售这个板块。零售板块再细分的话,目前来看可能是信用卡这个行业,客户数本身也多,分析方法手段也比较接近国际上的先进理念方法和手段,下一步我觉得比较好玩的可能是电子银行这一块,所谓互联网金融这一块,我觉得应该更接近于我们这个大数据和商业智能的概念,更容易落地和实施起来。

黎争:在海洋里面挖石油,石油很重要,大家知道咱们中国的金融行业,原来收入的来源,大致应该是70%左右是来源于存贷差,但是比较市场化的国家,主要的收入超过一半主要是来源于增值业务的收入。随着未来的发展,互联网金融的冲击,未来主要的方向怎么增加增值业务的收入。增值业务某种程度上来说,从广大的存款或者是贷款用户里面,去挖掘出来能够贡献增值业务的这些人或者这些项目这些产品,来提升这个银行的新的能力。在这一块不知道银行有什么样的方式,怎么样找到这些有价值的能够发觉增值业务的群体。

翟南宾:我理解你的意思大概是这样,在国内的银行业,利差这一块大概是占75%、80%,应该是在70%多,国外可能是倒过来,非利差的收入,靠各种各样的手续费、佣金、咨询等等,一方面可能是监管的,本身市场的进程还没有,因为利率还没有市场化,银行自己很多的产品还不能自己定价,虽然现在贷款已经放开了,但是最后市场化的一个标志性是存款这块,这是一个市场和监管的原因。第二块,我觉得也有消费者行为的变化,因为大家长期,我看到国内,比如说你在美国的话,你申请一笔贷款,你是要交一百美金的,不管你这个费用有没有被批下来的,是你付出的服务费,这个可能在国内就行不通。我觉得有时候消费者也是一种习惯,也会被惯坏了,这都是一个市场和行为逐渐的变化,很多东西我个人觉得应该是收费的,但是反而没有收费。你提到那个我觉得很好,差异化的问题,我觉得其实最关键是落在差异化上,什么样的客户他愿意收费,你提供服务,他愿意交点钱,最终落在怎么样更好的把客户分层,根据他的消费行为,根据他的潜力,把他分层,分层以后通过不同的渠道给他提供更好的服务。

黎争:其实大数据,我记得大数据这个概念刚出来的时候,经常举个案例是,关于大数据可以预测疾病的发生的状况,比如说根据某一个地区的,比如说感冒药是不是卖得比较火,就可以判断这个地区感冒发生的状况。这个领域里面,我相信咱们胡教授,您应该非常有发言权,在这个领域里面,我相信刚才咱们这三位都是行业应用方面的专家和代表,胡教授从事的事情跟民生都是相关的,跟我们的生命健康是相关的,我觉得这个价值是真正意义上的普世价值,请您谈一谈大数据在医学方面的应用。

胡良平:我搞的专业比较窄一点,主要是生物医学统计学,跟诸位都不一样。但是我们这个很窄的专业对统计学的需求还是很高的,好多的研究离开了这个统计分析,基本上就不可能的事。我们平时做的工作,从一开始到现在,主要还是一些比较精确的设计下获得数据,最近这些年逐渐向大数据这方面有一个转化,尤其是基因图谱的挖掘出来以后,人的健康或生病这些方面,跟基因的状况是有关系的。而基因一般是很多的,几十万甚至上百万个基因,这个基因上又有很多的位点,不同的疾病会在不同的基因位点上有一些表现,这个大数据的这种挖掘、规律的寻找,在生物医学领域里价值就很大,就是寻找疾病跟基因之间的一些关联性。如果从价值的角度来说,那价值是很无量的,因为到目前为止,现在还有很多疾病,全世界还没有攻克,这些都是其实很多是跟基因有关系,当然也有好多是跟环境有关系,现在环境污染也很严重,环境这里面也有很多因素,这些因素从数学的角度、统计学角度表现出来就是所谓的变量,产生的结果就可能会是导致某些疾病的发生,那就是结果,结果也有很多,原因也有很多,受施对象是全中国全世界人,就是群体,大数据应该表现在一个是危险因素多,再一个是评价的指标多,还有一个是受施人群多,这么三个大的方面,我理解大数据大就大在这些方面。它的价值当然是无限的,可以说是不同的领域有不同的目的,你只要把你这个目的里面的问题搞清楚了,用我们的语言来说,弄清楚哪些是真正的危险因素,它会直接导致哪些结果的发生,就是我们做统计分析的目标,实际上也是大数据分析的价值。

我另外还想讲一点,大数据应该分两大类,一类是像商业这种数据,那个数据是随机的,不由你控制的,哪些客户来了,哪些客户走了,哪些客户有什么嗜好,他喜欢什么东西,不是你能控制的,你只能被动的分析它描述它,这是一类。另外一类就是我们搞科研的大数据,一般来说应该有事先的科学严谨的设计,然后再去有的放矢的收集数据,这是前瞻性获得的大数据,这两类大数据从描述分析的角度来说还是有些区别的。如果从科学性的家度来讲,可能后者更容易发现一些内在的规律,前者可能更多的在样本量比较大,通过一些描述,通过一些分析,能够找到他客观存在的规律,而不是我们有意识的去设计好了哪些原因可能导致哪些结果,我的理解就是大数据分两大类,一类是自发的随机产生的,另一类是主动去设计的前瞻性的去控制的产生的大数据。

黎争:胡教授工作的大数据价值的体现是非常直接的,人类寿命的增长,这是最直接的效果,当然人类寿命的增长,对在座的各位嘉宾都有好处,人寿命增长了可以买更多的保险,当然可以使用移动电话的时间会更长,服务的时间会更长,也会有更多的钱存到银行里,当然SAS也可以提供更多的解决方案的服务。接下来刘总,您可能比较超脱,超脱行业来看大数据的价值,可以从更横向的层面来看大数据的价值。

刘政:因为我是做数据分析软件的研发工作,我们的关注点可能更加宽广一点,不一定说在一定的行业里面。应该说大数据还是一个相对的量,目前我们感觉到非常大的压力,说大数据来了,整个社会现在都在喊,就是因为我们对数据处理的能力目前还达不到这个要求。我们现象处理结构性的数据,基本上还可以,目前大部分数据都是非结构性数据,除了这个文本以外,还有音频视频图像,这些东西的分析其实我们现在还做不了,我们确实感觉到这个是一个非常大的数据。我们考虑,一个数据量大,那是与我们分析手段有关系,随着我们分析的能力提高,硬件速度提高,超级计算机的使用,现在这些数据量我们觉得还不大,以后更大的数据量才是大数据。

另外一点,数据量大了是不是真是大了,从我们统计学的角度来看,我觉得数据量还不大,因为你得到这些样本是不是就能看到全样本的特征?现在好像还都达不到,就是说我们还需要更多的样本,我们才能看到全样本的特征。这样的话我们就可以比如说通过简化模型也好,用更简单的分析方法也好,我们就可以得到这些结果。这个东西应该说是一个相对的。大数据的价值,应该说最大的价值还是对我们整个社会的影响,对我们整个产业的影响,对我们一个思维的影响,刚才陈教授也讲到了,对于我们整体思维,我们决策过程,我们整个商业过程这些影响,它的这些价值远远比一个单个企业做分析或者什么得的价值更大。所以为什么这么多人来参加这个会议,我想这个大数据的到来对大家的冲击非常大。

黎争:从刘总的,我不知道理解对不对,大数据的价值或者应用到现在,实际上已经从单一的企业开始往整个商业领域甚至是整个社会治理运行领域里面去发展,从这个角度来说,它可能已经变成咱们这个社会的一个有机的整体了,或者是不可缺少的一部分,从这个角度来说,它具有更广泛的社会的价值。

咱们开始第二个话题,当我们明白大数据的价值的时候,或者是我们试图不断挖掘和探索大数据的价值的时候我们需要的是行动,我们该如何行动,如何在我们所服务的架构里面去推动大数据的实施和落实,我相信这是非常关键的一步,而且是面临挑战非常多的一个环节。也想请各位嘉宾结合自己的工作,最好跟我们分享一个案例,你如何在您自身的企业里面去推动大数据的落实。

赵杰:讲案例是挺好玩的,因为今天下午的演讲也非常期待,今天下午演讲有大量的案例,跟我们本业可能关联非常大的,因为对于这个保险公司来说,这个商业模式,它对风险要做管理,就是说你怎么能够去辨别风险,这是非常重要的环节,因为现在整个监管来说,可能对于保险整个行业来说,将来是一个费率的市场化,监管机构不再是一刀切,允许你定价,这样就等于说你怎么能够反映定价的差异化出来,所以前面对风险的评估,具体聚焦在哪,比如你有了车你要买跟车相关的保险,现在我们基本上保险公司车险的定价这边更多的是从车的因素比较多,你开同样的车这一类人的费率比较相似,但是车是死的,人是活的,驾驶的行为习惯以及人的性格可能会更多的影响到,但是现在我们拿不到那些直接的行为习惯,比如说你在观察期间,你出险的频度和强度怎么样,用的GRM的模式,预测变量,频次怎么样,强度怎么样,因为分布不一样。这样一来,我们给两个核保,让他可以对这个从高到底,能够大致排一下,最大的作用是什么,我们也是希望你做市场以及做客户的选择的时候,可能能够更好的体现出企业和客户之间互惠互利的关系,比如说你几年都不出险,风险比较低,我们怎么样能够真正让客户感受到保险公司真心的服务或者很实惠的行动。这个模式我们在网上第一期已经部署了,然后就是观测半年,其实这个模式我们也是跟SAS一块的。

黎争:用户怎么感受到?

赵杰:用户这边我们可能对风险更高的那部分有一些,他风险高,给他的保险费,其实相当一部分人是不公平的。

黎争:通过这套系统可以判断人的驾驶行为。

赵杰:因为驾驶行为现在这块的一些变量我们还没法拿到,怎么样能够差异化,关键因素,风险没有标签贴在每个人身上,怎么去把这个变量算出来。我前两天读一个报告,驾驶行为习惯比传统的预测要高出两倍多,就是人从车的以及原先过往的表现远远高于这个,当然这个现在国内大家在尝试这个阶段,所以将来你数据源越来越多了,你有更好的变量,你怎么样更好的更精准的去,总结下来是应用驱动,我们聚焦一个特定的领域,然后看特定因素是什么,然后看这些变量,一步一步来。其实SAS有很好的模式。

黎争:赵先生刚才讲了四个方面的大数据的价值能不能就其中一个典型的案例,看联通是如何应用的。

张云勇:我讲几个大家通俗易懂的大数据案例,这个数据可能不一定非常大,但是也算我们数据挖掘的几个案例。第一个是基于位置的出发,大家手机漫游到哪个小区的哪个基站,我们后台的OSS系统通过这个大数据分析是可以知道的。举一个非常通俗易懂的案例,比如说在西单地区办公,我们这个基站有这个数据,系统可能就知道,比如咱们主持人在这边,就给他推送旁边哪个商场的促销活动,这个必须要实时,如果说你经过很长时间的挖掘,已经误差三个小时,那说不好这个主持人已经不在这了。所以这个是大数据对我们真真实实的一个价值,就是要实时处理,就是比较经典的一个案例。第二个案例,我们知道大家数据访问的习惯,比如你一个月用1个G的流量,其中有多少时间是在晚上的,那我们可以针对你,比如晚上多的客户,晚上多给你一点,因为我们的网络晚上非常闲,你这样用对我们网络的消峰填谷也是非常好的,我晚上给你更多的。第三个例子,我们还有一个非常大的数据库,我们是终端的数据库,比如说我用iPhone或者三星的,你可能会访问这样的网站或者那样的网站,是经过我们通信系统网络访问的,实际上你访问的参数,我们称之为终端参数我是知道的,知道你是什么手机,知道你的操作系统是什么样的,这样我以后开展移动互联网应用的时候,就可以直接跟你推送IOS版本的,跟另外一个人推荐安卓版本的,之前没有大数据的话是非常糟糕的,给大家推荐一个地址,结果用户一点进去,发现苹果手机用不了,通过这种大数据,做到分众的推广,所以效果也是不错的。实际上大数据价值是非常多的。

黎争:刚才讲这几个案例,我觉得听起来确实是非常直观的能够让消费者感受到里面的非常贴心的变化和服务,在刚才上来之前跟张先生有间断的交流,在交流中得知民生银行应该是比较早就开始实施一些大数据的方式,一些项目,来帮助民生银行的发展,我相信在这上面应该有非常好的经验、落地的经验跟大家分享。

翟南宾:现在我觉得是在一个,我突然间想起来十几年前有一个词很时髦,那个时候经常讲一个词叫信息高速公路,其实我觉得想想也很有意思,那个时候讲的是高速公路,是在地上的,如果照这个逻辑讲,今天就跑到天上了。但是我一直想强调,升级不一定意味着要多大,我觉得现在银行本身来看,其实很多数据现在还没有进行有效的挖掘,坦率说,我相信我们其他行业也是同样的问题,很多有效的数据,我们讲银行里头的交易数据,这基本是最底层的,这些交易数据都有,但是你真正问哪家银行,真正通过基于客户的很纯正的实时的交易行为,推荐一个什么产品或者营销活动,或者建立一个模型,我估计目前还是没有的。第一个是原始的交易,不是汇总的交易,第二个是实时,这个现在还做不到,基本都做不到,不管保险还是银行,我觉得数据量都是很大的,但是还是要回到那个问题,哪些东西是有价值的东西,我觉得这个首先要搞清楚,我也自己见过很多开发的模型,最后没有真正去用,也没有产生所谓的价值,因为你最后产生所谓价值,不是说领导知道旧好,一定要能够拿出可以量化的投资回报的这么一个概念,我也很同意陈教授一开始说的第一个思维,能量化的东西一定要量化出来,做一个东西出来以后,仅仅博得某一个人的好评,但是这个没有依据,我觉得目前还是有难度的。本质上来说,我个人觉得在很多方面也无所谓大数据还是小数据,比如说拿统计方法,统计学方法现在跟过去本质上也没有太多的变化,还是那些方法,但是可以做的事情很多。

回到刚才问的问题,现在最时髦的话,在银行界讲互联网金融,讲到大数据难免不讲互联网。在具体的案例上,目前来讲,我本来想讲一个案例,联通的刚才讲了,其实他的数据很有价值,移动端定位的数据,这个数据如果能够商业化的话,我们跨界合作,任何一个行业可能都需要这种跨界的合作,其实你那些数据可能产生的价值,当然没有红线和监管,如果拿来大家都能用,这个是无限的潜力在里头,因为你可以完整知道一个客户一天到底在什么地方,几乎可以说在干什么,因为他在什么地方可能就决定了他在干什么。

黎争:我觉得完全可以跨界合作,比如到银行网点附近的时候他可以推民生银行的服务。假如说有人开车打120报警说出车祸了,那可以推太保。

翟南宾:我们跟保险还算一个行业,但是跟运营商就跨界了,再加上互联网公司,那就真正意义上跨界了,我想这个融合也正在发生,而且我们也知道很多家银行不管是中信还是平安都有这种案例在发生。回到最原始的,本身这个数据在背后起的这个作用,我觉得在目前为止,一个是数据,一个是分析,我想把这两个概念分开一下你有再多的数据,你分析得不对,那你还是不能产生价值你很少的数据,但你分析得非常好,非常到位,有的东西也不需要那么多数据,可能也能分析出很好的结果,所以是相辅相成的关系,应该平衡这两个关系。所以我觉得SAS做得特别优秀的是,它不但能处理巨大的信息,同时还提供了很多的分析的方法,看问题不同的角度。所有这些东西要基于人,技术再怎么发展,最后还人的因素最关键。

黎争:翟先生总结我用两点,第一个是行动还有好多没有行动的地方,赶快行动,第二个是跨界一块来行动。我想请胡教授,在咱们中国的生物医学统计里面,刚才您讲主要是在基因方面,有没有通过大数据的方式,咱们在整个基因的统计,尤其是在疾病方面,有没有实质性的进展的案例,跟大家分享一下,比如通过咱们的工作能够取得比较突破性的进展,在基因领域里面。

胡良平:医学里面现在主要就是在做某一些疾病跟基因的关系,比较具体,像我们现在就有博士生在做结核病跟基因的关系,有一些是已经得了结核病的人,测出他们的基因,90多万个基因,还有一些是没有得结核病的人,也测这么多基因,得结核病和没得结核病,他们在这些基因上表现有什么不同,就是要筛查出有差异性的基因出来,现在已经在做这方面工作,而且也有一些初步的结果出来了,还比较好,以后还可以做其他的疾病,比如说各种传染病、各种癌症,都存在着不同的疾病,他在不同的基因上会有一些差异的。一涉及到基因,它肯定是一个大数据,这个大数据主要是表现出来变量多,样本不是很大的,因为这个测基因是要花很多钱的,要是测上个几十万几百万人的基因那是测不起的,现在就是几百人的样品的数据,所以现在大数据在医学界是表现在影响因素上面。受施对象数目还是相当有限的,他受到了经济条件的限制,不可能是很大的样本。

黎争:大数据需要大金钱的支持。补充一个小数据,刚好我昨天看到,中国的疾病发病率排到第一位的就是肺,所以您刚才讲的肺部的毛病,您现在正在做的结核方面的基因的研究,我觉得非常有价值。谢谢胡教授。刘总,您从行动这个角度来说,我觉得您应该非常有发言权,因为你们一直在行动。

刘政:我讲一下关于数据分析技术方面的东西。我们知道做数据分析现在处理大数据,关键是一个速度问题,我们怎么来解决速度,我们做数据分析是要读取数据,我们现在使用的是内存的技术,你可以很快的从内存里读到数据,而不是从硬盘里。另外我们做数据分析多时候,我们会把数据从库里读出来,然后拿来去做分析,这个过程有一个数据传输的过程,当这个数据量大的时候,传输的时候速度就非常慢,我们现在使用的是库内分析的办法,我们把分析的方法、机制、模型全部放在数据库里,减少数据传输的过程。第三个是数据分析手段,我们知道我们要运行程序,我们现在都是使用的比如说各种多核的、多CPU的、分布式的、网格式的、平行计算的方法来提高速度。通过现在把这几种结合起来,这样在整个数据分析的过程,我们能够极大的提高速度。还有一点展示的过程,我们现在使用可视化的工具,大家要是用的SAS应该知道,SAS最早使用图形的在统计分析领域里面,我们现在推出了SAS可视化产品,说在商业领域是最成熟的一个产品,这是我们在展示层。另外一个是我们现在也建立了数据中心,还有就是给我们学校里的老师和学生提供这种使用云上的过程,这个应该是整个商业模式的改变,将来我们给大家提供是什么,我个人和银行是同样级别的,我们都是去通过网上去订,使用云进行数据分析。现在大的企业可以买SAS软件,然后自己运行自己用,我个人想用的话我就比较困难,我买不起,将来这种模式应该是这样的。这是关于云计算。

在应用领域里面,我们现在比较看重的比如说像反欺诈,应该说在解决方案里现在是最火的一个,我们知道美国每年会有上千亿的社保基金会被欺诈,我们现在国内政府、地方政府,现在最感兴趣的大数据应用就是社保部门,我们也给民政部做过一些培训,民政部他们一个关注点,因为他们每年也有上千亿的扶贫资金去给下面发放,对于人员的贫富程度的判定,这几个非常关键的点。还有决策管理系统,我们希望把整个的决策过程按照一定的模式把它做成自动化,这个也是一个非常重要的应用领域,再有就是数字媒体,刚才我们也可以看到有些嘉宾也介绍数字媒体,现在比如说通过手机、移动互联网去做各种交易,还有电子商务,我们都会产生非常多的数据,这里面的价值,比如说广告的价值,还有各方面的价值非常大,所以在这个数据分析领域,你要是找哪些分析方向,这其实也是一个非常好的方向。再有一个就是风险分析,也一直是比较热门的地方,大家可以看到银行各个部门都会有一个风险分析部门,应该说在这些解决方案的领域里面,SAS也都还是做得不错的。

黎争:我们今天的主题叫知变与机遇,有机遇就有挑战,有行动就有挑战。最后一个话题是关于挑战,请每一位嘉宾用一句话来描述大数据的应用,大数据在未来发展中最大的挑战是什么。

赵杰:我很同意翟总刚才说的,从数据来说,大和小是无所谓的一件事,关键是用来干吗,所以第一个还是说应用驱动,你把问题定义对了,这个问题可能一大半的事都搞定了,还有一个是陈教授前面说的跨界,大数据的大一个是人的跨界,因为你不同的背景不同的技能能碰撞出很多东西,还有一块是数据的搜集,他知道你每天的行踪,你知道你每天在互联网上干吗,去了哪些网站,这些东西我们保险公司也好,包括银行也好,买东西我知道,你买东西之前干吗,买东西之后干吗,不知道,这要洞见,这是蛮大的一个挑战。当然现在企业都挺担心的,我会不会损失什么,但是我觉得将来释放出来的价值远大于你的付出。

张云勇:挑战一句话是很难讲清楚的,第一个最大的挑战是数据立法,因为必须要保护用户的数据安全隐私。第二个是数据准确性,数据再大,如果数据不准确,更是灾难。第三个是人才,尤其在中国来讲,目前高校院校或者数据挖掘人才是缺失的。

翟南宾:机遇很多,总结出来,就拿一个案例来说,最简单的在座的都有手机,钱包,对我们银行来讲,尤其对电子银行来讲,我希望五年内看见你们有一半的人不用再拿卡片,这是一个大胆的假设,这个意义,因为全部都线上可以做这些事,这个其实背后的机遇很大,因为大家知道现在民营银行,腾讯已经可以开始办银行了,腾讯如果办银行的话,他的支付跟我们传统拿银行卡去消费会非常不一样,而且中间会省去很多环节。最关键的给商户交易带来的成本很低,这个对银行来说机遇非常大。挑战肯定存在,一个是风险,风险有多方面的风险,最大的一个我想就是说对客户的安全性,这个是个很大的挑战,因为你所有东西都要在线上实现的话,第二对监管也是个很大的挑战,所谓创新跟风险也是一个相对的东西。你每创新一步,其实都意味着风险,而且我也都看见一个事实,美国金融危机的时候,损失最惨重的其实是创新走在最前的,所以我觉得这个东西要思考一下,如果你不敢承担防风险还是保守一些,如果你要创新,可能要承担风险。

胡良平:我认为挑战这方面两个方面,一个方面就是像这些跟营销有关系的这样一些数据,这些数据你是不能控制的,有什么你分析什么。这个最大的挑战,一个是现在一些技术问题,另外一个是将来怎么普及的问题,是只有少数一直做大数据的人才能做,还是大多数人想做这件事情的都能做,这就涉及到一个普及的问题。另外一个层面,我们所讲的那种科研的大数据,这种大数据就是一个问题,就是混杂因素的影响,你怎么把它排除掉数据很多,但是不一定分析出来结果就是正确的。

黎争:胡教授里面关于挑战有一个关于技术的,刘总怎么看这个挑战?

刘政:我觉得现在大数据信息很多,各有各的说法,理不出头绪,所以我希望大家能够按照一个正常思路,能够把这个头绪理清楚。第二是关于投资回报,大数据投资不是一个IT项目,大家玩一玩就完了,你投资进去是要有投资回报率的,你就想想你这个大数据投资有没有回报。

黎争:非常感谢各位嘉宾,前两年有一个说法,人人都是一堆数据,数据社会已经来临了,从这个角度来说我们只能去顺应这种变化,要质变,当然在这种大的变化浪潮中,也是新的机会的开始,希望通过各位嘉宾的分享,能够使大家对大数据未来的发展带来启发,也谢谢各位嘉宾的参与和互动。

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");