王淳:大数据时代的思维

标签:大数据创新融合

访客:30239  发表于:2014-06-19 16:05:37

主持人:非常感谢李璀先生的演讲让我们充分了解浪潮在数据中心所做的判断性工作,我们本次大会是和SNIA合办的,我们也得到SNIA的大力支持,在这里有幸请到SNIA王淳先生,他的演讲是大数据时代的思维,有请。


王淳:各位好,我叫王淳,我来自于北京天云大数据,可能刚才大部分内容是偏重于我们去做高性能计算或者说去做一些计架整体服务,我今天的一个题目是大数据,大数据更偏重于的不是底层一些技术,因为我们在做很多事情的时候我们并不认为很多一些场景是有技术瓶颈的,没有技术上的问题都是一些思路上的问题,所以今天给大家分享大数据的思维都是偏重于一些客户的场景,到底客户是怎么去应用大数据的同时还能拥抱大数据,讲的是企业当中的CIO甚至新的名字叫CDO他们去想的一些问题,现在想云计算有两部分内容真真正正变云为雨落下来的,虚拟化解决是偏重于底层一点的技术问题,包括实现一些资源的灵活调配,包括实现一些这种使用多个部门,子公司相互之间使用有效资源的问题,大数据解决的是偏重于上层一点,因为毕竟我下面一些甭管是虚拟化还是物理这样一些环境,支撑一些业务系统产生数据,这些数据产生放到那里是成本,用起来才有可能是利润,现在越来越企业考虑数据怎么再次发挥价值,去真正发挥出它的一次叫二次盈利也好,再利用也好场景出来,甭管是体系架构也好,都设计到IT架构当中老牌IBM、微软,或者像一些传统的很经典的老牌厂商的产品,所有这些东西都是一些很新的东西这些东西能够跟现有的环境做到混搭,各自发挥自己的长处和优势,各自去解决各自的问题,虽然现在超的很厉害叫去IOE,这个词有太绝对了,而是说它需要各自搭配起来去实现很多这样一种具体的应用或者说哪怕是很窄的一个领域,后面我们会去给各位讲一下我们的案例,甭管从存储还是大数据,去看一下是大数据更新一点的思维。

首先我们看到的是银行,在银行里面举一个很简单的一个例子我们在银行里面,很多银行最先想到大数据的时候都是一些非核心的,或者说是叫一些偏重于叫分析这样一类的应用场景,最主要一个就是历史数据,举一个很简单的例子,全部数据能够放到一套系统进行查询,这样交易是很难以前的一笔交易因为这个存折指不定在箱底压了多长时间了,现在有一些银行无法去实现查询13个月以前这样各数据,基本上各个银行都能够保证在一级存储当中曾经12个月加这个月,如果想查五年的要跑到词台库里面,这个过程第一要很多时间,有些银行要对这个进行收费,所以在这个地方第一个提出要求是说我要从开张以来一直到今天所有数据放到在线查询当中去,可能并发的峰值会达到上千个并发,查询过程只给半秒钟到一秒钟,可能几十几百甚至是一个多PB的存储规模,当然不是说像以前数据库加上小型机这类不能存,如果达到这么高的速度成本受不了,这家银行算全国性股份制吃螃蟹的人,把它从2000年有了核心系统之后,所有数据都存下来了,你只需要给出一个帐号,给出时间范围,不给时间范围给明细都可以查出来,不会由曾经核心系统,或者说曾经偏重于核心系统去承担,因为这些系统都是非常非常高端且昂贵的支撑,做大数据量扫描的时候有可能严重影响我去做核心业务,再有我去支持非常高速的查询,因为一笔查询从数据库出来经过中间各种各样环节以及展现环节才能到前端截面上来,所有数据都在线可以做其他一些,比如说数据挖掘,在这个片子当中大家看到根据用户储户行为数据去做很多场景挖掘,从而实现让银行把自己产生的数据去再利用,或者再次二次销售出来,比如说基金产品的推荐,现在卡里有多少钱,你曾经买过什么样产品,或者说我看到今天买了什么样基金的人有了什么样的行为我去看现在还没有买这个基金的人却有同样历史行为的人,我可以做类似协同过滤的方式刺激银行里面去做更多产品的销售,这样一个例子就是在银行里面去使用大数据的时候,尤其我们去说大数据,基本上大数据所有相关产品和技术都解决了存、算、查、挖,第一个实际上就是存,很多大数据的场景很多客户场景当中第一个要求就是全量数据时时在线,不是说传统架构做不了,可能第一成本比较高,第二性能如果在低成本情况下,保证不了高性能出来,所以都会考虑存的这样一个概念,之后会涉及到计算、查询、挖掘的场景,同样也是挖掘的场景我们在运营商的领域里面,运营商除了互联网公司之外去拥抱大数据技术比较早的行业了,那么像在这个例子当中其实就是一家运营商的一个省公司,只不过这个省偏重用户比较多一些,当时简单计算一下全省大概七千多万用户,每天大概这几千万用户会产生大约300多亿条的上保行为几乎,就是我们打开手机敲进一个UL的地址,我继续往下搜索,或者你点开APP都会有UL的记录下来,所有记录都会被记录下来,大家会觉得比较可怕,作为运营商来说我们一些行为能够了解非常非常细致,假设每一条应对网页是11.9k,相当于大概其每天我在网络上传输或者说我要去存储一个数据量级,最少也是500TB的量级,当时用户自己就说其实我知道传统一些关系性数据库不是说做不了,如果我不花那么多钱可能今天数据没有存完明天数据已经过来了,只有通过大数据技术第一先存下来,第二能够把它算好,第三能够用算的结果挣来钱,最终目的是去盈利,通过一些我抓下来是网页,这样网页不能用传统关系型数据库去存,我在我的大数据一些相关技术当中我需要让机器读懂一篇文章比如说看到用户访问新浪网页,我希望他知道喜欢的是汽车还是美女,这些详细东西都要去考虑导致给每个人推送短消息不会是垃圾,要求你曾经看懂的文字这些东西需要机器来干,这些东西也是说到大数据涉及到存储和计算的时候我都需要借助大数据相关技术帮我去解决相干的问题。

还有一些大数据的场景其实更偏重挖掘,怎么讲以前我们一些挖掘是人给出一些规则,比如说我去判断哪些用户会买我新推出的产品,比如说他曾经每个月给我花了多少钱,或者说他曾经什么时候做过什么事情符合产品用户定位,这些东西都是人在给规则去做出一些判断和数据的筛选,有的时候我们经过机器无干预一些工作,我看到保险公司用户购买保单的行为,因为他们曾经认为这个人比如说月薪几万块现在一直在购买我的这样一些产品,并且基本上以1/3到1/2在买我的保险产品认为他是健康用户可以继续发展他,第一条显示年收入只有4.8万总标保2.6万,他用了他一半以上这样一个薪水在去购买保险产品,还有一个是什么呢?年收入只有2.9万高达每年6.3万万能产品的购买有人在透支买保险产品,但是这样一个用户你觉得他是一个好用户吗?当然是了,而这样用户在我以前规则当中是发现不了的,所以在这个项目当中我们用的是完全不要求有任何人工干预让机器去发现一些数据中的规律才能够看到这样一些数据出来。曾经会说大量用户,用户会用传统关系性数据库加上比较好的数据挖掘工具去做挖掘,扩容之前投入成本已经非常高了,我发现每次做分析的时候只能用样本数据去做分析,也就是说我终究会有误差,在这个环境当中也就需要十几台PC(英文),我要预测用户流失率,你说你如果各位作为一个老板敢对这样数据做决策吗,肯定只符合7%用户里面一部分用户,这个地方也体现大数据的思路,我并不会给统计结果一个数据的这种流失率,而是说我去结算出3450万用户每一个流失率,给每个人打个分,每一个人老板怎么看,当时没打算给你看,大家都买过保险,最多保险代理人只负责67个用户,最低的只有两个用户,我就把你负责的用户推送给你就可以了,让你保险代理人去做决定,最后我们花了差不多一万几千块钱开放了一款APP,这样也是另外大数据的一个思维方式。

再有一个大数据的思维方式,其实我觉得公安这个行业,其实公安应该是第一个,或者说公安和安全和军队可能是最早的,因为很早很早以前他们自己开始使用下载一个开源的去用因为他们发现数据无法用关系型数据库去存去算了,在这个地方某一个省公安厅做犯罪嫌疑人排查的数据,刚才讲了银行很大,讲了运营商很大,甚至讲了保险公司比如说航空公司或者是铁路的数据,这些数据里面都会所有这些交易数据都会有一个特征就是人的身份证号,也就是说公安系统会把所有这些数据都拿过来,只不过可能从运营商拿到的数据一次能拿来半年的,从银行拿来数据一次只能拿来一周的,我要做犯罪嫌疑人怎么找到半张纸小线索只能把所有数据都拿过来,在以前传统架构当中我去判断这是哪年哪月哪日到杭州坐的车次,住在哪个酒店,仅仅这样一个排查涉及酒店的信息和铁路的信息,这两个数据超过十亿条两张表,对于数据库甭管什么数据库还是现在大数据技术也好关联都是必须可怕的事情,更甭说提出其他的要求,当时提出另外一个问题是说我想知道开一辆宝马车的人并且经过高速公路某几个卡口的人,家还住在北京市海淀区的人,三份数据需要去做关联每一份数据都很夸张这样操作更不是随随便便低成本系统能够跑出来的,只好借助大数据的思维方式和解决办法去做,而且在做的过程当中我们还做另外一个事情在以前我们会为某一个数据仓库某一个应用开发某一条表结构和表相关联,关联操作虽然能做的比传统数据库快,依然比较耗时,做之前有一个数据融合的工作,既然所有数据都有一列叫身份证号,后面缀上所有信息,只要你有的数据就挂上去没有数据空就可以了做成一张大表,做之前用传统数据库查每一次查少说少说五六个七八个小时,我做完融合之后最慢3秒钟,最快7秒钟,而且还支持并发了,这样大数据里面经常利用我们一些手段,甭管是查询也好,还是前面说的挖掘也好都是一些可能跟传统一些架构完完全全不太一样的这种思考方式了。

那么其实今天举的例子都是我们最近做的比较好比较大一点数据规模的案例,还有很多各个行业的案例,以及行业与行业之间数据融合的案例,其实这个话题很大了,讲到数据融合的时候可能我们都在说比如说人行要去给每一个银行提供个人征信报告,人行只会有商业银行银行里的数据,它还想要什么法院数据,我们不能给惯犯贷一百万,还有运营商的数据,第三还有各种各样数据都要融合进来,实现数据跨融合,统一去查犯罪嫌疑人去做排查,人行为了给我们每一个人出的信用报告尽可能的准,所以这都涉及更大的数据规模的融合就只好去考虑一些大数据方面的一些手段和这种产品了,那么今天给各位带来的一些分享内容就是这些,希望能够给各位起到一些帮助作用,谢谢。

主持人:非常感谢王淳先生为大家分享这些精彩的案例我们再次以热烈掌声感谢前面几位嘉宾给我们带来精彩的内容,谢谢在座的各位嘉宾,到此为止我们今天整个会议议程基本结束了,有最后一项抽奖,应该有七个奖是无线存储设备具体我也不是特别清楚,把抽奖箱拿上来,还有几位嘉宾在就请抽一下奖,要不邸总先帮我们抽两个。
(抽奖)

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");