大数据与大分析—火力全开

标签:大数据大分析

访客:20292  发表于:2014-05-08 09:57:07

【新闻】在4月17日举办的第二届SAS中国用户大会上,SAS公司的高管、专家和用户不止一次提到Value(价值)才是大数据的精髓,这也正是SAS多年潜心研究的领域。SAS公司大数据研究与发展全球副总裁Paul Kent表示,在未来4-5年中,越来越多的公司会像Google、阿里巴巴、Facebook、Yahoo等技术领先的公司一样,学会如何在大数据集群中运用技术来发展自己的业务。

【e点评】

讲大数据给企业带来的价值,不外乎有两个方面,一方面企业能够利用大数据技术让运算变得更快,另一方面大数据诞生了很多新的商业模式。而最近4-5年,中国大数据技术和服务市场的年增长率高达40%,到2017年市场规模将达到8.5亿美元。不管是利用大数据做精准营销还是风险管理,中国市场均表现出巨大潜力。(更多资讯,请点击http://www.cio.com.cn/group/home/23

大数据与大分析—火力全开

                  Paul Kent, SAS大数据研究与发展全球副总裁

【原文】

大家早上好,非常感谢,希望大家都能够听到我说什么,因为现在有译员正在同声传译我的话。今天我的演讲主要分为四个部分,首先在一开始我会跟大家花一些时间讲讲大数据兴起的整个概念。因为现在有很多的数据,因此我们可以做更多的事情,比之前能做得更多,同时这也改变了我们解决问题的方法。并且更多这些变化,我会跟大家谈谈开源的整个系统,在之后我们还会跟大家谈一谈SAS所做的工作,SAS如何改变自己,能让它跟Hadoop更加兼容,创造更多价值,并且让大家更多的用上Hadoop,能让大家了解到如何更好的在Hadoop上应用SAS。接下来就是我们所取得的成果,也就是说我们的客户是如何通过我们的帮助更好的来取得更佳的业绩,并且更好地应用Hadoop。

首先从谷歌趋势上谈谈,如果我们用大数据做关键词的话,可能在2011年之前还没有很多搜索,但是在之后,大家都在关注,大家都在谈论大数据,最近两三年成为非常热门的话题。Hadoop关键词的热度正在持续增长,当我们把物联网也加进去,因为之前的演讲者提到了社会互通互联,它的热度也是逐渐上升,因此这些所有的概念加在一起意味着我们能够运用更大量丰富的数据来了解我们企业到底做得怎么样,消费者到底希望得到什么样的服务,这就是大数据的兴起,这一位演讲者是TED的演讲人,现在是远远超出储存信息的成本,实际上这跟我们之前不太一样,比方说我们明天有一个新的问题,可能我们今天所存储的数据已经可以帮助我们解答。我们今天所存储的这些大数据,可以为我们解决在下周或者下个月产生的新问题,因为我们可以利用现在存储的数据来解决这些问题。

因此这也是一种时代一种观念的改变,此前我们有一种匮乏的概念,我们可能只有100G、10G,我们的储存量是有限制的,我们对于每项工作极大的提升效率,我们要削减成本,以达到同样的效率。因此我们有诸多的限制,我们需要在规定之内来完成这些项目。但是现在我们有了大数据,大数据让我们可以从另一个角度来看,我们为什么不让电脑为我们工作,而不是我们为电脑工作,这个概念确实不错。我们以发现为中心,我们可以问各种各样的问题,做各种各样的尝试,我们问了这个问题得到这个答案,因此我们可以更多的注重于寻找价值。同时我们还可以鼓励我们的同事们,我们组织当中的每个人,以发现为中心,他们都可以问问题,问问题之后找到答案,找到更好的解决方法,他们也可以找到在相邻的领域当中找到一个新的趋势。

接下来谈的是Hadoop,Hadoop也是一个非常重要的话题。首先跟大家谈一谈Hadoop现在是一个大规模并行的概念,原来我们需要用很多的电脑,我们需要让一个电脑作为控制器,比方说现在我们大家分成每一个大的电脑的工作机群,超级电脑,比方说你们都是我的电脑,我们现在需要解决一个问题,我们如果每一个大电脑,每一块当中都能解决一个问题,总体解决问题的速度就会增快。Hadoop就是用了这种概念,我们可以用超过一个工作组,电脑的工作节点,他们组成一个团队进行工作,因此整体解决问题的速度就会更快。这是最近才发生的一个变化,当然它也是一个开源性的项目,我们一直在不断地改进。如何访问数据的服务器,如何获取数据,分析模式也已经改变了,变化非常快。

接下来是为什么Hadoop会选用大象作为代表的吉祥物,这个人是Hadoop之父,也是最开始领导Hadoop团队创造出来Hadoop的软件,他其实用的是他儿子黄色的非常可爱的大象的玩具作为Hadoop的吉祥物。整个Hadoop的项目,不仅说是用这个玩具,实际上他用大象是有意义的,因为大象永远不会忘记,它有非常好的记忆,同时大象是非常勤奋的,这对于一个软件来说是个好事,同时大象是群居性的动物,同时这也是Hadoop想要强调的概念。因此大象被选作了Hadoop的吉祥物。

首先第一个,HDFS,它是不会忘记的,如果忘记的话,成本也不会很高的。这是一个例子,比方说有一张工作表,有三页第一页存在了第一个服务器,第二个存在了第二个服务器上,第三个存在了第三个服务器上,这是传统的储存方法,很不安全。现在我们可以有更多的储存拷贝,比方第一页放在两个服务器上,第一和第三个服务器上,因此把其他的表也都做一份拷贝。比方第三个服务器坏了,或者是断电了,没关系,因为我们这三个工作表还是有一份拷贝,因此数据是非常安全的。但是非常重要的一点,其实是每一个服务器上面有多个工作表,因此我们要在工作的话,我们可以分成第一页第二页第三页工作表,就可以把整个信息分到每一个服务器上,而在每一个服务器上他们可以做单独的工作并且把整个的工作汇总起来,这样的话整体工作效率就会非常有效率。

第二个概念,MapReduce,在传统的方法,比方说我们现在需要做的一个任务或者找出在整个会场当中年龄最小的那个人,传统的方式就是我们会问每一个人,比方第一个人,47,第二个人37,我需要一个一个人地问,等问到最后一个人我才知道整个会场当中最年轻的是谁,但是Hadoop的方式就不太一样,他把工作分配到每一排观众上,比方说每一排观众,首先互相之间都讨论找出来你们当中最年轻的是谁,然后最年轻那个人,你们走到最前排,他们之间再找出最年轻的人是谁,最后我们整个会场当中不断的把数据进行汇总,因此我们可以更快速找出。因此这个解决问题的方式更有效率,是一个传统思维上的改变,我们把工作发送,让数据节点来做工作,这是一个非常重要的概念,我们让数据端来处理工作。

第三个,Hadoop正在不断的成长,它也能够兼容不同的系统和平台,原来在2011年、2012年发布的Hadoop1.0的时候,原来只能用Mapreduce,但是到2.

0的时候可以用MapReduce,可以用Tez,这些发布的版本可以让我们用Yarn来进行管理,这个软件可以访问这堆数据,其他的软件也可以访问这堆数据,他实际上可以让我们不同的软件来共享整个的数据库,大家也可以看到在PPT上面,SAS是多个可以直接在Yarn的数据库中进行操作的软件之一。你其实不仅可以获取大量的数据,并且可以直接在数据上进行工作。

因此接下来非常重要的,想跟大家谈谈我们SAS在Hadoop上所做的工作。这个就是我们现在的大数据战略,现在的数据架构,这些非常重要的数据库对于SAS来说也非常重要,我们也会从这些关系型数据库当中来提取数据进行工作,我们也会把我们的软件与Hadoop兼容,因为Hadoop也是一个非常重要的软件。它是一个成本非常有效的储存并且处理数据的数据库,因此我们一部分放在关系库,一部分放在数据库,SAS非常关键的一点就是能够与这两类数据库都进行很好的协作,我会更专注与谈论SAS,因此我们不仅会跟关系型数据库兼容,也会跟Hadoop兼容。

这是大象的一家,意味着不仅是也一个SAS的解决方案能够与Hadoop兼容,实际上有诸多的软件都能跟他兼容。比方如果你用SAS去接触关系数据库,其实我们对于Hadoop来说是用一个相同的概念,之前我们会通过一个集中的端口去访问其中每一个机群,访问每一个数据库,实际上还是把所有的工作交给一个服务器来做,也就是说我们会把所有的数据提取,送到服务器上。其实这也是可以的,现在很多人都对于这种工作方式非常熟悉。

但是我们的SAS嵌入式流程,它用的就是一个非常新型的概念,这也是现在在做预报所采用的模型,也就是我们新一代的SAS软件解决方案所采用的一种工作方式,比方说我们在审核信用的申请时,我们是否应该对这个用户增加他的信用额度,我们就可以采用这样的,用机群来技术云算的方式,比方这边有12个方式,原来用传统的方式需要花1个小时来解决,现在只需要花5分钟时间来解决,因为我们可以用12个服务器同时为我们工作来进行计算,因此12个服务器所花的时间也就是原来的1/12,是非常快速的。

我们最引以为傲的就是我们的SAS高性能分析方案,SAS正在非常努力地把原来一个电脑一个服务器所做的工作分配到不同的服务器,可以让不同的服务器都能够工作,比方说原来要把所有人的平均值进行汇总和计算,可能要算平均值可能还是可以做,但是要是回归呢,回归可能就更难,因此我们需要与我们的数学家团队进行密切的合作,让每一个单独的服务器都能够帮我们计算整个回归,实际上这是我们在展厅大家可以看到最新的软件和解决方案,帮我们解决这个问题,不仅是一个服务器。就算是回归的问题,同时我们可以在一个机群上不同的计算机上进行计算,所以也可以非常快速。我们这有很多不同的科技,我不会每个都讲,但是我们可以看到,我们有不同的各种的方法来进行预测,来进行优化。我有一级非常简化的动画,可以帮助大家理解一下我们在Hadoop上所做的过程。大家请看,比如说我们有一个问题,进到了计算机之中,你们大家看到一些红点在平行的走,有一些蓝色的点在上下走。红色其实就是数据,是我们数据并行的一个进程,我们现在这个模型上有四个计算机,每个都是有25%的数据。同时我们可以在计算机的内存上进行计算的问题的运算,这样的话我们只需要15秒的时间,但对于解决这个问题有效解决问题还不够,因为我们还要看到蓝色的点,数学方面的计算,比如说我们的计算机有一个南有一个在北,两个服务器怎么进行交流,把他们的运算进行交流,所以我们在这个建模之中进行了一个分类,比如说不同地点的一个服务器运算,他们怎么样来进行信息的交换。这样的一个考虑,这样的一个投资是我们投资非常大的部分。所以这可以使我们不同的服务器上同时运算可以更快速或者进行更大的运算。

刚才谈的是主要的运算方面的投资,但是在交互界面上我们同时也必须更用户友好化,所以谈一下可视化分析。我们运算快了,同时在可视化分析的软件上也进行了很多的提高。可视化分析是SAS软件方面一个非常重要的部分,它可以适合所有人用,大家都可以非常容易的理解我们这个可视化的图表。比如说你点一下,你的这个数据,我可以向大家看一下左上角的图,预测的图,线型图,你现在的运算能力多了,现在很多不同的方法可以进行预测,比如之前我们只做一个预测,我们要选一个最好的方法来进行预测,但是现在我们可以用所有的方法进行预测,最后选一个最好的预测结果。所以说如果我们说有五个方式的话,我们可以进行五个预测,然后最后选出最好的。所以说这就是我们怎么样来更好的利用我们现在多出来的计算的能力。右上角的图可以看到,横轴上绿色表明没有受关注,红色表明是最应该受关注的一个数据,所以说这个很容易让我们看出比如说一个机器它的损耗,它之中有多少的成分多少的元素,它跟它的磨损有关系,跟它的损耗有关系。如果变量很少的话,很容易就能找出来,但是如果我们有一千个变量呢,怎么能够找出他们之间的关系,这是个庞杂的问题,所以如果用现在我们的软件和多出来的计算能力,我们可以把这一千个变量都放进去计算,可以找出这些标红色的,也就是最需要值得关注的这些变量,而且可以看出,比如这些变量与绿色变量是有关系的。所以说现在其实如果我们有了这样的计算方法,你现在可以看出来,这些绿的可能不是那么重要,但是如果你不这样将所有的变量进行计算的话,我们怎么能够知道哪个是最重要,哪个是不重要的呢。

下面我要讲的是SAS可视化统计这样的产品,它更关注的更针对的是科研型的数据方面的人才,它主要是位专家提供一个建模的可视化的方法,第一个我们刚才讲的那个是大众的,而这个可视化统计是专家科研型的。这个可视化统计你可以为统计建模的分类进行交互式的可视化应用。比如说我们有很多人它有很多的钱可以进行消费,也有一部分人他们没有钱进行消费的话,那么可以对每一个分块,每一个分类来进行一个建模,这些分类的变量也考虑进去的,每一个分类我们可以进行建模运算。我们可以进行不同的分类的多种建模,所以这是我们可视化统计的产品。

总结一下,我们是有一个整个的一个家族系列的各种软件,可以是不同的服务器,在各个服务器上进行运算,进行同时运算,进行并行处理,我们有高性能分析加速器,有可视化分析、可视化统计,同时有我们的用户交互的界面。最后还有内存统计,Hadoop这样的,它更适合的是数据科学家的编程。

最后讲一下成果,我们的用户怎么样来更好的利用我们的软件,来优化他们的系统。首先一个例子是丹麦国家社会服务委员会,他是丹麦的一个社会服务的机构,他们之前所有的报告都是PDF发布的,让公众可以获取他们的信息,知道政府怎么样来利用资源,来提高社会服务。但是公众也越来越多的问题,比如说有一个市民,他的家里人有一种特殊的疾病,比如说他的祖母有老年痴呆症的话,我怎么样通过这个数据库找到这方面具体的信息,所以说我们把所有的资料上传到网站上去,公众可以通过硬件和软件来找到他们需要的专题的这样一种数据。当硬件设备到位之后,我们用了8天就这个网站上上线了我们的项目,可以看一下这个图,一个可视化的分析,可视化的统计,表现出来他所搜索的数据。所以说很快就收到收益。

第二个例子是加拿大的大型银行,可能对于你们中国的银行来说不是很大,但是在加拿大有两千万用户就很大了。他们在50个国家有网点,有85000名员工,他们认为建一个好的模型需要太久的时间,所以他们需要一个好模型,但是时间要短,所以我们需要的就是一个HPA的方法,我们的蓝色的这个线,就是我们怎么样建模,一开始我们只有200个变量,可能我们一些客户的年龄方面的一些信息,但是因为信息有限,我们的建模能达到的水平也有限。到最后的时候我们看到这个线不断上升,最后我们包含进去1000个变量,因为我们信息多了,那我们建的模就更加丰富,当然我们一开始有200个变量,由200个变量变到1000 个变量,增长了5倍。第二步我们做的是客户他想说,我希望你在我们已经有关的模型上进行一个改良,那么我们的基准模型,我们5到6天就完成了,我们把这个基准模型进行了改造,因为我们的系统非常快,所以说我们可以增加数据的量,可以增加变量,不断的增加。所以最后我们就达到了这样一个多次迭代的效果。

最后我们决定说,如果说做一个整的大模型,为什么不细分,为每一个客户的分类建立一个细的模型,整个过程我们只用了三个月,完成了所有的步骤,对这个客户给他一个更好的建模,给他带来了我们SAS能够给他带来的价值。这个客户跟我们说,在利润增长上,他获得了600万美元的增长,所以说这是一个真实可以看到的利润的增长。但是最重要的最有趣的是客户认为我们三个月能够建三个模型,但是事实上通过我们的软件,我们三个月建了十个模型,所以说我们可以超出客户的预期,给他带来更多的价值,给他带来经济上的利益,同时也给他带来更好的体验。所以这是一个很好的回馈。

最后我们有一个亚太地区电信运营商客户,他们处理的信息量太大了,对他们现在的基础设施负担太大,处理时间太长,所以他们需要一个新的处理方式。所以我们帮助这个客户这个运营商转变到一个新的集群上通过我们的可视化的分析,还有其他的分析。在之前他要花5个小时处理的,现在只要5分钟来处理,所以说之前他要花5小时的时候他把它放在那处理,他可以去吃饭,而且不会再运算第二次,但是现在他只需要5分钟。所以说对的程序员来说可以进行新的尝试,因为时间更短了,所以可以进行不断的尝试,所以对很多方面都是一个很大的提升。

最后我想讲几点,或者是给大家提几个问题,今天所来的听众都是我们的客户或者我们的合作伙伴,你能不能够给你的公司,给你的企业给你的机构带来这样的一个基础设施上的提升,你是不是已经开始迎接这种现代化的变化了呢?非常谢谢大家。

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");