戴尔(中国)许良谋——高效的读写分离大数据架构

标签:大数据存储大会

访客:43389  发表于:2014-06-19 14:49:04

主持人:讲大数据服务的时候都跟他的工作有关系。好多人都在讲我需要什么样的大数据,大数据以后需要为我提供什么样的服务。我到哪了大数据都能分析出来我想要什么,什么都给我提供的特别齐全。

    进入我们接下来重要的主题环节,接下来第一位演讲嘉宾,他上午讲的是闪存的数据价值,许总的讲话非常的热烈,非常的精彩,我们期待他下午的演讲,他下午的演讲题目是高效的读写分离大数据架构,有请戴尔(中国)有限公司亚太区存储业务部技术总监许良谋,有请。

    
    许良谋:大家下午好,一般我们都说吃完饭之后会有点困,我们可以用比较轻松的方式,待会也是有一些小礼品。
    今天下午会场是大数据或者是我用这个方式去开始的,几乎我们每个晚上都在网上看球,今天早上最流行大数据的一个观点只要我们去到哪个国家,那些国家都立于不败之地,大数据几乎是无所不在。
    今天我们也看到很多朋友们其实在IT部门里面无论是在集成商、企业也好,好象每次告诉我们,所有我们已经知道已经落伍了,我们开始要学习。云、虚拟化、移动互联网、大数据、软件定义都要推倒重来。我看到很多朋友的公司也是领导说不,我们就在中国,我们有成功的这些云公司,比如说阿里巴巴、百度、腾讯,我们必须要组织官方的拜访,看他们怎么做,我们学习他们怎么做,我们不断的接受新的技术和新的做法。
    早上我曾经大家看过这个架构,不同的公司有不同的做法。比如说阿里或者是腾讯他们作为业界非常领先的互联网公司。他们从开源之后,再看自己的内部需求和业务需求之后,大量把他优化或者是变成自己东西的。有一个开源技术,这是很多公司在用的,在BAT这三个公司已经不用这个了。他们自己系统有了,不再是开源方式。我们看架构的时候,我们企业应该是如何下手,有时候也不容易。这里我们看到客户有点是在卡在中间,一方面我们传统的IT业务领导都忘记了我们需要这些系统支撑我们的业务,继续把这些效果继续发挥出来,要快,要数据把握好。可是另一方面这些新的业务,软件写的多好,我去哪里手机可以上网,多方便。猪八戒照镜子,两边都不是人一样。
    这里边我们戴尔希望能够做的简单来说分为三部分,第一是BOC部门,手机或者是笔记本或者是移动终端或者是数字服务器等等。另外比如说是对企业的,还有一部分就是专门对互联网公司的,戴尔中国如果比较我们美国的同事的话,戴尔中国其实在互联网行业做了很多工作,我们几乎60、70%中国互联网客户都是用我们戴尔的解决方案,无论是软件还是硬件。我们知道这个新世界和传统世界里面如何创新,或者是作为平滑过渡的方式,让我们能够迈向前面。
    企业如何从渐进式方式迈向大数据,如果你说渐进式方式不是我的胃口,我想马上做大数据,我给你提一个建议,你给自己设下90天,无论哪种大数据方案你做了90天之后,你要看看自己路是否对,是否要调整一下。如果客户有这个需求或者是我们看看慢慢一步一步怎么平滑过渡。
    早上的例子,一个传统的业务,一个保险业务,我们需要拥抱移动互联网,我们要把我们的销售,我们要让他到处跑,全国有18个终端,我全国哪里都是。特定渠道,早上高峰期,我们这种并发的处理能力很快就会看到瓶颈。如果你没有这个感觉的话,1500个并发不是代表1500的存储的IO。一个高性能数据库,我们一般说到底你能处理多少事的时候,不是说每分钟还是每小时还是一天处理多少。我们看峰值一天高峰期每秒你最多能处理多少。这些客户是在下放移动终端的时候发现他的性能发现瓶颈了。
    项目对企业来说是非常重要的项目,当他项目出现瓶颈的时候,业务副总裁直接带队说我要亲自去解决这个问题,所有的硬件厂家和软件厂家进来说我的架构是不是有什么优级,做了负载之后,这些都是很标准的配置和设计。
    另外一个我们看看自己的应用,也是很正规。从防火墙进来之后,然后进入普通的生产区,再进入他的核心生产区。然后做到真正的隔离化,从核心生产区到普通生产区的时候,你用异步方式通过处理之后,才去推给这些生产区。这是安全而且是很正规的设计。所以有的时候其实我都全部都是按照正规的方式去设计我的软件,设计我的架构,设计我的网络。
    我们也是其中一个厂家被邀请去谈的,正好我是最后一个。我们正好去是最后一家,副总裁很不客气跟我们说你们不要来,如果你们再谈,其他厂家一开口让我买设备,我就把你撵出去。我觉得你是没什么意义。我们看一下到底性能瓶颈在哪里?我们很快看到事实上数据库是变成瓶颈,一般数据库成为瓶颈,我们的硬件CPU、内存相对简单一点,比较复杂的方式可能看看我们之前的部署是不是这些参数,网络设置还是什么东西,我们做一个最佳实践优化的部署,我们是否要做一些调整。最难就是数据库级别,自己本身数据库因为常常修改,修改太厉害了,变成我们的缩影,很快就老化了。我们这个库设计,这个表设计是不是出了问题。
    今年年初12306大家都在初一的时候投诉买不到票,写一个很大的白皮书,不要以为我是淘宝,我是卖货,我是卖车票,车票不同。做数据库本身或者是应用级别相对来说是可以做,实施难度复杂一点。数据库还有其他的一些比较简单的方式可以下手。戴尔在一年半以前收购一家业界很丰富出名的一家公司就是Quest,他在数据库优化领域非常多。这个数据库出现瓶颈,是不是用的太久了,我们是不是要做碎片整理。
    比如说你今天去到某个城市,你是需要住在酒店,你去酒店的时候排队,前台在那里让你排队,你看到所有前面排队的人巨多,这个酒店生意很不错,可能是服务特别好还是床特别舒服,你在那里排队的时候你是39人,前面有38人。第一个旅客说可以借伞吗,第二个旅客说邻居有好餐厅吗?第一次来这个城市,不知道吃什么好,附近有什么餐厅,还有一个乘客说有没有什么旅游手册。这件事发生在你身上,到底是去酒店的吗,我给你生意,你不把我当VIP。所以读写都在同一个汇集点的话,有可能变成应该生产或者是查询基本上就会有一个查询。
    另外一个例子,大部分酒店有一个前台礼宾部,找人拦出租车可以去礼宾部。读写分离,万一后面的服务员只有一个,两边跑。所以说你去继续等还是换酒店。后台处理能力不行的话也是一个白色,你这个数据库设计很奇怪,那边是99%全部读,一边99%全部写。可以做一个分离,有38个读或者是写,像一个翘翘板,有点像左右平衡不了。我们给他一个读写,说很容易说,怎么去做。这里你可以做一对四的分流,可以拷贝你数据库记住读的处理,所以说你可以再放出去分流。
    另外架构里面当你IT小型机挺好的,在旁边加一个把这个复制过来就行了,这是一个框架。真正下手为客户到底怎么做,比如说今天要搞一个应用,亚马逊S3或者是腾讯的腾讯云,整个程序要彻头彻尾的修改,否则放不去。如果说这个用了很多年,不知道怎么改,根本无从下手。其实业界也是有特别的交换机,叫做应用级别的负载均衡器。在这里举个例子,你可以考虑设立一些IROM,所有的TCV包全抓。所有的TCV包里面我就看中间有信息的东西,如果有跟读有关就转到读,如果有跟写有关的就转到写。我们可以通过中间者,网络环节方式把他该读和该写全部把他分流,这是其中一个做法,也是互联网公司常用的方式。当你从互联网来了之后,一层一层全部在分流,就是这个方式。这是互联网手段,我们可以介绍。
    还有没有其他的方式?有时候中间人在中间的时候,如果负载不够的话怎么办,我的中间层会继续膨胀。所以这里需要改我的应用化是不是很辛苦,请问你的终端应用你是用哪种方式开发出来的。我们是用标准的平台去做出来的。如果你是用这个平台的话就简单,一个是读,一个是写。进来之后,我们可以在这里去分流,很小部分去做一个分流,大部分的应用完全不需要做任何的修改。最后这些客户就采用了这个,这个工作量很大。我们去解决他的问题,这里面其中做了读写分流之后,他的CPU一大部分都被卸载出来了,所以继续写多一点。另外那个分流,我们还可以做一些事情。这个方案对客户有什么好处,第一就是解决他当前的问题,第二就是把他的数据从数据库变成四个,我们就可以做更多的事情。我们也是有些客户,做读写分离而已。这个SharePlex有人做两地三中心,做同城,这个本身软件很灵活,你要怎么做,拿来做数据保护都可以。
    这个并发的问题解决了,而且看到这个集群还有很多潜在能力可以做更多的事情。他开始说就是一个好的平台可以让我去做大数据分析的。所以他现在开始就把他天津的数据库复制到读值,把深圳数据库也放进去读值,读值处理能力这么强大。专门做他数据仓库发觉的平台,为什么FluidCache这么强,如果没有这个能力,本身方案是虚象的。其实FluidCache一定要能够提供大量的方式去做吞吐,无论是读还是写。所以FluidCache其中一个秘诀不再像传统我们经过这个协议,只要我们经过这个协议,永远是单个核发指令,然后第一个做完之后回来之后再交给他。然后第三个核,然后第四个核。因为我们看到前面,第一个SAS,有很多核,很多个路做,但是在重组方面被废掉,基本上是单核处理。这次是IO技术里面非常大的一突破。因为是第一次CPU和IO有机会紧密联系。以前能够和CPU交流就是我们的内存,CPU只做这个事情,他只有他自己用,其他都不能够共用。如果你还没有去尝试的话,因为他从造价成本、性能、低延迟性还有功耗,这个技术绝对是让你多去欣赏他一下。
    这个集群,现在客户只用了四路去做了大数据的分析,报表或者是数据发觉。这个可以加第五个、第六个、第七个。这个测试里面,如果你喜欢存储的话,个是5.5百万IO性能表现。当一个存储有机会超过百万级别,它的意思就是他不再只是一个是成本,他能够让我们的应用继续,你的CPU多快,你的内存多快,你的网络多快,你的存储和IO就能有多快,这是可以在存储里面并驾齐驱的。我们自己本身也有很多的工具,我们跟很多合作厂家有合作。戴尔公司也是拼命做,没有停下来。在整个业界里面统计学分析的方程式来说,从第一家到现在绝对的领导者,整个业界方程是最多的,最底层我们有快速的让我们记住分析,能够提供这个速度给我们,现在我们可以用适当的工具做我们要做的事情,在前端你可能有一个业务部门的人进来,也会聘请这些数据科学家进来帮我们做分析,做这些模型。不同的分析和不同的需求,一般大数据会接力,到底是要做哪一种开始,你是拿来做一个系统,还是推进系统。比如说如果你在我个店买过东西,我猜你还想买什么东西,我应该做一个比较好的推荐。
    做大数据分析和功能,瞄准到底我们要用哪些方面。戴尔我们有很多的云服务,外面没有病毒出来,我们发觉从这种情况,我们觉得他是一种新的异常性的话,可以先提出来证明这到底是不是这个情况。所以说是为了风控,银行的大数据使用第一个来做风险控制的。如果是零售店,一般来说都是想来做一个建议系统。财务喜欢做一个预测系统,如果是这样做的话,第三步、第四步你给我一些预估到底会是怎么样。这是不同大数据的下手方式,我总结一下,你看看你的大数据你是用风控下手还是建议系统下手还是预测系统下手还是等等其他的方式。这是我们戴尔全球大数据客户,不同的企业有不同的效果,所以这里我想跟大家汇报的大数据如果能够从根本上解决速度问题的话,报表报表,如果你是20秒他的话,你已经有良好的基础可以从报表系统进入到分析系统,这是我跟大家分享的。
    最后不知道怎么下手的话,这是良好的下手方式,这个DPACK这是戴尔为客户提供的免费增值工具。看你现在的主机和应用提供怎么样的,然后去做一些评估或者是读写,这些设备做大数据分析的话,我们可以看他是不是有这个能力去做。
    最后我还是要问几个问题,刚才我们所说的这个话题,请问如果我要做一个高效数据库,有什么方式我们可以下手?
    
    嘉宾:可以加上我们戴尔的产品,整个手段读写分离。
    
    许良谋:整个在互联网所有都是读写分离,负载均衡出去的。第二位,刚才如果不知道怎么开始,想用免费方式尝试的话,有什么工具是好帮手呢?
    
    嘉宾:就是刚才的DPACK。
    
    许良谋:是戴尔的免费的性能分析工具,谢谢大家。

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");