邸津:融合:大数据+云平台+高性能计算——分析及方案

标签:大数据融合云平台

访客:39104  发表于:2014-06-19 15:08:39

主持人:谢谢徐总对惠普SSD惠普软件定义存储详细具体的解读,其实刚才徐总也提到下一个演讲的公司,英特尔其实芯片除了在数据删除,还有提供通用计算能力在存储方面还可以做的更多的工作,下面有请英特尔(中国)有限公司HPDD BDM邸津有请。

邸津:今天我们看到更多在软件行业开始冒头了,这边准备了三个小礼物,有一些问题大家也可以来问我,咱们做一些互动,我不知道大家有没有听说过英特尔软件产品事业部,你们知道我们有哪几个产品?可能不太好记,这个实际上也比较容易理解,刚才惠普同事也讲了,现在来讲硬件发展速度非常快但是我们对客户应用方式很感兴趣,有一类客户像互联网公司它用服务器用机器这种想法和传统IT是很不一样的,这个我们2007年就和他们打交道他们将来会用什么方法用我们机器,这是商业化产品,以前有一些底层的产品,帮助用户做编译,很多工具的软件,但现在来讲我们希望能够离客户应用更近一些,今天来讲我们希望在几个新的应用场景怎么跟客户结合,首先讲一下大数据。

那么这个我相信在这几年也是非常热的话题,它的宗旨是让数据说话,我们分析逻辑是有一个清晰的一二三的关系,必须告诉我们分析原因是什么、过程是什么、结论是什么,之后我们就利用公式去算,以前分析方法叫数据挖掘一定找出数据关系然后再去看这个里面我将来怎么部署我的业务,大数据就是不让再去找这个关系,首先咱们都学过数据分析,概率论出去样本一定绝对平均,但是不准成本就提高了,大数据就不做精准的分析我就做一个趋势分析我把数据分析一遍,这两个数据之间看上去有关系,有什么关系我也不知道,我就看看如果他们有关系未来会怎么样,其实有很多厂商有这种想法,比如说上次做流感必须找到病菌像深圳华大基因公司去做一个分析,现在看到南方地区,现在H7N9爆发已经半年时间了,为什么,是没有找到病原体在哪里,也找不到抗体,所以来讲现在我们很多客户是说你既然有大数据业务,你是不是可以用大数据进行分析,任何事情都是两年引进一个技术会带来一定好处,但是也会带来一定挑战,这是典型的Hadoop软件英特尔分发版组成,有些新的技术门类,也会有专业性门槛,也会带来相应的复杂性,新的技术怎么跟传统平台去结合,Hadoop的概念在行业影响两三年了,能成熟用的厂商不多,其实在于它的复杂性技术性专业性方面太强了,只有专业公司能把它有得很好,我传统数据在数据库里面怎么转过去,我们看着并不是复杂的问题在实际当中是复杂的门槛,另外一方面是成本的变化,所以我们看到Hadoop是这样一种方式,那么高性能也是这样,在各个领域当中包括传统石油能源、金融行业、工业制造、生命基因分析、数字媒体、政府与公共服务大量应用,比如说功夫熊猫这个电影后台就是高性能系统在支撑整体全部制作,功夫熊猫整个制作过程大概耗时是240万,只能用分布式机群来算,所以最后大概用了1500个机型,大家可以看一下我用大规模计算能力去迅速有效完成这项我的分析任务,比如说像这里面地震分析,像环印度洋地区的海啸分析,把分析结果迅速通知给环印度洋地区周边的过程,我希望非常快投入资源尽快得到结果,否则就会造成一定的灾难,凡是跟实施性要求强,是高性能计算传统的领域。

高性能计算它的要求是什么呢?提供更强的计算能力,到了计算能力提高接着是通信,数据必须进来,因为现在完成一个任务大家很容易理解,我记得国外有一个杂志里面谈到一个观点,我比较赞同,他说这几十年来IT的发展实际解决一个问题,就是尽快把数据挪到计算旁边,所以CPU在做缓存,就是尽量把数据全缓存在CPU里面,原因是很容易理解。还有一个问题就是软件,刚才惠普同事讲存储我觉得是很好的一个观点,一个存储一个盘不管是什么盘,最大IO指标是多少,为什么今天用SSD,因为定性能力非常强,我们现在做很多视频监控,公安部要求把所有摄像头换成高清的,这个我们后面会有新的文件系统,有进来多的盘来做,其实大数据业务在各行各业用的非常多,尤其现在很多厂商客户都在谈到Hadoop强项是做分析,那么高性能计算最强是做模拟业务,我分析这个对不对,那这种业务能不能结合在一起,我希望高性能计算搭一个群集,包括中国移动部署很多Hadoop一些案例,Hadoop结点太快了,任何技术都是各有千秋,高性能是比较阳春白雪门槛非常高,必须搭建高性能环境这个时候能把它应用的非常好,解决问题方法和编成一次给你,一旦入门后续问题急剧扩张,客户觉得很犹豫,将来很容易达到上千个节点,没法扩展人力管理不了那么多节点,那么怎么办就要找到新的解决办法,所以我们看到就是说这不一定光是大数据和高性能应用的障碍,我们看到任何新的技术导入都是这样,首先缺乏知识性的结构,任何新的技术我们从开始理解这个技术,我刚才讲到不管是虚拟化也好、大数据也好、云也好这个技术出现都是三四年,前两年在理解这个技术,所以这些东西都会带来相对非常多的复杂性,我们自己运维团队能不能快速把这些知识这种产品导入进来,这里面想象非常大,新技术出现越来越快,上个月苹果大会的时候又发布新的开发,所以我们会发现更新时候来不及,怎么更快融合在一起这个挑战性更大,这些问题导致什么呢?就是我们选择架构和业务上的差异性非常大,已经导致说客户购买的各类硬件难以分类,前段时间碰到一个大学校长,很有感触,他邀请我们去开会,他说我有一个院系的老师大概在2012年买了一台(英文),但是到今天2014年还没用起来,这东西搞的就很恼火,那个时候是做高性能,现在又做大数据又做云,说这个东西你说我怎么办,这个不光是钱的问题学校名誉怎么办,你要申报项目,申报完没有东西就很恼火,其实我们在看到往往是这样的,后来我们在内部开一些会这个老师说用不了,所以导致一堆这样事情产生。

所以我们现在碰到很多企业都是这样的问题,深圳有一个前几年在汽车行业增长非常快的企业它一个问题,这个公司说要省成本,我们来结构不一样,存储配制不一样,总之是你要再给我钱,总裁也很恼火,那么那儿都剩了车不好卖,我资源剩在那还得给它扩容去,所以有很多问题,另外何况后面还有很多新技术没有导入,那我们现在一个想法是什么呢?我们希望云技术是很好的平台技术,应该说云平台提供非常强的,因为云做什么,云最大特点是弹性,云计算能够做到说我能够把企业里面所有的资源,不管是存储、计算各种资源动态管理起来按需提供给你,只要你需要我会把资源调给你做高性能也可以做Hadoop也可以做包括虚拟化,云平台本身方向应该在这个事情,已经有厂商做到了。所以的话我认为如果我们搭建一个云平台我们应该推荐一个厂商朝这个方向努力,也就说当我需要,其实后来我们这方面一个老师也是一样的,他说当时我们校长也提出来以后各个院系采购的时候不要每个院系分别采购,信息中心统一采购,我招了一个人专门学习这个,他说这个东西到最后搞了半天我也没搞懂,怎么办是不是将来部署云它来自动帮助我们来响应,大学是小社会,我有化学系有天文物理系有各种各样的应用,先把旧的资源先用上,我新的可以部署到信息中心去,但是已有的怎么办做到跨中心业务调动这个很重要,还有多租户的数据隔离,举个例子这个也是在一个大学里,生物系非常强,学校规定任何买的服务器必须上学校内网由信息中心统一管理,生物系老师说我一直想交给信息中心,他们不要,就是在我的测试结果没有发表论文之前你必须给我保密因为大家知道学术上有很多竞争的,信息中心能不能保证,信息中心说我不能保证在云平台里面不能存在超级密码,存在这个问题安全性问题就不清楚了。所以在底层我们提供非常强的文件系统,把所有IO能力发送出来,前端的处理能力都是等着,等你数据慢慢往前吞,这是Lustre整合集群资源,那么Lustre好处是我可以把带宽充分发挥出来,对于客户来讲你扩容非常容易计算能力不够增加客户端,所以你的成本增加更快,另外还有一个Hadoop问题是它要做重复性,多重拷贝,为了性能提升基本客户会使三份所以你只用到1/3的容量,所以对于像动漫渲染像灾难场景,能源、金融行业风险分析我的这个性能是非常的高,但这样你又看到我们在全球有一些案例,我们在亚马逊公有云上已经成功部署高性能集散服务。

另外一点我们在国内上一个案例,白天可以用来做教学系统,晚上时间做高性能计算,这也是非常成熟的案例了,这样好处是说我可以把动态高性能功能管理起来,还有解决公有云、私有云,扶持一些学生创业,有一个大学在南京做的一个事情是什么,做Hadoop,所以找到银行,我帮你去查法院系统公告,银行有一个业务是给企业贷款,贷款前是不是有欠帐,所以现在我帮你去查所有法院公告,生成报告给银行要不要给这个公司贷款,所以我们看到其实云平台和我们大数据高性能计算业务结合之后能够产生新的应用场景出来,我们希望能找到更多的应用场景和合作的机会,谢谢大家。

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");