我(能)有大数据吗?——微软技术中心技术架构师 韩凯

标签:大数据技术商业热点中国技术商业论坛及领袖峰会

访客:31801  发表于:2013-11-08 11:32:42

关于更多精彩内容,详见:中国技术商业论坛暨领袖峰会

主持人:感谢周总精彩的分享。周总关于可穿戴设备热潮背后的冷思考是值得我们每个人思考的。接下来是来自微软技术中心,技术架构师韩凯先生,他讲的题目是我(能)有大数据吗?

我(能)有大数据吗?——微软技术中心技术架构师 韩凯

    第一个问题我有大数据吗?第二个问题我能有大数据吗?第一个问题,我能回答大家,你肯定有,我能不能拥有大数据,我希望大家听完我的演讲自己做出判断。

首先我们谈到大数据的时候,通常会讲到怎么定义大数据?从业界通常的说法应该有三个V,第一个是volume(音译),第二个是

velocity,variety,第一数据量大,第二反应速度大,第三多样性。咱们技术部门遇到的问题,在管控的时候面临的挑战就是第二个。


最初的时候我们数量比较小,反应速度也比较快,后来发展到一定的程度数据量非常大。再后来就是开源社区,大家用到的Hadoop技术,它主要应用在数据量很大,数据结构非常的复杂,既有机构化数据也有非机构化数据,但是对响应速度要求不是很高。

   我们谈到大数据的时候,会有哪些数据源?第一个是车载数据,比如说在美国福特车载里面,除了娱乐系统,实际上本身车辆载的传感器,实时跟踪车辆的健康状态,出厂的时候,预定了振动模式留下来,和它进行比对,如果振动模式发生了改变,就可以分析这辆车在车主不知道是不是要进行维护。TEXT,大家经常短信,email,还有微信这样的产品。时间和地点。每个人都会遇到这样的问题,你拿手机拍了照片,本身照片有时间,如果手机有gps,本身这个照片也有定位信息系统,网站就可以把这个照片放到你照照片的地方。RFID已经存在很长一段时间了,SMARTGRID,这是智能电表,国内已经开始试用了,但是是不是能应用起来,它能实时监控家里的用电量,它也可以分析和你什么样的生产习惯有关系,推荐给你一些用电方式。比如说用电高峰的时候,有的地方实施动态电价,你可能不知道。比如说大家都下班煮饭的时候,这时候电是最贵的。如果下班之前把家里的空调打开的话,那个时候价钱比较便宜。

每一个传感器单独存在没有意义,只有把所有的传感器合在一起进行分析,才会产生价值。咱们通常说的物联网,物联网翻译的并不是很准确,我觉得应该是人联网加物联网。telemerty(音译)是远程监控。更高层的应用是在你的应用上内嵌跟踪。这是微软的Xbox360,现在作为第一大游戏平台,它是怎么实现的。背后有大数据的支持,大家玩游戏的时候,都会寻求最高的体验,让你忘了时间,如何达到这一点?在游戏者玩的时候,不能觉得太难,也不能觉得太容易。太容易的话他觉得这个游戏没有价值。跟踪用户的使用,如果觉得太难就降低谈度,如果太容易就增加难度。secial networks在外国已经很活跃了,这个包括企业内部和外部。

   数据跟踪要分析数据产生洞察力才能有价值。这些应用最常见的,比如说第一个,就是查找和你现有的东西相关的,或者相类似的东西,在国外很多学院已经实施了这套东西,每个学生写的论文,提交给老师之前已经经过系统过滤,会自动查找是不是有重复或者抄袭。还有一种应用比如说推荐,这是非常常见的,在电商网站上,这是最主要的。这个是距离,找到有类似特性的群体,然后根据不同的群体,进行针对性的促销。刚才说推荐行为,它的原理大家都清楚,我通过分析,知道你是客户A,我通过历史分析,我知道所有的群体都喜欢这三种产品,当一个新的客户来,即使我不知道你真实的姓名,我根据你的行为,大概属于和客户A是同一个频谱的人,无论是年龄分析还是身份识别。当你搜索这个的时候,我也知道你对这个也感兴趣,这是寻找相关项目。另外一个应用就是健康,在健康领域,可以通过DNA片段,可能产生某种疾病的共同特性。

大家会经常听到长尾理论,它的基本原理,我们做生意的时候,通常不会覆盖整个的产品线,我集中我20%的精力挣我80%的利润,这主要是因为成本太高了。如果我把最后的尾部的产生覆盖的话我的成本太高了。电商之所以能够做到覆盖尾部,因为它有技术,用低成本赢得产品。

挖掘社交网络。在国外来说,社交网络是内部的知识传播,比竖状结构传播能力更有效。第二对外市场推广或者进行市场推销,这是国内应用比较多的。

最后总结微软大数据思路,你肯定有大数据,从刚才3V来说,有一个V是适合你的。比如说数据量,对每个人来说,你的处理能力处理不了这个数据,对你来讲就是大数据。微软的平台从3V角度提供支撑。背后传统数据仓库架构,你有你的生产环境,抽取到数据仓库建模进行分析。在大数据环境下,你要加入过去没有收集的数据,收集到比较便宜的数据存储或者平台上进行后面的分析。

大家都会用到excel,excel和以前不可同日而语了,它要处理大量的数据,它在上面做了视觉化的分析,可以把时间和地点放在一起,在为微软虚拟云做3D化的分析。

前端无论是传感器收集的数据,最后进行模式分析,进行数据挖掘,最后做出决策。微软从收集数据,到数据分析,到最后的数据展示和数据分析都是一连贯的平台。基本上我的内容就到这儿,希望大家能够在这个时候,能够想到我是否能够拥有大数据。

关于更多精彩内容,详见:中国技术商业论坛暨领袖峰会

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");