阿里巴巴:大数据与电商生态再造

标签:电商技术商业热点数据社会大数据电商中国技术商业论坛及领袖峰会

访客:36810  发表于:2013-11-09 15:29:22

关于更多精彩内容,详见:中国技术商业论坛暨领袖峰会

阿里巴巴:大数据与电商生态再造

            阿里巴巴集团商业智能部副总裁及数据委员会会长 车品觉


车品觉:我说一下,进我谈的题目是大数据。

   现在生活里面从一开始早上,如果您有用一些智能的手机的玖会发现早上可以看一下自己的睡眠怎么样,很多人早上起来就是看一下来往,看一下今天的交通怎么样。到办公室的时候看一下淘宝,产品有没有到。在美国现在有一个新的词叫(英文),今天我们意识到大数据有一些虚假的知识。数据量大不代表质量可用,有时候信息量大的时候,如果大家有做数据的都应该知道,信息量大也是会破坏信息的。

   刚才有嘉宾讲到营销的漏斗,有一个转化率,如果大家都做营销的话,提高知道今天的漏斗已经错误了,错误得很厉害,所以继续用漏斗的人要知道,今天你的效益量的20%以上来自无线,而且你今天数据的底层是无限跟推其没打通的,不用看数据了,因为你的数据已经有偏差了,因为很多电商公司里面的数据都是基于PC的,不是说我今天看了一个无线的终端,看了之后我去PC里面购买,也有很多人买了之后去无线购买。这些东西有些人会中间插进去。今天有中国的电商,好象美团已经说50%的赖以量来自无线,它整个PC的分析方法是不对的。我们也知道,本来今天讲大数据,我觉得没太大感受,转一下说,其中一个弹体是什么?其中一个难题是在无线上的跟踪,是以两种方法的,也可以说是三重方法,一种是H5的王爷,一个是APP,一个是WAP,H5和APP之间的数据是不通的。PC用的方法是COKE的,APP用的方法是没COKE的。我自己已经一年前发现了这个问题,我们给管理层看的数据是很笨的,看来看去很多人已经看不出来。

   还是区到讲一下大数据,其实很多人谈到数据的价值,他们会发现其实我觉得这一个东西是挺气概的。想到数据价值你有没有发现,投资人、CEO、中层管理和数据人不一样,当你看到中层管理,他肯定因为这个数据要解读解体问题,但是对于CEO来讲他会我说要看明天,当投资人说的时候会说你的数据能不能盘点一下能赚多少钱,中层管理我说要用,数据人说我不管,反正我做数据的。而且讲到数据价值,这个V很多人讲不透是因为我们社会价值是给社会还是给公司?这一点是很混乱的,当谈到价值的时候。

   其实整个企业里面数据华运营里面有一个非常核心的点,如果大家今天是跟数据有打交道的应该都明白,做数据的人不知道别人怎么用;用数据德人不知道数据怎么来;数据模型不知道数据是否稳定;用数据模型的人不知道书记模型究竟是怎样的,甚至不相信数据模型。它之所以是这样,是因为大家里面是没沟通的。

   我简单来说一下,如果用比较三对细分一点来说,数据价值你可以看。今天如果我们要知道一个用户,我们说用户的行为,首先你要知道有两个纬度,其实有三个纬度,一个纬度是你对用户的识别度有多大。今天体公司有一千问注册用户,你不知道需个用户平均有1.5个帐户,这样你每三个帐户里面就有一个基本上是重复的,有时候会发现给红包给他的时候,你发现你给的是没有买东西的帐户,实际上只是因为公司知道了仅仅是帐户,不是人,我们只懂得它是一个帐户,我们不懂它是一个人。所以然不知道它是人,在识别度上发生穿戴、社交、购物、银行,你没有办法连接起来。有一种数据是用来识别用户的,比如说你知不知道用户的手机、这个用户的邮件,这个是用来识别你的用户的,包括送货地址。有些数据是用来关联的,比如说他在微博里面发一个什么样的内容,但购物的时候跟它有关联,有些是用来做什么?用来描述它的时间级的,在时间序里发生的变化。有些数据是用来管理,有些数据是用来预测,有些数据是用来执行。包括转换率,转换率是属于管理价值来的,当我们知道这种数据之后,我们开始知道株距价值没那么简单,数据价值是每个数据分析里面所产生的价值到底是什么。

   今天其实从大数据来讲,最大的瓶颈,如果大家是做数据的就会发现,ETL会成为瓶颈,只要数据越多,ETL瓶颈越大。还有无限的纬度,你不断地增加纬度,你没有办法满足用户,为什么?因为标签不可重取,人的行为也不可重取。再交叉的时候你户发现整个大数据最大的两大问题,一个是数据是怎么来的,一个是数据怎么用的,你会发现里面是没有办法用以前的方法来处理。所以应用的时候非常难,也可以说大数据部分不是小公司用,大数据起码第一点是辈分。像阿里300TB的数据,300TB每年要多少钱?这已经是一家公司没办法承担的事情,前一段我们还要想要怎么备份。当然当你这么贵的数据还要备份,200TB你要备份什么?因为先爱存量备份、增量备份,如果说3个亿来做一个数据的话,9个亿才能满足今天的存储。

   Data Decay,如果你一年前在一个网站,你的购物行为,路径,这种数据要留下七年的话,这个是匪夷所思的,因为连网站都已经变了,网站的结构都变,以后你既然能留下三年的行为数据,这种数据是没意思的,因为你也没法还原。所以我想说,没法还原的数据基本上就不要。Data Broken,如果你的公司没有把数据转化成生产力,这句话没问题。因为整个数据模型里都要对数据非常依赖,但是这个数据没有了,我们行业内叫做data broken,你要有心理准备。

   所以大数据的管理是一个新的课题,包括在备份、管理、标签管理,特别是那些非结构数据的处理上,管理上,好像阿里在性别都有18个不同的性别,这18个性别怎么归到一个性别或者不是归到一个?有一个例子,在北京一个人从A区搬到B区,不代表他真的搬了,有可能两边都住,所以我们会把这个判断移后一点点。过去你发现很多公司在这个时候就改掉了,不会的,真正做大数据的人会把这种决定稍微推后一点点。这个时间跟这个东西为什么会叫醒自己,可以把这个数据回来?这种方法完全在新大的数据里面的管理,是一个很新的课题,而且还要可以恢复过来,整个数据要这样的。

   最后介绍一下很多人讲数据华管理,数据华管理简单来讲就是利用数据解决问题。今天在大数据来到的时候,我们有一天稍微不一样的是上面的圈定因为过去使用数据解决问题的时候,我们积累了一些经验,我们开始去运营数据,我们主动地手机一些数据来创新数据或者改善一些数据。比如说我们在阿里发现,如果用一个人的身份证性别来做一些推荐,你和发现会不如你手机他的行为性别,这是肯定的。所以购物性别跟原来增值的性别是不一样的,所以改善数据,以往只有一个性别,当你改善性别的时候,你会发现30%是男的,70%是女的。所以当地解决营销上的问题的时候我们会重新思考一下是不是有更好的原材料,更好地数据处理这种问题,我们叫这种东西运营数据。

   今天你会发现数据量不断增加,所以我们会假定数据比较容易获取,所以这个底下的东西完全是基于数据是变化非常大的,而且没有静态数据,只有动态数据。刚才有一个讲解讲到用户细分,如果你发现用户细分里面用了我刚才讲的性别,而不用静态性别的话,整个用户的细分会变了。那个时候你就会发现,大数据来了,这种数据开始变了。

   今天为什么我们公司里,用数据的人不知道数据来,做数据的人不知道别人怎么用,我们整个来讲数据是一个部分,商业理解是一个部分,思考方法是一个部分,它是重新要去提炼的技能。

   谢谢大家。

关于更多精彩内容,详见:中国技术商业论坛暨领袖峰会

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");