郑欢:每个人都在谈大数据,但是没几个人真正在做

标签:大数据

访客:13036  发表于:2017-01-17 10:42:54

主讲人:郑欢(上海交通大学安泰经济与管理学院副教授)

【编者按】

2016年,人工智能AlphaGo 4 比1战胜韩国围棋高手李世石。年底,中国围棋网站出现Master,战胜了中国几乎所有的围棋高手。2016年,大数据与人工智能的成为热议。

郑欢:每个人都在谈大数据,但是没几个人真正在做

大数据与人工智能是否会取代人类?它们所作出的决策是否完全正确?上海交通大学安泰经济与管理学院副教授郑欢指出,机器并不知道哪些东西对你有价值,哪些东西没有,在带来价值的同时也会带来噪音和干扰。如果收集数据的方式方法、看问题的角度不同,可能会带来不一样的结论。

大数据的运用关键在于为企业提供有商业价值的决策支持。郑欢认为,找到关键的方法和角度,要对所在行业有深刻的理解和分析模型的技巧。能从数据中看出什么发生了,解释它为什么发生,预测是不是还会有同样的事情发生。

以下是澎湃新闻(www.thepaper.cn)对郑欢发言的摘录:

我想讲对大数据的一个小小的思考。大数据每个人都在谈,每个人都觉得要抓住这个机遇,但最后事实上可以用这样一个比喻,有一点像中学生在谈性,每个人都在谈,每个人都表现出了很大的兴趣,但是没有几个人在做。我们公司现在就是这样,大家都觉得很重要,可能手上都有很多数据,但是我在教MBA数据模型和决策的时候,我发现学生们很痛苦,似乎在他们的工作当中跟数据打交道的事情并不多,或者还是用他们之前的直觉、他们对自己行业的理解在做事情。

数据在某某情况下那么近,但又那么远,所以到底该如何去分析这些数据?如何用数据创造出它的商业价值?在这个中间我们缺什么?我们应该怎么做?

2016年大家都被AlphaGo给震惊到,3月份它4比1战胜了韩国高手李世石,12月份又在我国围棋网站上连胜,战胜了中国几乎所有的围棋高手。这让大家觉得我们真的进入了一个新的时代,一个人工智能的时代。AlphaGo在做什么?先用深度学习的算法,去学习了三千万步人类围棋的手法,学了之后它就自己跟自己下,下了很多次后提高了它每一次落子的得胜概率。它为什么能战胜人类这么多高手?在某种意义上讲,人类可能没有这么多时间,也没有这么快的速度来学习三千万步棋。

我们现在看到AlphaGo可以做这件事情,是因为我们有了更多的大数据,有了更多的人工智能算法,让我们开始觉得可以用大数据、用人工智能算法做很多事情。比如说医疗,2016年8月,IBM的沃森用10分钟帮助东京大学的医学院诊断出了一例非常罕见的白血病,在对比了两千万份的癌症研究论文后,它准确地找到了这个非常罕见的病症。所以也许将来我们去看医生,见到的不是一个人,而是一个机器人。毋庸置疑,机器在很多情况会帮我们做一些决策的支持。

同样,智能出行,以后可能会发现当我们出行时,数据跟人工智能也会影响我们的出行行为。无人驾驶的汽车已经行驶在美国的道路上了。这个汽车可以根据实时数据、路况、天气来帮你选择最好的路,它甚至可以自己觉得没油了,自己开到加油站去加油。

还有,将来数据可以通过银行的交易数据来找到一些异常的交易行为,做到预防跟控制比如洗钱的行为。对于我们老师来讲,以后跟人工智能打交道的可能就是在线教育。现在已经有很多在线教育课堂,比如说慕课,学生把作业做完了提交到上面,它就自动帮你批改。在美国有教授会自己设计程序,它可以自动回答学生的问题,像答疑一样,而这样的程序几乎可以回答90%的学生问题。

这些成功让我们看到了什么?由于数据和算法,几乎很多东西已经可以被机器取代了,那么我们人类做什么?在商业领域里面是不是有了数据、有了算法、有了机器学习,就可以无往不胜呢?事实上,对于我们来说更多的是商业价值,怎么在数据当中找到商业价值?

很早以前人们其实有应用了。伦敦在1854年之前发生过很多霍乱,而且在当时人们不理解为什么发生霍乱,现在我们知道霍乱是水里面有霍乱杆菌,人们喝了不干净的水,但那个时候人们是不知道的。1854年伦敦爆发了一次霍乱,每天都死十几个人,大家都很慌,认为是因为呼吸了不干净的空气,大家都要跑。但有一个医生跑到当时发生霍乱的地区,一栋楼一栋楼去敲门,统计这栋楼死了多少人,那栋楼死了多少人,他再拿出地图,把每一个死了人的地方标记出来,如果死了五个人他就画一个红色的小方块,如果死了十个人他再加一个小方块。当他把这个图统计出来之后,他发现,所有死亡集中在红色的这些区域里面,如果我拿一个圆,把这个红色的区域包围起来,这个圆的中心是蓝色的点。后来发现蓝色的点是一个水泵。在当时的伦敦其实并没有公共的自来水系统,就像我们在电影上看到的,大家都在一条河边上烧饭是用这个水,洗菜是用这个水,洗衣服是用这个水,洗马桶仍然是用这个水。当时伦敦比我们好一点,他们有水泵,把水压出来,有一个出水口在附近。这次霍乱当中几乎所有的死亡都是围绕着这个水泵为中心展开的。这个医生就开始怀疑,也许人们不是因为呼吸了不干净的空气,而是喝了不干净的水而导致死亡。

接下来怎么去验证它呢?把这个水泵中心放大,神奇的是有一块区域完全没有死亡,这一块区域是什么?是一个酿酒厂,后来发现这个地方是一个修道院,修道院的僧侣他们在经营着这个酿酒厂。僧侣他们不喝水,只喝这个酿酒厂酿出来的酒,就没有人死。当时医生就做了一个大胆的假设,从这些数据中他得到结论,也许人们就是因为喝了这个水泵里面的水而导致的生病,所以他就向当时的伦敦市政府提出建议,把这个水泵暂时关掉。关掉之后果然霍乱慢慢的消失了。

这个简单的例子说明什么?其实在两个世纪以前,我们也许不太理解霍乱的本质是什么,但是我们可以试图去收集数据,然后画在图上去做一个分析,再得出结论,用数据来支持。所以对我们来说大数据并不是一个新的现象,而是现在我们有更好的工具了。怎么讲更好的工具?因为以前收集数据、分析数据是非常昂贵的事情,我们要像这个医生,一个一个地去敲门,用手把这些东西记下来以后,再用手把它画到地图上,整个对企业来讲耗时耗力,但是现在我们有了互联网,有了手机,有了云存储,所有的东西一瞬间都被记录,所以我们有了越来越多的数据。

但是我们面临的问题是一样的,数据有了之后我们要的是商业价值,机器并不知道哪些东西对你有价值,哪些东西对你没有价值,所以它带来价值的同时也会带来噪音和干扰。而且你收集数据的方式方法、看问题的角度不同的话,可能会给你带来很多不一样的结论。

前几年我研究过3D福彩。3D福彩是一个简单的设定,你可以从000-999当中勾一个三位数来,比如说我勾一个345,把它交给彩票投注的地方,两块钱一注,相当于买了一张彩票,他会写出来,如果开奖刚好是你投的数字的话345,你就会拿到一千多一点点的钱。它每期都会给你一个销售额,包括了彩票公司有所有的数据,比如说在什么地方投了什么号码,然后交易数据和多少钱,这期哪个号码被抽中了。

3D彩票跟我们传统意义上的大乐透不一样,乐透是这期销售额是多少,假设4亿,他会说这4亿当中10%作为我的发行成本,50%我留在一个奖池里面,如果我抽中一个大奖,我就会被分到这个奖池里面所有的奖金,如果两个人抽中两个人分这个奖金,如果十个人抽中十个人分这个奖金。但是3D的设定是一个号码只要被抽中了,一张票换一千块钱,这时候对彩票公司有风险的,它跟乐透不一样的,乐透反正你们就拿这些钱,不管多少人分就是这么多钱。

但对3D福彩来讲,如果这期销售的金额都是同一个号码,而刚好这个号码被抽中了,事实上这个公司是没有这么多钱的。我昨天从3D福彩上面拿到了它的历史销售,你可以发现这个现象仍然存在。它有一个返奖比例,比例大于100%,说明亏了,当然它也有赚的时候。为了防止这样极端的情形出现,3D福彩就会设一个每个号码可以买的上限,比如说每个号码我卖一千张或者卖一万张,在这种情况下反正我就卖这么多张,最多也就赔这么多钱,但是问题是我怎么去设这个上限?

设得太高,达不到风险控制的需要,太低又会使销售额太少,另一方面,那些没有买到彩票的人,有些人也许不买了,但有些人非常想买,钱就会流到地下钱庄,会有一些地下的彩票公司想,政府不收,我来收,我来做庄。作为一个彩票公司,带有社会责任这些方面的考虑,他不希望有这些现象出现。怎么去解决哪些号码是热号码的问题?首先,我们要理解的是这些彩民的投入行为怎么样?只有我们理解彩民背后的投入行为,也许我们就能理解这些热号码是怎么出现的。2015年底,一个老彩民要买3D福彩,刚好要买的时候楼上一家发水把他家淹了,他就把人家的门牌号码报出去,结果就中了,他非常高兴。这说明一个什么道理?说明有很多人他在选择数字的时候不是随机的,他喜欢从身边的号码中找,比如说门牌号码、生日、所谓的幸运数字。如果说我们认为彩民喜欢这样挑数字的话,其实我们就找到了Benford法则(本福特定律)。

Benford法则是1938年是一个物理学家发现法拉克·本福特发现的。他发现在自然数当中,如果你把一个报纸上所有数字扣下来,统计所有数字的首位数字,再算它的频率,它会服从一个分布——1这个数字出现的频率大概是三成,随着数字的增大频率降低。为什么?我们一年12个月,就是我们从1开始一直排到12,如果我们把每个月月份的第一个数字拿出来的话会出现三个1,差不多就是30%。我们在累计时永远是从1开始往上累计,所以它会出现自然发生的频率。后来有很多研究,比如说研究股票、门牌号码、电费单、生日等等,如果这些数字足够大的话,它们大多数都是服从Benford法则。

事实上这个应用非常广,有些人发现可以通过这个看财务造假。财务数字也是实际的数字,比如说你的库存是一个一个往上加,你的销售也是一个一个累计出来的,如果是真实的这些行为累计出来的数字,财务报表数字的首位也应该服从这样的分布,但如果造假,它往往是平均的。

彩民如果真的是根据身边拿数字,那么他的首位数字的分布差不多是这样子。但我们做了一个统计发现,并不是所有的人都选择Benford,有些人去买票就是电脑随机生成的一个数字。这样的话,我们可以把彩民分成两类,一类是有一些所谓的幸运数字,另一类就是随机生成数字,它的首位分布就应该是一个平均水平。因此,进一步分析,找到这两类人的比例,再做结合。最后它带来的商业价值在什么地方?仍然要回到企业的决策中去。所以,如果你对你彩民的理解不一样,会导致你的决策完全不一样。

这个例子是想说,想理解数字背后的行为,其实需要很多东西,一方面需要了解彩民的行为,另一方面需要一些分析方法,能够帮助我把这些东西放到分析中去,但最后得到的,是一个具有商业价值的商业决策。

但从我的经历当中看到的是,很多企业背靠着一座大金山——很多数据,但是做决策的时候他们不会用。还有一些企业觉得我有很多数据,我用数据挖掘,但是他们忘了把商业的直觉跟商业的理解放进去,所以他做的决策也许也是错的。

我在MBA课堂做了一个实验,让学生投注,然后把他们的分布画出来,一个有趣的现象是4非常高,这好像跟我们大家的直觉不一样,4在中国人的印象当中是一个很差的数字,为什么4会非常高,当你把他们的学号拿过来后就突然理解了,因为刚好这个班的学生的学号后三位是4开头,所以当时我让他们投注时他们随便找,首先想到的就是他的学号。后来我又在另外一个班上做这个实验,那个班上学生的学号后三位的是从6开始,6就高上去了。

总结一下我的想法,数据是一头大象,它在那个地方,如果你不知道怎么移动它,推它是很难推动的,但如果找到关键的方法和角度,找到大象鼻子里的小老鼠,把它引出来,它就能很快地帮你找到你的商业价值。怎么找到这只小老鼠?首先你要对这个行业有很深的理解,另外,需要分析模型的技巧。想创造价值,更多时候是在这一块,就是能从数据中看出什么发生了,再试图去解释它为什么发生,试图去预测是不是还会有同样的事情发生。最后当然希望能做一个决策,使想要的事情发生,这往往也是最难的一点。

这大概是我想讲的东西。机器能不能取代人?我认为是没有那么容易,因为每个人对自己行业的理解、你的价值观和思考都会引导着你走向不同的角度。

(本文根据主办方提供的速记整理,未经主讲人审订)

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");