大数据的价值是如何得以彰显的?

标签:大数据

访客:13551  发表于:2016-09-26 09:40:09


大数据有价值,这个观念似乎已得到很大程度的认可。

当然,也有质疑的,比如《21世纪商业评论》的发行人吴伯凡先生,他就曾说“大数据本质上是一种垃圾”。但话锋一转,他又说“如果你有好的方式,把这些垃圾,好象没有用的东西,你能够提炼出来,加工出来,那就是很有用的。”

这其实就是大数据的特征之一——“价值大,但密度低”的另一种翻版说法,也就是说吴先生并没有真的认为“大数据就是垃圾”。

那么我们怎样才能让大数据变废为宝,使其价值是得以彰显的呢?

在回答这个问题之一,我们先找几个没有什么争议的大数据公司,看看他们是怎么玩的。

大数据公司的第一道门槛,就是你得有大量的数据(此外的门槛还包括具备大数据思维和干活的工程师)。在互联网领域的公司,在这个方面有着得天独厚的优势。国外的Alphabet(谷歌母公司)和Facebook,国内的BAT(百度、阿里和腾讯)都可以算是比较彻底的大数据公司。我们来看看他们2015年的营收情况(如表1所示)。



从表1可以看出,广告营收分别在Alphabet和Facebook整个公司营收的绝大部分,其比例分别为89.55%和95.28%。我们再来看国内的广告巨头,2015年百度102.23亿美元的收入里,其中广告收入达到100.78亿,其比例达到惊人的98.58%。阿里巴巴(62.7%)和腾讯(55.01%)的比例亦不容小觑。腾讯之所以用加号(+)单独一列,是因为腾讯的部分广告收入和游戏收入搅和到一起了,“剪不断,理还乱 ”,如它的游戏联运(16.98%),既可以算得上游戏收入,但在本质上这部分也可归属于广告收入。

从上面所列的数字,可以给我们带来一个直观的感受,那就是互联网行业的大数据公司,其核心商业价值的彰显,竟然就是赤裸裸的广告。但是,这里的广告,并不是我们传统意义上的线下广告,而是通过一种付费内容的载体,是对流量和数据进行变现,与传统广告有非常大的差别。

计算广告的最大挑战是什么?

大数据专家刘鹏先生认为 [1] ,不了解计算广告,就不可能深入地了解互联网,也不太容易真正理解大数据。那么,什么是 计算广告呢?

计算广告(Computational Advertising)是一门正在兴起的交叉学科,致力于采用数据挖掘(如大规模搜索、文本分析和信息获取)、机器学习等人工智能手段,结合用户反馈,行为分析,甚至心理学等,来提高广告相关性,交互性,实现广告主、广告网络(如AdSense)和用户的自动化匹配。

我们知道,大数据的核心价值就是预测。

作为大数据和核心应用之一,计算广告,更是如此。它要完成的核心任务,就是预测哪些用户对哪些广告感兴趣,然后据此推送相应的广告。

说得更加学术点,就是在特定语境下特定用户和相应的广告之间找到“最佳匹配”。

这里的语境,可以是用户正在访问的网页,也可以是用户在搜索引擎中输入的关键词,还可以是用户正在看的书、听的音乐等。潜在广告池的广告数量,可能达到几十亿,而用户的数量也同处于这个级别。故此,这个“最佳匹配”,面临的最大挑战就是在复杂约束条件下的大规模优化和搜索问题。

简单来说,在数以千万(甚至上亿)级别的网络用户反馈形成的、快速变化的数据空间,计算广告并没有确定的“ground truth”(地面实况,即用于有监督训练的训练集的分类精度),同时它也无法通过均匀地对总体空间进行采样,构建鲁棒性很强的训练集。更为要命的是,其建模的对象,是人的行为,而人的行为又极大程度地受到系统输出的影响。

人类学家兼数学家托马斯·克伦普在其著作《数字人类学》强调 [2] ,数据的背后,其实就是人类。确切来说,数据,在本质上,是人类观察世界的表征形式。研究数据,在某种程度上,就是在研究人。计算广告领域的研究,尤其如此。

前文我们提到,大数据的核心价值就是预测。而预测通常分为三个层次(如图 1 所示),最内层是对人性的预测,这个在很大程度上其实不用预测,人性使然而已。比如,人饿了会怎样?他(她)会找事物吃,不找东西吃会饿死。手碰到火后,人又会怎样?他(她)会很快拿开,不然手就会烧疼。

预测的中间层就是趋势,这是大数据的拿手好戏。 法国 著名哲学家奥古斯特·孔德( 1798 年 ~1857 年)认为,人做个体是无序的,具有“自由意志”,但样本增加至全社会,大数定律就会发挥作用,人们就可以从中发现稳定的规律。 200 多年后的今天,全球复杂网络研究权威艾伯特·拉斯洛·巴拉巴西 ( Albert-László Barabási ) ,用大数据分析支撑了孔德的观点,他在其著作《爆发》表示 [3] :“ 人类行为 93% 是可以预测。”

预测的最外层就是对习惯的预测,某种程度上,也就是对个人“自由意志”的预测。这个是最难的。比如说,前天我吃了汉堡,昨天我也吃了汉堡,今天我还吃了汉堡,你能预测我明天吃什么吗?的确有可能,我明天还吃汉堡,但连续三天都吃汉堡之后,我完全更有可能由于吃腻了,换个口味啊。但是基于数据的归纳法(这是人类绝大多数知识存在的根基),很容易得出预测的结论:我明天还吃汉堡。这种预测,哪里是预测,明明就是对个人自由意志的“猜测”,准不准,天知道!

而计算广告的受众对象,就是对个人行为习惯(自由意志)的预测,所以我们可以给出一个推论,计算广告的预测效果,肯定不会太好!人心叵测嘛!

那为什么如前文所列的大数据公司(如 Alphabet 、 Facebook 及国内的 BAT )的广告效益,还这么好呢?其实他们取胜的秘密,也很简单,那就是单位广告成本极低,但规模超级大。

虽然我们说了,计算广告的预测效果注定不会太高,但还是比毫无根据的“瞎猜”好很多。还拿前面的例子说事。如果我们有了“前天我吃了汉堡,昨天我也吃了汉堡,今天我还吃了汉堡”的数据,计算广告的确不能很准确地预测我明天吃什么,但总比一个人完全不知道我过往的饮食习惯,在成百上千种食物中,瞎猜一种,其预测准确率还是要靠谱一些。

胡适老先生曾经说过一句名言,“怕什么真理无穷,进一寸有一寸的欢喜。”套用到计算广告上,我们也可以说一句,“怕什么预测不准,提高一个百分点,有一个百分点的收益。”

的确,哪怕把广告的转化率提高一个百分点,架不住计算广告推送的规模之大,其收益也是相当可观的。这就好比,一块钱不算多,但如果每个中国人都给我一块钱,那我就是亿万富翁了,原因很显然,中国人口基数太大。

因此,计算广告还是很有搞头的。

计算广告是如何变现的?

我们知道,当前互联网产品的大趋势,就是免费!

可是互联网企业也要活下去,他们也需要有变现的的资产。那些可变现的资产又是什么呢?

总结一下,互联网行业可变现的核心资产,主要来自两个方面。第一个方面,也就是最简单粗暴的方式——利用流量(traffic)变现。

什么是流量呢?就是有人访问你的网站,或者有人在用你的APP,在这些产品中,除了放用户感兴趣的内容以外,还可以放一些付费内容(Sponsored content),也就是广告。在正常内容里夹裹付费内容,就是流量变现的基础。这个容易理解,有点类似于很多人都爱看电视剧,那么电视台就可以把广告,插播在电视剧里。你想看电视,就得看广告!

但电视台播放广告的弊端也很明显,那就是“千人一面”——所有人看到的广告都是一样的,这样的广告转化率势必不会太高。如何提高广告转化率呢?

除了流量能够变现之外,互联网公司还有一项非常更重要的法宝,那就是数据!

简单地说,通过大数据(特别是用户的行为大数据),互联网公司可以做到较为精准的用户画像(personas)[4],据此判断用户偏好,然后再根据这些偏好,提高付费内容的转化率,这是数据变现的基本原理。

那么这些用户大数据又是如何得来的呢?自然都是来自各种免费的互联网产品,当用户在用这些产品过程中,就会留下蛛丝马迹,互联网公司就会收集这些信息,据此猜测这个用户的属性,比如购物偏好,然后再根据这些购物偏好,来投送相关的付费内容,这比没有任何的指导来投放付费内容,它的效果肯定要好一些。

刘鹏先生提供了一个精彩的例子,如图2所示,可以辅助读者理解一下数据变现的原理。这个图的左半部分说的是流量变现。比如说,假设我们有个网站,每天有10万的访问量,那么就可以在上面放一个广告位,这个广告位可以有个报价,比如说5000块钱,这就是流量变现的价值。

但是这种流量变现的方式,并没有最大化发挥数字广告的优势。因为剃须刀广告的有效受众,基本上都是男性,因此,这个流量里边,有一半的女性受众是被浪费了,那么,该如何合理利用另一半流量呢?

实际上,在计算广告体系里,我们完全可以做到,仅仅把男性的一半流量留给这个剃须刀广告客户,对于这个客户而言,它的有效受众的触达,其实并没有损失,但由于他只用了一半流量,因此可以给他打个折, 3000块钱就可以了。

如此一来,对流量变现的互联网公司而言,它还剩下一半女性的流量,他可以用3000的价格卖给另外一家做化妆品的广告主。对互联网公司来说,它挣到了更多的钱(6000块)。对于广告主而言,他也是满意的,因为他只用花3000块钱的成本,就获得了原来他要花5000块钱成本,才能触达的有效受众。所以,这是个双赢的生意。

实际上,我们知道,天下没有免费的午餐!在我们的工作生活中,基本上,存在一个利益守恒原则。也就是说,如果你在某个方面获得了利益,通常是会在其它方面,以某种形式(或显式的或隐性的)牺牲利益为代价,换回来的。

双赢(或多赢)是不符合利益守恒原则的。既然是双赢,一定需要新的资源加入到这个利益分配过程当中,那么这个资源是什么呢?这就是数据的价值!也就是我们一直说的数据变现的秘密。

计算广告的收益 —— 我们付出了什么代价?

互联网公司之所以能得到这1000块钱的溢价,是因为他们有了每一个用户的性别数据。如果再接着问,他们为何能有这些数据,还不是我们用户“免费”使用了人家的产品嘛?

我们在享受互联网公司提供的免费“午餐”时,付出的第一个代价,就是不经意间泄露了我们的个人隐私数据。你看看,天下哪有免费的午餐?免费的背后,其实是都是要付出代价的!

天下没有免费的午餐,不光是个普世化的认知,在计算机科学领域,甚至还给出“没有免费的午餐定理(No Free Lunch,简称NFL)”的理论证明。该定理是由美国圣菲研究所(Santa Fe Institute) 教授Wolpert和Macready等在1997年提出[5],其结论是由于对所有可能函数的相互补偿,最优化算法的性能是等价的。该定理通俗来说,如果某个算法在某个场景下,获得了最优性能,但它在其它场景下,一定付出了性能代价,不可能在什么场景下,你都最牛。就看当前场景下,算法优化后的性能改善,和付出的代价相比,值还是不值!

苏萌、柏林森和周涛等人曾合著了一本书,叫《个性化:商业的未来》[6]。我们不能说这本书的观点是错的,但如果这本书的观点是正确的,根据NFL原理,我们同样也可以写另外一本对应的书籍《隐私获取:大数据公司盈利不得不说的秘密》。

因为所有的个性化服务,都必须以获取用户个性化的信息(即隐私数据)作为前提,没有个性化的数据,自然就不会有“贴心”的个性化服务。

计算广告盈利水平的提升,肯定离不开用户隐私数据的获取,而用户的大数据隐私保护,也是计算广告绕不开的研究话题。


评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");