对话大数据专家涂子沛:借力大数据,通往开放社会

标签:大数据涂子沛数据开放开放社会数据之巅

访客:111068  发表于:2015-11-20 11:22:48

数据开放本质上是一种内开放。

数据如果是开放的,就代表知识是开放的,权力是开放的,为开放社会提供了真正的基础。

开放社会的内涵就包含了对权威的挑战,给普通人提供自我做主的可能空间。

今天的微信,从你使用的第一天开始,所有的对话都会保存在云端,将永不消失,理论上,子孙后代万年之后还可以看到。保护隐私,就要捍卫你的数据。

“其实《数据之巅》要比我的第一本书《大数据》站得更高、也更远,可惜至今销量、影响都没有第一本大。第一本有启蒙作用,但大数据战略对社会和国家真的非常重要,必须持续关注。”虽然就任了阿里巴巴副总裁,曾在部队和政府部门工作过的涂子沛还是颇具传统知识分子的家国情怀。给广东的中小企业讲完课,他留出半天时间,与记者谈早已约定的大数据与开放社会的关系问题。

 对话大数据专家涂子沛:借力大数据,通往开放社会

万物皆数据

记者:现在真到了万物皆数据的时代,但公众的大数据意识似乎才开始觉醒,你的书对很多人有启蒙之功。如何通俗地来描述大数据?

涂子沛:现在,人们早上起床第一件事、晚上上床前最后一件事,往往都是看手机。看手机其实在看信息,看信息其实在看数据,人们离不开的,是数据,“1234”是数据,朋友圈里的一张照片也是数据。数据就是对客观世界的测量和记录。

随着电子设备,尤其是手机的普及,人们可以随时随地把所见所得变成数据,这是一件不得了的事,数据因此开始爆炸。

《史记》被认为是中国最好的史书,史书中记载的一些细节,是史家的推测或“虚构”。在智能手机、传感器普及的大数据时代,越来越多生活的工作的细节,都可以被记录下来。未来的历史不再需要被“虚构”。从今以后,数据是静态的历史,历史是动态的数据。

越来越多的工具可记录事件,把任何所见所得立即变成数据,这是大数据时代和以往的本质区别。

记者:刚闭幕的十八届五中全会提出“大数据战略”,这是全球主要国家的战略方向。它会在哪个层面影响社会的整体发展?

涂子沛:是的,十八届五中全会公报提出要实施“国家大数据战略”,这是大数据第一次写入执政党的全会决议。

在战略层面,我看到至少三个问题,一是数据的开放和安全;二是数据的标准,各行各业的数据都应该有标准;三是数据是战略资源、处理数据的人才也是战略资源。

因为人们在记录世界,可供“分析和使用”的数据在大量增加,通过这些数据的交换、整合和分析,人类可以发现新的知识,新的交叉领域,重新构造供需,创造目前难以想象的新价值,带来“大知识”、“大科技”、“大利润”和“大发展”,无论是在商业领域,还是国家治理领域。

记者:听起来有点“大跃进”,但大数据的确可能对现有的社会形态带来某些颠覆。黄仁宇讲的数目字管理,可能还是偏于治理的精确性。这跟现在的大数据,还是有本质区别?

涂子沛:黄仁宇讲的“数据”,偏重于统计和测量,原来是要用科学方法去统计、测量,其结果是数据,而现在的“大数据”更多的是记录而非测量。拍个照片,录个音频、视频,写封邮件,这些都是现在的大数据,这些数据是记录事件而不是测量事件。

黄仁宇认为,中国的落后,根源在于整个社会没有发展出“数目字”的管理体系,数目字管理就是数据化的管理,这个观察我认为仍有价值。

我的第二本书《数据之巅》有相当篇幅在延续这个话题,中国社会没有发展出数据化管理的体系,和我们的文化有关,中国人善于含蓄、模糊的审美和联想,止步于用逻辑来分析、用数据来证明,所以我认为当下的数据爆炸其实也是一个发展新文化的契机,所以我提出要抓住机遇,建立普及数据文化。数据不应该仅仅是个技术符号,还应该是文化符号,特别是对我们民族来说。数据文化是提倡数据、基于数据的文化,是尊重事实、强调精确、推崇理性和逻辑的文化。

大数据治国

记者:以前民间流传:村骗乡,乡骗县,一层一层骗到国务院。数据出政绩、出官的现象很普遍。所谓大数据战略,能否帮助解决这些问题?

涂子沛:这是小数据时代各国政府都面临的一个问题,数据都有水分,只是水分的程度不同。由官僚体系层层收集上来的数据,每一层部门都会根据自己的意愿、根据官场竞争逻辑对数据进行“拿捏”,水分因此产生,在现代治理体系未建立的时期,因为不透明,这种现象更为突出,甚至就是一级骗一级,很多时候,上级也知道下级在骗。大数据的方法和技术,确实对解决这个问题有很大的帮助。

记者:GDP统计方法的改进,还是多种精确数据的综合对比?

涂子沛:大数据的真正杀伤力,其实并不在于表面的大,而在于“多源”,即有多个在源头的数据,相互印证,是一种多元化。比如说克强指数:工业用电量新增、铁路货运量新增和银行中长期贷款新增的结合,这些数据,都可以去印证GDP真实的发展水平。

这种印证的技术还在不断推陈出新。例如,有公司通过收集卫星照片,观测中国建筑工地上脚手架的影子,来分析中国建筑行业是在繁荣上升还是在萧条下降。一家叫Orbital Insight的公司,就分析了中国30个城市的卫星图,为开发商们提供独家数据,而这些公司,可以不再仅仅依靠政府提供的数据。

Orbital这家公司就创造过一个奇迹,它通过停车场的数据,预测美国罗斯百货的季度收入,比专业的市场分析公司还准。

在大数据的时代,官员或企业管理人员人为捏造数据的道路将越来越窄,最终行不通,多方面数据同时指向一个问题,如果捏造数据,会千疮百孔,各种矛盾将会越来越多地展现在众人面前。

记者:对于公共决策的体系有什么影响?呼吁已久的公共财政预算、项目计划、官员财产公开呢?

涂子沛:具体到公共决策体系,我提倡“数据治国”,我相信大数据,是当下推动国家治理现代化的一个重大契机。数据是量化的结果,量化,是人类进行科学研究最根本的手段,就此而言,数据治国也可以理解为“用定量分析、实证研究的科学方法来治理国家”。

所谓治理现代化,就是要认识到,公共决策最重要的依据将是系统的数据,而不是个人经验和长官意志,过去深入民众、实地考察的工作方法虽然仍有效,但对决策而言,系统采集的数据、科学分析的结果更为重要。今天的数据时代,强调的不是静态的数字,而是动态的数据、系统化的数据、以不间断“流”的形式存在的、成片的、活的数据,它们应该成为公共决策的资源,为政府和社会广泛使用。

政府的行为和人的行为都会被精确记录。这就要看我们能把大数据战略实施到什么程度。政府在做项目决策时,知道这个数据要公布出去,要被质疑,其官员的行为就会发生改变,会更慎重对待数据,数据也会反过来影响政府的行为,互相作用。

在一些发达国家,公共财政预算、项目计划、官员财产公开这些问题已经进入了数据开放的领域,而不仅仅是“公开”。

记者:数据开放和信息公开的区别在哪里?

涂子沛:这是两个完全不同的概念。简单地说,公开是信息层面的,是一条一条的公开;开放是数据库层面的,是一片一片的。公开即告之,是知情权的载体,而数据开放是将原始数据以机器可读的形式放在互联网上,让别人一下载就可以自由使用,它是技术层面的,是为了让社会更好地使用数据资源,推动经济发展和社会创新。例如公共财政公开、官员财产公开,今天很多国家已经不是把一个数据结果告诉大众,而是把整个公共支出的数据细目以数据库的形式放到互联网上,以供大众分析使用。

数据开放,我认为本质上是一种内开放。一提开放,很多人想起“对外开放”,其实内开放更重要。当下,对数据开放也有很多理解的误区,例如很多人认为开放就意味着“免费”,其实企业的数据,也可以以收费的形式开放。开放也是有层次的,可以对某个群体、某个组织,也可以对全社会开放。

在大数据的时代,开放数据的意义,更在于让数据这种生产资料流动起来,以催生创新,推动知识经济和网络经济的发展,也可以促进中国的经济增长由粗放型向精细型转型。

记者:对贵族社会怀有眷念的托克维尔曾感叹,人人平等,自己做主的社会将不可阻挡地到来。在数据开放的时代,这一点更明显。但个人也可能淹没在信息海洋中?

涂子沛:数据开放是信息的自由流动的一个高级阶段。整个信息当中具有结构化、体系化,最有价值的信息表现为数据,当他们开放时,就不仅仅是信息流动了。数据如果是开放的,就代表知识是开放的,权力是开放的,为开放社会提供了真正的基础。

开放社会的内涵就包含了对权威的挑战,给普通人提供自我做主的可能空间。今天数据越来越多,每个普通的人都能获取知识与科学,曾经只有特权阶级、精英分子能够去解读的东西,普通人今天也可有自己的理解、进行解读。即个人可以通过自己所掌握的信息做出选择和判断,这样能促使社会不停地进步。

但由于信息过多、传播速度快,超出了一个人可以处理的能力,确实也会出现集体平庸、随波逐流的问题。

人类新挑战:丧失隐私权

记者:前段时间访谈王飞跃先生,他提到,由于人的行为被精确记录,与现实的你对应,一个“虚拟”的数字化的个人,会在网络空间被立体而丰满地建立起来。网络世界会成为与“现实世界”互生、互变的一个强大世界。

涂子沛:是的,我称这个世界为现实世界的“镜像”,现实世界在时间的维度上,转瞬即逝,但通过数据,留下永久的痕迹,其基础是人的行为被大量记录。最早的互联网意思是机器跟机器、跟人互相联接起来了,今天早就超越了这个阶段,其实叫互联网、网络世界已经不合适了。

今天,无数数据在互联网上沉淀,互联网本质上已经成为沉淀数据的基础设施。把商业过程数据化,在互联网沉淀下来,企业就可以去分析、去预测自己的消费者群体。我认为,这是传统的企业跟互联网企业最大的区别,即数据化,传统企业没有用互联网这个东西来沉淀自己的数据。

记者:甚至不仅是互联网,万物互联,脸谱公司2014年20亿美金收购Oculus,使虚拟现实技术进入普通人的视野。未来五年或十年,我们的生活也许是在一个“虚拟与现实彻底打通的世界”里,而这个世界里,现实与虚拟的边界将会变得模糊,基于大数据的各种自由应用,可能会大行其道。

涂子沛:对,这里要注意的是,这个数据世界、虚拟世界不仅和现实世界平行,而且会反作用于现实世界。

南方周末:政府、企业、个人都是如此。不仅屈原这种“公务员”的收入与消费会被记录,普通人的行为、念头、购物记录,也都在被全方位记录。

涂子沛:一个婴儿,甚至从娘胎里,就开始被记录了。出生后,家长会用各种记录工具来记载他的成长轨迹。孩子长大,又会自己记录。这些构成从摇篮到坟墓的数据和记录。例如今天的微信,从你使用的第一天开始,所有的对话都会保存在云端,将永不消失,理论上,子孙后代万年之后还可以看到。

记者:个人的隐私权会成为一个严重问题?

涂子沛:我在第一本书《大数据》里,写过一个案例,美国某地区新安装的ATM提款机数据记录出现了异常:每天午夜12点到2点之间,有大量的款项被提取。银行担心这涉及诈骗,进行监控和调查之后发现,原来该提款机靠近一家色情俱乐部,顾客来这里提取现金,是为了不在信用卡上留下“不体面”的消费记录,但欲盖弥彰,提现的数据反而泄露了隐私。

记者:这还只是单个数据的检测记录。如果更多元的数据被检测和记录,每个人都可能成为透明人?

涂子沛:确实,一旦多个源头的数据一整合,隐私更麻烦,接着上面的例子说,当你在银行存钱、提款的时候,你留下的信息绝不仅仅是一笔银行交易,其实你还告诉了银行,某一时刻你所处的地理位置。这些信息,很可能会成为你其他行为的解释,从而透露你的隐私。设想一下,你的每一笔提款记录,如果和你当天的通讯、消费、旅行等其他数据记录整合起来,你当天的行踪和作为,就不会有太多的秘密可言。

在大数据时代,计算机内的每一个数据、每一片字节,都是构成一个人隐私的血肉。信息加总、数据整合,对隐私的穿透力不仅仅是“1+1=2”的,很多时候,是大于2的。

所以保护隐私,就要捍卫你的数据。

公众参与:“我的数据我做主”?

记者:吃、穿、住、行、用、玩,现代人几乎每个环节的活动被网络覆盖,怎么保护个人隐私?

涂子沛:隐私保护的意识,我们比西方社会要弱,但大数据时代的到来,把我们带到了几乎和西方社会平齐的起跑线上,要保护好隐私,我的预计是,必须建立“我的数据我做主”的基本原则,即因你而产生的数据,要怎么用是自己说了算,不是银行、商家、医院说了算。

公司、商场、银行、医院和政府在收集数据时,要做出申明和承诺,收集这个数据用于哪些用途,除了这些用途之外不能乱用。归根结底,谁想用你的数据,应该经过你的允许。

记者:最起码的身份证信息、手机号码,现在也不一定能得到保护。经常会被“卖”给商家,或其他没有得到授权的人……

涂子沛:我回国生活了一年,也发现,确实存在大量的地下数据交易黑色链条,这个领域乱象丛生,迫切需要立法治理。从其它隐私保护得较好的社会的经验看,公众的隐私保护意识和参与很重要。

智能社会,正在发生的未来

记者:开放的政府、开放的社会是人类能不断向前发展、获取更大自由的根本动力。现在的大数据、云计算、人工智能、虚拟现实技术融合在一起,你认为会带来一个什么样的社会形态?

涂子沛:我相信,大数据的终极意义,其实是在引导我们走向智能社会。智能的载体和来源是数据。当我们对数据赋予背景时,它就成为信息;信息是知识的来源,当把信息提炼出规律的时候,它就上升为知识;知识是智能的基础,当电脑、网络能够利用某种知识作出自动判别,采取行动为人类服务的时候,机器智能就产生了。

所以数据化是基础,只有越来越多的商业过程变成数据,这个过程才可能智能化,即由机器来自动处理,这种处理不仅效率更高,因为减少了人工干预,还更公平,即控制了腐败。例如,阿里巴巴的电商平台上做促销活动的时候,要选品,即确定哪些商品可以上活动,以往阿里巴巴都是由小二说了算,小二自然有很大的权力,店家就要巴结小二,现在,阿里正在根据数据设计算法,改由机器自动选品,这很好地解决了、杜绝了腐败问题。

所以我们提出:一切业务数据化,即把所有的业务过程都记录下来,在数据上形成闭环。这是智能化的基础。

记者:但人工智能也只是其中的一部分……

涂子沛:智能时代的特点,是无处不在的计算机和网络将像有智商的人一样为人类工作和服务。换句话说,越来越多的工作将被计算机或者机器人所代替。

此外,由于精准的计算和预测,社会的很多个部分都可能像无数个大大小小的齿轮轴承一样,环环相扣,齿齿吻合,日常管理通过数据更加优化,各种任务、合作可以无缝对接,社会运行的成本可以大幅降低。

当然,这是从局部开始的,先从重复性的工作和常规性的工作开始,我相信,机器永远无法取代人类,但这种取代也将极大地提高效率、将人类从大量重复性的工作当中解放出来。

记者:这似乎跟计划经济时代有点像?像齿轮一样环环相扣……真有可能吗?人始终会有自由意志,无法被精确预测和计算。

涂子沛:人在大部分情况下确实不能被精确预测和计算,特别是当他知道他在被预测、被计算的时候,但社会总体上可能呈现一种规律,即预测的层面范围越大,才可能越准,智能化只能局部地解决问题,但会大量广泛地存在于我们未来的生活当中。计划经济是层层设定指标,最终到达个人,即个人的生活需求被量化、被规定,这跟我们讲的智能社会有本质的不同。

来源:南方周末

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");