重读《大数据时代》后的胡思乱想

标签:大数据时代读后感读书笔记申宏杰

访客:40189  发表于:2014-04-18 00:26:43

重读《大数据时代》后的胡思乱想


 一切都是计算处理能力提高的结果。
    人总想改变命运,而改变命运的基础就是能够预知未来。当评书里说到智者如诸葛亮、刘伯温,常用的词就是“上知天文、下知地理,前知五百年,后知五百年”。命运、未来,如同套在头上的重重枷锁,虽然让我们步履蹒跚,却是反抗的目标,是心头的希冀,是我们内在认识中的挡住光明的最后一道墙。


    好了,哲学范畴的东西我也就能够说这么多。


    这本书是好书,是从另一个角度解读如何规律的书。扉页的思维导图值得保存下来反复学习、思考。200%的好书,译者如是说。我举双手赞同。好话就说到此为止,因为我的臭毛病和局限大家都知道:再好的东西我也抱着批判的态度去了解,并试图以作者的思路考虑我自己面临的问题。简单点说吧,我就是个实用主义者,我就爱挑刺儿!


    “大数据”,千万不要望文生义,多少次在网上跟人讨论、争辩大数据方面的问题,半截我就打住,求求对方先去了解一下狭义的“大数据”到底是怎么回事吧。起码4个V您还是要知道其含义是什么,定义的范围是什么,最起码百度、百科上面都有,学习一下更显得您有水平不是?维克托.迈尔-舍恩伯格(Viktor Mayer-Schonberger,o上面有两个点,作者,好麻烦的英国名字(德语?求解?),下面如果还引用的话我就叫他维克托好了)是要用这本书“著书立说”的,所以他从他的上百个案例中梳理出环环紧扣的线索,娓娓道来,给出了他所认为的大数据特性、价值、风险及如何对风险进行控制。


    这本主体247页的书(中文版),前245页我是越看越想批判,而且我这篇读后感也是反驳为主,但是最后3页,我才知道,维克托比我高明许多,早就料到我这样的半瓶子醋会跳脚乱吠,欺负他听不到,所以简简单单指出:你们那点反驳的意见,我清楚的不能够再清楚了,只不过还想不明白如何解决,所以你们偃旗息鼓洗洗睡吧,你们那点纸上谈兵,等人类的计算处理能力再有一个飞跃,就会有办法搞定啦,只不过,规律、道、世间真理这些虚无缥缈的东西,咱们只能够无限接近,却不知道能够达到。

    所以,我这篇胡思乱想,您也是读读之后,笑笑就算了。

维克托认为大数据有三个特点:

    1、处理对象不再是抽样,而是“样本=全体”,所以,优选方法、优化理论都可以鞠躬下台退休了;

    2、既然是全体,总会有那么几个不和谐音,好在坏份子总是会淹没在群众的汪洋大海之中(而且他们必须不会游泳,他们的翅膀扇动再多,造成的影响也是衰减至无形),所以我们在处理过程中可以知道它但不要在乎它,不必要为了这些不规整数据导致全体无法利用,数据量如此之大,没必要每个个体都一样,要宽容它们;

    3、事情如此紧迫,老板总是说“给我结果!”所以,我们只需要告诉老板“你看这个和这个是差不多的,所以您就按照这个办就好了,萧规曹随,总是不会错到哪里去的”,知道“是什么”就好,至于“为什么”,费时费力还不一定能够搞定的倒霉玩意儿,让哲学家宣告因果关系根本不存在好了。

维克托认为大数据有三个环节:

    1、大数据拥有者,这是帮喊着“我的,都是我的!”的地主,是拿着金碗要饭的银~,是最后必然翻身做主的淫儿~;

    2、大数据处理者(技术),现在最鼓吹、最忽悠、最niubility哄哄的群体,也是下场最悲催的群体;

    3、大数据思维者,知道这玩意儿能够干啥用的人,简直就是救世主啊,起码也是入宝山从本空手而归的主儿。

维克托认为大数据的应用存在巨大风险:

    1、拿着锤子看啥都像钉子,忍不住就会触及人的隐私,至于那些安全协议,就算不是霸王条款,你们谁在打勾之前看完过?更何况那帮新地主在让你签这个不平等条约时,自己都不知道会把这些数据用来干吗~

    2、更可怕的是,当大数据预测达到100%,那么就会对你未完成的非法行为进行控制、处罚,而人不应该为其未做的行为负责!看过电影《少数派报告》没?

    3、为了数据、数据结果而下指标并按照这个指标给出措施和要求,最终大数据里的坏份子比真实数据还多——想想人头论功、想想亩产13万斤。

    维克托识别出来的这两个致命风险,其实根本在于触犯了西方社会的人文基础和法律基础——人权至上,失去自由意志。
而让我大跌眼镜的是:维克托居然把风险的原因归结到人习惯于因果关系而不能够适应相关关系~而给出的解决方法居然是道德!道德……让既得利益者克制自身的欲望……尼玛维克托你是吸引力法则的信徒吗?!

    我最近开始接受我党的思想再教育,嗯,努力学习看到世界、再塑三观的方法。所以我开头就说:过程,不过是个过程,维克托你不要说绝对这样那样,就像有中国特色的社会主义一样,大数据的这些表现,不过是计算处理能力发展到一定阶段的应用形式而已。

    “样本=全体”。的确,抽样方法已经暴露出问题,而优化理论等方法只是将简化模型更贴近于实际模型,但既然能够使用实际模型,那么真的没必要用简化模型了。只是,你处理的这个总体数据就真的是总体了吗?Google的数据、Amazon的数据,政府留存的数据、银行的数据,怎么才算是全体?!所谓的全体,不过是个较大的样本而已,不过是处理者认为“够使”了,够找到“相关关系”了!

    我们的计算处理能力够处理这PTEZY的数据量,但是还没有能力把每个数据都清洗干净,所以“那就这样吧,再爱都无需挣扎”,我知道大致趋势就好了,咱们按照这个相同的趋势去做就好了,不要再内心纠结思想挣扎了好吗?好的!但维克托大哥咱能不能不自欺欺人说不想要精确性?!

    维克托大哥鄙视地说:“不能!因为我们要的是相关关系不是因果关系,相关关系比因果关系重要而且更有效果,让因果关系见鬼去吧!”

    我默默地和译者周涛教授握个手,然后恨恨地剜了维克托一眼。你没能力搞定因果关系就说因果关系不重要没有用没意义,把相关关系当仙丹妙药忽悠我们,你让我们这些从小接受中华文化的理工男情何以堪啊?中国自古就会用类比手段描述风马牛不相及的事物,估计你都没听说过老庄孔孟增广贤文菜根谭围炉夜话,至于唐诗宋词里的精华估计告诉你你也听不懂,你还拿相关关系忽悠我们……

    那么“全体数据”并不全,噪声又被忽略,搞出的相关关系,也只好看着办了,蒙对了就欢欣鼓舞,蒙错了就继续蒙,反正其中也没有因果关系,是么?

    这个相关关系,在所见范围内,也许趋势、曲线相似,但是后续发展就一定相似么?举个例子,开车,能够通过后视镜确定前路的情况么?再举个例子,两条空间曲线在某一段在某个面的投影相似,可这两条曲线真是一样的延伸趋势么?想想手影游戏。相关关系,很有可能是某个因在不同角度产生的不同的果,拿着相关关系当宝没关系,但你说跟那个因没关系就不对了。

    我坚信,世界还是还是有规律的,还是处于因果关系的笼罩下,起码在我们三维空间的认知世界里。而我们要探究世界的本源,向着三个方向(宏观世界的宇宙、微观世界的粒子,本源的人体和思想)努力,都离不开对探知因果关系的追求,只不过,我们处在某些我们现在还不能够知悉的约束下。而这约束,随着我们能力的增长,必然逐个知悉、了解、打破、掌握、控制、为我所用!

    大数据,是过程中的一个表现,是我们解决问题的一个手段,而且目前来看是比较新颖的、比较有效的一个手段,是每个信息技术人员应该知道、明白的手段、工具。我们不能够说它揭示70%的可能性是白费事的,更不能够迷信它。毕竟,数据是数据,如何用它,对结果如何解释,还是由人决定的,不要借口天意如此,其实还不是你说了算?!

    我敢这么大言不惭的大放厥辞,讽刺的是,底气来自于维克托这本200%好的书的最后3页,也是因为我没有否定大数据(或者说我是肯定大数据应用的),而且我自认为从发展的视角提出我的认识,大数据会不断发展、不断突破自身、不断完善。且将书的最后一段摘录于下,与诸君共勉。

    “我们能收集和处理的数据只是世界上极其微小的一部分。这些信息不过是现实的投影——柏拉图洞穴上的阴影罢了。因为我们无法获得完美的信息,所以做出的预测本身就不可靠。但这也不代表预测就一定是错的,只是永远不能做到完善。这也并未否定大数据的判断,而只是让大数据发挥出了应有的作用。大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本。”

评论(3)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");