方滨兴:大数据搜索要有隐私保护

标签:大数据搜索网易隐私保护方滨兴

访客:29862  发表于:2015-12-15 09:52:12

2016年网易经济学家年会近日在北京举行,在《2025科技展望》的分论坛中,中国工程院院士,中国网络空间安全协会筹备组召集人方滨兴在主题演讲中表示,大数据的能力太强大,可能把个人隐私挖掘出来,要有隐私保护。

方滨兴:大数据搜索要有隐私保护

               中国工程院院士,中国网络空间安全协会筹备组召集人 方滨兴

以下为文字实录:

方滨兴:我们先说现在我们搜索引擎,如果没有搜索引擎互联网不会走到今天,当然我说的搜索引擎不仅是百度、搜狗、谷歌这些,淘宝、当当没有搜索引擎什么东西都找不到,没有搜索引擎什么都不存在了。

受到大数据到来搜索数据在扩张,我们有很多信息都可以被你搜索到,有物联网信息、移动物联网的信息,地理轨迹数据等等,数据源在扩张,而不是像过去只是在互联网上的信息。

第二,是我们的搜索空间也在扩张。过去我们仅仅在互联网搜索,我们现在可以到物联网、可以到电信网、可以到传感网,可以到很多网搜索。它是一个网络空间,什么是网络空间?网络空间是包括互联网、电信网,社交网络、计算系统、通信系统、控制系统等虚拟空间。我们不是停留在传统的互联网上,用我们的行话到泛在网上。

第三,搜索内容也开始发生变化,过去搜的是简单的信息,文字信息或图片信息。现在空间上已经扩张了,我们搜索的有内容、还有时间、还有空间,像当当网的物流,京东的物流,都给你带来时间轴,空间信息。

而内容本身也在扩张。过去内容就是文字本身、信息本身,或者图片视频。现在内容还包括人、包括物,这个物体在哪儿?这个人是怎么回事。所以它们也是扩张。

再就是搜索模式在变化。传统搜索模式搜的存在性信息。这个文字在哪个网页有?拽出来看看网页怎么回事。往下搜到语义理解,现在打个“毛泽东”他给你履历生平,你可能关心他背后的事情。

还有服务搜索,你搜索天气预报,他知道你在北京告诉你北京天气预报,你写北京时间马上告诉你现在几点几分,北京到海口的航线,马上告诉你机票最近时间价格怎么样。提供服务,服务搜索。

往下还需要给我一个解决方案,给我一个答案,让网络给我一个智慧。这是我们下面要追求的事情。追求的新一代的搜索技术。我们现在有了这么多的变化,空间在变化,我们要有更大的空间获取原始信息。

什么叫解决方案?我们要到医院去看病,我们到医院看急诊。现在搜什么呢?现在片断一个一个搜,附近有哪个医院交通信息怎么样?这些信息都有,搜狗有搜索引擎,交通浏览器都有。但也就到这,再往下还要什么?资源怎么样?床位怎么样?如果在大数据年代大家数据共享,医院把床位情况共享出来,能不能接待我?

还有排队挂号排队,牌号器借给我们,知道排号情况怎么样。知道一个病人花多长时间,不断有新的排队的人进来,所有信息都综合之后,搜索引擎会给你一个答案说:你到十公里内的医院最好,不是到一公里外的医院。因为什么?因为各种因素,排队它的医疗资源的数量,还有它的床位等等。

我们叫大搜索,因为我们面对Big data,用Big data是5个V,数据复杂、数据不确定,最后一个V有很多价值挖掘出来,谁给它挖掘?大搜索挖掘。

什么是大搜索?面对泛在网人、空间、物体、内容,基于网络空间大数据获取的知识,从信息时间、位置角度给满足用户的搜索解答。

大搜索本质关系到五个问题,各个角度上的信息。在泛在网的空间,不仅仅是互联网。排号信息如果能共享出来,对你的企业肯定有很大好处。就跟携程,能够成功拿到所有酒店空房率的信息,它能帮你把用户推荐进来。

如果我们医院、银行,所有长期排队的这种,你把你的牌号信息分享出来,网上搜索时,参考你排号信息,这时服务质量马上提高。整个均衡程度会扩张,三甲医院有限的医疗资源可以服务于那些人再多必须到这排队,到这看病的复杂。旁边的医院也要有人看,要有人引导。

第二个要有人理解。用户提出一个问题到底是什么?查一个信息到底想说什么?我问番茄炒鸡蛋,是先放鸡蛋还是先放番茄。理解不了,网上一看有西红柿炒鸡蛋,把它关联到一起。正确理解客户意图是解决问题的很重要的关键。

第三,我必须有知识组织,有足够知识在这里放着。大搜索可以看成叫千亿个为什么。大家能想到的关于为什么都来。我们搜索引擎本质是什么?为什么搜索引擎很快?因为有索引结构,把所有查的词这样的索引事先组织,只要我见过的索引马上拿出来秒级响应。现在大搜索把问题当做索引,想有多少关键词查询,我组织多少问题查询,我把所有问题组织好事先放在里面,这就构成知识库。

第四个要智慧解答。我给你解决方案,给你不是存在性信息。这叫向网络要智慧,人工智能重新热起来,也是这样的原因。我们有这么多的数据,也许我们能够比人获得更精准的解决方案,然后展现出来。

后一个隐私保护。大数据的能力太强大,可能把个人隐私挖掘出来,要有隐私保护。

针对大数据的5个V,大搜索有5个S。第一个S是获取。怎么获取信息?第二个S是感知。我要知道用户真实意图是什么。第三个S是多元综合。要把所有通道获得的信息,针对你的问题做好解答准备。第四是智慧解答,这里有千亿答案,你的问题怎么恰好是我,不能格式划分,爱怎么说怎么说,你的话可能这句话这三个答案是我需要的,很多答案是结构性需要补贴数据。我刚才说找医院,实时找交通数据做计算性问题。

第五个是安全可信。稍微展开说一下。泛网获取第一个原则,将来泛网获取不仅仅是网页,是整个网络空间,包括物联网、传感网、电信网包括所有能够获得的信息,这些信息拿出来会有很多东西,但信息源太大了,不可能像搜索引擎一样,把全部网页搜索出来。

不可能怎么办?得分类解决。现在解决方法是把所有东西拿过来,做倒拍索引找东西。将来怎么办?构造足够多的问题,比如上千亿个问题,为每一个问题搜索信息,信息组织。我等于为将来组织上千亿个答案做出它的准备。

对每一个问题来说,搜索信息量不是那么大,而且搜索比较精准。

第二个是感知。现在怎么感知?你给我什么词?当然现在已经有新的进步。有个定位信息,比如在北京查天气预报,马上给你北京天气预报,因为能判断你的IP从哪儿来的,这已经有进步。还不够,还要有更多手段正确理解用户想干什么。

用户有历史性查询,通过用户历史性查询看到他的查询有偏好。比如现在有大的环境,大家都在讨论网易,网易财经。你一搜网易论坛,马上想到是不是网易财经论坛,大家都在讨论的问题,有一个背景我们叫时态。当然也有语义的理解,你说番茄,番茄跟西红柿对应的,这些都是理解手段,正确理解用户到底想提什么样的问题。

第三个是知识综合。现在怎么办?现在搜索引擎只是简单做一个PageRank,现在搜索引擎查一个网易财经,查了网易财经给每个网页上有网易财经都拿出来,有上百万页都有网易财经怎么办?关心两件事。有多少条链指向它?指向它链最多放在前面。还有一个人们查到点击,查到不点击,一点点往后退。这是简单的PageRank。

这是一种服务方式,大搜索不一样了,刚才我说对你有关的问题答案找出来。想找出来事先做了大量的关联,现在一个可行的技术叫知识图谱。比如我看到俞志晨,曾经北邮毕业,搞图灵机器人,有一天你只查图灵机器人,你找的人叫俞志晨。我要有大量的关联,把所有关联词关联出来,看你的问题,把最符合你叙述的答案找出来。

第四个是解决方案。解决方案关键是,你的问题是否能够有现成的答案拿出来。我干嘛现成可以现推。有很多可以现推,我们现在说的是搜索引擎,搜索引擎要秒级响应,你等不要说分钟,等了四秒五秒都不行。今天没有现推给你答案,问题进去了,可能算一天、两天算出来,以后两天三天后有人问这个问题就出来了。

比如说我们这里面写一个“为用户求解出智慧答案”,我把“出”字索引,索引不出来。没有这个东西。或者把“慧答”拿出来索引,在网上肯定有这个东西,发现你需要同样检索以后再用。

问题当时这么多有答案的东西,哪个跟你匹配上?这个是要解决的问题,你的意图要和我做很好的构架。

以后在找医院时,事先做好构架,当你说我找最快的治疗医院,或最快的提供什么服务?做一个框架。你到那个银行开户取钱,最快屏幕服务。涉及到位置,把位置框上,涉及到排号距离、好评程度、资源占用程度,这些参数一计算给你结果。判断出来你需要的,效率马上上来了。

当然还有一个,你的信息可能有隐私性我们要有一个配置。对人来说,比如方滨兴要查你现在在哪儿?因为我们现在带的东西都有定位信息。你在哪儿?我事先说好,如果是我的家人知道我在哪儿OK,精度两米。

如果是我的工作同事工作期间精度三米,但非工作期间精度两公里,知道我在这一带甭管我在哪儿。你的朋友精度一百米,非工作期间两百米。要有一个事先的判断,通过判断的问题。

刚才我说大搜索,一搜索一大堆的拿出来了。最后要有一个过滤,搜索结果是否能够推出来一个人的精确,如果是你跟这个人有没有关联,有没有得到授权,如果没有给他打***。这样有隐私保护体系,这样大搜索工具不那么可怕,否则的话每个人没有隐私了,等于戴透视眼镜看别人,这个社会就不那么安宁了。

最后我给出信息,什么是网络空间大搜索。根据一定的策略和方法,从互联网、物联网、电信网等泛在网络上实时、快速、精确地获取各种物理实体,人物、信息,以及时间与位置属性;具备洞察理解用户搜索意图的“智能”。

能够对网络空间各种对象进行高效地组织和管理、建模和索引;具备为用户构建尽可能符合用户需求答案的智慧;能够以“向量”的方式提供智慧解答。

搜索内容由信息扩展到了物体、信息和人物,从传统搜索面对的虚拟世界拓展到了现实的物理世界。现在物理世界也可以搜了。

第二搜索结果可以从存在性信息破解到解决方案,理解用户意图给用户构造答案。向网络要智慧。 过去搜索结果,过去标量结果,现在是向量结果,呈现的是一种向量,带有时间维、空间维等等。

最后,说一个结论,大数据搜索是抢占技术搜索高地。刚才我听鲁白的介绍我很有感触,我们国家创新的环境不好,不好在哪儿?在国际社会上,他们有人跟我说,在硅谷听一个新概念,大家首先想,这个东西没准真能成,大家没有新想象,突然你有新想法太好了,往前推一推。

但在中国提新概念,大家想你能干成吗?否定的声音特别多。导致政府也犹豫,政府投资没有给完全中国人提的新概念,投的大数据、云计算等都是别人提的,这玩意儿没人提就你提能行吗?这是一个问题。

我们从两个方面呼唤大搜索,没有搜索引擎互联网不可能走到今天,信息太海量了,通过搜索引擎掌握它。你们大家都知道有物联网,谁真正感觉到物联网在哪儿?那个东西只有在你身边感受到它的存在。我戴了这个手表,别人戴了你不知道,为什么?物联网没有搜索引擎。

物联网走不了太快。大搜索包含了物联网的搜索,因为它是整个泛在网的空间。我们将来搞天气网络,配上搜索引擎不可能再用起来。

现在数据太海量了,直接要结果就好,数据太多了,对你就是噪音。我到底想干什么,你你告诉我,我告诉他怎么干。好的,我的报告到这。谢谢大家。

评论(1)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");