破解谷歌图像密码

标签:谷歌技术产品

访客:28388  发表于:2013-10-14 03:43:17

如果你阅读过丹•布朗的畅销小说《达•芬奇密码》,一定会对这一幕记忆犹新:卢浮宫声誉卓著的馆长雅克•索尼埃被发现神秘死亡。他的裸尸是以一幅意大利名画《维特鲁威人》的姿势,在卢浮宫地板上被发现的,他用自己的血在肚子上画上了“六芒星”的符号,并且在身边写下了一段隐秘的信息,成为亟待破解的难题。“维特鲁威人”的姿态背后隐藏着什么含义?“六芒星”的符号又代表了什么?正在巴黎旅行的哈佛大学宗教符号学教授罗伯特•兰登来到现场,试图破译这些达•芬奇著名作品中隐含的信息…

破解谷歌图像密码

但现在一个名叫“按图搜索”的谷歌工具,采用基于图片的搜索技术,正成为帮助我们破解“图像密码”的专家。当你把维特鲁威人姿势的图片直接拖拽到“按图搜索”的搜索框,或者直接把图像的链接地址复制进搜索框中,便可以得到相关的信息。通过这一功能,谷歌搜索结果提供的“最佳猜测”显示,这幅画作的原作者是意大利文艺复兴时期的画家达•芬奇,这幅画作的核心内容是关于“斐波那契数列”和人体的“黄金分割比例”。

而当你把“六芒星”的图像进行“按图搜索”时,谷歌不仅提供了包含匹配图片的页面,提示“六芒星”又称“大卫星”,代表了“冥界中的子宫和万物中阴性的那一面”。它还提供了“外观类似”的搜索结果,帮助用户很快搜索到与之想接近的元素,比如“犹太教”和传说中的“共济会”的标志。或许不再需要罗伯特•兰登,借助“按图搜索”,我们都能成为达•芬奇密码的破解者。

按图搜索正越来越成为生活中必不可少的辅助工具。在非洲大草原见到不知名的参天大树,想知道它叫什么,现在可以拍照下来,拖拽进搜索框里,找到相关图片、知道答案,这种举动更像是玩游戏。当你无意中发现希腊某地一张美丽的风景图,可以用这张图进行搜索,查找到所在的确切位置,然后将它添加到你的行程里。更巧妙的是,当你“按图搜索”2012夏季奥运会举办地伦敦的地标“大笨钟”的时候,它会给你更多的观光建议,只要点击“按主题分类”,它便能显示更多值得花上半天逛一逛或者亲身体验一番的地方,比如登上“伦敦塔桥”、“伦敦眼”,或是坐一次“伦敦地铁”和“伦敦出租车”。在“按图搜索”的搜索方式中,图片正发挥与文字同等重要的作用,甚至跨越关键词某些无法实现的局限,成为新的搜索关键要素。

在谷歌公司中国区办公室,记者与谷歌搜索高级产品经理皮特•林斯利(Peter Linsley),一起探秘“按图搜索”,开展了一场面对面的对话。从离开Ask.com加盟谷歌的四年多时间里,他成功地实现了谷歌图像搜索业务的两大关键性突破——即“按图搜索”(Search by Image)与“视觉搜索”(Google Goggles)功能的开发。从2011年6月上线至今,“按图搜索”成为了谷歌用户增长速度最快的搜索产品之一。

记者:“按图搜索”这个非常有意义的搜索工具,是如何诞生的?

林斯利:谷歌在2009年底发布了一款手机图像搜索应用——“视觉搜索”(Google Goggles),它是“按图搜索”的前身。很多时候,手机用户在博物馆看到了某一幅画,或者在路边看到了一座桥,希望对这个画或者对这座桥有更多的了解。这时,只要通过手机把照片拍下来,然后通过应用软件把这张照片和图片库里的照片进行配对,尤其线条、纹理、色彩等各个方面,就可以优化搜索的结果, 提供更精准的信息。“视觉搜索”技术推出之后获得了很大的成功,在这之后我们想,其实这个技术也完全可以适用于网络。也就是说,一方面我们可能对自己所处的环境会有很多想要了解的问题,另一方面我们在浏览网页的时候可能也会对某些内容有深入了解的兴趣,就可以通过网络的形式去进行搜索。有了这样一个理念和想法后,我们开始着手把这个技术搬到桌面电脑上。现在当你打开“按图搜索”页面,搜索框的右侧有一个照相机图标,通过它我们可以把网络上搜索到、看到的各种不同的图片输入进去,进行新的探索。

记者:继谷歌之后,谷歌的竞争对手也开始竞相推出类似的图像搜索产品。你们的独特优势在哪里?

林斯利:谷歌从事图像搜索服务已经有整整十年的时间。谷歌搜索产品最基本的理念就是当用户输入搜索请求,即可在最快时间内获得最精准的答案,谷歌图像搜索的理念与此是一致的,当你输入搜索内容,就可以看到很多的图片。但作为“按图搜索”的项目团队,我们更关注的是如何通过图像进一步提升搜索的体验,例如如何通过图片找到一种花的名字。在这方面我们主要侧重于两点,首先是怎么通过这些图片来丰富搜索结果,第二是用图像识别的技术,让输入和结果都变得更便捷。

记者:你们团队是如何做到你所提到“提升搜索的体验”,尤其是丰富搜索的结果,给用户提供更多的信息?

林斯利:谷歌通过提取图片特征进行图片匹配,每张图片有成千上万个特征,包括颜色、纹理、光线等。谷歌图像搜索背后有一个很大的图片库,几百亿张图片,每张图片有成千上万个特征,将这几十万亿个特征与上传到搜索框的一张图片的几千个特征做近似匹配,需要在100毫秒级的时间内完成。因此,谷歌内部设计用的计算机资源非常大,每一次用户上传图片,有很多机器在同时运转。为了给用户呈现最具相关性的图片搜索结果,谷歌图像搜索会涉及很多种复杂的算法,涉及到几百种指标,比如准确度、网页信息的相关性、权威性、图片的质量等来得出搜索结果,并对其进行排序。谷歌每做一次算法的调整基本上都要实验几百个搜索请求,就算是对原有图片做了旋转、变形、扭曲、拷贝,仍能搜的出来。“按图搜索”功能得以实现,最关键是谷歌采用了超大规模实时并行计算,可以对来自互联网的几百亿张图片进行实时的图像特征匹配,从而在数百毫秒内反馈给用户最丰富的相关搜索结果。

记者:在信息量增大的同时,有人疑问“按图搜索”究竟能不能给出用户“最想要的”结果?

林斯利:我们所用的技术可以对图像进行更加深入的分析和识别,包括图像的纹理、颜色、形状等,从而呈现出更好的、更加精准的搜索结果。尤其是搜索结果页左边面板上“过滤器”的使用,过滤、筛选了大量不符合要求的信息,可以大大帮助用户缩小搜索的范围。比如你可以限定图片的颜色,限定图像的最大、最小或者理想尺寸,限制文件的特定类型。访问高级搜索菜单中,你还可以找到更多方法,比如通过长宽比例菜单,指定是否查找长形、宽形或者方形的图案。我们的中国工程师还发明了一种对摄影爱好者特别有帮助的过滤器,即根据相机参数进行搜索。当用户在Chrome 网上应用商店中下载并安装名为“Photo Finder”的扩展程序,就可以按照相机的型号、焦距、亮度、拍摄时间搜索,挑选最符合你审美眼光和创作要求的图片。

记者:按图搜索抓取的结果,是不是可能会抓取到博客、微博空间中的一些照片,这个会不会涉及到个人隐私的问题?

林斯利:对相对专业的用户来说,如果你自己有博客,你不希望博客上的照片出现在谷歌的搜索结果当中,非常简单。你只要写一句话在Robot.txt协议当中,告诉谷歌,你的图片不希望出现在谷歌搜索引擎的结果里就可以。很多的社交网络,可能对于图片本身是没有办法控制的,但是很多图片托管的网站是可以来进行控制的,而且也确实提供这种协议方面的服务,这样用户就可以提出相应的请求,不被谷歌搜索到。像Twitter这样的社交网站就可以提供这方面的服务。另一方面,我们在高级搜索菜单中,也会对图片进行分级,提示用户图像可能有版权限制,如用于报道或商业推广演示就需要版权许可。

记者:搜索结果排序的优先依据是什么?是图片的相似度,还是图片来源网页的权重?

林斯利:这两点都有可能,可能还会有一些其他因素。假设用户先上传了一张图片,谷歌的技术要先搞明白这是什么。假如通过识别技术知道了这是埃菲尔铁塔,接下来出现的搜索结果就和网络搜索的内容差不多,一般优先考虑图片来源网页的权重,例如有相关的维基百科相应介绍的网页,还有其他的网页等。还有另外一种情况,用户上传了图片,但是“按图搜索”不能判断这到底是什么,在这种情况下,就会考虑首先考虑图片的相似度,同时还会考虑一些其他的指标,比如图片到底有多大,它是来自于哪些比较受欢迎的网站或者哪些官方的网站,或者哪些网站中出现这张图片的可能性和概率比较高等等,所以会有各种不同的优先依据。

记者:图像搜索和社交信息是如何结合在一起的?

林斯利:比如通过与Google +结合,有个功能叫Search Plus Your World,就可以将那些对你最相关的内容加进去,如果你的朋友在上面,也会看到最相关的新内容。有很多网页搜索使用到的指标,在图像搜索的过程中也会使用,比如追踪用户的点击率,或判断与用户相关的信息。因为你会发现,图片周围其实也有很多关于这个图片的信息。比如在某社交网站上,有人把自己的猫的图片放上去,一般在图片周围会有一段文字,或者会有一个主题,谷歌的技术就是判断这个图片中的文字哪些是相关的,当然也会看有哪些人是和这个网站具有联系,或者有指向链接。


评论(3)

您可以在评论框内@您的好友一起参与讨论!

    1. 钟况况 现实版《达•芬奇密码》

      回复[0] 2013/10/14 10:46

    1. 李大龙 去了园博会几趟了,出来不是迷路,要是能使上谷歌的“按图搜索”, 就太好了

      回复[0] 2013/10/14 10:09

    1. 白严岩 谷歌的“按图搜索”真是厉害,它实际上涉及一个“模糊搜索”的概念,人们失去联想,世界将会怎样?

      回复[0] 2013/10/14 09:23

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");