大数据,大搜索

标签:技术前沿数据分析

访客:29593  发表于:2012-04-28 16:48:22

大数据在大多数企业中的领先优势是搜索:当信息和数据不在数据库时,业务分析师、销售和市场人员、产品经理和其他工作人员如何找到他们所需要的信息和数据?在一个多渠道的企业中,每个人都在不断的交流,不仅仅是通过email,还有即时通讯工具和文档,并且把关键业务信息保存在比如像wikis、博客和数据库这样的地方,这样在您需要时找到正确的信息的能力更加难以实现。我们不得不来看这些不同的存储信息的地方,然后再依靠每个地方不同的搜索功能,这让搜索者处于一个不利的位置。

下面是企业搜索工具在大数据时代做的几样关键的事情:

它们将搜索扩展到了半结构化数据,包括:

  • Email
  • Office文档,特别是XML格式的(比如来自文字处理器和电子表格的数据)
  • 任何标准格式比如CSV的纯文本文件
  • 博客、社交媒体上发布的文章、即时通讯软件上的信息等等
  • 并且在某些情况下甚至可以扩展到真正的非结构化数据(音频、视频)。
  • 它们为所有数据带来了一个统一的搜索界面,这样搜索看起来都一样并且横跨所有数据渠道以同一模式工作。
  • 它们的索引横跨所有数据渠道,这样可以让搜索更加的有效和高效。

在寻求企业搜索解决方案时,IT部门需要参考几个因素。最首要的一个是这个工具是否能够针对您关心的数据渠道进行整合搜索?

其次,如果所有渠道都覆盖了,就需要看看搜索功能的易用性:可以很容易的缩小搜索范围吗?找到的信息是有用的吗,另外这个搜索条件可以根据您的业务实际情况更改吗?在通用的工具中,由某人发布的博客也许从搜索结果上看分量是一样的,比如说,如果您的搜索对象是一些中小型企业,那么最好可以把他们分类描述并且通过搜索引擎把他们拿手的话题的博客比重放多一些。

第三,仔细查看所需的基础设施:有多少专用的虚拟服务器?索引有多大的空间?如果按供应商的标准索引尺寸,即由索引的材料所消耗的空间百分比来看,您就可以对增加企业索引对您的数据中心所带来的影响做出现实的判断。但是请注意,在数据中心已经在如洪水般涌入的数据下呻吟时,加入能够将其他数据变得真正有用的工具是现今数据中心的新现状之一。

原文链接:http://www.enterprisecioforum.com/en/blogs/jburke/big-data-big-search

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");