今天的企业拥有越来越多的、各式各样的电子文件和数据信息,如何让这些信息成为企业业务发展甚至是战略决策的好帮手,是CIO们正在思考的问题。而企业搜索技术就提供了一种有效的方式,来帮助企业处理这些日益增长的数据信息。然而,并非所有的搜索技术都适合在企业中应用,或者说,并不是所有的搜索技术都能成为企业搜索中的核心技术。传统的基于关键字的搜索技术可能只能够帮助用户找到一些文件,而企业还需要更先进的搜索技术,以整合整个跨企业平台的信息内容。
随着企业信息化的逐步普及,企业的工作流程已经发生了重大的转变,当然,在这种转变中也包括了记录这些流程的文档。文件管理联盟ARMA对企业现存的业务记录方式做过统计,超过90%的业务文件采用了电子记录的形式。
同时,伴随着从纸质到电子记录方式的转变,企业文件的数量也随之猛增。以前,大部分的企业记录都采用了正式的“文件”形式,并保存在正式但分散的库存中(如文件管理系统);而现在,非正式的电子文件变成了“标准”,并且,无论在数量上还是种类上,这种形式的企业记录都在迅速增加。
在这样一个信息爆炸的数字时代,企业该如何分配和利用好这些文件信息呢?事实上,现在不同规模的很多企业都已经开始考虑如何部署企业搜索技术来帮助自己解决这些问题。
的确,企业搜索技术的不断发展,让其成为了对企业业务中剧增的电子文件和数据信息拥有很好掌控能力的一种手段,也可能是惟一的一种手段。可以说,企业搜索技术的革命正在发生,企业搜索的时代也即将到来。当然,这一现实也决定了企业需要更高的搜索技术——现在,很多正在被应用的企业搜索技术虽然可以实现简单的文件查找,但是却很难成为整合整个企业信息流的核心搜索技术。
由于企业业务的需求以及法规遵从方面的要求迫使企业的决策者们希望拥有一种快速的、基于短期需求的决策过程,这使得很多CIO们不得不被动地选择了部署搜索技术。但事实上,这样的决策过程对于企业的长期需求来说丝毫无益,甚至是有害的。而一种更好的、策略性的方式是把“搜索”这个概念深入到企业中、深入到决策者中,把企业搜索当做是企业中一个最基本的组件,并选择一项适合企业长期发展的企业搜索技术。
如果企业在面对搜索技术时,采用一种试探性的被动模式,虽然能够暂时解决企业今天出现的问题,但是很可能会导致日后需要经常不断地更新现有的系统,因为企业面临的问题的复杂性会日益增加。因此,企业应该学会仔细评估这些搜索技术,并找出与自己现存的搜索技术之间的差别,来选择那些能够在未来五年或者更长时间之内满足企业需求的搜索策略。而这样的评估工作,CIO可以从了解各种搜索技术的差异开始。
三大搜索技术
对于大部分个人用户来说,搜索引擎只是用来搜索自己所需内容的工具,他们不会也不需要去关注那些具体的技术实现细节。但对于企业用户则不然,不同的搜索引擎一般都是采用不同类型的底层技术实现的,这些技术各有优缺点,当用户需要基于企业架构选择搜索技术时,就必须要了解这其中的各项技术,这样才能够更好地应用企业搜索技术,并让搜索引擎在企业的IT架构上发挥出更大的作用。下面我们就介绍三种目前最主流的搜索技术。
基于集合的搜索
体验过最早期、最初级的搜索引擎的人都知道,所有的搜索都是在某种集合表示的基础上进行的操作。对于企业搜索,开始人们也会很自然地认为,所有需要搜索的文档都包含了一些具有代表性的词汇,真正意义上的查询就是发生在由这些词汇所构成的集合上。用户所需要的那些文档所组成的集合我们称之为“集合A”;在企业内部的所有文档所构成的集合我们称之为“集合B”。那么,所希望的搜索结果正是这两个集合的交集。
大部分人所理解的企业搜索就是这种基于集合的搜索,很直观,也很容易理解。但是,这种基于集合的搜索方式在企业级的搜索应用中存在着很多问题。比如,企业现在要做这样的一个查询——希望找到一份销售合同(sales agreement),那么就需要找到所有包含“sales”这个词汇的文档和所有包含“agreement”这个词汇的文档。
而其实这时用户希望返回的是同时包含这两个词汇的文档。为了完成这个任务,搜索引擎就需要对这两个集合做“逻辑与”的操作。但这同时就会引发另一个问题,可能会返回类似于同时包含“sales pitch”和“mutual agreement”的文档,而并不是用户所希望的包含“sales agreement”的文档。
当然,自从基于集合的搜索技术出现以来,信息检索方面的专家们就开始不断地改进这项技术,希望能够尽量减少这种错误的发生,其中一项很重要的改进就是引入了“词距(proximity)”的概念。比如,在搜索语句中,“sales”和“agreement”这两个词汇之间只包含了5个其他词汇,那么我们就有理由认为,用户很可能是希望返回“sales agreement”,这样就不仅仅是机械地把所有“sales集合”与“agreement集合”做交集。这种方式确实是一种比较有效的搜索方式,尤其是在其他技术还没有出现之前,这种引入了“词距”的搜索技术更加关注检索词,而并非简单的字符串匹配。

