Web搜索引擎设计和实现分析_WEB开发

　　一、引言

　　随着Internet的飞速发展，人们越来越依靠网络来查找他们所需要的信息，但是，由于网上的信息源多不胜数，也就是我们经常所说的"Rich Data, Poor Information"。所以如何有效的去发现我们所需要的信息，就成了一个很关键的问题。为了解决这个问题，搜索引擎就随之诞生。

　　现在在网上的搜索引擎也已经有很多，比较著名的有AltaVista, Yahoo, InfoSeek, Metacrawler, SavvySearch等等。国内也建立了很多的搜索引擎，比如：搜狐、新浪、北极星等等,当然由于它们建立的时间不长，在信息搜索的取全率和取准率上都有待于改进和提高。

　　Alta Vista是一个速度很快的搜索引擎，由于它强大的硬件配置，使它能够做及其复杂的查询。它主要是基于关键字进行查询，它漫游的领域有Web和Usenet。支持布尔查询的"AND"，"OR"和"NOT"，同时还加上最相近定位"NEAR"，允许通配符和"向后"搜索（比如：你可以查找链接到某一页的所有Web站点）。你可以决定是否对搜索的短语加上权值，在文档的什么部位去查找它们。能够进行短语查询而不是简单的单词查询的优点是很明显的，比如，我们想要查找一个短语"to be or not to be"，如果只是把它们分解成单词的话，这些单词都是属于Stop Word，这样这个查询就不会有任何结果，但是把它当作一个整体来查询，就很容易返回一些结果，比如关于哈姆雷特或者是莎士比亚等等的信息。系统对查询结果所得到的网页的打分是根据在网页中所包含的你的搜索短语的多少，它们在文档的什么位置以及搜索短语在文档内部之间的距离来决定的。同时可以把得到的搜索结果翻译成其他的语言。

　　Exite是称为具有"智能"的搜索引擎，因为它建立了一个基于概念的索引。当然，它所谓的"智能"是基于对概率统计的灵活应用。它能够同时进行基于概念和关键字的索引。它能够索引Web,Usenet和分类的广告。支持"AND"，"OR"，"NOT"等布尔操作，同时也可以使用符号"+"和"-"。缺点是在返回的查询结果中没有指定网页的尺寸和格式。

　　InfoSeek是一个简单但是功能强大的索引，它的一个优点是有一个面向主题搜索的可扩展的分类。你可以把你的搜索短语和相似的分类目录的主题短语相互参照，而那些主题短语会自动加到你的查询中去。使你的搜索有更好的主题相关性。同时它也支持对图象的查询。它能够漫游Web,Usenet,Usenet FAQs等等。不支持布尔操作，但是可以使用符号"+"和"-"（相当于"AND"和"NOT"）

　　Yahoo实际上不能称为是一个搜索引擎站点，但是它提供了一个分层的主题索引，使你能够从一个通常的主题进入到一个特定的主题，Yahoo对Web进行了有效的组织和分类。比如你想要建立一个网页，但是你不知道如何操作，为了在Yahoo上找到关于建立网页的信息，你可以先在Yahoo上选择一个主题：计算机和Internet，然后在这个主题下，你可以发现一些子主题，比如：Web网页制作，CGI编程，JAVA，HTML，网页设计等，选择一个和你要找的相关的子主题，最终你就可以得到和该子主题相关的所有的网页的链接。也就是说，如果你对要查找的内容属于哪个主题十分清楚的话，通过目录查询的方法要比一般的使用搜索引擎有更好的准确率。你可以搜索Yahoo的索引，但是事实上，你并没有在搜索整个Web。但是Yahoo提供了选项使你可以同时搜索其他的搜索引擎，比如：Alta Vista。但是要注意的是Yahoo实际上只是对Web的一小部分进行了分类和组织，而且它的实效性也不是很好。

　　搜索引擎的基本原理是通过网络机器人定期在web网页上爬行，然后发现新的网页，把它们取回来放到本地的数据库中，用户的查询请求可以通过查询本地的数据库来得到。如yahoo每天会找到大约500万个新的网页。

　　搜索引擎的实现机制一般有两种，一种是通过手工方式对网页进行索引，比如yahoo的网页是通过手工分类的方式实现的，它的缺点是Web的覆盖率比较低，同时不能保证最新的信息。查询匹配是通过用户写入的关键字和网页的描述和标题来进行匹配，而不是通过全文的匹配进行的。第二种是对网页进行自动的索引，象AltaVista则是完全通过自动索引实现的。这种能实现自动的文档分类，实际上采用了信息提取的技术。但是在分类准确性上可能不如手工分类。

　　搜索引擎一般都有一个Robot定期的访问一些站点，来检查这些站点的变化，同时查找新的站点。一般站点有一个robot.txt文件用来说明服务器不希望Robot访问的区域，Robot 都必须遵守这个规定。如果是自动索引的话，Robot在得到页面以后，需要对该页面根据其内容进行索引，根据它的关键字的情况把它归到某一类中。页面的信息是通过元数据的形式保存的，典型的元数据包括标题、IP地址、一个该页面的简要的介绍，关键字或者是索引短语、文件的大小和最后的更新的日期。尽管元数据有一定的标准，但是很多站点都采用自己的模板。文档提取机制和索引策略对Web搜索引擎的有效性有很大的关系。高级的搜索选项一般包括：布尔方法或者是短语匹配和自然语言处理。一个查询所产生的结果按照提取机制被分成不同的等级提交给用户。最相关的放在最前面。每一个提取出来的文档的元数据被显示给用户。

搜索

热门标签:

Web搜索引擎设计和实现分析