搜索引擎分类及工作原理

搜索引擎分类
搜索引擎按其工作方式主要可分为两种。一种是严格意义上的搜索引擎(Search Engine),具代表性的有AltaVista、Google、Excite、HotBot、Lycos等。它们都是通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务,因此是真正的搜索引擎。

另一种是目录索引(Search Index/Directory)。实际上它们算不上是搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo。其他著名的还有Open Directory (DMOZ)、LookSmart、About等。

此外,还有一种“免费链接列表”,Free For All Links,简称FFA。这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。

由于搜索引擎和目录索引都为用户提供搜索服务,为方便起见,我们通常将其统称为搜索引擎。



搜索引擎工作原理

搜索引擎

搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法—通常根据网页中关键词的匹配程度,出现的位置/频次等—计算出各网页的信息关联程度,然后根据关联程度高低,按顺序将这些网页链接返回给用户。


目录索引

与搜索引擎相比,目录索引有许多不同之处。

首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录索引编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准及编辑人员的主观印象,决定是否接纳你的网站。

其次,向搜索引擎提交网站时,只要遵循有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo!的技巧。)

此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的搜索引擎现在也提供目录索引注册,有些则在搜索结果中直接列出其他目录索引的网站(如Google就在其搜索结果中列出Open Directory的网站)。而象 Yahoo! 这些老牌目录索引则开始通过与Google的搜索引擎合作扩大搜索范围,只不过在其目录中注册的网站永远排在Google查询结果之前。

在这方面,国内几家著名的搜索引擎网站做得更进一步。比如搜狐、新浪就有网站搜索和网页搜索之分,用户可自行选择。选择网站搜索时,它们是目录索引,搜索范围仅限于自身注册的网站;而选择网页搜索时,它们又成了搜索引擎。

你可能感兴趣的:(理论,搜索引擎,工作,yahoo,google,数据库,search)