Web搜索引擎设计和实现分析(转载)

 原载: http://blog.gkong.com/more.asp?name=yiyix&id=17405

---- 一、引言

---- 对搜索引擎的概述省略。。。请见原文


---- 二、网络Spider的实现描述

---- 现在有很多文章对Web引擎做了大量的介绍和分析,但是很少有对它们的实现做一个详细的描述,这里我们主要来介绍一个具有基本功能的Web引擎的实现。本文,我们以类C 语言的形式来描述Web引擎如何采集网页并存放到数据库中的过程。同时描述了如何根据用户输入的关键字查询数据库并得到相关网页的过程。

---- 2.1数据库结构

---- 首先,我们要建立一个数据库表用来存放我们得到的网页。这里一般需要建立如下的表:

---- 1.字典表的建立,事实上这里是用文档中有意义的单词和它们的出现频率来代表一个文档。

---- 该表(WordDictionaryTbl)主要要包括三个字段,主要是用来存放和一个网页相关的单词的情况

url_id 对每一个URL的唯一的ID号
word 该URL中的经过stem的单词
intag 该单词在该网页中的出现的次数

---- 2.存储每一个URL信息的表

---- 该表(URLTbl)中主要的关键字段有:

rec_id 每一条记录的唯一的ID号
status 得到该URL内容的状态,比如HTTP_STATUS_TIMEOUT表示
下载网页的最大允许超时
url URL的字符串名称
content_type 内容的类型
last_modified 最新的更改时间
title 该URL的标题
docsize 该URL的文件的尺寸
last_index_time 最近一次索引的时间
next_index_time 下一次索引的时间
tag 对于网页,用来表示它的类型,比如:是text,或者是html,
或者是图片等等
hops 得到文件时候的曾经失败的次数
keywords 对于网页,和该网页相关的关键字
description 对于网页,指网页的内容的描述
lang 文档所使用的语言

---- 3.因为网页中有很多单词是一些介词和语气助词或者是非常常用的常用词,它们本身没有多少意义。比如:英语中的about,in,at,we,this等等。中文中的如"和","一起","关于"等等。我们统一的把它们称为停止词(stop word)。所以我们要建立一个表,来包括所有这些停止词。该表(StopWordTbl)主要有两个字段。
word char(32) 表示那些停止词
lang char(2) 表示所使用的语言

---- 4.我们要建立一个关于robot的表,我们在前面说过,所有的网站一般都有一个robot.txt文件用来表示网络上的robot可以访问的权限。该表(RobotTbl)主要有以下字段。
hostinfo Web站点主机的信息
path 不允许robot访问的目录

---- 5.建立我们需要屏蔽的那些网页(比如一些内容不健康的或者没有必要去搜索的站点)的一张表(ForbiddenWWWTbl),主要的字段就是网页的URL。

---- 6.另外我们需要建立一个我们所要得到的文件类型的表(FileTypeTbl),比如,对于一个简单的Web搜索引擎,我们可能只需要得到后缀为.html,htm,.shtml和txt的类型文件。其他的我们只是简单的忽略它们。主要的字段就是文件的类型和说明。

---- 其中关于停止词的表的内容是我们要实现要根据各种语言的统计结果,把那些意义不大的单词放进去。关于文档单词、URL和Robot的表的内容都是在获取Web网页的时候动态增加记录的。

---- 2.2 具体网页获取算法描述

---- 具体的网页的获取步骤是这样的:

---- 我们可以设定我们的搜索程序最大可以开的线程的数目,然后这些线程可以同时在网上进行搜索,它们根据数据库中已有的关于网页的信息,找出那些需要更新的网页(如何判断哪些网页需要更新是一个值得研究的过程,现在有很多启发式和智能的算法,基本上是基于统计规律进行建模。最简单的当然是设定一个时间范围,在某个时间范围以前的网页被重新去搜索一遍),然后判断那些网页是否在屏蔽表中,如果是的话,就从关于URL的表中删除该条记录。否则,我们就到相应的WWW站点去得到URL指定的文件(这里需要注意的是根据不同的URL的特点,需要使用不同的协议,比如对于FTP站点要采用FTP协议,对于HTTP站点要采用HTTP协议,新闻站点要采用NNTP协议等等)事实上,我们先得到关于该网页的头信息,如果该网页的最新修改时间和我们最近提取的时间是一样的话,表示该网页内容没有任何更新,则我们就不必去得到它的内容,只需要修改最近一次更新它的时间为当前的时间就可以了。如果该网页最近做了修改,我们就要得到该网页,并对它的内容进行分析,主要要包括和它相关的链接,把它们加到相应的数据库中,同时判断网页所包含的各种其他的文件,如文本文件、图形文件、声音文件和其他多媒体文件是否是我们所需要的文件,如果是的话,就把它加到我们响应的数据库中。同时要根据网页的内容提取所有的有意义的单词和它们的出现的次数,放到相应的数据库中。为了更好的描述这个过程,我们来看跟这个过程相关的主要的几个对象和数据结构。对象主要是针对三个层次来讲的。第一层是针对WWW服务器,第二层是针对每一个页面,第三层是针对每一个页面的全文的索引。

---- 2.3 和实现相关的主要类对象和功能描述下面的结构是针对一个站点来说的。

Class CServer {
主要的属性有:
char *url; //WWW站点的URL名称
char *proxy; //使用的代理的名称
char *basic_auth; //进行基本的HTTP认证
int proxy_port; //代理的端口号
int period; //再次索引的周期
int net_errors; //网络连接不通的次数
int max_net_errors; //可以允许的最大的网络错误
int read_timeout; //下载文件允许的最大的延迟
int maxhops; //表示URL可以最大跳转的深度
int userobots; //是否遵守robot.txt中的约定
int bodyweight; // 在< body >....< /body >之间的单词的权重
int titleweight; // 在< title >....< /title >之间的单词的权重
int urlweight; // 在文档的URL中的单词的权重
int descweight;//在 < META
NAME="Description" Content="..." >之间单词的权重
int keywordweight; //在< META NAME="Keywords" Content="..." >
之间的单词的权重

---- 主要方法有:
FindServer();//用来查找该服务器是否存在并可以连接
FillDefaultAttribute() //用来针对所有的WWW服务器填写默认的属};

以上的对象中的成员变量是和一个站点相关的参数的设置,我们对所有的站点有一个默认的设置,但是可以对某些站点做一些特殊的设置。这些设置可以在配置文件中设定。
---- 下面是关于文档的结构的主要的数据成员:

Class CNetDocument
主要属性有:
int url_id; //该URL的ID号
int status; //获取该文档时候的状态
int size; //文档的尺寸
int tag; //和该文档相关的标签,表示该文档是
HTML,TEXT或者是其他类型
int hops; //URL跳转的次数
char *url; //和该文档相关的URL的名称
char *content_type; //该内容的类型
char *last_modified; //最近一次的更新时间
char *title; //该文档的标题
char *last_index_time; //上次索引的时间
char *next_index_time; //下次索引的时间
char *keywords; //该文档中的关键字
char *description; //该文档的描述

主要方法有:
FillDocInfo(…) //根据数据库,得到该文档相关信息
AddHerf(…) //加入网页中存在的新的链接的网址
DeleteURL(…) //删除一个存在的网址
CanGetThisURL(…) //根据配置决定是否去得到该网页
//下面三个方法是根据不同的URL,用不同的协议去获得文档
NNTPGet(…)
FTPGet(….)
HTTPGet(….)
ParseHead(…) //如果是HTTP协议得到的话,分析头信息
ParseMainBody(…) //对获得的文档的主体进行分析
ServerResponseType (….) //得到服务器端的响应消息
UpdateURLDB(….) //更新的数据入库
} ;

---- 事实上,我们在要提取一个网页的时候,都要建立一个CNetDocument对象,然后再对这个网页进行分析的时候,把相关的内容放到这个CNetDocument的成员变量里面。下面是关于页面全文索引的结构的主要数据成员:
Class CIndexer {
主要属性有:
char *url; //我们要处理的文档相关的URL的名称
int mwords; // 我们事先设定的一个网页的最大的单词数目
int nwords; // 实际的得到的单词的数目
int swords; // 我们已经排序的单词的数目
WORD *Word; //所有单词的内容
char *buf; //我们为文档所分配的空间
主要方法有:
InitIndexer(…) //进行初始设置和分配
ParseGetFile(…) //对得到的网页进行全文索引
AddWord(…) //把网页的可以索引的单词加到Word数组中去
InToDB(….) //关于网页全文索引的信息入库
};

---- 进行网页提取前,我们要建立一个CIndexer对象,它主要是用来对网页进行全文的索引。一般来说我们只对两种类型的URL进行全文索引,一个是text/html,另外一个是text/plain。其中WORD的数据结构如下:
typedef struct word_struct {
int count; //该单词出现的次数
int code; //该单词的正常的形式,
比如单词可能为 encouraging,它的正常的形式应该为
encourage,这其实是一种对单词的stem。
即我们只取单词的主干部分。
char *word; //该单词的内容
} WORD;

---- 以下的结构是和网页中的一些链接的对象相关的一个数据结构
typedef struct href_struct {
char *href; //该链接的名称
int hops; //发生的跳转次数
int stored; //是否已经存储到数据库中
} HREF;


---- 所有需要更新的和新产生的URL都被放到这个结构中,当它的数量超过一定的范围以后,被一次性的存入数据库。
---- 关于URL的一个数据结构如下:

typedef struct url {
char *schema; //表示该URL是通过什么协议得到的,比如HTTP,
FTP,NNTP等。
char *specific; //主机的名称加上路径
char *hostinfo; //主机的名称加上相关的协议端口
char *hostname; //主机的名称
char *path; //在主机的具体的路径
char *filename; //文件的名称
char *anchor; //相关的anchor
int port; //协议相关的端口
} URL;

---- 这是针对URL的一些相关的属性的描述的一个数据结构。事实上在数据库中,我们存储的只是对网页的描述和对一些文本和HTML页面的关键词的索引信息。我们并不存储网页的实际的内容。
---- 三、用户查询实现描述

---- 关于对用户提交的查询请求的实现分析:

---- 用户想要查询某一方面的信息一般都是通过提供和该领域相关的几个关键字来进行的。

---- 我们来看一下关于用户查询的相关的数据结构和类:

---- 下面是一个关于单词和它的权值的基本结构:

typedef struct word_weight_pair
{
char word[WORD_LEN];
int weight;
}word_weight_pair;


---- 下面的类主要是用来对用户的查询进行处理和分析:
Class CUserQuery
{
char m_UserQuery[MAX_QUERYLEN]; //用户的查询表达式
CPtrArray word_weight_col;
//是关于结构word_weight_pair的动态数组
int m_maxReturnSum; //用户希望返回的最多的网页数
int search_mode;
CObArray m_returnDoc; //是关于CNetDocument对象的一个动态数组
NormalizeWord(char* OneWord); //对单词进行归整化,即Stem.
Find(char* odbcName); //进行数据库查找和匹配
};

---- 系统实现的基本的步骤如下:

---- 1.对用户输入的查询表达式进行分析。事实上,我们在前面的Spider搜索过程中对文档的表示是通过关键字形式描述的,每一个文档可以表示为这样的一个集合

其中 ::=< 单词或短语名称 >< 单词或短语的权值 >

---- 实际上就是采用矢量空间的表示方法来表示的文档。

---- 我们对用户输入的查询表达式也采用矢量空间的表示方法。我们认为用户输入的关键字的顺序代表了它的重要性的程度,所以对于位置靠前的单词有相对比较高的优先级,同时我们对所有的内容以短语或者是单词为最小原子,进行Stem操作,即象前面所提到的:比如单词Encouraging就转化成Encourage的格式。然后去掉那些Stop Word,比如is ,as等等的单词,这些单词存放在StopWordTbl表中。 然后把所有归整化后的内容放入动态数组word_weight_col中去。

---- 2.对于动态数组word_weight_col中的每一个元素,即结构word_weight_pair(包括单词和该单词的权重),我们从表WordDictionaryTbl中可以找到和这些单词相关的记录,这些记录应该是包括了所有的在word_weight_col中的单词。

---- 进行网页是否和查询相匹配的计算。匹配计算的过程如下:首先我们对所有的记录按URL地址进行排序。因为可能好几条记录对应的是一个URL,然后对每一个网页进行打分,每一条记录的单词权值为INITSCORE*WEIGHT (TOTALTIMES-1)*WEIGHT* INCREMENT。其中INITSCORE为每一个单词的基准分数,TOTALTIMES为该单词在网页中的出现的次数,WEIGHT是该单词在不同的内容段出现有不同的权值(比如在KEYWORD段,或者是标题段,或者是内容段等等)。INCREMENT是该单词每多出现一次所增加的分数。

---- 3.根据用户指定的m_maxReturnSum,显示匹配程度最高的前m_maxReturnSum页。

---- 四、结束语

---- 我们利用上面所讨论的机制,在WINDOWS NT操作系统下,用VC 和SQL SERVER实现了一个Web搜索引擎的网页搜集过程。在建立了一个基本的搜索引擎的框架以后,我们可以基于这个框架,实现一些我们自己设计的算法,比如如何更好的进行Spider的调度,如何更好的进行文档的归类,如何更好的理解用户的查询,用来使Web搜索引擎具有更好的智能性和个性化的特点。

你可能感兴趣的:(搜索引擎,web,url,文档,数据库,数据结构)