1
创建蜘蛛
|
读取站点
URL
列表
|
站点
URL
列表是否空
|
结束
|
是
|
否
|
将
URL
放入
UVURL
列表
|
UVURL
为空?
|
读取此
URL
网页
|
超链分析
|
内容分析
|
存入文档库
|
删除此
URL
并加入
VURL
|
取出一
URL
|
是否已访问?
|
否
|
否
|
是
|
是
|
说明
UVURL
:为当前站点未访问的
URL
VURL
:为当前站点已访问的
URL
|
ParentURL
|
从后向前找
”.”
|
ParentURL=ParentURL
|
截去
ParentUR
中
”/”
后面的字符
|
最后一个字符是
”/”
|
是
|
否
|
“.”
前面有
”/”
|
是
|
否
|
处理当前
URL
|
是否有
”http::”
|
ParentURL=””
|
是
|
否
|
是否有
”../”
|
从
URL
截去,并将
ParentURL
返回一层目录
|
URL=ParentURL+URL
|
词表(词库)
|
索引
|
WordId
|
词
|
WordId
|
词
|
WordId
|
词
|
WordId
|
词
|
WordId
|
词
|
开始位置
|
字数
|
开始位置
|
内码值
|
开始位置
|
内码值
|
一级索引
|
二级索引
|
三级索引
|
加载词库及索引
|
读入待切分
str
|
Str
是否为空
|
截取
MAX
长度子串
|
到词库中去匹配
|
成功?
|
是
|
是
|
否
|
否
|
子串长度
<=1
|
是
|
截去子串的一个字
|
否
|
从
str
截去匹配成功的子串
|
结束
|
DocID
|
WordID
|
出现次数
|
hit
|
…….
|
hit
|
……..
|
……….
|
…
|
…….
|
…
|
WordID
|
出现次数
|
hit
|
…….
|
hit
|
DocID
|
WordID
|
出现次数
|
hit
|
…….
|
hit
|
……..
|
……….
|
…
|
…….
|
…
|
WordID
|
出现次数
|
hit
|
…….
|
hit
|
Hits(位置)占16位
|
hit
|
WordID
|
nDocs
|
文档开始位置
|
WordID
|
nDocs
|
文档开始位置
|
WordID
|
nDocs
|
文档开始位置
|
hit
|
hit
|
hit
|
hit
|
hit
|
DocID
|
出现次数
|
首次出现位置
|
DocID
|
出现次数
|
首次出现位置
|
DocID
|
出现次数
|
首次出现位置
|
DocID
|
出现次数
|
首次出现位置
|
DocID
|
出现次数
|
首次出现位置
|
DocID
|
出现次数
|
首次出现位置
|
…………………….
|
…………………….
|
hit
|
hit
|
hit
|
hit
|
一级索引
|
二级索引
|
Hits
|
接受用户输入串
str
|
对
str
进行切词
|
对切分的关键词排序
|
检索一级索引文件
|
检索二级索引文件
|
对结果文档进行集合运算
|
检索
Hits
信息文件
|
提取摘要写入网页
|
结束
|
DocID
|
开始位置
|
长度
|
DocID
|
开始位置
|
长度
|
DocID
|
开始位置
|
长度
|
压缩文档
|
压缩文档
|
压缩文档
|
压缩文档
|
压缩文档
|