网络陷阱的预防

网络陷阱的预防

 

 

4.6网络陷阱的预防

WWW网络中,一些静态网页的超链接可能会形成环路,这会导致爬虫在这个环路中反复执行形成死循环。为了避免掉入这种陷阱,在访问新的URL前,应先与待爬行和已爬行URL队列列表中的URL进行比较,以防将URL重复加入待爬行队列。

另外,有些站点的Wbe结构相当深,因而形成了“网络陷阱”。在本系统中对搜索的深度进行了限制。每进入下一级子链接就表示深度增加了一层,当到达规定的闽值深度后,爬虫就停止往下搜索。

有些站点设置的陷阱,爬虫很难识别,这就只能在爬行过程中或爬行之后,进一步浏览爬行日志来判断网站是否设置了爬行陷阱,从而管理员可以将设置陷阱的地址添加到停用队列。

 

 

参考:搜索引擎中主题爬虫的研究与实现

你可能感兴趣的:(搜索引擎)