爬虫的搜索策略

深度优先搜索、宽度优先搜索、聚焦爬虫爬行策略

类似于数据结构的深度优先、广度优先

深度优先

优势是能遍历一个web站点或者深层嵌套的文档集合

缺点是若web结构相当的深,则可能造成一旦进去再也出来不了的局面

宽度优先

保证了浅层的优先处理,不会陷入深层文档中出来不了

同时能在两个路径中找到最短路径,宽度优先往往是爬虫的最佳策略,因为其容易实现,具备大多期望的功能

但如果要遍历一个指定的站点或者深层嵌套的HTML文档集,则会消耗过多时间。

聚焦爬虫

爬行策略是只跳出某个特定主题的页面,根据“最好优先原则”进行访问。快速且有效的的获取更多的与主题相关的页面。

聚焦爬虫会给所下载的页面进行评分,根据得分排序插入URL队列,决定它的关键是评价URL的价值,即URL价值的计算方法,由于URL包含于页面之中,而通常具有较高价值的页面包含的URL也具有较高的价值,因此URL的评价有时也可以转换为对页面价值的评价看

你可能感兴趣的:(爬虫的搜索策略)