分布式爬虫算法对比

*广度优先搜索策略,将网页的所有链接都保存到等待队列中,该算法偏向于覆盖更广的网页,对下一级的访问会有一定的延迟。

*深度优先搜索策略,将网页链接逐个跟踪下去,算法容易虽然设计但遍历时需要回溯,该算法会偏向于搜索更深层次的信息。

*最佳优先搜索策略,按一定的网页分析算法计算网页的优先值,选取最好的一个或者几个URL进行抓取。该搜索策略只访问经过的网页分析算法预测为相关的网页,存在的特点是会忽略在爬虫路径上的很多相关网页,该算法是一种局部最优的搜索算法。

*融合的主题爬虫策略,采用多队列多策略融合的算法,结合广度优先、深度优先以及最佳优先的搜索策略以及创建多个采集队列的模式,对不同的队列采取不同的处理方式。

分布式爬虫算法对比_第1张图片
融合的主题爬虫策略算法流程图

算法效果对比:


分布式爬虫算法对比_第2张图片

分布式爬虫算法对比_第3张图片

在普通爬虫流程的基础上,将常用搜索策略融合为多策略融合的搜索算法,改进了原有搜索效率低下的问题,达到效率成倍提升的效果。

基于改进遗传算法的主题爬虫

*对比以上策略,主题爬虫不需遍历整个Web,并且提高了全局搜索能力。改进遗传算法的主题爬虫用于提高全局搜索能力,对比一般遗传算法具有更高精度和召回率,搜索范围更广。

分布式爬虫算法对比_第4张图片
遗传算法(GA)主题爬虫框架
分布式爬虫算法对比_第5张图片
精度对比
分布式爬虫算法对比_第6张图片
召回率对比

在基于遗传算法的主题爬虫的搜索策略下,改进并重新设计了更准确的ft-ness函数并优化了遗传操作。网页评估方法同时考虑主题相关性和重要性。通过向量空间模型分析主题相关性,并通过改进的PageRank算法计算主题重要性。基于用户浏览行为优化遗传操作。选择操作选择具有高度的网页,交叉操作按主题重要性排序链接,并通过搜索引擎搜索组合关键字的变异操作。结果表明,改进的GA可以部分改善精确率和召回率。

总结

对比以上几种爬虫搜索策略,广度、深度和最优搜索策略属于比较传统的算法,融合的主题爬虫策略结合了前面几种策略,效果相对比较理想,优缺点相对折中。基于改进遗传算法的主题爬虫策略相对比较复杂,毫无疑问,主题爬虫策略会比遍历搜索策略会更加精准。对比之下,改进的GA搜索策略会相对较优。

参考文献:2017,硕士论文,主题网络爬虫的并行化研究与设计
链接:http://kreader.cnki.net/Kreader/CatalogViewPage.aspx?dbCode=cdmd&filename=1017256582.nh&tablename=CMFD201801&compose=&first=1&uid=WEEvREcwSlJHSldRa1FhcTdWajFtT29JdHg4MXJvM3hIWlk2STdUZlQybz0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4ggI8Fm4gTkoUKaID8j8gFw!!

参考文献:2018 (ICACI), Designing Focused Crawler Based On Improved
Genetic Algorithm
链接:https://ieeexplore.ieee.org/document/8377476/

网络爬虫技术总结
》Blog

你可能感兴趣的:(分布式爬虫算法对比)