利用爬虫进行整站信息抓取的优化

    最近把自己的爬虫框架进行了一些优化,以前整站抓取时候需要进行比较多的配置,现在改成只要把一个网站首页加入爬虫系统,爬虫系统会自动爬取需要的所有网页。 2分钟便可以加入一个网站

    另一个方面是抓取时间的优化,系统自动识别标题、内容、发布时间,特别是发布时间这块,以前是根据正则表达式匹配,比较容易出现不匹配的请款。现在机器学习自动识别时间,例如August英文、数字结合,都能够准确的识别,准确率特别高。  因为自己要抓取大量的国外网址,所以现在提取时间是比较完美的。

    元素提取方面也做了优化,提取元素加入系统,不需要修改代码,只要配置上便可以,支持xpath、cssselector、正则表达式,灵活方便,个人非常满意。

    selenium抓取也进行了优化,加入了一个爬虫类型,需要使用selenium进行ajax页面抓取时,更改一个配置参数便可以。

 

    

你可能感兴趣的:(爬虫)