网络蜘蛛-搜狐博客批量下载(之二)


上面的代码能够得到搜狐博客的全部文章列表,为了加快爬取速度,还使用了多线程。以上仅仅为原型系统,下一篇将对上一篇文章和这一篇文章进行一个汇总和工程化,形成一个完整的搜狐博客网络蜘蛛。ENjoY~

爬取结果举例:





对用到的几个python知识点进行一下小结:

1. for只有一种模式:for x in y

2. range函数左闭右开,第三个参数可选,表示步长

3. string支持将字符串转化成整数或浮点:string.atoi/atof

4. 在爬取网页时,好像线程过多的话会引起爬取错误(部分线程抛出异常)


上一篇:

网络蜘蛛-搜狐博客批量下载(之一)


作者邮箱: hustos (a) qq.com

作者微博: weibo.com/raywill2



你可能感兴趣的:(下载)