我的爬虫史

前言:

曾经模仿别人的代码写过几个小爬虫,不过都是皮毛而已,下载一些图片,很简单的爬虫。
现在想系统的学习一下python网络爬虫,包括爬虫多线程、登陆、验证码、分布式、优化等方面。学习的方式是直接爬,一点点深入,遇到问题逐个解决。希望利用博客记录一下自己学习爬虫的过程,放出源代码,希望对后面学习的朋友提供个参考,同时希望通过大家的指正进行查缺补漏。

运行环境:
python2.7,Eclipse+PyDev,32位win8系统



1号小爬虫:普通的爬虫,下载百度壁纸

先写一个简单实用的爬虫,给自己的笔记本爬一些壁纸,换个桌面新鲜新鲜(网址: 传送门)。
这是最基本的爬虫,主要就两个步骤:第一步获取网页的源代码,第二步从源代码中利用正则表达式获取图片的url,并下载。



(更新中。。。)



转载请注明出处,谢谢!(原文链接:http://blog.csdn.net/bone_ace/article/details/50195839)

你可能感兴趣的:(python,爬虫)