python爬虫学习之路,为老婆爬下整站模板-第一章

老婆是影楼做后期的,经常要下载模板,看老婆点开86ps.com网站,一个一个点,然后找下载地址,这过程真是麻烦,既然咱是搞程序的,虽然前面学python都是跳过爬虫这一块,但看一下,在实践一下,爬下网站的下载地址是没问题的。

先看总结吧

主要用到的模块和相关软件

urllib,re,scrapy,mysql,raspberry,multiprocessing,python3

第一阶段为初步学习阶段

先看一下最基础的爬下一个页面的原理

image

非常简单,这几句话就行了。就能看到整个网站的html结构

然后我们分析一下网站的html结构

python爬虫学习之路,为老婆爬下整站模板-第一章_第1张图片
image

然后在用正则匹配(我当时爬的时候他们是ThumbImg的class,后来换了)

python爬虫学习之路,为老婆爬下整站模板-第一章_第2张图片
image

这里我是匹配的下载的那个div,最开始是直接匹配下载地址,后来看到下载地址有很多一不样,就先匹配这个div,在匹配到这里面的地址

python爬虫学习之路,为老婆爬下整站模板-第一章_第3张图片
image

由于网站的多个地址都是一个下载地址,只返回一个就够了。

有人问我这里怎么不直接匹配下载地址,看到有的页面有时候不只有这个文件的下载,还有一些其它的东西,就先匹配到这个div,在来找地址。

在看网站的页数,直接开始循环

image

下面开始循环工作,我这里从34开始是断电了,然后就停止了,就从34直接开始了,后面会讲讲一个系统怎么完善。

python爬虫学习之路,为老婆爬下整站模板-第一章_第4张图片
image

然后等他工作完成,完成后点开sz.txt看到所有下载地址全部爬完

python爬虫学习之路,为老婆爬下整站模板-第一章_第5张图片
image

你可能感兴趣的:(python爬虫学习之路,为老婆爬下整站模板-第一章)