Python数据爬虫学习笔记(11)爬取千图网图片数据

  需求:在千图网http://www.58pic.com中的某一板块中,将一定页数的高清图片素材爬取到一个指定的文件夹中。

  分析:以数码电器板块为例

  1.查看该板块的每一页的URL:

Python数据爬虫学习笔记(11)爬取千图网图片数据_第1张图片

Python数据爬虫学习笔记(11)爬取千图网图片数据_第2张图片

注意到第一页是“0-1.html”,第二页是“0-2.html”,由此可找到规律。

2.查看缩略图片的URL,使用F12开发者工具,通过element选项卡中的工具对网页div进行不断展开,找到图片真正的地址:

Python数据爬虫学习笔记(11)爬取千图网图片数据_第3张图片

例如:

3.查看高清图的URL:进入图片详情界面,直接右键点击图片查看图片地址,如:

Python数据爬虫学习笔记(11)爬取千图网图片数据_第4张图片

为:

比较缩略图与高清图的URL对应关系,即可得出结论,高清图URL=至“.jpg!”的缩略图URL+“一陀代码”

4.编写代码:

import urllib.request
import re
import urllib.error
for i in range(1,10):
    pageurl="http://www.58pic.com/piccate/3-151-615-default-0_2_0_0_default_0-"+str(i)+".html"
    data=urllib.request.urlopen(pageurl).read().decode("utf-8","ignore")
    pat='

遇到的问题:

1)千图网需登录才能看到高清大图的URL。

2)千图网为对高清大图进行了裁剪,可能分为了多个小部分图片。

3)查看网页源代码的缩略图URL与Python爬取的URL可能会不一致,具体原因可能是因为登录导致的。

结果:

Python数据爬虫学习笔记(11)爬取千图网图片数据_第5张图片

 

你可能感兴趣的:(Python)