Python爬虫的应用

目录

简介:

python使用到的库:

python库使用说明:

开始使用:

分析网站:

图片URL构造分析:

程序思路:


简介:

 

        在电影的项目生产中,经常会遇到素材参考搜集的问题。 艺术家们经常会说:我看到什么什么网站上有一些特别好的图库,但是只能一张张的下载。好几万张图,还得下载然后分类,一个月就啥也别干了……&巴拉巴拉一堆困扰。

        作为一名流程以及技术研发人员,在这个时候,就可以使用下我们的小技能(爬虫)来帮忙他们。

        通过这边文章我们就来分析下,艺术家经常使用的花瓣网图片的下载。

python使用到的库:

        requests,re,os,numpy, threading

python库使用说明:

  • requests

用于网络连接,拾取网络传输内容。

  • re

拾取内容后的分析匹配。

  • os

文件夹的创建。

  • numpy

这是一个做大数据分析的库,在这里我们用它来分割抓取到的url数据,然后发送到多线程中进行下载。

  • threading

使用多线程进行文件的下载。

 

开始使用:

花瓣是一个开源性特别高的网站,如果只是浏览查找自己需要的图片,它甚至不需要注册,图片更是直接下载。这可是说是一个纯粹的福利性网站。

这边文章我们通过万鸟集来进行分析下载我们需要的图片。

分析网站:

打开网站,如图。在标题中已经告诉了我们这个图集包含了12020张图片。

接下来是网页的基本架构。发现花瓣是通过滚动条实现的延迟动态加载。(这个后面来讲怎么获取)

接下来对内容进行分析,如图。每张图片的标题已经给我们分好了类:目>科>属>种

Python爬虫的应用_第1张图片

接下来就是最终重要的东西,每张图片的加载方式。

Python爬虫的应用_第2张图片

(超纲介绍下http服务器的基本交互方法说明 :

URL : 资源描述符,及地址。

PUT: 增

DELETE: 删

POST: 改

GET : 查询

我们尝试下右键复制图片地址,发现可以打开:

Python爬虫的应用_第3张图片

并且图片可以直接保存:不得不说这真是一个大大的福利。网站图片可以直接下载,不需要任何的用户信息。在这里感谢花瓣为我们提供的便利。

Python爬虫的应用_第4张图片

 

不过这张是小图,我们需要的是高清的大图。那我们就点进去试试大图。也同样完全没问题。

Python爬虫的应用_第5张图片

图片URL构造分析:

下来我们就来看看这两张图的共性。(做分析时候,一定要随机多选几张图片,我就只贴着两张了)

小图URL:http://img.hb.aicdn.com/0ff93666e94975e39f0e1f3276d763e8c81fa0272c0fc-vJ9t4V_fw236

大图URL:http://img.hb.aicdn.com/0ff93666e94975e39f0e1f3276d763e8c81fa0272c0fc-vJ9t4V_fw658

不难发现大图小图就是依靠最后的236以及658来决定的。

接下来我们来获取下网页信息然后找下图片URL的定义规律。

Python爬虫的应用_第6张图片

输出结果:

Python爬虫的应用_第7张图片

对比发现,图片的URL格式

"http://img.hb.aicdn.com/{}_fw658".format(URL的uuid)

程序思路:

  1. 主页。
  2. 设定为每次加载20个,共需要加载多少次。
  3. 获取每次链接,剖析图片URL,并把URL进行存储。
  4. 多线程进行下载图片。

完整的代码我已经放到了 这里。

 

 

你可能感兴趣的:(Python爬虫的应用)