做个简陋的图片下载器

今天，用Python来开发一个图片搜索下载器。

之所以简陋，是因为获取不到最高清的原图，本篇仅仅提供思路。

由于网站使用JavaScript和ajax动态加载技术，还有验证码机制，对小白来说想要获得原图实在太难啦。
所以只能能获取缩略图，主要提供基本思路。

选择的是pixabay，挺有名的高品质图片网站，免费的，相信许多人对此并不陌生。

pixabay.png

一、目标：

1、实现输入关键词，自动搜索到图片
2、获取图片链接
3、批量下载图片，命名保存入文件
4、代码优化，不中段、无重复，并且可指定下载范围

二、步骤：

1、首先观察分析。
点击进入官网，好家伙和百度一样的瀑布流模式，查看源码发现关键字‘ajax'，隐隐感觉会比较难办。

果不其然，要点击页面才能看到缩略图，还要点击图片才能下载。审查元素里面并不是原图的链接，源码中也没有，按照一般思路并不能获取原图（可能要用到PhantomJS、Selenium等）。

可是我还没有学到PhantonJ和Selenium呀，所以先拿缩略图试水啦（不过比官网最小的那一个下载模式要大一些）。分析/2013/10/16/14/45/是时间，flower为关键词，结合源码分析196360应该是每一个图的特殊代号。

图1.png

图2.png

接着就是用正则匹配出时间、特殊代号，再构造出如上的地址就是我们要找的链接了！（当初还以为是原图，实在是。。。）

2、具体步骤
1）匹配图片数量的正则

  pattern=re.compile('


刚开始时用的是最先这个，结果只能返回16个图。
 百思不得解，还去看了下别的网站，准备放弃之际，查看源码发现，不得了正好与这带下划线链接的16个项吻合，而后面的图片项发现皆带有'data-lazy'。
 也就是说，前16和后16根本采用不是一个模式啊！
 这可能也是为了反恶意爬虫吧，总之厉害了我的哥^_。
 后面就简单，分别匹配正则并讨论。
3）创建目录，保存入文件和之间如出一辙，不再赘述。
 4）下载保存一页图片时detailURL分情况讨论。i<=16和 i>16的情况。
5）接下来对多页进行循环，发现第1页和第2页之后的url又不相同啦，具体分析之后，构造如下
url2='https://pixabay.com/zh/photos/orientation=&image_type=&cat=&colors=&q='+str(self.keyword)+'&order=popular&pagi='+str(page)
 url2='http://pixabay.com/zh/photos/?image_type=&cat=&min_width=&min_height=&q='+str(self.keyword)+'&order=popular'
6）最后优化环节：
 检查链接错误减少下载中断
 去掉图片下载重复（即每一次重新开始就不用重新下载之前的内容）
 设计交互（raw_input)、优化注释
 最后还是觉得太low又改了一下，可以选择下载页数（下多少页呀），及起始页数（从哪开始）。经验发现一页100张。这回方便了，不用每次从头开始了。
嘿嘿，这就是一个下载器的基本思路啦~
三、代码
虽然很简陋，（为了方便查询）记录整个过程代码如下，不喜勿喷哇~：
#  -*-coding:utf-8 -*-
__author__='WYY'
__date__='2017.03.17'

#爬虫实战小项目：pixabay 图片下载器
import re
import os
import requests
import urllib2
import time

class Spider():
    #初始化参数
    def __init__(self):
        self.keyword=raw_input(u'欢迎使用pixabay 图片搜索下载神器\n请输入搜索关键词(英文)：')
        self.siteURL='http://pixabay.com/zh/photos/?    image_type=&cat=&min_width=&min_height=&q='+str(self.keyword)+'&order=popular'

    #获取详情页源码
    def getSource(self,url):
        result=requests.get(url).text.encode('utf-8')
        return result

    #获取图片页数
    def getPageNum(self):
        result=self.getSource(self.siteURL)
        pattern=re.compile('16:
            items=self.getItem2(url)
            i=17
            for item in items:
                detailURL = 'https://cdn.pixabay.com/photo'+str(item[0])+'-'+str(item[1])+'_960_720.jpg'
                print u'\n', u'正在下载并保存图片', i, detailURL
                self.saveImage(detailURL,name='Num'+str(i))
                time.sleep(0.5)
                i += 1

    #对多页图片的操作
    def saveMorePage(self):
        numbers=self.getPageNum()
        Num=int(raw_input(u'一页共100张图，\n请输入要下载的页数(默认页数大于等于1）：'))
        Start=int(raw_input(u'请输入下载起始页数：'))
        if numbers>=1:
            for page in range(Start,Start+Num):
                if page==1:
                    print u'\n',u'正在获取第1页的内容......'
                    self.url1=self.siteURL
                    self.makeDir(path=self.keyword + 'page' + str(page))
                    self.saveOnePage(url=self.url1)
                else:
                    print u'\n',u'正在获取第',page, u'页的内容'
                    self.url2='https://pixabay.com/zh/photos/?orientation=&image_type=&cat=&colors=&q='+str(self.keyword)+'&order=popular&pagi='+str(page)
                    self.makeDir(path=self.keyword + 'page' + str(page))
                    self.saveOnePage(url=self.url2)

        else:
            return False

        print  u'\n',u'圆满成功!!!'

spider=Spider()
spider.saveMorePage()

四、结果
第一页









图3.png


最后一页









图4.png


实现去重









图5.png









图6.png


就是这样啦，成功实现自动搜索和批量下载，硬伤就是—不是原图啊（虽然如果要求不高的话，勉强充个数还是可以的）
 不说了，我去学selenium+PhantomJS了。

做个简陋的图片下载器

一、目标：

二、步骤：

三、代码

四、结果

你可能感兴趣的:(做个简陋的图片下载器)