Python爬虫学习(一)

爬虫学习

目标：爬取壁纸并保存到本地目标网站：http://desk.zol.com.cn/dongman/

（最后更改时间：2018/11/4）
要求

1.壁纸必须保存到脚本运行目录下的的 IMAGES文件夹内。
2.保存的图片必须以对应标题名和分辨率来命名，如：秋田君的小漫画 - 1920x1200.jpg。
3.图片分辨率应该是可选分辨率中最高的。
4.提示信息格式：正在下载 (下载数量)：(图片名字)。
5.要有错误处理并给出相应提示，如：图片下载失败、网络超时的处理等。

要用到的Python库

requests(需安装)
os
lxml中的etree(xpath)(需安装)

相关语法：

requests
xpath
os

准备好这些以后，就可以开始写爬虫了
引入所需库文件

from lxml import etree
import requests
import os

设置头文件

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',
}

写一个解析html的函数，参数为要获取的网址，返回值是解析后的，能用xpath进行定位的xml变量。
步骤：

使用requests中的get方法对网页进行请求，保存在变量r中
将r的编码方式设置为当前编码，防止乱码
使用etree.HTML()解析r.text()，保存在变量dom中
返回dom

def getText(url):
    r = requests.get(url, headers = headers)
    r.encoding = r.apparent_encoding
    dom = etree.HTML(r.text)
    return dom

目标是爬取图片，还需要一个能保存图片的函数：
保存图片与文字不太一样，需要将content（二进制）写入文件而不是text
使用open创建一个文件，因为命名需要使用名字-分辨率的格式来命名，所以我们使用name变量储存名字，px储存分辨率，所以除了将图片的url传入外，还要将这两个参数传进函数
使用f-string方法连接变量和字符串

def getImg(url, name, px):
    r = requests.get(url, headers = headers)
    if(r.status_code != 200):
        print("图片下载失败")
        return
    r.encoding = r.apparent_encoding
    f = open(f'{name}-{px}.jpg', 'wb')
    f.write(r.content)

然后就是文件的保存位置问题，要求是IMAGES文件夹由脚本自动创建，没有就创建，否则不创建。
需要用到os库：

使用os.getcwd()函数得到脚本的工作路径，拼接字符串\IMAGES就得到了脚本工作目录下IMAGES文件夹的路径
使用os.path.exists(path)判断文件夹十分存在，不存在则创建
使用os.makedirs(path)创建文件夹
使用os.chdir将工作目录改为IMAGES文件夹下，即使图片保存到该文件夹

def createFileFolder():
    path = os.getcwd() + "\IMAGES"
    if not os.path.exists(path):
        os.makedirs(path)
    os.chdir(path)

准备工作完成
我们观察网页结构，发现需要爬取的壁纸共41页，每页的网址规律为：http://desk.zol.com.cn/dongman/x.html
x为页码数
所以写一个循环，次数为41，每次循环爬取当前页上的所有壁纸
firststep：获取图片名和组图链接
　　图片名在li标签下，属性值为class="photo-list-padding"，使用xpath轻松得到图片名，总张数，时间，因为我们目标是爬取每组图片的第一张，所以有用信息只有图片名。组图链接在class="photo-list-padding"的li标签的href属性中，获取标签中的属性值可以在定位到该标签后使用//@'属性值'得到
secondstep:获取图片最高分辨率对应网址和最高分辨率
　　同理可以发现分辨率在dd标签下的a标签的id属性中，而图片链接则在href属性中。
注意：有个严重的问题，从第二页壁纸开始，有一些壁纸不提供下载服务，这些图片的分辨率在网页中找不到，而且也无法获取像其他图片那样获取图片链接，但这类图片在网页中还有个展示的图片，分辨率均为960x600，对应网址都在img标签中的src属性中，分两种情况讨论，程序才不会报错，否则会报错提示分辨率对应的列表为空！
thirdstep:下载图片
　　一切都准备好了，写个循环使用getImg()下载图片即可，别忘了打印提示信息

最后附上完整代码

from lxml import etree
import requests
import os

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',
}

def getText(url):
    r = requests.get(url, headers = headers)
    r.encoding = r.apparent_encoding
    dom = etree.HTML(r.text)
    return dom

def getImg(url, name, px):
    r = requests.get(url, headers = headers)
    if (r.status_code != 200):
        print("图片下载失败")
        return
    r.encoding = r.apparent_encoding
    f = open(f'{name}-{px}.jpg', 'wb')
    f.write(r.content)

def createFileFolder():
    path = os.getcwd() + "\image"
    if not os.path.exists(path):
        os.makedirs(path)
    os.chdir(path)

def getImgName_href(dom):#得到图片名和图片详细链接
    name = dom.xpath('//li[@class="photo-list-padding"]//em//text()')
    href = dom.xpath('//li[@class="photo-list-padding"]//@href')
    return name, href

def getImgHref_Px(href):#得到最高分辨率图片地址和最高分辨率
    dom = getText(href)
    try:
        px = dom.xpath('//dd[@id="tagfbl"]//a//@id')[0]
        imgUrl = dom.xpath('//dd[@id="tagfbl"]//a[@target="_blank"]//@href')[0]
        dom_1 = getText(host + imgUrl)
        imgHref = dom_1.xpath('//img//@src')[0]
        return imgHref, px
    except:
        imgHref = dom.xpath('//div[@id="mouscroll"]//img//@src')[0]
        return imgHref, "960x600"

host = "http://desk.zol.com.cn"
target = "http://desk.zol.com.cn/dongman/"
cnt = 0
createFileFolder()  # 创建文件夹并将图片下载换到image

for x in range(1, 42):
    dom = getText("http://desk.zol.com.cn/dongman/" + str(x) + ".html")
    name, href = getImgName_href(dom)
    for i in range(0, len(href)):  # 下载壁纸QAQ
        cnt = cnt + 1
        print("正在下载" + str(cnt) + ":" + name[i])
        imgHref, px = getImgHref_Px(host + href[i])
        getImg(imgHref, name[i], px)

Python爬虫学习(一)

爬虫学习

目标：爬取壁纸并保存到本地 目标网站：http://desk.zol.com.cn/dongman/

你可能感兴趣的:(Python爬虫学习(一))

目标：爬取壁纸并保存到本地目标网站：http://desk.zol.com.cn/dongman/