python爬虫——爬取起点中文网作品信息

首先打开起点中文网
python爬虫——爬取起点中文网作品信息_第1张图片
点开红圈内的全部作品选项,本博客爬取这里面的作品信息。
python爬虫——爬取起点中文网作品信息_第2张图片
接下来爬取所有作品信息,注意,不仅仅只是该面的所有作品信息,而是全部作品信息。
网页下面有跳转其他页的选项。
我们需要找到网址规律,用来编写一个自动遍历所有页面网址的程序。
开始进来是这样的网址
https://www.qidian.com/all
但是点击下面的跳页选项中的1,会发现变成这样子了。
https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=1
这里对URL进行了隐藏伪装。再看其他页面的网址,这规律轻轻松松就能找到。
页面网址固定部分是https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=
唯一变化的是page的参数,页数就是参数。
通过改变页数,就能遍历不同网页里的作品信息。

download主函数

把爬取到的信息存入csv文件中,爬取的信息为:作品、作者、类型、状态、简介。
代码如下:

import csv


def download(filename, pages=1):
    # 这里是固定部分的URL
    url = 'https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page='

    fileheader = ['作品', '作者', '类型', '状态', '简介']
    with open(filename, 'w', newline='', encoding='gb18030') as f:
        csv_writer = csv.writer(f)
        # 把fileheader的内容写入csv文件中
        csv_writer.writerow(fileheader)

        # 开始遍历每个网页,爬取作品信息
        for page in range(1, pages + 1):
            page_url = url + str(page)
            # 用find_contents函数爬取当前网页的作品信息
            contents = find_contents(page_url)
            # 把contents的内容通过save_contents函数存入csv文件中
            save_contents(contents)

download是爬虫主函数,其中用到的find_contents和save_contents函数还没有定义。

save_contents函数

该函数的作用是把爬取的一个网页的作品信息列表存进指定的CSV文件中。

def save_contents(contents, writer):
    # 从contents中取出一个作品信息content,写入csv文件中
    for content in contents:
        writer.writerow(content)

find_contents函数

该函数是特别重要的函数,运用正则表达式来爬去网页的作品信息。
需要额外添加两个库。

import urllib.request
import re

通过鼠标移到想要的信息上,右击找打检查审查元素选项,找到关键代码,组建严格的正则表达式。
代码如下:

def find_contents(url):
    # 打开网页,获取网站反应
    response = urllib.request.urlopen(url)
    # 读取网页源码
    html = response.read().decode('utf-8')

    # 编写正则表达式
    book_name = r'(.*?)'
    book_author = r'(.*?)'
    book_type = r'(.*?)'
    book_state = r'(.*?)'
    book_intro = r'

(.*?)

' informations = book_name + r'.*?' + book_author + r'.*?' + book_type + r'.*?' + book_state + r'.*?' + book_intro # 返回一个正则表达式对象 reg = re.compile(informations, re.S) # 开始查找所有信息 contents = re.findall(reg, html) return contents

然后结合以上代码,就可以爬取信息,但是本身还有不少缺陷,这只是一个最初的爬虫。
首先修改一下find_contents函数
返回的数据,简介没有去除空格,类型也需要稍加修改。
代码如下:

def find_contents(url):
    # 打开网页,获取网站反应
    response = urllib.request.urlopen(url)
    # 读取网页源码
    html = response.read().decode('utf-8')

    # 编写正则表达式
    book_name = r'(.*?)'
    book_author = r'(.*?)'
    book_type1 = r'(.*?)'
    # 新增一个类型
    book_type2 = r'(.*?)'
    book_state = r'(.*?)'
    book_intro = r'

(.*?)

' informations = book_name + r'.*?' + book_author + r'.*?' + book_type1 + \ r'.*?' + book_type2 + r'.*?' + book_state + r'.*?' + book_intro # 返回一个正则表达式对象 reg = re.compile(informations, re.S) # 开始查找所有信息 contents_list = re.findall(reg, html) contents = [] # 遍历每一个作品信息,进行修改 for content in contents_list: content = list(content) new_content = content[:2] new_content.append(content[2] + '-' + content[3]) new_content.append(content[4]) new_content.append(content[5].strip()) contents.append(new_content) return contents

改进程序

代码差不多了,可以直接运行程序查看效果,但是接着就会发现,爬虫爬取频繁了,网页会被禁止访问,因为网站会有防止爬虫的功能。
那么我们需要加入几个代理ip和用户代理(User-Agent)。
那么从何处改进呢?
首先要理解代理ip和用户代理,我们需要用他们来打开指定的网页。故而在打开网页时就需要调用他们。
打开网址函数在find_contents函数中使用到,所以我们把find_contents函数改进下。我们把代开网址与正则表达式找信息这两块操作分成两个函数来写。

新增一个open_url函数

该函数作用是,(用代理ip和用户代理)打开网址,返回网页源码信息。

注:自己的用户代理可以在浏览器地址栏中输入javascript:alert(navigator.userAgent)查看。
注:免费的代理ip可以网上查找。
也可以只用一个自己的用户代理,但是为了保险,用了多个用户代理。

首先需要新增一个模块

import random

open_url函数如下:

def open_url(url):
    # 代理ip列表
    proxy_list = ['219.138.58.114:3128', '61.135.217.7:80', '101.201.79.172:808', '122.114.31.177:808']
    # 用户代理列表
    user_list = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36',
                 'User-Agent:Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0',
                 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16',
                 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16']

    index = random.randint(0, 3)
    # 使用代理ip的必要函数
    proxy_support = urllib.request.ProxyHandler({'http': proxy_list[index]})
    opener = urllib.request.build_opener(proxy_support)
    urllib.request.install_opener(opener)
    # 添加用户代理
    opener.addheaders = [('User-Agent', user_list[index])]
    response = urllib.request.urlopen(url)
    html = response.read()

    return html

注意,程序中的代理ip和用户代理需要自己修改,本博主的可能已经过时。
至于find_contents只需要稍微修改一番即可。
把其中的:

response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')

改为:

html = open_url(url).decode('utf-8')

程序代码

import urllib.request
import re
import csv
import random

# 打开网页
def open_url(url):
    # 代理ip列表
    proxy_list = ['219.138.58.114:3128', '61.135.217.7:80', '101.201.79.172:808', '122.114.31.177:808']
    # 用户代理列表
    user_list = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36',
                 'User-Agent:Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0',
                 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16',
                 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16']

    index = random.randint(0, 3)
    # 使用代理ip的必要函数
    proxy_support = urllib.request.ProxyHandler({'http': proxy_list[index]})
    opener = urllib.request.build_opener(proxy_support)
    urllib.request.install_opener(opener)
    # 添加用户代理
    opener.addheaders = [('User-Agent', user_list[index])]
    response = urllib.request.urlopen(url)
    html = response.read()

    return html

# 运用正则表达式提出作品信息
def find_contents(url):
    html = open_url(url).decode('utf-8')

    # 编写正则表达式
    book_name = r'(.*?)'
    book_author = r'(.*?)'
    book_type1 = r'(.*?)'
    # 新增一个类型
    book_type2 = r'(.*?)'
    book_state = r'(.*?)'
    book_intro = r'

(.*?)

' informations = book_name + r'.*?' + book_author + r'.*?' + book_type1 + \ r'.*?' + book_type2 + r'.*?' + book_state + r'.*?' + book_intro # 返回一个正则表达式对象 reg = re.compile(informations, re.S) # 开始查找所有信息 contents_list = re.findall(reg, html) contents = [] # 遍历每一个作品信息,进行修改 for content in contents_list: content = list(content) new_content = content[:2] new_content.append(content[2] + '-' + content[3]) new_content.append(content[4]) new_content.append(content[5].strip()) contents.append(new_content) return contents # 保存作品信息 def save_contents(contents, writer): # 从contents中取出一个作品信息content,写入csv文件中 for content in contents: writer.writerow(content) # 主函数 def download(filename, pages=1): # 这里是固定部分的URL url = 'https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=' fileheader = ['作品', '作者', '类型', '状态', '简介'] with open(filename, 'w', newline='', encoding='gb18030') as f: csv_writer = csv.writer(f) # 把fileheader的内容写入csv文件中 csv_writer.writerow(fileheader) # 开始遍历每个网页,爬取作品信息 for page in range(1, pages + 1): page_url = url + str(page) # 用find_contents函数爬取当前网页的作品信息 contents = find_contents(page_url) # 把contents的内容通过save_contents函数存入csv文件中 save_contents(contents, csv_writer) if __name__ == '__main__': download('test.csv', 10)

你可能感兴趣的:(python爬虫)