首先打开起点中文网
点开红圈内的全部作品
选项,本博客爬取这里面的作品信息。
接下来爬取所有作品信息,注意,不仅仅只是该面的所有作品信息,而是全部作品信息。
网页下面有跳转其他页的选项。
我们需要找到网址规律,用来编写一个自动遍历所有页面网址的程序。
开始进来是这样的网址
https://www.qidian.com/all
但是点击下面的跳页选项中的1
,会发现变成这样子了。
https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=1
这里对URL进行了隐藏伪装。再看其他页面的网址,这规律轻轻松松就能找到。
页面网址固定部分是https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=
唯一变化的是page的参数,页数就是参数。
通过改变页数,就能遍历不同网页里的作品信息。
把爬取到的信息存入csv文件中,爬取的信息为:作品、作者、类型、状态、简介。
代码如下:
import csv
def download(filename, pages=1):
# 这里是固定部分的URL
url = 'https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page='
fileheader = ['作品', '作者', '类型', '状态', '简介']
with open(filename, 'w', newline='', encoding='gb18030') as f:
csv_writer = csv.writer(f)
# 把fileheader的内容写入csv文件中
csv_writer.writerow(fileheader)
# 开始遍历每个网页,爬取作品信息
for page in range(1, pages + 1):
page_url = url + str(page)
# 用find_contents函数爬取当前网页的作品信息
contents = find_contents(page_url)
# 把contents的内容通过save_contents函数存入csv文件中
save_contents(contents)
download是爬虫主函数,其中用到的find_contents和save_contents函数还没有定义。
该函数的作用是把爬取的一个网页的作品信息列表存进指定的CSV文件中。
def save_contents(contents, writer):
# 从contents中取出一个作品信息content,写入csv文件中
for content in contents:
writer.writerow(content)
该函数是特别重要的函数,运用正则表达式来爬去网页的作品信息。
需要额外添加两个库。
import urllib.request
import re
通过鼠标移到想要的信息上,右击找打检查
或审查元素
选项,找到关键代码,组建严格的正则表达式。
代码如下:
def find_contents(url):
# 打开网页,获取网站反应
response = urllib.request.urlopen(url)
# 读取网页源码
html = response.read().decode('utf-8')
# 编写正则表达式
book_name = r'(.*?)'
book_author = r'(.*?)'
book_type = r'(.*?)'
book_state = r'(.*?)'
book_intro = r'(.*?)
'
informations = book_name + r'.*?' + book_author + r'.*?' + book_type + r'.*?' + book_state + r'.*?' + book_intro
# 返回一个正则表达式对象
reg = re.compile(informations, re.S)
# 开始查找所有信息
contents = re.findall(reg, html)
return contents
然后结合以上代码,就可以爬取信息,但是本身还有不少缺陷,这只是一个最初的爬虫。
首先修改一下find_contents函数
返回的数据,简介没有去除空格,类型也需要稍加修改。
代码如下:
def find_contents(url):
# 打开网页,获取网站反应
response = urllib.request.urlopen(url)
# 读取网页源码
html = response.read().decode('utf-8')
# 编写正则表达式
book_name = r'(.*?)'
book_author = r'(.*?)'
book_type1 = r'(.*?)'
# 新增一个类型
book_type2 = r'(.*?)'
book_state = r'(.*?)'
book_intro = r'(.*?)
'
informations = book_name + r'.*?' + book_author + r'.*?' + book_type1 + \
r'.*?' + book_type2 + r'.*?' + book_state + r'.*?' + book_intro
# 返回一个正则表达式对象
reg = re.compile(informations, re.S)
# 开始查找所有信息
contents_list = re.findall(reg, html)
contents = []
# 遍历每一个作品信息,进行修改
for content in contents_list:
content = list(content)
new_content = content[:2]
new_content.append(content[2] + '-' + content[3])
new_content.append(content[4])
new_content.append(content[5].strip())
contents.append(new_content)
return contents
代码差不多了,可以直接运行程序查看效果,但是接着就会发现,爬虫爬取频繁了,网页会被禁止访问,因为网站会有防止爬虫的功能。
那么我们需要加入几个代理ip和用户代理(User-Agent)。
那么从何处改进呢?
首先要理解代理ip和用户代理,我们需要用他们来打开指定的网页。故而在打开网页时就需要调用他们。
打开网址函数在find_contents函数中使用到,所以我们把find_contents函数改进下。我们把代开网址与正则表达式找信息这两块操作分成两个函数来写。
该函数作用是,(用代理ip和用户代理)打开网址,返回网页源码信息。
注:自己的用户代理可以在浏览器地址栏中输入javascript:alert(navigator.userAgent)查看。
注:免费的代理ip可以网上查找。
也可以只用一个自己的用户代理,但是为了保险,用了多个用户代理。
首先需要新增一个模块
import random
open_url函数如下:
def open_url(url):
# 代理ip列表
proxy_list = ['219.138.58.114:3128', '61.135.217.7:80', '101.201.79.172:808', '122.114.31.177:808']
# 用户代理列表
user_list = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36',
'User-Agent:Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0',
'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16',
'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16']
index = random.randint(0, 3)
# 使用代理ip的必要函数
proxy_support = urllib.request.ProxyHandler({'http': proxy_list[index]})
opener = urllib.request.build_opener(proxy_support)
urllib.request.install_opener(opener)
# 添加用户代理
opener.addheaders = [('User-Agent', user_list[index])]
response = urllib.request.urlopen(url)
html = response.read()
return html
注意,程序中的代理ip和用户代理需要自己修改,本博主的可能已经过时。
至于find_contents只需要稍微修改一番即可。
把其中的:
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')
改为:
html = open_url(url).decode('utf-8')
import urllib.request
import re
import csv
import random
# 打开网页
def open_url(url):
# 代理ip列表
proxy_list = ['219.138.58.114:3128', '61.135.217.7:80', '101.201.79.172:808', '122.114.31.177:808']
# 用户代理列表
user_list = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36',
'User-Agent:Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0',
'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16',
'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16']
index = random.randint(0, 3)
# 使用代理ip的必要函数
proxy_support = urllib.request.ProxyHandler({'http': proxy_list[index]})
opener = urllib.request.build_opener(proxy_support)
urllib.request.install_opener(opener)
# 添加用户代理
opener.addheaders = [('User-Agent', user_list[index])]
response = urllib.request.urlopen(url)
html = response.read()
return html
# 运用正则表达式提出作品信息
def find_contents(url):
html = open_url(url).decode('utf-8')
# 编写正则表达式
book_name = r'(.*?)'
book_author = r'(.*?)'
book_type1 = r'(.*?)'
# 新增一个类型
book_type2 = r'(.*?)'
book_state = r'(.*?)'
book_intro = r'(.*?)
'
informations = book_name + r'.*?' + book_author + r'.*?' + book_type1 + \
r'.*?' + book_type2 + r'.*?' + book_state + r'.*?' + book_intro
# 返回一个正则表达式对象
reg = re.compile(informations, re.S)
# 开始查找所有信息
contents_list = re.findall(reg, html)
contents = []
# 遍历每一个作品信息,进行修改
for content in contents_list:
content = list(content)
new_content = content[:2]
new_content.append(content[2] + '-' + content[3])
new_content.append(content[4])
new_content.append(content[5].strip())
contents.append(new_content)
return contents
# 保存作品信息
def save_contents(contents, writer):
# 从contents中取出一个作品信息content,写入csv文件中
for content in contents:
writer.writerow(content)
# 主函数
def download(filename, pages=1):
# 这里是固定部分的URL
url = 'https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page='
fileheader = ['作品', '作者', '类型', '状态', '简介']
with open(filename, 'w', newline='', encoding='gb18030') as f:
csv_writer = csv.writer(f)
# 把fileheader的内容写入csv文件中
csv_writer.writerow(fileheader)
# 开始遍历每个网页,爬取作品信息
for page in range(1, pages + 1):
page_url = url + str(page)
# 用find_contents函数爬取当前网页的作品信息
contents = find_contents(page_url)
# 把contents的内容通过save_contents函数存入csv文件中
save_contents(contents, csv_writer)
if __name__ == '__main__':
download('test.csv', 10)