新建项目article
mkvirtualenv py3scrapy
安装scrapy
pip install -i https://pypi.douban.com/simple scrapy
新建scrapy工程Article
(article) F:\DjangoExcise>scrapy startproject ArticleNew Scrapy project 'Article', using template directory 'f:\\envs\\article\\lib\\site-packages\\scrapy\\templates\\project', created in:
F:\DjangoExcise\Article
You can start your first spider with:
cd Article
scrapy genspider example example.com
# 使用模板创建爬虫,模板可以自定义,但是我们暂时先用默认模板
使用模板创建爬虫
(article) F:\DjangoExcise>cd article # 先进入工程目录
(article) F:\DjangoExcise\Article>scrapy genspider jobbole blog.jobbole.com
# jobbole 为文件名称
# blog.jobbole.com 为需要爬取的网站页
Created spider 'jobbole' using template 'basic' in module:
Article.spiders.jobbole
启动scrapy
(article) F:\DjangoExcise\Article>scrapy crawl jobbole
Windows下可能会报错,提示缺少‘win32api’
(article) F:\DjangoExcise\Article>pip install -i https://pypi.douban.com
/simple pypiwin32
安装完成后再次启动即可
因为我们的开发工具使用Pycharm,但是Pycharm不支持调试scrapy,需
要自定义配置一个调试文件,方便我们实时进行调试
Article主目录下新建py文件main
from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
# os.path.abspath(__file__) 获取当前文件路径(main.py)
# os.path.dirname() 获取当前文件的父路径
execute(['scrapy', 'crawl', 'jobbole'])
# execute 传入的是一个列表
修改setting文件的ROBOTSTXT_OBEY值
ROBOTSTXT_OBEY = False
# 这个为True的话,会直接过滤网页中的robots文件中的链接,可能会导
# 致爬虫无法爬取全部页面,需要设置为False
好了,接下来就可以开始我们的爬虫之旅
# -*- coding: utf-8 -*-
import scrapy
import re
from scrapy.http import Request
from urllib import parse
class JobboleSpider(scrapy.Spider):
name = 'jobbole'
#allowed_domains = ['blog.jobbole.com/']
start_urls = ['http://blog.jobbole.com/all-posts/']
def parse(self, response):
# 解析列表页中的所欲文章链接交给scrapy
post_urls = response.css('#archive .floated-thumb .post-thumb a::attr(href)').extract()
for post_url in post_urls:
# scrapy 的解析函数
yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_detail)
# 使用parse.urljoin的原因是有些网站的href链接不会给到主域名,需要使用该函数直接获取当前网站的主域名并和当前获取的href进行拼接
# 函数 parse_detail 作为我们的回调函数(callback),当Request下载完成之后调用,获取详情页信息
next_urls = response.css('.next.page-numbers::attr(href)').extract_first('')
if next_urls:
yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse)
def parse_detail(self, response):
# 提取文章的具体字段
# 获取标题
title = response.xpath('/html/body/div[1]/div[3]/div[1]/div[1]/h1/text()').extract_first('')
# text() 获取文本信息
# extract() 获取值 返回的类型是列表 可以用extract()[0]获取第一个参数
# 获取文章发布时间
create_date = response.xpath("//p[@class='entry-meta-hide-on-mobile']/text()").extract()[0].strip().replace("·", "").strip()
print(create_date)
# strip() 删除换行,空格等字符
# replace("·", "") 将"·"替换为空格
# 获取文章点赞数
praise_nums = response.xpath("//span[contains(@class,'vote-post-up')]/h10/text()").extract()[0]
# contains 内置函数 当一个标签有多个class属性值得时候,可以进行筛选 第一个参数是标签 第二个参数是查找的属性值
# 获取文章收藏数
fav_nums = response.xpath("//span[contains(@class,'bookmark-btn')]/text()").extract()[0]
match_fav_re = re.match('(\d+)', fav_nums)
if match_fav_re == None:
fav_nums = 0
else:
fav_nums = match_fav_re.group(0)
# 获取文章评论数
comment_nums = response.css("span.hide-on-480::text").extract_first('')
match_comment_re = re.match('(\d+)', comment_nums)
if match_comment_re == None:
comment_nums = 0
else:
comment_nums = match_comment_re.group(0)
# 获取文章整体信息
content = response.xpath("//div[@class='entry']").extract()[0]
# 获取文章领域等
tag_list = response.xpath("//p[@class='entry-meta-hide-on-mobile']/a/text()").extract()
for element in tag_list:
if not element.strip().endswith('评论'):
tags = ','.join(tag_list)
注意事项:
1.运行前把源文件生成的allowed_domains注释掉
class JobboleSpider(scrapy.Spider):
name = 'jobbole'
#allowed_domains = ['blog.jobbole.com/']
start_urls = ['http://blog.jobbole.com/all-posts/']
不注释的话,会产生的bug
程序在parse函数中进行for循环下载当前页的post_urls,不会调用下面的回调函数parse_detail,直至for循环完毕
for post_url in post_urls:
# scrapy 的解析函数
# parse.urljoin(response.url, post_url)
print(post_url)
yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_detail)
回调函数这里不是调用parse_detail函数 不要加括号
正确写法
callback=self.parse_detail
错误示范
callback=self.parse_detail()
2.错误提示:list index out of range
comment_nums = response.css("span.hide-on-480::text").extract()[0]
将extract()[0]改为extract.first()
原因:
当评论数为0时,comment_nums 变量中第一个参数为空,当extract()[0]获取第一个参数时,会报错,而使用extract.first()获取第一个参数时,会返回None
comment_nums = response.css("span.hide-on-480::text").extract_first('')
3.原视频中使用正则表达式获取评论点赞数,经检测,只能获取当前列表的第一个数字,若点赞数为俩位数及以上,则无法准确获取
comment_nums = response.css("span.hide-on-480::text").extract_first('')
match_comment_re = re.match('.*(\d+).*', comment_nums)
if match_comment_re == None:
comment_nums = 0
else:
comment_nums = match_comment_re.group(0)
现将文中'.*(\d+).*'改为'(\d+)'
comment_nums = response.css("span.hide-on-480::text").extract_first('')
match_comment_re = re.match('(\d+)', comment_nums)
if match_comment_re == None:
comment_nums = 0
else:
comment_nums = match_comment_re.group(0)