小爬虫实践项目-爬取伯乐在线全部文章信息

新建项目article

mkvirtualenv py3scrapy

安装scrapy

pip install -i https://pypi.douban.com/simple scrapy

新建scrapy工程Article

(article) F:\DjangoExcise>scrapy startproject ArticleNew Scrapy project 'Article', using template directory 'f:\\envs\\article\\lib\\site-packages\\scrapy\\templates\\project', created in:
    F:\DjangoExcise\Article

You can start your first spider with:
    cd Article
    scrapy genspider example example.com
# 使用模板创建爬虫,模板可以自定义,但是我们暂时先用默认模板

使用模板创建爬虫

(article) F:\DjangoExcise>cd article # 先进入工程目录

(article) F:\DjangoExcise\Article>scrapy genspider jobbole blog.jobbole.com
# jobbole  为文件名称  
# blog.jobbole.com 为需要爬取的网站页
Created spider 'jobbole' using template 'basic' in module:
  Article.spiders.jobbole

启动scrapy

(article) F:\DjangoExcise\Article>scrapy crawl jobbole

Windows下可能会报错,提示缺少‘win32api’

(article) F:\DjangoExcise\Article>pip install -i https://pypi.douban.com
/simple pypiwin32

安装完成后再次启动即可
因为我们的开发工具使用Pycharm,但是Pycharm不支持调试scrapy,需
要自定义配置一个调试文件,方便我们实时进行调试
Article主目录下新建py文件main

from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
# os.path.abspath(__file__) 获取当前文件路径(main.py)
# os.path.dirname() 获取当前文件的父路径
execute(['scrapy', 'crawl', 'jobbole'])
# execute 传入的是一个列表

修改setting文件的ROBOTSTXT_OBEY值

ROBOTSTXT_OBEY = False
# 这个为True的话,会直接过滤网页中的robots文件中的链接,可能会导

# 致爬虫无法爬取全部页面,需要设置为False

好了,接下来就可以开始我们的爬虫之旅

# -*- coding: utf-8 -*-
import scrapy
import re
from scrapy.http import Request
from urllib import parse


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    #allowed_domains = ['blog.jobbole.com/']
    start_urls = ['http://blog.jobbole.com/all-posts/']

    def parse(self, response):
        # 解析列表页中的所欲文章链接交给scrapy
        post_urls = response.css('#archive .floated-thumb .post-thumb a::attr(href)').extract()
        for post_url in post_urls:
            # scrapy 的解析函数
            yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_detail)
            # 使用parse.urljoin的原因是有些网站的href链接不会给到主域名,需要使用该函数直接获取当前网站的主域名并和当前获取的href进行拼接
            # 函数 parse_detail 作为我们的回调函数(callback),当Request下载完成之后调用,获取详情页信息
        next_urls = response.css('.next.page-numbers::attr(href)').extract_first('')
        if next_urls:
            yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse)

    def parse_detail(self, response):
        # 提取文章的具体字段
        # 获取标题
        title = response.xpath('/html/body/div[1]/div[3]/div[1]/div[1]/h1/text()').extract_first('')
        # text()  获取文本信息
        # extract() 获取值  返回的类型是列表   可以用extract()[0]获取第一个参数

        # 获取文章发布时间
        create_date = response.xpath("//p[@class='entry-meta-hide-on-mobile']/text()").extract()[0].strip().replace("·", "").strip()
        print(create_date)
        # strip()  删除换行,空格等字符
        # replace("·", "")  将"·"替换为空格

        # 获取文章点赞数
        praise_nums = response.xpath("//span[contains(@class,'vote-post-up')]/h10/text()").extract()[0]
        # contains 内置函数  当一个标签有多个class属性值得时候,可以进行筛选  第一个参数是标签  第二个参数是查找的属性值

        # 获取文章收藏数
        fav_nums = response.xpath("//span[contains(@class,'bookmark-btn')]/text()").extract()[0]
        match_fav_re = re.match('(\d+)', fav_nums)
        if match_fav_re == None:
            fav_nums = 0
        else:
            fav_nums = match_fav_re.group(0)

        # 获取文章评论数
        comment_nums = response.css("span.hide-on-480::text").extract_first('')
        match_comment_re = re.match('(\d+)', comment_nums)
        if match_comment_re == None:
            comment_nums = 0
        else:
            comment_nums = match_comment_re.group(0)

        # 获取文章整体信息
        content = response.xpath("//div[@class='entry']").extract()[0]

        # 获取文章领域等
        tag_list = response.xpath("//p[@class='entry-meta-hide-on-mobile']/a/text()").extract()
        for element in tag_list:
            if not element.strip().endswith('评论'):
                tags = ','.join(tag_list)

注意事项:

1.运行前把源文件生成的allowed_domains注释掉

class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    #allowed_domains = ['blog.jobbole.com/']
    start_urls = ['http://blog.jobbole.com/all-posts/']

不注释的话,会产生的bug
程序在parse函数中进行for循环下载当前页的post_urls,不会调用下面的回调函数parse_detail,直至for循环完毕

for post_url in post_urls:
  # scrapy 的解析函数
  # parse.urljoin(response.url, post_url)
  print(post_url)
  yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_detail)

回调函数这里不是调用parse_detail函数 不要加括号

正确写法

callback=self.parse_detail

错误示范

callback=self.parse_detail()

2.错误提示:list index out of range

comment_nums = response.css("span.hide-on-480::text").extract()[0]

将extract()[0]改为extract.first()
原因:
当评论数为0时,comment_nums 变量中第一个参数为空,当extract()[0]获取第一个参数时,会报错,而使用extract.first()获取第一个参数时,会返回None

comment_nums = response.css("span.hide-on-480::text").extract_first('')

3.原视频中使用正则表达式获取评论点赞数,经检测,只能获取当前列表的第一个数字,若点赞数为俩位数及以上,则无法准确获取

comment_nums = response.css("span.hide-on-480::text").extract_first('')
        match_comment_re = re.match('.*(\d+).*', comment_nums)
        if match_comment_re == None:
            comment_nums = 0
        else:
            comment_nums = match_comment_re.group(0)

现将文中'.*(\d+).*'改为'(\d+)'

comment_nums = response.css("span.hide-on-480::text").extract_first('')
        match_comment_re = re.match('(\d+)', comment_nums)
        if match_comment_re == None:
            comment_nums = 0
        else:
            comment_nums = match_comment_re.group(0)

你可能感兴趣的:(小爬虫实践项目-爬取伯乐在线全部文章信息)