(Python版) Scrapy+Django+Selenium 爬取Boss直聘 职位信息

絮叨一下(本言论参考其他作者)

boos直聘,想必对于找工作的同志都非常熟悉,为了快速获取boss上的发布职位信息

今天就用scrapy框架进行岗位,薪资,待遇,公司,招聘要求 等信息进行爬取

之前尝试单独使用scrapy进行爬取,直接在web上登录boss,从浏览器截取cookie,遇到了boss的各种反扒机制

为了解决这些头疼的反扒,在scrapy爬虫框架的基础上融入了django与selenium


你有可能会问,为什么要用django,scrapy框架就是一款极其简单的爬虫而已,没有封装ORM,对于大多数学习过Python的人来说,web框架中接触的最多的就是Django了,而Django自带的ORM非常好用,有ORM的帮助,爬下来的数据插入数据库非常的方便

不要认为scrapy提供的导入json文件或者把爬到的数据写入xsl表格就可以,因为在爬虫调试阶段存在各种试错与添加if判断,加上boss的反扒监测非常严格,既然启动了爬虫获得了数据,就不要浪费了,记录到数据库中,下次调试获取到新数据的时候只需要update新字段就行,如果觉得自己的SQL原生语句能力很强,那么请忽略我这段话继续往下看

分析

boss直聘网站: 「北京招聘信息」北京招聘网 - BOSS直聘

他的反爬还是很讨厌的,信息都是用cookies渲染生成的,cookies时效很短,很快就失效了,快速访问还会封掉你的ip ,使用代理会提示ip异常,最终一样逃不过人机交互接入码校验平台了,所以在这里我尝试过各种办法后,在爬虫中加入selenium来提高爬虫的稳定性

当然了首页是没有反爬的,那就慢一点,虽然这一点都不像爬虫的正确姿势,为了能稳定获取数据,也要慢慢来

思路简介

爬虫的核心还是要靠scrapy,因此django只是提供一个保存数据库的方法(django中叫做model),所以我们需要做的就是

在django上搭建一个model,让所有需要保存的数据通过这个model,依靠django框架完成保存

在scrapy上写一个爬虫,得到数据源,然后传递到这个model中

而selenium帮助你解决boss直聘更新cookie出现302跳转的问题,用scrapy中的middlewares中间件来截获selenium产生的response对象

大致的流程如下:

scrapy启动-->打开selenium-->创建浏览器对象-->打开浏览器载入scrapy中的第一个爬虫url-->selenium通过浏览器获取到boss直聘响应的response信息-->scrapy中的middlewares中间件截获response对象进行数据处理-->通过代码xpath拿到response对象中的数据-->数据关联django中的model模型完成数据的入库操作

开撸(环境是Python3.7.3 win64位 ,开发工具Pycharm2020.2版)


需要准备如下插件:

1、scrapy
2、django
3、selenium
4、pymysql
5、mysqlclient
6、scrapy-djangoitem

由于本人使用Pycharm2020.2(2020以上版本的IDE都支持中文)开发,所以对于环境安装非常便捷,这里不过于啰嗦环境的安装,所有的环境都在windows上安装,因为有使用到selenium,不推荐服务器版linux,有图形化界面的linux也行,因为boss一旦给你跳出人机校验的话,这里还是需要人工去解决以下的,目前暂时没有找到代码的处理方案

在Pycharm中安装插件包的方式如下:

点击“文件按钮”,在列表中找到“设置”按钮,并点击
在打开的设置窗口中,在左侧栏目找到“项目:Scrapy_Boss”,展开栏目后,点击第一个“Python解释器”,右侧窗口打开后,点击“+”号
新打开窗口“Available Packages”,在安装窗口的搜索栏中搜索需要的框架或第三方库名称
附一个本人安装的第三方库的列表,如果使用本文章的代码发现各种报错,详细检查下我使用的三方库的版本

以上插件都准备妥当之后

开始在Django上进行操作(先操作Django还是先操作Scrapy都无所谓,新手建议跟着我的步骤来,熟手可以无视步骤)

这里建议新建一个空文件夹,方便一步步熟悉整个流程,同时其他框架的文件也都在这个目录下。这里我新建了一个空文件夹:Scrapy_Boss

文件夹建立好了之后,在IDE的最下方点击“终端”,在终端的界面中输入以下命令来完成Django项目的创建操作(我创建的django项目名称为djangoboss):

1.在命令行中cd到这个空文件下,然后:

django-admin startproject djangoboss

截图都是建立好的,目的是为了让读者有直观的感受

如果是pycharm的编辑器,把Scrapy_Boss下的djangoboss文件夹标记为资源文件:(右键,下面有一个“标记目录为” 然后选“源 根”),文件夹为蓝色的就对了

image

这样就新建了一个django的项目,名字是djangoboss。总的来说在django上只需要完成两部操作:修改django中的settings文件来链接mysql数据库,同时建立一个app用来创建models模型

2、配置mysql

在这个位置找到settings.py文件,打开:

image

然后找到这段话,将这段话给注释掉(django默认配置sqlite数据库、sqlite是一种轻量级的微型数据库,多数在手机中使用,浏览器默认支持sqlite3):

DATABASES = {
     'default': {
         'ENGINE': 'django.db.backends.sqlite3',
         'NAME': os.path.join(BASE_DIR, 'db.sqlite3'),
     }
 }

替换掉,具体的配置根据自己的情况来:

DATABASES= {
    'default': {
        'ENGINE': 'django.db.backends.mysql',  #django的数据库插件地址
        'NAME': 'zhpdb_test', #数据库的名称
        'HOST': '127.0.0.1', #数据库的地址
        'PORT': 3306, #数据库端口
        'USER': 'root', #数据库登录用户名
        'PASSWORD': '123456', #数据库密码
    }
}

此时完成Scrapy项目整体的30%配置,完成度django部分 50%

3、新建model

想要新建model,需要先建立一个app,然后依靠app来建model:

  • 新建 app
    1.首先进入这个项目中,命令需要使用manage.py,所以进入到manage.py同级的目录:

cd djangoboss/

2.然后建立app:为了便于区分,我叫它 savebossdate,用以表示是做存储的app:

python manage.py startapp savebossdate

3.在刚才的setting文件中找到这一栏,末尾添加‘savebossdate’:

INSTALLED_APPS = [
    'django.contrib.admin',
    'django.contrib.auth',
    'django.contrib.contenttypes',
    'django.contrib.sessions',
    'django.contrib.messages',
    'django.contrib.staticfiles',
    'savebossdate', #将你新创建的项目载入到INSTALLED_APPS中,使得savebossdate项目在django中生效
]

4.到这里新建app的操作已经完成

  • 新建model
    1.打开savebossdate的文件夹,找到models.py文件并打开
    添加如下代码:
# models.py
from django.db import models

# Create your models here.

class HrRecruitmentCatch(models.Model):
    id = models.CharField(primary_key=True, max_length=40)
    pk_id = models.CharField(max_length=50, blank=True, null=True)
    region = models.CharField(max_length=100, blank=True, null=True)
    experience = models.CharField(max_length=50, blank=True, null=True)
    education = models.CharField(max_length=50, blank=True, null=True)
    person_sum = models.CharField(max_length=10, blank=True, null=True)
    hiring_time = models.CharField(max_length=50, blank=True, null=True)
    position_info = models.CharField(max_length=100, blank=True, null=True)
    address = models.CharField(max_length=500, blank=True, null=True)
    salary = models.CharField(max_length=100, blank=True, null=True)
    company_name = models.CharField(max_length=200, blank=True, null=True)
    company_desc = models.TextField(blank=True, null=True)
    job_description = models.TextField(blank=True, null=True)
    company_address = models.CharField(max_length=200, blank=True, null=True)
    source = models.CharField(max_length=20, blank=True, null=True)
    source_keyword = models.CharField(max_length=20, blank=True, null=True)
    url = models.CharField(max_length=500, blank=True, null=True)
    job_url = models.CharField(max_length=500, blank=True, null=True)
    create_time = models.DateTimeField(blank=True, null=True)
    create_by = models.CharField(max_length=20, blank=True, null=True)
    update_time = models.DateTimeField(blank=True, null=True)
    update_by = models.CharField(max_length=20, blank=True, null=True)
    company_logo = models.CharField(max_length=300, blank=True, null=True)
    company_tags = models.CharField(max_length=300, blank=True, null=True)
    job_vline = models.CharField(max_length=100, blank=True, null=True)

    class Meta:
        managed = False
        db_table = 'hr_recruitment_catch'

此models中的字段信息是与数据库表一一对应的,如果对django很熟悉的童鞋可以用manage.py里的makemigrations命令来完成数据库迁移【这里的迁移是生成对应的表】,不熟悉的童鞋可以用建表语句去数据库创建,建表语句下面给出来

2.在当前目录(目录文件中包含有manage.py)的命令行中,输入如下命令,完成数据库新建超出:

python manage.py makemigrations
python manage.py migrate

与上面models对应的建表语句(数据库是mysql)

/*
 Navicat Premium Data Transfer

 Source Server         : 123.57.55.99
 Source Server Type    : MySQL
 Source Server Version : 50730
 Source Host           : 123.57.55.99:3306
 Source Schema         : zhpdb_test

 Target Server Type    : MySQL
 Target Server Version : 50730
 File Encoding         : 65001

 Date: 06/11/2020 17:30:32
*/

SET NAMES utf8mb4;
SET FOREIGN_KEY_CHECKS = 0;

-- ----------------------------
-- Table structure for hr_recruitment_catch
-- ----------------------------
DROP TABLE IF EXISTS `hr_recruitment_catch`;
CREATE TABLE `hr_recruitment_catch`  (
  `id` varchar(40) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL COMMENT '主键',
  `pk_id` varchar(50) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '抓取数据唯一标识',
  `region` varchar(100) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '招聘地区',
  `experience` varchar(50) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '经验',
  `education` varchar(50) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '学历',
  `person_sum` varchar(10) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '招聘人数',
  `hiring_time` varchar(50) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '发布时间',
  `position_info` varchar(100) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '职位',
  `address` varchar(500) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '地址',
  `salary` varchar(100) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '薪资范围',
  `company_name` varchar(200) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '公司名称',
  `company_desc` text CHARACTER SET utf8 COLLATE utf8_general_ci NULL COMMENT '公司介绍',
  `job_description` text CHARACTER SET utf8 COLLATE utf8_general_ci NULL COMMENT '职位要求',
  `company_address` varchar(200) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '公司地址',
  `source` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '来源',
  `source_keyword` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '搜索关键字',
  `url` varchar(500) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '公司网站地址',
  `job_url` varchar(500) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '招聘说明网站地址',
  `create_time` datetime(0) NULL DEFAULT NULL COMMENT '创建时间',
  `create_by` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '创建人',
  `update_time` datetime(0) NULL DEFAULT NULL COMMENT '更新时间',
  `update_by` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '更新人',
  `company_logo` varchar(300) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '公司Logo',
  `company_tags` varchar(300) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '技能要求',
  `job_vline` varchar(100) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '招聘年限',
  PRIMARY KEY (`id`) USING BTREE,
  UNIQUE INDEX `recruitment_catch_index1`(`id`) USING BTREE,
  INDEX `recruitment_catch_index2`(`pk_id`) USING BTREE
) ENGINE = InnoDB CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;

SET FOREIGN_KEY_CHECKS = 1;

完成以上操作后,django这部分就结束了,之后就是scrapy的操作了。

在scrapy上的操作

  • scrapy上总的来说有五步:

1、item.py编写,把django中的models延伸到scrapy中来
2、pipeline.py编写,告诉django保存item中的数据
3、settings.py配置,使整个scrapy爬虫框架生效
4、爬虫类编写,获取数据源
5、使我们可以在编辑器中调试这个整合过的项目

首先创建scrapy项目

首先我们需要先建立一个爬虫项目,通过pycharm底部的终端窗口,将命令行所在的位置移动到Scrapy_Boss这个根目录下,执行下面的命令就可以了:

cd .. # 进入到Scrapy_Boss的目录下,使得创建的scrapy项目与django是平级关系
scrapy startproject boss # 创建爬虫项目,名字是:boss

然后把最外层的boss标记为“源 根”(如果是pycharm)
连续点开两个boss文件后,我们可以看到这样子的目录:


根节点的boss文件夹为蓝色,同时可以看到scrapy中的目录层次,因为本图为后截,所以多了一些文件,无视就行
  • 1、items的编写
    点开这个items.py文件,可以看到有一个BossItem(类文件)的模板
    我们修改这个模板,为(修改后,可以通过from的导入路径发现HrRecruitmentCatch来自于Django中的models,同时让BossItem类继承DjangoItem,这样就强制的将scrapy与Django的ORM模型进行了关联,具体用法往后看):
import scrapy
from scrapy_djangoitem import DjangoItem #类文件的继承
from savebossdate.models import HrRecruitmentCatch #关联django中的models

class BossItem(DjangoItem):
    django_model = HrRecruitmentCatch  #HrRecruitmentCatch  是django中的models

这里,我们更换了继承的类,同时通过这个scrapy的items.py导入了django中的app的model,完成了两个框架间的关联

  • 2、pipeline.py编写,告诉django保存item中的数据(使用django来保存数据,没有django如何保存数据,看2.1)
    只需要添加一句话就行,在原有的BossPipeline的基础上改为(只需要一个item.save()就可以了):
class BossPipeline(object):
  def process_item(self, item, spider):
    item.save()
    return item
  • 2.1、在没有django的情况下scrapy保存数据用以下方式修改(没有django就需要新增一个“init”函数来建立SQL的链接,同时在process_item函数中手写SQL语句来完成数据的写入,因为process_item函数中的item参数是一个字典,里面有获取到的页面数据,保存方式可以有很多种,用IO写入到硬盘,或者写成cvs,写成xsl表格都是能记录数据的方式,本人喜欢SQL记录):
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
import logging

import pymysql
from itemadapter import ItemAdapter

from savebossdate.models import HrRecruitmentCatch


class BossPipeline(object):

    # 创建init,使得方法运行时初始化mysql的链接
    def __init__(self):
        # 连接数据库
        self.connect = pymysql.connect(
            host='127.0.0.1',  # 数据库地址
            port=3306,  # 数据库端口
            db='zhpdb_test',  # 数据库名
            user='root',  # 数据库用户名
            passwd='123456',  # 数据库密码
            charset='utf8',  # 编码方式
            use_unicode=True)
        # 通过cursor执行增删查改
        self.cursor = self.connect.cursor()


    def process_item(self, item, spider):
        # pk_id = item['pk_id']
        # source_keyword = item['source_keyword']
        # pk_id_obj = HrRecruitmentCatch.objects.filter(pk_id=pk_id, source_keyword=source_keyword)
        # if not pk_id_obj:
        #     item.save()
        # else:
        #     pk_id_obj.update(**item)


        company_uuid = str(uuid.uuid1().hex)
        pk_id = item['company_pkid']
        company_name = item['company_name']
        region = item['job_area']
        position_info = item['job_name']
        company_logo = item['company_icon']
        company_tags = item['company_tags']
        hiring_time = item['job_pub_time']
        salary = item['job_limit']
        job_vline = item['job_vline']
        url = item['url']

        sql_inset = 'INSERT INTO hr_recruitment_catch(id,pk_id,company_name,region,position_info,company_logo' \
                    ',company_tags,hiring_time,salary,job_vline,url,source) ' \
                    'VALUES ("{}","{}","{}","{}","{}","{}","{}","{}","{}","{}","{}","{}"' \
                    ')'.format(company_uuid, pk_id, company_name, region, position_info, company_logo
                               , company_tags, hiring_time, salary, job_vline, url, 'BOSS直聘')
        print(sql_inset)

        try:
            # 执行sql语句
            self.cursor.execute(sql_inset)
            # 提交到数据库执行
            self.connect.commit()
            print('提交了数据')
        except:
            print('发生了错误')
            # 如果发生错误则回滚
            self.connect.rollback()

        return item
  • 3、settings.py配置,使整scrapy完整,基本可以运行
  • 第一个:

ROBOTSTXT_OBEY = False # 这个是一个机器人标识,请关掉它

  • 第二个:默认会被注释掉,只需要取消注释即可
ITEM_PIPELINES = {
   'boss.pipelines.BossPipeline': 300,
}
  • 第三个,在settings.py文件的最上方添加以下代码,目的是为了让scrap运行的同时去找到django,并把django给启动,django的models是需要django运行才能正常使用的
import datetime
import os
import sys

import django

BASE_DIR = os.path.dirname(os.path.abspath(os.path.dirname(__file__)))
PRO_ROOT = os.path.dirname(BASE_DIR)  # 两个项目共同的根目录

sys.path.append(os.path.join(PRO_ROOT, 'boss'))
sys.path.append(os.path.join(BASE_DIR, 'boss'))
os.environ['DJANGO_SETTINGS_MODULE'] = 'djangoboss.settings'
django.setup()
  • 第四个,爬虫类编写,获取数据源
    首先建立一个爬虫,进入到终端,用以下命令:

scrapy genspider startboss 'www.zhipin.com'

此时你就可以在boss>boss的目录下找到一个刚刚生成的spiders文件夹,此文件夹下有一个startboss.py的文件,此文件用来编写爬虫的具体实现方式,具体代码已全部给出:

(代码具体说明,新手注意看)因为文章写到这整体爬虫项目是可以完整运行的,唯独缺少了Selenium,如果没有Selenium的情况下StartbossSpider类文件中必须配置以下1、2,如果配置了Selenium,那么cookie_list就变得无所谓了:
1、cookie_list
2、custom_settings
因为boss的反扒机制,所有的页面的数据会有类似防伪标志一样,防伪数据是写入到cookie里的,如果你问我cookie_list里的参数去哪找,看截图:


请求页面后,通过浏览器的开发者工具,查看当前请求页面,从中间找到cookie,把值拷贝下来即可

在文章的开头我就说过,boss直聘的反扒机制很恶心,我分析过之后boss的反扒机制是大致情况如下:

  • 在固定频率的请求下boss直聘的服务器会检测你的请求,如果都是固定的请求时间,比如都是1秒请求一次,服务器会将你列为可疑对象,大概过一段时间IP直接拉黑
  • 登陆自己的帐号之后可以防止服务器拉黑你的IP,但是服务器还是会把你列为可疑对象,此时boss直聘的服务器就利用cookie来测试你是否为爬虫,原来请求的一个A链接地址会突然出现一个302跳转,此时的一个跳转页面会将你当前的请求重定向去cookie更新的服务器获取一个叫zp_stoken参数,然后这个参数会每隔几秒或者几分钟失效,失效后又出现一个302跳转来更新zp_stoken参数的值,如果你是机器爬虫,肯定不好解决这个cookie写入的问题,之前有看一个反扒取大神找到了zp_stoken的生成js,通过反解析js提取到了生成方法ABC函数,利用Node.js来运行,自己手动注入新的cookie来完善爬虫
  • 如果你真的以为找到ABC函数自己注入cookie就结束了吗?因为你的请求已经被boss直聘服务器监控到了,最终他们会在你的请求中302强制跳转一个人机交互验证码出来,是下面这个样子的,boss直聘用的空间推理验证码,出自GEETEST厂家非常恶心,代码是完全无法跳过这一层的,所以为了稳定爬取数据,我选择加入selenium来完成这个恶心的验证码,别以为机器能绕过,这个恶心的验证码一定是人工无法绕过的。
    已经找到了boss直聘用的空间推理验证码了
import random
import time
import uuid

import scrapy

from boss.items import BossItem
from boss.replacetool import replace_tool


class StartbossSpider(scrapy.Spider):
    name = 'startboss'
    allowed_domains = ['www.zhipin.com']
    start_urls = ['https://www.zhipin.com/c101010100/?query=web&page=4&ka=page-4']
  
    cookie_list = 'JSESSIONID=""; _bl_uid=4ykqjfX6hdkyydmCyw1Lp9t5pIn8; t=qh4neJeO0hJ6VRos; wt=qh4neJeO0hJ6VRos; lastCity=101010100; __zp_seo_uuid__=206a837f-b53b-4e88-9e8a-53313a08b64c; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1603241871,1604389355,1604568321,1604569983; __g=-; __c=1601020932; __l=l=%2Fwww.zhipin.com%2Fbeijing%2F&r=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DY0MdiRccX-4tmkpeDiIC0ijU-gd1YeFv87bTN880xDar_lR5pQIs1LjhXwPev-UA%26wd%3D%26eqid%3D876d94d600040234000000035fa3cb79&g=&friend_source=0&friend_source=0; __a=86720333.1601020932..1601020932.189.1.189.189; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1604570405; __zp_stoken__=c1a6baTQnfQ13ED8OPSBbMF01XmESdmlnPkdSbikDdjhAfz1jAzlkZXhjIQJnOU9GD3tWBEgoFgwid2Y1MmcpEEloaVIwW0k%2FSB54J2ogC0oiQSZJQ3MISlFiOSwOTEQcCSpcFwdWDAZdfnhWOQ%3D%3D; __zp_sseed__=HXp3GPvGQtLqMBAdoUyHHD7OOY8XbWzi5fpcYurmhA8=; __zp_sname__=c61cd8a7; __zp_sts__=1604570407347'

    custom_settings = {
        'DEFAULT_REQUEST_HEADERS': {
            'Cookie': cookie_list,
            'Referer': 'https://www.zhipin.com',
        }
    }

    def parse(self, response):
        print('*' * 40)
        print(response.url)
        # if not response.headers.getlist('Set-Cookie'):
        #     return


        # 获取当前页面的列表数据
        job_list = response.xpath('//div[@class="job-list"]/ul/li')
        # print(job_list)
        for i in job_list:
            print('开始获取数据')
            bossitem = BossItem()
            bossitem['id'] = str(uuid.uuid1().hex)
            company_url = i.xpath('./div/div/div[@class="info-company"]/div/h3/a/@href').get()
            bossitem['url'] = 'https://www.zhipin.com{}'.format(company_url)
            bossitem['pk_id'] = company_url.split('/')[2].split('.')[0]
            pk_id = bossitem['pk_id']
            url = bossitem['url']
            bossitem['job_url'] = 'https://www.zhipin.com{}'.format(
                i.xpath('./div/div[1]/div[1]/div/div[1]/span[1]/a/@href').get())
            job_url = bossitem['job_url']
            bossitem['company_name'] = i.xpath('./div/div/div[@class="info-company"]/div/h3/a/text()').get()
            bossitem['company_logo'] = i.xpath('./div/div[1]/div[2]/a/img/@src').get()
            tags = i.xpath('./div/div[2]/div[1]/span/text()').extract()
            bossitem['company_tags'] = ','.join(tags)
            bossitem['position_info'] = i.xpath(
                './div/div[1]/div[@class="primary-wrapper"]/div/div[@class="job-title"]/span[1]/a/text()').get()
            bossitem['region'] = i.xpath('./div/div[1]/div[1]/div/div[1]/span[2]/span/text()').get()
            bossitem['hiring_time'] = i.xpath('./div/div[1]/div[1]/div/div[1]/span[3]/text()').get()
            bossitem['salary'] = i.xpath('./div/div[1]/div[1]/div/div[2]/span/text()').get()
            job_limit = i.xpath('./div/div[1]/div[1]/div/div[2]/p/text()').extract()
            bossitem['job_vline'] = job_limit[0]
            bossitem['education'] = job_limit[1]
            bossitem['source'] = 'BOSS直聘'
            bossitem['source_keyword'] = 'web'
            yield bossitem
            time.sleep(2)
            # yield scrapy.Request(url, callback=lambda response, pk_id=pk_id: self.boss_company_desc(response, pk_id))
            yield scrapy.Request(job_url, callback=lambda response, pk_id=pk_id: self.boss_company_job(response, pk_id))


        # company_url = response.xpath('//div[@class="job-list"]/ul/li/div/div/div[@class="info-company"]/div/h3')
        # for i in company_url:
        #     url = 'https://www.zhipin.com' + i.xpath('./a/@href').get()
        #     print(url)
        #     pk_id = i.xpath('./a/@href').get().split('/')[2].split('.')[0]
        #     time.sleep(random.randint(1,5))
        #     yield scrapy.Request(url, cookies=self.cookie_list, callback=lambda response,pk_id=pk_id:self.boss_company_desc(response,pk_id))

        # 定义下页标签的元素位置
        next_page = response.xpath('//div[@class="page"]/a/@href').extract()[-1]
        print('next_page--->', next_page)
        # 判断什么时候下页没有任何数据
        if next_page != 'javascript:;':
            base_url = "https://www.zhipin.com"
            url = base_url + next_page
            time.sleep(random.randint(5,10))
            yield scrapy.Request(url=url, cookies=self.cookie_list, callback=self.parse)
 
    #采集公司信息
    def boss_company_desc(self, response, pk_id):
        bossitem = BossItem()
        bossitem['pk_id'] = pk_id
        bossitem['company_desc'] = response.xpath('//*[@id="main"]/div[3]/div[1]/div[1]/div/div[1]/div/text()').get()
        yield bossitem
    
     #采集公司发布的职位信息,发现这个页面也包含公司信息,所以注释掉了boss_company_desc函数的运行实体,上面的函数不会运行
    def boss_company_job(self, response, pk_id):
        bossitem = BossItem()
        bossitem['pk_id'] = pk_id
        bossitem['job_description'] = replace_tool(response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div').get())
        bossitem['company_desc'] = replace_tool(response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[2]/div/text()').get())
        bossitem['source_keyword'] = 'web'
        yield bossitem
  • 第五个、建立一个main文件,方便爬虫直接运行,无需命令运行,在boss>boss目录下新建main.py,在此文件中加入以下代码:
# from scrapy import cmdline
#
# cmdline.execute("scrapy crawl startboss".split())


import sys
import os
from scrapy.cmdline import execute

sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy", "crawl", "startboss"])  # 这句代码会执行爬虫类中 name = "startboss"的类,也就是运行StartbossSpider类,使得爬虫正式运行

加入Selenium完善爬虫的稳定性

因为没有ABC的函数体,也不清楚boss是否有更新ABC函数,在无法解决cookie加密的问题与302重定向的问题,既然浏览器自己本身可以完成cookie的更新获取,那我只需要通过载入selenium加载浏览器帮我完成这一步就可以自动更新cookie了,废话不多说,开始继续写代码,文章的开头有让大家安装Selenium三方库

安装命令如下

pip install selenium

Selenium的运行是会在你的电脑上打开浏览器的,所以需要对应浏览器的驱动,去下面根据自己的浏览器版本下载驱动,推荐Chrome与Firefox,驱动下载:

  • windows:
    chrome 全系列下载地址
    Firefox 全系列下载地址
    IE 全系列下载地址

  • Linux:
    chrome 全系列下载地址
    Firefox 全系列下载地址
    IE 全系列下载地址

对测试人员来说selenium非常的强大,selenium的具体使用方式参考全网超级详细的selenium介绍! 本文不对selenium做过多的介绍

根据你使用的浏览器下载好驱动之后,把驱动exe文件放入到boss>boss目录下,别放错目录:


与middlewares同级的目录,因为浏览器的调用是在middlewares中实现的

打开middlewares调整中间件(拦截器)的代码,用于截取Selenium中的response

不要动middlewares.py中原来的代码,因为在scrapy的settings.py文件中我们还没有打开中间件的设置,所以我们只需要加入代码即可,打开middlewares加入以下代码:

class CookiesMiddlewares(object):
    # 需要随机的请求头
    USER_AGENTS = [
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
        'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/44.0.2403.155 Safari/537.36',
        'Mozilla/5.0 (Macintosh; U; PPC Mac OS X; pl-PL; rv:1.0.1) Gecko/20021111 Chimera/0.6',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36',
        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36',
        'Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en) AppleWebKit/418.8 (KHTML, like Gecko, Safari) Cheshire/1.0.UNOFFICIAL',
        'Mozilla/5.0 (X11; U; Linux i686; nl; rv:1.8.1b2) Gecko/20060821 BonEcho/2.0b2 (Debian-1.99+2.0b2+dfsg-1)'
    ]

    def __init__(self):
        print("初始化浏览器")
        self.driver = webdriver.Chrome()

    def process_request(self,request,spider):
        # 随机生成一个请求头
        user_agent = random.choice(self.USER_AGENTS)
        request.headers['User-Agent'] = user_agent

        self.driver.get(request.url)
        time.sleep(5)
        # 我们等待5秒钟,让其加载
        source = self.driver.page_source
        #获取页面的源码
        response = HtmlResponse(url=self.driver.current_url,body=source,request=request,encoding='utf-8')
        # Response 对象用来描述一个HTTP响应
        return response
        # 这样我们就获取到了所有的信息,并返回response

然后打开scrapy中的settings.py文件,修改配置使得middlewares中的类文件生效:

#修改下载延迟时间,DOWNLOAD_DELAY设置越大请求越慢
DOWNLOAD_DELAY = 3
# 修改并发请求数,修改为1,或者2,越小爬取速度越慢,太快容易被识别到
CONCURRENT_REQUESTS = 1

"""cookie的设置"""
COOKIES_ENABLED = False

"""开启中间建"""
DOWNLOADER_MIDDLEWARES = {
    'boss.middlewares.CookiesMiddlewares': 543,
    # 'boss.middlewares.UserAgentDownloadMiddleWare': 543,
}

做完以上的所有操作后整个的(Python版) Scrapy+Django+Selenium 爬取Boss直聘 职位信息到这里就算告一段落了

整体代码大部分都带有注释,新手使用注意看注释自己调整

写给看到最后的你

朋友,感谢你看到了最后,技术不成熟的地方可以给予评论,一同完善,原创不宜,请勿乱喷,作者深知高手在明间

同时写给看到最后的“你”

一路走来,风雨无阻,感谢你陪我一起深入python的世界进行探索,共同成长,希望这篇文章能够帮助你了解scrapy

所有的代码仅供大家练习Scrapy使用,如果有侵权现象,请联系作者第一时间删除本文

你可能感兴趣的:((Python版) Scrapy+Django+Selenium 爬取Boss直聘 职位信息)