利用Requests和正则表达式方法,爬取前程无忧51job网站上全国“爬虫”关键字对应岗位的所有招聘信息,如下图所示,把爬取到的招聘数据存储在当前工程目录下的“51job.csv”文件中,需要爬取的信息有:职位名、公司名、工作地点、薪资和发布时间 。
难点:翻页,抓包,以及解密的方法,其实没有涉及到正则表达式,用的json。
爬取的结果:
代码:
import csv
import json
import re
import requests
import pprint
import requests
import hmac
from hashlib import sha256
import time
f =open('前程无忧数据2.csv',mode='a',encoding