实践要求做一个数据分析以及处理的实验,我负责的是爬取数据的这一块任务。做爬虫的话,python是比较好用的,于是学习了一小段时间,专门学着写了一个小爬虫。爬取的是一些静态网页上的内容。
语言:python 3.8
工具:PyCharm 2019
操作系统:win10
我主要学习的是C++,对于python语言并没有学习过,但是就爬虫这一块,我去了解的时候发现,并没有什么多大的障碍。
就我的了解,python做爬虫实际上也是使用封装好的模块做。所以掌握一些基本的语法即可。
实际上pycharm自带的有python解释器。这个具体在新建项目的时候可以选择对应想用的python解释器。
当然这样下来,所需要的模块是不存在的。
也可以去下载那种集成了所有开发所需要的开发包,模块和python解释器都弄好了的。
所需要用到的模块:
如果不是集成开发包的话,需要自己安装对应的模块,那么安装命令一般是:
pip install xxx
由于我之前自己写过一个小型简单的服务器,加上我接触过web项目,所以对于前端页面数据的一些概念是有基础的。
在参考爬虫资料时,我印象最为深刻的就是将爬虫就说成是模仿浏览器的行为。
对于输入url,然后显示网页在网络中的过程可以参考计算机网络。
那么我们先导入需要的模块:
import requests
from lxml import etree
import csv
既然是模仿浏览器,那么我们需要一个网址是吧,实际上就是url。这个url代表的是我们要爬取哪个网页。
url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,{},2,1.html?'.format(job)
爬虫脱离不了那你想要爬取网页本身,开发过程中可以一边对着网页F12,一边撸码。
找到想要爬取的网页,在浏览器中找到url,可以分析出网页的一些特点,比如说,想要爬虫的岗位、页数在url中是哪个位置,如何变化,这些都是有规律的。
上面代码中job是一个变量,用于输入一个想要爬取的岗位。
有了url,主要用到的就是requests中的get方法。
response = requests.get(url)
这个方法返回到response,如果我们输出的话,会打印200,200是成功的状态码。
获取页面:response.text
当然,我们最好转换一下。
html = etree.HTML(response.text)
这个时候的html跟我们在浏览器F12出来的html源码别无二样,那里面的数据只要我们提取出来不就OK了吗?
爬虫实际上就是在一堆源码中提取想要的数据,并且在代码中实现反复提取。
requests模块基本上就使用完了,接下来就是怎么提取的问题。
一般有两种,一种是xpath,一种是正则表达式。
我主要用的是xpath。
在想要网页中F12选中想要的元素可以查看其在源码中的位置。这个时候,我们就容易去获取(静态网页是如此)。
我们要爬取前程无忧某一个岗位的所有相关信息。比如说,C++,有900多页。
那么我们需要将900多页中我们需要的数据都爬取下来,可以写成一个for循环,也就是说,我们只需要爬取一页,对应的,同样的模版也能爬取900多页,90000多页。
比如下面这个页面:
关于C++岗位有900多页。我们要写for循环之前需要知道具体岗位的页数,所以我们选中页面中想要的元素,如下图:
我们可以看到,919在一个标签中的value属性中。
我们可以使用xpath很轻松的获取这个value属性的值,如下:
sum_page = html.xpath('//div[@class="dw_page"]/div/div/div/input[@id="hidTotalPage"]/@value')[0]
sum_page = int(sum_page)
基本上核心的东西就是这么多,非常简单。接着就可以愉快的爬取了。
最后数据的持久化可以存成excel表格,也可以存入数据库中。
excel表格即是导入csv模块,操作文件,参考最后源码。
with open(temp1 + '.csv', 'a', newline='', encoding='gbk', errors='ignore') as f1:
解释下:a是每次写都追加写,newline=’'是消除写入时的空行,encoding是编码问题,errors='ignore’就是在遇到错误时忽略。
public_str = 'https://jobs.51job.com/'
#str(new_url).find(public_str)
print(str(new_url).find(public_str) >= 0)
if(str(new_url).find(public_str) >= 0):
加一个判断。如果不是前程无忧自己的网页,就跳过。
company_info = new_html.xpath('//div[@class="tCompany_sidebar"]/div/div/p/@title')
company_nature = company_info[0]
company_size = company_info[1]
company_scope = company_info[2]
有些返回的字符串中可能有空格,python去除空格方法:
experience = experience.strip() #去除左右两边的空格
对于获取到的一个页面的所有岗位链接,对应的是一个岗位的公司信息,目前我还没有做到将岗位信息和公司信息整合在一起。也就是说我爬取到一个页面的所有岗位链接之后,再用一个for循环爬取每一个链接对应的公司信息,存入公司信息表。
这个过程,我要打开每一个链接,爬取再进行写入。
对于数据,到后面都是具体要求是C++,岗位却不是C++,所以这种大多都是无效数据。
前程无忧并没有任何的反爬措施,比如请求头,或者是封IP。
import requests
from lxml import etree
import csv
print("hello world")
job = input('输入想要爬取的岗位:\n')
temp = r'C:\Users\10184\Desktop' + '\\' + job + "公司信息"
temp1 = r'C:\Users\10184\Desktop' + '\\' + job + "岗位信息"
with open(temp + '.csv', 'a', newline='', encoding='gbk') as f:
csvwriter = csv.writer(f, dialect='excel')
csvwriter.writerow(['公司名称','工作经验','学历要求','公司性质','公司规模','经营范围'])
with open(temp1 + '.csv', 'a', newline='', encoding='gbk') as f1:
csvwriter1 = csv.writer(f1, dialect='excel')
csvwriter1.writerow(['岗位名称','公司名称','公司地址','薪资','发布时间','链接'])
#url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,C%252B%252B,2,1.html?'
url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,{},2,1.html?'.format(job)
response = requests.get(url)
html = etree.HTML(response.text)
sum_page = html.xpath('//div[@class="dw_page"]/div/div/div/input[@id="hidTotalPage"]/@value')[0]
sum_page = int(sum_page)
print(sum_page)
start_page = input('请输入你想要开始爬取的页数:\n')
start_page = int(start_page)
for i in range(start_page, sum_page):
#url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,C%252B%252B,2,{}.html?'.format(i)
url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,{},2,{}.html?'.format(job, i)
response = requests.get(url)
response.encoding = 'gbk' # 编码格式
# response.encoding = response.apparent_encoding # 自动转换编码格式
response1 = response.text
# print(response.text)
html = etree.HTML(response1) # 将网页源代码转换成elements格式,好用xpath。
job_name = html.xpath('//div[@id="resultList"]/div[@class="el"]/p/span/a/@title')
#print(job_name)
company = html.xpath('//div[@id="resultList"]/div[@class="el"]/span[@class="t2"]/a/@title')
#print(company)
link = html.xpath('//div[@id="resultList"]/div[@class="el"]/p/span/a/@href')
#print(link)
#new_url = link
for linki in link:
new_url = linki
print(new_url)
public_str = 'https://jobs.51job.com/'
#str(new_url).find(public_str)
print(str(new_url).find(public_str) >= 0)
if(str(new_url).find(public_str) >= 0):
new_response = requests.get(new_url)
new_response.encoding = new_response.apparent_encoding
new_html = etree.HTML(new_response.text)
company_name = new_html.xpath('//div[@class="tHeader tHjob"]/div/div/p[@class="cname"]/a[@class="catn"]/@title')[0]
experience = new_html.xpath('//div[@class="tHeader tHjob"]/div/div/p[@class="msg ltype"]/text()')[1]
degree = new_html.xpath('//div[@class="tHeader tHjob"]/div/div/p[@class="msg ltype"]/text()')[2]
company_info = new_html.xpath('//div[@class="tCompany_sidebar"]/div/div/p/@title')
company_nature = company_info[0]
company_size = company_info[1]
company_scope = company_info[2]
#for a, b in zip(experience, degree):
#print(a, b)
#print(experience.strip()) #去除左右两边的空格
#print(degree.strip())
#print(company_name)
experience = experience.strip()
degree = degree.strip()
print([company_name, experience, degree, company_nature, company_size, company_scope])
print(i)
with open(temp+'.csv', 'a', newline='', encoding='gbk', errors='ignore') as f:
csvwriter = csv.writer(f, dialect='excel')
#csvwriter.writerow(['工作名字','公司名字',''])
csvwriter.writerow([company_name, experience, degree, company_nature, company_size, company_scope])
adrees = html.xpath('//div[@id="resultList"]/div[@class="el"]/span[@class="t3"]/text()')# text()取本文
#print(adrees)
salary = html.xpath('//div[@id="resultList"]/div[@class="el"]/span[@class="t4"]/text()')
#print(salary)
time = html.xpath('//div[@id="resultList"]/div[@class="el"]/span[@class="t5"]/text()')
for a,b,c,d,e,f in zip(job_name, company, adrees, salary, time, link):
print(a, b, c, d, e, f)
with open(temp1 + '.csv', 'a', newline='', encoding='gbk', errors='ignore') as f1:
csvwriter1 = csv.writer(f1, dialect='excel')
csvwriter1.writerow([a, b, c, d, e, f])