爬虫作业1

目标确定

马上就要进入招聘季啦,各大公司和众多求职者都已“蓄势待发”。

我个人也得充分准备下争取拿到个好工作啦

所以对于求职这方面信息就是爬虫的重要目标。

爬取的数据

我个人偏向于对公司信息的了解,这个公司的综合评分啊、环境啊、氛围啊、面试经验啊都需要了解一番,做到心里有谱才好。

对应的网站

1.看准网 (重点)

2.企业口碑网

要爬取的url

  1. http://www.kanzhun.com/

  2. http://www.qykb.cn/

筛选的规则

初步是这样规划的

1.首先,得到公司的基本信息,包括公司名称、地点、企业类别、公司规模等

2.其次,筛选出公司的综合评分、平均月薪等待遇

3.再深入探究一点,就是筛选出该公司目前有“数据”、“分析”相关的职位,将职位信息爬取出来

4.在面试一栏中,筛选出有“数据”、“分析”主题的面试信息,包括评论者给公司和面试过程打的标签、评论的文本信息等,后期会主要处理文本信息,得到关键字样。

大体要爬取的内容是这些,而筛选规则在每一条中或多或少涉及到,后续涉及到具体的操作时会有更具体的筛选规则。

你可能感兴趣的:(爬虫作业1)