爬取拉钩网招聘信息 储存到mongodb

本文源代码在 https://github.com/zhangshier/-.git 可下载

安装 pip install scrapy  

安装pip install pymongo


需要爬取的内容


爬取拉钩网招聘信息 储存到mongodb_第1张图片

 分析拉钩页面  按住F12


爬取拉钩网招聘信息 储存到mongodb_第2张图片

开始创建项目

1.新建个文件夹  本人是在F 盘下的pachong文件夹下  各位随意

然后win+R启动cmd命令  跳转到你的文件下 

使用 scrapy startproject lagou 创建存放爬虫的文件


爬取拉钩网招聘信息 储存到mongodb_第3张图片

回车后创建项目 然后 进入你创建的项目 然后创建爬虫


爬取拉钩网招聘信息 储存到mongodb_第4张图片

使用scrapy genspider lgw lagou.com 创建爬虫


爬取拉钩网招聘信息 储存到mongodb_第5张图片

main.py 里配置下


爬取拉钩网招聘信息 储存到mongodb_第6张图片

fromscrapy.cmdlineimportexecute

importsys

importos

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(["scrapy","crawl","lgw"])

爬取拉钩网招聘信息 储存到mongodb_第7张图片

要找到的‘java开发工程师’ 

使用xpath 匹配

xpath 不会的可以参考 http://www.w3school.com.cn/xpath/index.asp

使用xpath匹配java工程师

response.xpath('//div[@class="list_item_top"]/div[@class="position"]/div[@class="p_top]/a/h2/text(')


爬取拉钩网招聘信息 储存到mongodb_第8张图片

可以直接在main 里使用run 运行


爬取拉钩网招聘信息 储存到mongodb_第9张图片


爬取拉钩网招聘信息 储存到mongodb_第10张图片
配置mondogo


爬取拉钩网招聘信息 储存到mongodb_第11张图片

items.py

爬取拉钩网招聘信息 储存到mongodb_第12张图片


爬取拉钩网招聘信息 储存到mongodb_第13张图片
数据库内容展示


爬取拉钩网招聘信息 储存到mongodb_第14张图片

你可能感兴趣的:(爬取拉钩网招聘信息 储存到mongodb)