scrapy 之 中国服装人才网简历

目前该网(戳这里~~)采用较简单的结构:

1,页码递增

2,动态渲染个人页面

好了,跟小编一起分析分析

页面结构

不设置条件点击搜索(这样会出来全部数据,仅对该类站而言)

scrapy 之 中国服装人才网简历_第1张图片

one

第一页的URL:

http://www.cfw.cn/rencai/search/?keywords=&keyType=1&JobAreaID=&invite_posttimeg=&request_experience=&request_edu=&salaryg=&AreaName=&page=1

发现URL很长,其实存在不必要的参数,点击下一页

第二页URL:

http://www.cfw.cn/rencai/Search?page=2&keytype=1

少了很多,删掉“&keytype=1”刷新,发现网页正常显示,说明必须参数是page=num,

接下来就可以构造每一页的URL了

http://www.cfw.cn/rencai/Search?page=num

按F12,检查一份的简历链接地址

scrapy 之 中国服装人才网简历_第2张图片

查看简历链接

点开此简历

scrapy 之 中国服装人才网简历_第3张图片

简历内信息

对比标签href属性,说明个人页面的链接是

http://www.cfw.cn/resumes/?ids=id

个人页面内容加载方式

打开个人页面,按F12,查看页面源代码如图

scrapy 之 中国服装人才网简历_第4张图片

个人的信息并不在页面上,说明这不是一个静态页面,个人信息通过别的方式渲染进来,这就需要自己寻找了

找到一个好朋友~~,小编发现show_resume/这个请求里返回了这份简历的内容

scrapy 之 中国服装人才网简历_第5张图片

好朋友

那就简单啦,携带参数向请求地址发POST请求就获得了信息,如下图

scrapy 之 中国服装人才网简历_第6张图片

请求方法

scrapy 之 中国服装人才网简历_第7张图片

简历信息

返回的信息格式比较简单,json.loads()一下  字典和正则表达式就可以提取了

福利:服务器性能较好,不封ip,不封账号and so on,没有烦人的反爬虫限制着,那玩起来就舒服多啦

若查看个人基本信息不注册即可,联系方式需要开通服务

到此结束,小编要去洗澡了,赶快鞭策你的代码吧,,哈哈哈哈

你可能感兴趣的:(scrapy 之 中国服装人才网简历)