简单抓取智联招聘特定数据

环境:win7 、pycharm、python2

所用到的库:urllib2 、 re

#coding:utf-8  #解决编码问题
import urllib2 #与请求url相关操作的模块
import re #通过正则表达式进行字符串处理的模块
def search(name):
    url = "https://sou.zhaopin.com/jobs/searchresult.ashx?kw=" + name + "&sm=0&p=1" #url中的内容是从浏览器搜索框中赋值中的内容,将关键字python替换成name参数
    response = urllib2.urlopen(url).read() #抓取一个网页所有数据
    restr = "(\\d+)" #正则表达式 我们所抓取的数据是一个数字所以要用 (\\d+)
    regex = re.compile(restr, re.IGNORECASE)  # 进行预编译(目的加快速度),忽略大小写
    mylist = regex.findall(response)  # 在response中查找所有数据
    print mylist
    print  mylist[0] #彻底将数据剥离出来

#调用函数search
search("python")

运行如下:

简单抓取智联招聘特定数据_第1张图片

源码除注释外部分解释:

restr :所要抓取的数据在网页中查看在火狐浏览器中按F12出现以下截图右侧的源代码,通过右上角指针图标查找所要数据在所要数据中,便通过正则表达式是抓取,所要数据。

简单抓取智联招聘特定数据_第2张图片


假若用以上方式运行出现“502”情况,则表明网页屏蔽(服务器屏蔽),这时我们就要用 selenium 网页测试的框架,去进行浏览器的模拟,他可以调用所有的浏览器。

环境:win7 、pycharm、python2

所用到的库:selenium 、 re

便将代码更改为:

#coding:utf-8  #解决编码问题
import selenium #测试的框架
import selenium.webdriver #模拟浏览器
import re #正则表达式
def searchname(name):
    url="https://sou.zhaopin.com/jobs/searchresult.ashx?kw="+name+"&sm=0&p=1"
    driver = selenium.webdriver.Firefox()#调用火狐浏览器
    driver.get(url)#访问链接
    pagescore = driver.page_source#获取网站源代码
    restr = "(\\d+)"
    regex = re.compile(restr, re.IGNORECASE)  # 进行预编译(目的加快速度),忽略大小写
    mylist = regex.findall(pagescore)  # 查找所有
    print  mylist[0]
    driver.close()#关闭浏览器

searchname("python")

运行如下:


以上内容若有错误或用词不当,请留言指正,谢谢。

你可能感兴趣的:(python爬虫学习之路)