前段时间给同事做Python爬虫技术分享,为了分享的效果以及听众的兴趣,写了一个爬取考勤数据的小爬虫。内容比较简单,以下做一个梳理:
一、问题分析
先梳理下查询考勤的流程:
- 登录公司内网的系统
- 切换到考勤查询页面
- 根据年份、月份查询对于的考勤数据即可
分析以上流程,主要解决两个核心问题即可:a. 账号登录 b. 找到考勤数据查询的接口
二、解决登录问题
公司的考勤数据、人力系统、会议室等都在同一个系统里面,由于之前已经用Selenium写过抢会议室的脚本,所以登录、验证码等问题算是已经解决了。
但是多想一步,要是每次爬个考勤、调试都要祭出Selenium也有点麻烦的,所以...能不能再优化下呢?
...
当然是有的!
既然可以用Selenium登录,就能得到登录后的cookie。理论上说,只要在cookie的过期时间内都是可以实现免登录的。
所以需要实现的工作是:
1、用Selenium模拟登录,登录成功后将cookie保存到本地;
2、抛弃Selenium,用Requests库,带上前面的cookie访问网站即可。然后就能随心所欲爬取数据了。
说干就干,以下是获取登录状态cookie的实现代码:
import time, os, json, requests,sqlite3
from selenium import webdriver
from time import sleep
from lib.mtHelper import MtHelper #自己封装的关于验证码识别、登录等函数
from requests.cookies import RequestsCookieJar
#用selenium登录系统,保存cookie到本地json文件。
def login_savecookie(user, password):
driver = webdriver.Chrome()
driver.maximize_window()
driver.implicitly_wait(5)
mtHelper = MtHelper(driver)
driver.get('http://****.com')
mtHelper.login_auoto(user, password, 15)#之前封装过的登录函数,最多尝试15次验证码识别
sleep(1)
dict_cookie = driver.get_cookies()#登录成功后获取当前的cookie
json_cookie = json.dumps(dict_cookie)
with open(path + "\cookies.json", "w+") as f:
f.write(json_cookie)
driver.quit()
#读取本地json文件获取cookie,用于requests
def parse_cookie():
jar = RequestsCookieJar()
with open(path + "\cookies.json", "r") as f:
json_cookies = json.load(f)
for cookie in json_cookies:
jar.set(cookie['name'], cookie['value'])
return jar
所以从理论上说,在cookie过期时间以内,只用执行一次Selenium登录操作即可。之后的操作直接读取本地的cookie数据,携带它进行request请求即可。这样能大大减少调试、运行的成本。
三、考勤数据查询接口
按照以往的经验,凡是先按F12,观察一下请求的内容再说。
先进入考勤查询系统,调出控制台后,用鼠标点击了一下2018年3月,立马能看到以下请求(没有截图,就手敲了一遍,实际数据做过隐私处理):
#post请求地址:
http://****/EMPL/s/WEBLIB_GP_PAY.ISCRIPT2.FieldFormula.IScript_getPayAbsenceList?MONTHCD=2018-3&EMPLID=111111
#参数:
MONTHCD:2018-3
EMPLID:111111
#返回值(截取部分),Json格式:
"{"code":"success","list_data":
[{"ATT_RESULT_COMMENT":"无请休假","ATT_END_TIME":"19:29:31","ATT_DATE":"2018-03-01","ATT_BGN_TIME":"08:58:40","EMPLID":"111111","DAY_OFWEEK":"星期四","ATT_RESULT":"无异常"},
{"ATT_RESULT_COMMENT":"无请休假","ATT_END_TIME":"18:57:48","ATT_DATE":"2018-03-02","ATT_BGN_TIME":"09:07:43","EMPLID":"111111","DAY_OFWEEK":"星期五","ATT_RESULT":"无异常"}]}"
根据以上内容不难推测,要想获取考勤数据,只需找到该post请求的参数规律即可。至于返回值,明显是按照工作日排序的,只需解析该Json即可得到想要的数据。
请求参数分析:
MONTHCD不用说,肯定是指查询考勤的年月份;至于EMPLID,虽然不知道具体是什么,但该变量名明显是类似员工工号的东西,应该是唯一的。再多尝试了几次,果不其然,它是不变的。
搞定!!!
动手来实现它吧:
#获取某月的考勤数据
#month为需要获取的月份,employeeID为员工工号,jar为cookie数据。也就是上例中从json文件中获取的cookie信息
def request_and_get_json(month = "2018-3", employeeID = "111111", jar = None):
url = "http://***/EMPLOYEE/EMPL/s/WEBLIB_GP_PAY.ISCRIPT2.FieldFormula.IScript_getPayAbsenceList?MONTHCD=%s&EMPLID=%s" % (month, employeeID)
print u"正在获取%s的数据!"%month
response = requests.get(url, cookies = jar)
text = response.text
js = json.dumps(text,encoding='utf-8',ensure_ascii=False)
js = json.loads(js)
return js
三、数据存储
前面已经找到查询接口的规律了,所以用个循环遍历就能获取任意时间段的考勤数据了。但是仅停留于此是不够的,接下来要考虑下数据存储,只有存储为合理的数据结构后才方便后面的数据分析。
数据存储的方式很多,比如针对少量数据可以存为本地Json、txt、Excel等文件,数据量大也可以考虑数据库。
此处的考勤数据不多,不到1000条。为了便于数据的筛选,以及减少环境搭建成本,采用sqlite3存储。
先使用pip install sqlite3
命令安装sqlite3库,接下来就是实现:
#保存数据到数据库
#sql格式:"insert into info(date, week, emplid, beginTime, endTime, comment, result) values ('%s', '%s', '%s', '%s', '%s', '%s', '%s')" % (date, week, emplid, beginTime, endTime, comment, result)
def save_to_db(sql):
conn = sqlite3.connect(path + '\db\clockData.db')
cursor = conn.cursor()
cursor.execute('CREATE TABLE IF NOT EXISTS info (date text(20) primary key, week text(20), emplid text(20), beginTime text(20), endTime text(20), comment text(20), result text(20))')
cursor.execute(sql)
cursor.close()
conn.commit()
conn.close()
至此,将以上部分串联起来,就能爬取考勤数据了!
下面就看看爬取的成果:
四、数据分析
当然,数据分析这个范畴实在是太大了,在此只做个简单的数据统计(常用的sql查询命令),用于娱乐,顺便模仿一波网易云的情怀文案:
不说了,我要找老板加薪去!