你真知道自己加了多少班吗?来来来,用Python分析一下考勤数据就知道了

前段时间给同事做Python爬虫技术分享,为了分享的效果以及听众的兴趣,写了一个爬取考勤数据的小爬虫。内容比较简单,以下做一个梳理:

一、问题分析

先梳理下查询考勤的流程:

  1. 登录公司内网的系统
  2. 切换到考勤查询页面
  3. 根据年份、月份查询对于的考勤数据即可

分析以上流程,主要解决两个核心问题即可:a. 账号登录 b. 找到考勤数据查询的接口

二、解决登录问题

公司的考勤数据、人力系统、会议室等都在同一个系统里面,由于之前已经用Selenium写过抢会议室的脚本,所以登录、验证码等问题算是已经解决了。
但是多想一步,要是每次爬个考勤、调试都要祭出Selenium也有点麻烦的,所以...能不能再优化下呢?
...
当然是有的!

既然可以用Selenium登录,就能得到登录后的cookie。理论上说,只要在cookie的过期时间内都是可以实现免登录的。
所以需要实现的工作是:
1、用Selenium模拟登录,登录成功后将cookie保存到本地;
2、抛弃Selenium,用Requests库,带上前面的cookie访问网站即可。然后就能随心所欲爬取数据了。

说干就干,以下是获取登录状态cookie的实现代码:

import time, os, json, requests,sqlite3
from selenium import webdriver
from time import sleep
from lib.mtHelper import MtHelper #自己封装的关于验证码识别、登录等函数
from requests.cookies import RequestsCookieJar

#用selenium登录系统,保存cookie到本地json文件。
def login_savecookie(user, password):
    driver = webdriver.Chrome()
    driver.maximize_window()
    driver.implicitly_wait(5)
    mtHelper = MtHelper(driver)
    driver.get('http://****.com')
    mtHelper.login_auoto(user, password, 15)#之前封装过的登录函数,最多尝试15次验证码识别
    sleep(1)
    dict_cookie = driver.get_cookies()#登录成功后获取当前的cookie
    json_cookie = json.dumps(dict_cookie)
    with open(path + "\cookies.json", "w+") as f:
        f.write(json_cookie)
    driver.quit()

#读取本地json文件获取cookie,用于requests
def parse_cookie():
    jar = RequestsCookieJar()
    with open(path + "\cookies.json", "r") as f:
        json_cookies = json.load(f)
    for cookie in json_cookies:
        jar.set(cookie['name'], cookie['value'])
    return jar

所以从理论上说,在cookie过期时间以内,只用执行一次Selenium登录操作即可。之后的操作直接读取本地的cookie数据,携带它进行request请求即可。这样能大大减少调试、运行的成本。

三、考勤数据查询接口

按照以往的经验,凡是先按F12,观察一下请求的内容再说。
先进入考勤查询系统,调出控制台后,用鼠标点击了一下2018年3月,立马能看到以下请求(没有截图,就手敲了一遍,实际数据做过隐私处理):

#post请求地址:
http://****/EMPL/s/WEBLIB_GP_PAY.ISCRIPT2.FieldFormula.IScript_getPayAbsenceList?MONTHCD=2018-3&EMPLID=111111
#参数:
MONTHCD:2018-3
EMPLID:111111


#返回值(截取部分),Json格式:
"{"code":"success","list_data":
[{"ATT_RESULT_COMMENT":"无请休假","ATT_END_TIME":"19:29:31","ATT_DATE":"2018-03-01","ATT_BGN_TIME":"08:58:40","EMPLID":"111111","DAY_OFWEEK":"星期四","ATT_RESULT":"无异常"},
{"ATT_RESULT_COMMENT":"无请休假","ATT_END_TIME":"18:57:48","ATT_DATE":"2018-03-02","ATT_BGN_TIME":"09:07:43","EMPLID":"111111","DAY_OFWEEK":"星期五","ATT_RESULT":"无异常"}]}"

根据以上内容不难推测,要想获取考勤数据,只需找到该post请求的参数规律即可。至于返回值,明显是按照工作日排序的,只需解析该Json即可得到想要的数据。

请求参数分析:
MONTHCD不用说,肯定是指查询考勤的年月份;至于EMPLID,虽然不知道具体是什么,但该变量名明显是类似员工工号的东西,应该是唯一的。再多尝试了几次,果不其然,它是不变的。
搞定!!!

动手来实现它吧:

#获取某月的考勤数据
#month为需要获取的月份,employeeID为员工工号,jar为cookie数据。也就是上例中从json文件中获取的cookie信息
def request_and_get_json(month = "2018-3", employeeID = "111111", jar = None):
    url = "http://***/EMPLOYEE/EMPL/s/WEBLIB_GP_PAY.ISCRIPT2.FieldFormula.IScript_getPayAbsenceList?MONTHCD=%s&EMPLID=%s" % (month, employeeID)
    print u"正在获取%s的数据!"%month
    response = requests.get(url, cookies = jar)
    text = response.text
    js = json.dumps(text,encoding='utf-8',ensure_ascii=False)
    js = json.loads(js)
    return js

三、数据存储

前面已经找到查询接口的规律了,所以用个循环遍历就能获取任意时间段的考勤数据了。但是仅停留于此是不够的,接下来要考虑下数据存储,只有存储为合理的数据结构后才方便后面的数据分析。

数据存储的方式很多,比如针对少量数据可以存为本地Json、txt、Excel等文件,数据量大也可以考虑数据库。
此处的考勤数据不多,不到1000条。为了便于数据的筛选,以及减少环境搭建成本,采用sqlite3存储。
先使用pip install sqlite3命令安装sqlite3库,接下来就是实现:

#保存数据到数据库
#sql格式:"insert into info(date, week, emplid, beginTime, endTime, comment, result) values ('%s', '%s', '%s', '%s', '%s', '%s', '%s')" % (date, week, emplid, beginTime, endTime, comment, result)
def save_to_db(sql):
    conn = sqlite3.connect(path + '\db\clockData.db')
    cursor = conn.cursor()
    cursor.execute('CREATE TABLE IF NOT EXISTS info (date text(20) primary key, week text(20), emplid text(20), beginTime text(20), endTime text(20), comment text(20), result text(20))')
    cursor.execute(sql)
    cursor.close()
    conn.commit()
    conn.close()

至此,将以上部分串联起来,就能爬取考勤数据了!
下面就看看爬取的成果:


爬取下来的考勤数据

四、数据分析

当然,数据分析这个范畴实在是太大了,在此只做个简单的数据统计(常用的sql查询命令),用于娱乐,顺便模仿一波网易云的情怀文案:


考勤数据分析

不说了,我要找老板加薪去!

你可能感兴趣的:(你真知道自己加了多少班吗?来来来,用Python分析一下考勤数据就知道了)