你真知道自己加了多少班吗？来来来，用Python分析一下考勤数据就知道了

前段时间给同事做Python爬虫技术分享，为了分享的效果以及听众的兴趣，写了一个爬取考勤数据的小爬虫。内容比较简单，以下做一个梳理：

一、问题分析

先梳理下查询考勤的流程：

登录公司内网的系统
切换到考勤查询页面
根据年份、月份查询对于的考勤数据即可

分析以上流程，主要解决两个核心问题即可：a. 账号登录 b. 找到考勤数据查询的接口

二、解决登录问题

公司的考勤数据、人力系统、会议室等都在同一个系统里面，由于之前已经用Selenium写过抢会议室的脚本，所以登录、验证码等问题算是已经解决了。
但是多想一步，要是每次爬个考勤、调试都要祭出Selenium也有点麻烦的，所以...能不能再优化下呢？
...
当然是有的！

既然可以用Selenium登录，就能得到登录后的cookie。理论上说，只要在cookie的过期时间内都是可以实现免登录的。
所以需要实现的工作是：
1、用Selenium模拟登录，登录成功后将cookie保存到本地；
2、抛弃Selenium，用Requests库，带上前面的cookie访问网站即可。然后就能随心所欲爬取数据了。

说干就干，以下是获取登录状态cookie的实现代码：

import time, os, json, requests,sqlite3
from selenium import webdriver
from time import sleep
from lib.mtHelper import MtHelper #自己封装的关于验证码识别、登录等函数
from requests.cookies import RequestsCookieJar

#用selenium登录系统，保存cookie到本地json文件。
def login_savecookie(user, password):
    driver = webdriver.Chrome()
    driver.maximize_window()
    driver.implicitly_wait(5)
    mtHelper = MtHelper(driver)
    driver.get('http://****.com')
    mtHelper.login_auoto(user, password, 15)#之前封装过的登录函数，最多尝试15次验证码识别
    sleep(1)
    dict_cookie = driver.get_cookies()#登录成功后获取当前的cookie
    json_cookie = json.dumps(dict_cookie)
    with open(path + "\cookies.json", "w+") as f:
        f.write(json_cookie)
    driver.quit()

#读取本地json文件获取cookie，用于requests
def parse_cookie():
    jar = RequestsCookieJar()
    with open(path + "\cookies.json", "r") as f:
        json_cookies = json.load(f)
    for cookie in json_cookies:
        jar.set(cookie['name'], cookie['value'])
    return jar

所以从理论上说，在cookie过期时间以内，只用执行一次Selenium登录操作即可。之后的操作直接读取本地的cookie数据，携带它进行request请求即可。这样能大大减少调试、运行的成本。

三、考勤数据查询接口

按照以往的经验，凡是先按F12，观察一下请求的内容再说。
先进入考勤查询系统，调出控制台后，用鼠标点击了一下2018年3月，立马能看到以下请求（没有截图，就手敲了一遍，实际数据做过隐私处理）：

#post请求地址：
http://****/EMPL/s/WEBLIB_GP_PAY.ISCRIPT2.FieldFormula.IScript_getPayAbsenceList?MONTHCD=2018-3&EMPLID=111111
#参数：
MONTHCD：2018-3
EMPLID：111111


#返回值(截取部分)，Json格式：
"{"code":"success","list_data":
[{"ATT_RESULT_COMMENT":"无请休假","ATT_END_TIME":"19:29:31","ATT_DATE":"2018-03-01","ATT_BGN_TIME":"08:58:40","EMPLID":"111111","DAY_OFWEEK":"星期四","ATT_RESULT":"无异常"},
{"ATT_RESULT_COMMENT":"无请休假","ATT_END_TIME":"18:57:48","ATT_DATE":"2018-03-02","ATT_BGN_TIME":"09:07:43","EMPLID":"111111","DAY_OFWEEK":"星期五","ATT_RESULT":"无异常"}]}"

根据以上内容不难推测，要想获取考勤数据，只需找到该post请求的参数规律即可。至于返回值，明显是按照工作日排序的，只需解析该Json即可得到想要的数据。

请求参数分析：
MONTHCD不用说，肯定是指查询考勤的年月份；至于EMPLID，虽然不知道具体是什么，但该变量名明显是类似员工工号的东西，应该是唯一的。再多尝试了几次，果不其然，它是不变的。
搞定！！！

动手来实现它吧：

#获取某月的考勤数据
#month为需要获取的月份，employeeID为员工工号，jar为cookie数据。也就是上例中从json文件中获取的cookie信息
def request_and_get_json(month = "2018-3", employeeID = "111111", jar = None):
    url = "http://***/EMPLOYEE/EMPL/s/WEBLIB_GP_PAY.ISCRIPT2.FieldFormula.IScript_getPayAbsenceList?MONTHCD=%s&EMPLID=%s" % (month, employeeID)
    print u"正在获取%s的数据!"%month
    response = requests.get(url, cookies = jar)
    text = response.text
    js = json.dumps(text,encoding='utf-8',ensure_ascii=False)
    js = json.loads(js)
    return js

三、数据存储

前面已经找到查询接口的规律了，所以用个循环遍历就能获取任意时间段的考勤数据了。但是仅停留于此是不够的，接下来要考虑下数据存储，只有存储为合理的数据结构后才方便后面的数据分析。

数据存储的方式很多，比如针对少量数据可以存为本地Json、txt、Excel等文件，数据量大也可以考虑数据库。
此处的考勤数据不多，不到1000条。为了便于数据的筛选，以及减少环境搭建成本，采用sqlite3存储。
先使用pip install sqlite3命令安装sqlite3库，接下来就是实现：

#保存数据到数据库
#sql格式："insert into info(date, week, emplid, beginTime, endTime, comment, result) values ('%s', '%s', '%s', '%s', '%s', '%s', '%s')" % (date, week, emplid, beginTime, endTime, comment, result)
def save_to_db(sql):
    conn = sqlite3.connect(path + '\db\clockData.db')
    cursor = conn.cursor()
    cursor.execute('CREATE TABLE IF NOT EXISTS info (date text(20) primary key, week text(20), emplid text(20), beginTime text(20), endTime text(20), comment text(20), result text(20))')
    cursor.execute(sql)
    cursor.close()
    conn.commit()
    conn.close()

至此，将以上部分串联起来，就能爬取考勤数据了！
下面就看看爬取的成果：

爬取下来的考勤数据

四、数据分析

当然，数据分析这个范畴实在是太大了，在此只做个简单的数据统计（常用的sql查询命令），用于娱乐，顺便模仿一波网易云的情怀文案：

考勤数据分析

不说了，我要找老板加薪去！