使用Python爬取BNUZ TMS系统的考试科目信息

最近TMS系统又提前放出了考试科目信息,但是找不到半年前写的Java爬虫了T_T,没办法,就拿刚学的Python再写一个吧。

  • TMS系统:教学管理系统
  • Python版本:3.6
  • 使用第三方库:requests

1. 进行模拟登陆

使用Python爬取BNUZ TMS系统的考试科目信息_第1张图片

通过分析登录页可以发现登陆的表单除了usernamepassword以外,还有一个_csrf,这个字段除了表面上的防止CSRF攻击,还有一个重要的作用——防止表单重复提交,这个字段在进行GET请求登录页时便与session绑定,所以也说明爬虫必须维护登陆状态,否则就没办法爬到信息。

(1) session.py - 维护登陆状态

# 欺骗用Headers
headers = {
    'Connection': 'keep-alive',
    'Accept': 'application/json, text/plain, */*',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'zh-CN,zh;q=0.9,ja;q=0.8',
}

# 启动Session,自动响应Set-Cookie头
session = requests.Session()

# 将Headers设置到session中
session.headers.update(headers)


# 使用session发起GET请求
def get(url, **kwargs):
    return session.get(url, **kwargs)


# 使用session发起POST请求
def post(url, params=None, **kwargs):
    return session.post(url, params, **kwargs)

使用requests.Session()创建一个Session对象,该对象能自动响应Set-Cookie,并且也能将JSESSIONID放入Request HeaderCookie当中,所以使用这个就能解决登陆状态的保持问题。

当然看来系统也做了一点防爬虫的措施,需要伪造一下header,在浏览器中执行一次登陆,然后把header拿过来就可以了,使用session.headers.update(headers)使每次请求都带上这些header。

使用Python爬取BNUZ TMS系统的考试科目信息_第2张图片

(2) login.py - 获取登录页内容、模拟登陆

首先需要GET一下登录页,除了获取_csrf字段以外,还可以拿到Set-Cookie,使得CSRF Token和Session在服务端进行了绑定。

# 解析登陆页的HTML,用于获取表单中的CSRF Token
class MyHtmlParser(HTMLParser):

    def __init__(self):
        super().__init__()
        self._token = None

    # CSRF Token
    @property
    def token(self):
        return self._token

    def error(self, message):
        pass

    def handle_starttag(self, tag, attrs):

        # 从标签中获取属性值
        def _attr(attrName):
            for attr in attrs:
                if attr[0] == attrName:
                    return attr[1]
            return None

        # 获取表单中的CSRF Token
        # input -> id="csrf_token":
        if tag == "input":
            for name, value in attrs:
                if name == "id" and value == "csrf_token":
                    self._token = _attr("value")

# 获取CSRF Token,用于进行安全验证
def getCsrfToken():
    response = session.get(loginUrl)
    parser = MyHtmlParser()
    parser.feed(response.text)
    parser.close()

    return parser.token

通过继承HTMLParser,并且重写handle_starttag去获取_csrf,并且将值设置为类属性,这样就能在GET请求后获取到Token的值了。

然后就可以将_csrf连同账号密码一起提交了,requests会自动处理好各种302重定向,如果账号密码正确则登陆成功,否则会跳到登陆失败页(登录页后缀多了?error)。

# 登陆TMS系统
def login():
    token = getCsrfToken()

    # 获取账号与密码
    username = input("输入教务账号:")
    password = input("输入教务密码:")

    data = {
        'username': username,
        'password': password,
        '_csrf': token
    }

    # 执行登陆
    response = session.post(loginUrl, data)
    if response.url == loginFailUrl:
        print("账号或密码错误!")
        return False
    else:
        print("登陆成功")
        return True

2. 爬取内容

通过分析教室使用情况这个页面,可以看出全部请求都是异步的,并且都是访问的RESTful API,那么问题就很简单了,直接爬API就行了。

# 教室使用情况API的基础URL
baseUrl = "http://tm.bnuz.edu.cn/api/"

# 教学楼API URL
buildingsUrl = baseUrl + "place/buildings"

# 教室API URL
placesUrl = buildingsUrl + "/:building/places"

# 教室使用情况API URL
usagesUrl = placesUrl + "/:place/usages"

通过分析请求可以得到以上3个API,从教学楼到教室使用情况,层层叠加的API,那么先把请求的函数写出来。

# 获取教学楼
def getBuildings():
    response = session.get(buildingsUrl)
    return response.json()


# 获取教室
def getPlaces(building):
    url = placesUrl.replace(":building", building)
    response = session.get(url)
    return response.json()


# 获取教室使用情况
def getUsages(building, place):
    url = usagesUrl.replace(":building", building).replace(":place", place)
    response = session.get(url)
    return response.json()

使用Python爬取BNUZ TMS系统的考试科目信息_第3张图片
使用Python爬取BNUZ TMS系统的考试科目信息_第4张图片
使用Python爬取BNUZ TMS系统的考试科目信息_第5张图片

通过分析可以知道:

  • Building API中的Building字段是所有的教学楼
  • Place API需要Building的名字,返回教学楼下的教室列表
  • Usage API需要Building的名字与Place的ID,返回使用情况列表

再继续分析Usage API的返回内容,可以发现进行考试的type : ks,其他字段的意思也很好猜,description就是考试科目名等等,然后期末的考试周是在17-18周,所以进行三层for嵌套,最后进行if判断是否为期末考试科目就能完成这个爬虫。

# 打印考试周的考试科目
def printTestClass():
    print("开始获取考试科目信息...\n")

    buildings = getBuildings()

    for building in buildings['buildings']:
        places = getPlaces(building)

        for place in places:
            usages = getUsages(building, place["id"])

            for usage in usages:
                startWeek = usage["startWeek"]
                _type = usage["type"]
                if _type == "ks" and startWeek == 18 or startWeek == 19:
                    placeName = place["name"]
                    department = usage["department"]
                    subject = usage["description"]
                    dayOfWeek = usage["dayOfWeek"]
                    startSection = usage["startSection"]
                    totalSection = usage["totalSection"]
                    endSection = startSection + totalSection - 1

                    print("{} {} {} 第{}周 星期{} 第{} - {}节".format(department, subject, placeName,startWeek,dayOfWeek,startSection, endSection))

    print("\n考试科目获取完毕,祝您愉快 >_+<")

项目源码:bnuz_tms_usages_crawler

你可能感兴趣的:(python,爬虫,TMS,模拟登陆)