关键词:python 模拟登陆 验证码识别 bs4解析网页 pandas数据处理
1. 思路
这几天尝试写了个脚本模拟登陆获取地铁一卡通的充值和消费记录,学习了不少新东西,总结下记录下来。整个流程大概这样,首先模拟登陆一卡通的查询网址,分析如何获取验证码,然后就是下载验证码并识别,分析网站post数据字段,模拟post构造的数据登陆,获取登陆后的网页,bs4解析网页找到需要的数据筛选出来,pandas处理这些数据使其结构化。
2. 模拟登陆
2.1 cookie的处理
因为涉及到验证码的问题,登陆需要使用cookie。requests可以很方便的使用cookie,只需要在最开始构建一个会话session,接下来的请求以这个session为基础,requests会自动为后面的请求带上cookie。
conn = requests.session()
resp = conn.get(url, headers=headers, verify=False)
2.2 SSL证书
有些网站需要校验SSL证书,我们可以手动在浏览器中下载这个网站的SSL证书存放到本地,在构建请求的时候的用verify字段指定证书的路径。但是我没有尝试成功,目前的猜想是网站上有些字段需要携带在请求里一起验证。
最简单的解决办法就是不做验证,可以在会话开始指定,也可以在请求字段中指定:
conn.verify = False
或者:
resp = conn.get(url, headers=headers, verify=False)
2.3 验证码获取和识别
如何获取到验证码呢?我们知道每点击一次验证码图片就会刷新一次,由此可以得出:点击验证码图片的时候浏览器会重新向服务器发送请求,我们可以在开发者工具里点击验证码并捕捉这个请求,观察其特征。
可以发现,验证码的URL有固定的结构,其中变化的部分就是后面的一串数字,不难发现这串数字就是时间戳。知道了验证码的URL后,我们就可以构建请求下载验证码了。
# 构造验证码地址
id = time.time()*1000
img_url = url + 'captcha.svl?d=' + str(int(id))
# 保存验证码
img_resp = conn.get(img_url, headers=headers)
with open('verify.jpg', 'wb') as fd:
for chunk in img_resp.iter_content(chunk_size=1024):
fd.write(chunk)
利用Tesseract-OCR、pytesseract和Pillow库识别验证码,可以参考我之前的这篇文章:python验证码识别。
3. 模拟填写表单
识别完验证码就可以模拟填写表单了。首先我们找到表单提交的URL以及相关的字段,还是利用浏览器开发者工具观察提交表单时候产生的请求并分析。
可以看到,表单中包含四个字段,我们也同样构造这几个字段,构建一个post请求给指定的URL。
params = {
'pageNo': '1',
'iscapt': 'true',
'cardNo': cardNumber,
'capstr': verify_code
}
post_url = 'https://www.bmac.com.cn/kpcx/inquiryCardRecord.jhtml'
post_resp = conn.post(post_url, data=params, headers=headers)
4. 分析html数据
这部分主要是bs4的用法,这块儿我还不是很熟,总结下几个函数的用法。
- find_all()
find_all( name , attrs , recursive , text , **kwargs )
find_all() 方法搜索当前tag的所有子节点,并判断是否符合过滤器的条件。
soup.find_all("a") ##查找文档中所有的标签
soup.find_all('tr', "item") ##查找tr标签,class="item"
soup.find_all('tr', class_='item')
# attrs 参数定义一个字典参数来搜索包含特殊属性的tag
soup.find_all('tr', attrs={"class": "item"})
带属性的标签,推荐用上面的第2种或第3种写法。
- find()
find( name , attrs , recursive , text , **kwargs )
find_all()方法返回的是文档中符合条件的所有tag,是一个集合(class 'bs4.element.ResultSet'),find()方法返回的一个Tag(class 'bs4.element.Tag')
- select()
select可以筛选元素,按标签逐层查找。
soup.select("html head title") ##标签层级查找
soup.select('td div a') ## 标签路径 td --> div --> a
soup.select('td > div > a')
注意,以上按路径 标签之间的空格 td div a,可以用>,但也要注意>与标签之间都有空格。
注意:select()方法指定标签属性可以这样用:
uls = soup.select('a.nbg') #
-
其他方法
- getText() 针对以上几种方法的迭代对象,获取对象的内容
pandas使用
pay_frame = DataFrame(pay_dict, columns=data[3:7]) # 从dict构建DataFrame
merge_frame = pd.concat([cosume_frame, old_frame], ignore_index=True) # ataFrame合并
merge_frame.drop_duplicates('交易时间', inplace=True) # 去重
merge_frame.to_csv('cosume.csv', float_format='%.2f', encoding='gbk', index=False) # 写入CSV文件
old_frame = pd.read_csv('cosume.csv', encoding='gbk') # 读取CSV
- 其他
字典设置键值以及对应键值初始化:
dict.setdefault(key, default=None)
参考链接
- https://www.jianshu.com/p/74c1acd7ca8b
- https://blog.csdn.net/xie_0723/article/details/52048064
- https://zhuanlan.zhihu.com/p/27867925