最近在整python自动化测试,目标网站需要输入验证码登录。
通过selenium元素定位可以拿到图片的地址。但是尝试了很多次发现无法直接下载图片,浏览器却可以打开。原来是因为图片其实是data: image/png; base64技术的嵌入数据,可以直接拿url转码成图片。
识别验证码的库我用的是ddddocr(“带带弟弟”),识别非常精准而且持续更新中,对付一些字母汉字点击滑块验证码都够用。
import ddddocr
import base64
def dddd():
ocr = ddddocr.DdddOcr()
with open('1.jfif', 'rb') as f:
img_bytes = f.read()
res = ocr.classification(img_bytes)
print(res)
def download():
url='data:image/jpeg;base64,(这里是base64的编码)'
data = url.split(',')[1]
image_data = base64.b64decode(data)
with open('1.jfif', 'wb') as f:
f.write(image_data)
download()
dddd()
甚至都不需要保存图片,直接把解析结果给dddd去处理:
def download():
url='data:image/jpeg;base64,(这里是base64编码)'
data = url.split(',')[1]
image_data = base64.b64decode(data)
ocr = ddddocr.DdddOcr()
res = ocr.classification(image_data)
print(res)