python 调用百度api识别验证码

我为什么不用pytesseract来识别验证码?据各大论坛反映,pytesseract的识别效果很一般。百度云人工智能的技术当然毋庸置疑,识别效果确实很棒。我使用此接口,并不只是识别验证码。我做了什么?

  • 给公司文员写了一个图片转文字的脚步,也就是PDF转Word,效果一级棒,亲测准确率99%,转换之后只需修改格式即可

  • 我自己用来写爬虫程序,有些网站信息是用图片展示的,先爬取图片再识别,几乎无误。

在此,以识别验证码的方式记录下过程。

需求:

识别网站登录的验证码,如:

1592825366923.png

在百度智能云平台,提供许许多多的接口,有兴趣的,自己去看百度智能云https://cloud.baidu.com/doc/OCR/s/Ek3h7xypm

实现步骤:

  • 首先,登录自己的百度账号,或者注册一个,进去后,点击管理控制台

  • 选择产品服务——人工智能——文字识别——应用列表——创建应用,填写相关信息并立即创建

    [图片上传失败...(image-5c25f5-1592829704080)]

  • 应用名称:自己随便写
    应用类型:自己随便写
    接口选择:当然是文字识别
    文字识别包名:看自己,我选择不需要
    应用描述:自己随便写

  • 在应用列表可以看到自己刚创建的应用了,这里的三个参数:AppID、API Key、Secret Key,正是我们所需要的

  • 下面免费给大家分享,我提交工单,与百度智能云的工程师沟通,在凌晨4点时终于得到亲测无误的python代码,期间花了8个小时时间。

    代码先贴,随后解释

    def captcha(self, cap):
    app_id = '你的AppID'
    api_key = '你的API Key'
    secret_key = '你的Secret Key'
    client = AipOcr(app_id, api_key, secret_key)

    在上面代码中,常量APP_ID在百度智能云控制台中创建,常量API_KEY与SECRET_KEY是在创建完毕应用后,系统分配给用户的,均为字符串,用于标识用户,为访问做签名验证,可在AI服务控制台中的应用列表中查看。

    client.setConnectionTimeoutInMillis(2000)#这两行代码至关重要
    client.setSocketTimeoutInMillis(60000)#8个小时的成果

    def get_file_content(img):
    with open(img, 'rb')as f:
    return f.read()

    try:
    result = client.basicAccurate(get_file_content(cap))#通用识别出来的结果,
    except Exception:
    sleep(0.2)
    self.captcha(cap)
    else:#以下代码根据自己需求来改
    if 'words_result' not in result.keys():
    return self.captcha(cap)
    else:
    text = result['words_result']
    cap_res = ''
    for i in text[0]['words']:
    try:
    int(i)
    except ValueError:
    pass
    else:
    cap_res += i
    return cap_res

    分析代码:

    1. 首先,安装两个库PIL和aip,并导入。这两个库安装有些特殊,如果使用的python3直接使用pip install PIL或pip install aip是无法安装的。

      • PIL:使用Pillow库来安装

        • pip install Pillow

        • PIL(Python Imaging Library)是Python一个强大方便的图像处理库,名气也比较大。不过只支持到Python 2.7。

        • Pillow是PIL的一个派生分支,但如今已经发展成为比PIL本身更具活力的图像处理库

      • aip:我们打开百度智能云的管理控制台后,可以看到技术文档有说明

        • pip install baidu-aip
      • from PIL import Image
        from aip import AipOcr

    2. client.setConnectionTimeoutInMillis(2000)#这两行代码至关重要
      client.setSocketTimeoutInMillis(60000)#8个小时的成果

      • 这里的代码为什么至关重要?

        接口 说明
        setConnectionTimeoutInMillis 建立连接的超时时间(单位:毫秒)
        setSocketTimeoutInMillis 通过打开的连接传输数据的超时时间(单位:毫秒)

        大家看到了吧?一旦超时,就识别不到。我采用的方式:

        对识别内容做判断(识别后返回一个字典格式,当没有键[words_result]时,停顿0.2秒继续识别

    3. 没有异常的正常代码处理:

      需求只是识别,我的处理简单粗暴,对结果进行遍历提取。这里自行打印输出查看

最后,希望我的分享对大家有用!

你可能感兴趣的:(python 调用百度api识别验证码)