Day03 爬虫学习入门第三天:验证码识别,模拟登录,异步爬虫

验证码识别

  • 线上的打码平台进行验证码识别
    • 云打码 http://www.yundama.com/
    • 超级鹰(使用) http://www.chaojiying.com/
    • 打码兔
  • 超级鹰
    • 注册:身份(用户中心)
    • 登陆:身份(用户中心)
      • 创建一个软件:软件ID-》生成一个软件ID
      • 下载实例代码:开发文档-》python

用到了一些软件,自行斟酌采取与否,这里跟着学习的采用是超级鹰验证码识别,用的是官网下载的py文件,封装了一个函数进行调用。
在这里插入图片描述然后调用该函数,传入需要识别的验证码图片,就可以识别出来验证码了
Day03 爬虫学习入门第三天:验证码识别,模拟登录,异步爬虫_第1张图片

模拟登录

模拟登录可以随机找一个网站试一下,有的网站可以成功,有的网站以本人现有的技术还不行,需要注意的几个问题:

  • 没有登录成功
    • url没有错
    • 请求参数
      • 遇到了动态变化的请求参数
      • 一般情况下动态变化的请求参数都会被隐藏在前台页面的源码中
      • 需要在抓包工具中对动态变化的请求参数的名称进行全局搜索
  • 依然没有登陆成功
    • 分析:cookie导致,携带cookie进行访问

异步爬虫

  • 基于线程池的异步爬虫
  • 基于多任务异步协程(重点:面试比较多)

需要自己搭建一个flask服务器
Day03 爬虫学习入门第三天:验证码识别,模拟登录,异步爬虫_第2张图片

网站名字可以自己取

  • 基于线程池的异步爬虫

先放上同步代码
Day03 爬虫学习入门第三天:验证码识别,模拟登录,异步爬虫_第3张图片
通过线程池实现异步代码
Day03 爬虫学习入门第三天:验证码识别,模拟登录,异步爬虫_第4张图片
写到这里。

网站突然没了颜色,看到自己的头像变灰了吓了一跳,反应过来已经到了四月清明,然而我还是没有找到实习…

你可能感兴趣的:(爬虫)