关于使用python抓取知乎登录页验证码的疑惑

背景

基于python3.5版本,使用requests访问知乎登录页,然后用lxml解析class值为js-refresh-captcha captcha的验证码img标签,每次尝试提取src值的时候总是为空。

猜想

  • 响应内容的正确完整性。
  • img标签的正确完整性。

尝试

  • 使用requests获得响应内容后打印了status_code,显示为200。
  • 使用chrome的F12查看登录页的时候发现符合上述条件的img有6个。重新修改为chrome功能Copy XPath的值。

结果

正确抓取到了该img(因为用了chrome的Copy XPath功能,直接定位到了该标签),打印该img的其他值如data-tip或者alt显示结果均正确,但是打印src值时仍然为空。
随即将整个响应内容输出到文件,然后查看发现该imgsrc值确实不存在。

疑惑

手工在chrome打开登录页的时候验证码确实是显示的,是否是由于网络异步加载的原因,或者是脚本:必须有鼠标焦点才会显示验证码。
由于web知识匮乏,先找些书恶补一下。

你可能感兴趣的:(关于使用python抓取知乎登录页验证码的疑惑)