反爬策略与日志处理

反爬策略与日志处理

反爬

headers
  • use-agent
  • cookies http 协议是无状态,识别用户
  • 设置下载延迟
      setting.py download-delay 设置下载延迟
  • 使用IP代理池

日志

  调试信息 debug
  一般信息
  警告信息
  错误
  严重错误

如何设置log日志的级别   --nolog 去掉日志调试信息

  1. 在终端设置日志
      日志默认输入debug等级
      可以在运行的时候设置日志登陆
 scrapy crawl aaa_spider -L INFO

 输出显示:

2019-01-20 11:09:23 [scrapy.core.engine] INFO: Closing spider (finished)
2019-01-20 11:09:23 [scrapy.statscollectors] INFO: Dumping Scrapy stats
  1. 在setting.py文件中设置日志
self.logger.info('开始爬虫')

    在setting 最后设置:

#日志输入的文件:
LOG_FILE = 'aaa.log'
#日志的级别
LOG_LEVEL = 'INFO'

    会生成一个aaa.log 文件,日志会写入到这个日志文件里面的

requests   response

meta 在不同请求之间进行数据传递,字典格式

dont_filter 不过滤

errback 错误回调

模拟登陆

  post请求
  formdata

登陆豆瓣
 post 找到浏览器提交表单的请求

你可能感兴趣的:(反爬策略与日志处理)