2017.07.19

make plans as Bullet Journal

scrapy crawl zhihu.com:

  1. login
    header
    post_data: {
    username:
    password:
    captcha:
    }
    验证码模拟登陆

  2. 解析
    itemloader
    解析question
    解析answer
    注意:问题url中,知乎现在有两个版本,一个是 url 中只有 question_id,另一个版本是带有answer和 answer_id 的url,这两个版本均解析正常

  3. create table in mysql

  4. 没完成:将 item 数据通过 pipeline 保存到 mysql 中

scrapy 是基于 twisted 的异步框架,所有使用 Request 时,必须指定一个回调函数 callback,默认调用parse

如果Request函数中的回调函数没有调用,可能的愿意就是被 scrapy 中默认的 Offsite Spider Middleware 过滤掉了,只需要加上 dont_filter=True 参数即可,或者将 allowed_domains 设置为空

你可能感兴趣的:(2017.07.19)