scrapy框架的一些知识点

最近开始学习scrapy框架,摘抄一些知识点

  • 创建项目:scrapy startproject testproject
  • 进入项目:cd testproject
  • 生成spider: scrapy genspider baidu www.baidu.com
  • 了解各类模板:scrapy genspider -l
  • 指定模板:scrapy genspider -t crawl zhihu www.zhihu.com
  • crawl :运行spider的方法,可以指定运行的spider的名称 :scrapy crawl zhihu.py
  • check:用来检查代码是否有错误:scrapy check zhihu.py
  • scrapy list:返回项目中所有的名称
  • scrapy edit :在命令行下编辑
  • fetch:返回网页源代码,等同于response:scrapy fetch http://www.baidu.com
  • 去掉日志:得到headers:scrapy fetch --nolog --headers http://www.baidu.com
  • 禁止重定向:–no redicrect:scrapy fetch --no-direct http://www.baidu.com
  • view:将网页以文件的形式保存下来,然后去打开,可以在自动测试中应用:scrapy view http://www.baidu.com
  • shell:命令行模式的交互,并且返回一些可用的变量:scrapy shell http://www.baidu.com
  • parse: 传入一些参数,查看返回的结果,相当于格式化输出
  • seetings:获取当前的配置信息:scrapy settings -h
  • runspider:运行spider:scrapy runspider baidu.py
  • version:输出scrapy的版本:scrapy version -v
  • bench:测试当前爬虫的速度

你可能感兴趣的:(scrapy框架的一些知识点)