Shrimay1

Python_Pyspider使用

（1）用Python编写脚本，可视化地编写和调试爬虫，不用额外的IDE
（2）功能强大的WebUI，包括脚本编辑器，任务监视器，项目管理器和结果查看器
（3）支持MySQL，MongoDB，Redis，SQLite，Elasticsearch ; PostgreSQL使用SQLAlchemy作为数据库后端
（4）支持RabbitMQ，Beanstalk，Redis和Kombu作为消息队列
（5）提供任务优先级，失败重试，定时定期重新抓取等…
（6）分布式架构，对接了PhantomJS，可抓取Javascript渲染的页面
（7）支持单机和分布式部署，支持Docker部署

2、Pyspider架构

（1）Scheduler (调度器)、 Fetcher (抓取器)、 Processer (处理器) 、Monitor (监控器)、Result Worker (结果处理器)

pyspider的架构主要分为 Scheduler (调度器)、 Fetcher (抓取器)、 Processer (处理器) 三个部分，整个爬取过程受到 Monitor (监控器)的监控，抓取的结果被 Result Worker (结果处理器)处理。
A、Scheduler 发起任务调度， Fetcher 负责抓取网页内容， Processer 负责解析网页内容，然后将新生成的 Request发给 Scheduler进行调度，将生成的提取结果输出保存。
B、每个pyspider 的项目对应一 Python脚本，该脚本中定义了一个 Handler 类，它有一个on_start()方法。爬取首先调用 on_start()方法生成最初的抓取任务，然后发送给 Scheduler进行调度。
C、Scheduler将抓取任务分发给 Fetcher进行抓取， Fetcher执行并得到响应，随后将响应发送给Processer。
D、Processer 处理响应并提取 H-’，新的 URL 生成新的抓取任务，然后通过消息队列的方式通知Schduler 当前抓取任务执行情况，并将新生成的抓取任务发送给 Scheduler。如果生成了新的提取结果，则将其发送到结果队列等待 ResultWorker理。
E、Scheduler 接收到新的抓取任务，然后查询数据库，判断其如果是新的抓取任务或者是需要重试的任务就继续进行调度，然后将其发送回 Fetcher进行抓取。
F、不断重复以上工作，直到所有的任务都执行完毕，抓取结束。
G、抓取结束后，程序会回调 on_finished()方法，这里可以定义后处理过程。
（2）启动界面：http://localhost:5000/
（3）创建项目后案例操作介绍

3、Pyspider使用

（1）启动页面使用

启动页面使用

（2）示例代码

这里的 Handler 就是 pyspider 爬虫的主类，我们可以在此处定义爬取、解析、存储的逻辑。整个爬虫的功能只需要一个 Handler 即可完成。
接下来我们可以看到一个 crawl_config 属性。我们可以将本项目的所有爬取配置统一定义到这里，如定义 Headers、设置代理等，配置之后全局生效。
然后，on_start() 方法是爬取入口，初始的爬取请求会在这里产生，该方法通过调用 crawl() 方法即可新建一个爬取请求，第一个参数是爬取的 URL，这里自动替换成我们定义的 URL。crawl() 方法还有一个 callback，它指定了这个页面爬取成功后用哪个方法进行解析，代码中指定为 index_page() 方法，即如果这个 URL 对应的页面爬取成功了，那 Response 将交给 index_page() 方法解析。
index_page() 方法恰好接收这个 Response 参数，Response 对接了 pyquery。我们直接调用 doc() 方法传入相应的 CSS 选择器，就可以像 pyquery 一样解析此页面，代码中默认是 a[href^=“http”]，也就是说该方法解析了页面的所有链接，然后将链接遍历，再次调用了 crawl() 方法生成了新的爬取请求，同时再指定了 callback 为 detail_page，意思是说这些页面爬取成功了就调用 detail_page() 方法解析。这里，index_page() 实现了两个功能，一是将爬取的结果进行解析，二是生成新的爬取请求。
detail_page() 同样接收 Response 作为参数。detail_page() 抓取的就是详情页的信息，就不会生成新的请求，只对 Response 对象做解析，解析之后将结果以字典的形式返回。当然我们也可以进行后续处理，如将结果保存到数据库。

from pyspider.libs.base_handler import *
class Handler(BaseHandler):
    crawl_config = {
    }
    
    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://scrapy.org/', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }

（3）crawl使用

crawl使用

参数	解释	例子
url	爬取时的 URL，可以定义为单个 URL字符串，也可以定义成 URL列表	self.crawl(‘http://scrapy.org/’, callback=self.index_page)
callback	回调函数，指定了该 URL对应的响应内容用哪个方法来解析	self.crawl(‘http://scrapy.org/’, callback=self.index_page)
age	任务的有效时间。如果某个任务在有效时间内且已经被执行，则它不会重复执行	@config(age=10 * 24 * 60 * 60)
priority	priority 是爬取任务的优先级，其值默认是 0，priority 的数值越大，对应的请求会越优先被调度	self.crawl(‘http://www.example.org/233.html’, callback=self.detail_page,priority=1)
exetime	exetime参数可以设置定时任务，其值是时间戳，默认是 0，即代表立即执行	self.crawl(‘http://www.example.org/’, callback=self.callback,exetime=time.time()+30*60)
retries	retries 可以定义重试次数，其值默认是 3
itag	itag 参数设置判定网页是存发生变化的节点值，在爬取时会判定次当前节点是否和上次爬取到的节点相同。如果节点相同，则证明页面没有更新，就不会重复爬取	self.crawl(item.find(‘a’).attr.url, callback=self.detail_page,itag=item.find(’.update-time’).text())
auto recrawl	当开启时，爬取任务在过期后会重新执行，循环时间即定义的 age 时间长度	self.crawl(‘http://www.example.org/’, callback=self.callback,age=56060, auto_recrawl=True)
method	method是 HTTP请求方式，它默认是 GET。如果想发起 POST请求，可以将 method设置为 POST	略
params	我们可以方便地使用 params 来定义 GET请求参数	self.crawl(‘http://httpbin.org/get’, callback=self.callback,params={‘a’: 123, ‘b’: ‘c’})
data	data是 POST表单数据。当请求方式为 POST时，我们可以通过此参数传递表单数据	self.crawl(‘http://httpbin.org/post’, callback=self.callback,method=‘POST’, data={‘a’: 123, ‘b’: ‘c’})
files	files 是上传的文件，需要指定文件名	self.crawl(‘http://httpbin.org/post’, callback=self.callback,method=‘POST’, files={field: {filename: ‘content’}}
user_agent	是爬取时使用的user-agent	略
cookies	cookies 是爬取时使用的 Cookies，为字典格式	略
connect timeout	connect timeout是在初始化连接时的最长等待时间，它默认是 20秒	略
timeout	timeout 是抓取网页时的最长等待时间，它默认是 120秒	略
allow redirects	allow redirects 确定是否自动处理重定向，它默认是 True	略
validate_cert	确定是否验证证书，此选项对HTTPS请求有效，默认未True	略
proxy	proxy是爬取时使用的代理，它支持用户名密码的配置，格式为	username:password@hostname:port
fetch_type	fetch_type开启 PhantomJS渲染。如果遇到 JavaScript渲染的页面，指定此字段即可实现 PhantomJS的对接，pyspider将会使用 PhantomJS 进行网页的抓取	self.crawl(‘http://httpbin.org/post’, callback=self.callback, fetch_type=‘js’
js_script	js script 是页面加载完毕后执行的 JavaScript脚本	self.crawl(‘http://www.example.org/’, callback=self.callback,fetch_type=‘js’, js_script=’’‘function() {window.scrollTo(0,document.body.scrollHeight);return 123; } ‘’’)
js_run_at	JavaScript脚本运行的位置，是在页面节点开头还是结尾，默认是结尾，即 document-end	略
js_viewport_	js_viewport_width/js_viewport_height是 JavaScript渲染页面时的窗口大小	略
load_images	load_images在加载 JavaScript页面时确定是否加载图片，它默认是否False	略
save	save 参数非常有用，可以在不同的方法之间传递参数	略
cancel	cancel是取消任务，如果一个任务是 ACTIVE状态的，则需要将 force_update设置为 True	略
force_ update	即使任务处于 ACTIVE状态，那也会强制更新状态	略

######（4）任务id

任务id
pyspider判断两个任务是否是重复使用的是该任务对应的 URL 的 MD5 值作为任务的唯一ID，如果ID 相同，那么两个任务就会判定为相同，其中一个就不会爬取了。很多情况下请求的链接可能是同一个，但是POST的参数不同。可以通过方法覆盖 def get_taskid(self, task)，改变这个ID的计算方式来实现不同任务的区分。

# 默认情况下，只有url是md5 -ed作为taskid，以下代码添加data了POST请求作为taskid的一部分。
import json
from pyspider.libs.utils import md5string
def get_taskid(self, task):
  	return md5string(task['url']+json.dumps(task['fetch'].get('data', '')))

（5）全局配置

crawl_config来指定全局的配置，配置中的参数会和crawl()方法创建任务时的参数合并。如果要全局配置一个Headers，可以定义如下

class Handler(BaseHandler):
   crawl_config = {
       'headers': {
           'User-Agent': 'GoogleBot',
       }
   }

（6）定时爬取

通过every属性来设置爬取的时间间隔。

# 设置每天执行一次爬取
@every(minutes=24 * 60)
  	def on_start(self):
       self.crawl('http://travel.qunar.com/travelbook/list.htm', callback=self.index_page)

注意：在任务的有效时间内爬取不会重复，所以要把任务有效时间设置的比重复时间更短，才可以实现定时爬取。以下代码无法做到每天爬取，任务过期时间为10天，自动爬取时间间隔为1天。当第二次尝试重新爬取的时候，pyspider会监测到此任务尚未过期，便不会执行爬取，需将age设置小于定时时间。

@every(minutes=24 * 60)
	def on_start(self):
       self.crawl('http://travel.qunar.com/travelbook/list.htm', callback=self.index_page)
@config(age=10 * 24 * 60 * 60)
	def index_page(self, response):
	  pass

（7）项目状态

每个项目都有6个状态：分别是TODO、STOP、CHECKING、DEBUG、RUNNING、PAUSE。
TODO：它是项目刚刚被创建还未实现时的状态
STOP：如果想停止某项目的抓取，可以将项目的状态设置为STOP
CHECKING:正在运行的项目被修改后就会变成CHECKING状态，项目在中途出错需要调整的时候会遇到这种情况
DEBUG/RUNNING:这两个状态对项目的运行没有影响，状态设置为任意一个，项目都可以运行，但是可以用二者来区分项目是否已经测试通过
PAUSE:当爬取过程中出现连续多次错误时，项目会自动设置为PAUSE状态，并等待一定时间后继续爬取。

（8）删除项目

pyspider中没有直接删除项目的选项。如果删除任务，那么将项目的状态设置为STOP，将分组的名称设置为delete，等待24小时，则项目会自动删除

你可能感兴趣的:(SpiderCrawl)

瑞树区分vmp/3/4/5/6代 qq_2081540885 js逆向爬虫
我这里是来自十一姐的公众号文章以及CSDN十一姐CSDN：十一姐_PythonKnowledge,SpiderCrawl,python爬虫逆向案例中高级-CSDN博客可以去关注，看看十一姐CSDN文章以及公众号这里是就不详细介绍瑞树是怎么个东西了三代网址：https://www.cde.org.cn/main/news/listpage/3cc45b396497b598341ce3af000490
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d

Python_Pyspider使用

目录

Pyspider

1、Pyspider特点

2、Pyspider架构

（1）Scheduler (调度器)、 Fetcher (抓取器)、 Processer (处理器) 、Monitor (监控器)、Result Worker (结果处理器)

3、Pyspider使用

（1）启动页面使用

（2）示例代码

（3）crawl使用

（5）全局配置

（6）定时爬取

（7）项目状态

（8）删除项目

你可能感兴趣的:(SpiderCrawl)