提莫_

都是干货---真正的了解scrapy框架

去重规则
　　在爬虫应用中，我们可以在request对象中设置参数dont_filter = True 来阻止去重。而scrapy框架中是默认去重的，那内部是如何去重的。

from scrapy.dupefilter import RFPDupeFilter
请求进来以后，会先执行from_settings方法，从settings文件中找一个DUPEFILTER_DEBUG的配置，再执行init初始化方法，生成一个集合 self.fingerprints = set()，然后在执行request_seen方法，所以我们可以自定制去重规则，只要继承BaseDupeFilter即可

按 Ctrl+C 复制代码

class RFPDupeFilter(BaseDupeFilter):
“”“Request Fingerprint duplicates filter”""

def __init__(self, path=None, debug=False):
    self.file = None
    self.fingerprints = set()
    self.logdupes = True
    self.debug = debug
    self.logger = logging.getLogger(__name__)
    if path:
        self.file = open(os.path.join(path, 'requests.seen'), 'a+')
        self.file.seek(0)
        self.fingerprints.update(x.rstrip() for x in self.file)

@classmethod
def from_settings(cls, settings):
    debug = settings.getbool('DUPEFILTER_DEBUG')
    return cls(job_dir(settings), debug)

def request_seen(self, request):
    fp = self.request_fingerprint(request)
    if fp in self.fingerprints:
        return True
    self.fingerprints.add(fp)
    if self.file:
        self.file.write(fp + os.linesep)

def request_fingerprint(self, request):
    return request_fingerprint(request)

def close(self, reason):
    if self.file:
        self.file.close()

def log(self, request, spider):
    if self.debug:
        msg = "Filtered duplicate request: %(request)s"
        self.logger.debug(msg, {'request': request}, extra={'spider': spider})
    elif self.logdupes:
        msg = ("Filtered duplicate request: %(request)s"
               " - no more duplicates will be shown"
               " (see DUPEFILTER_DEBUG to show all duplicates)")
        self.logger.debug(msg, {'request': request}, extra={'spider': spider})
        self.logdupes = False

    spider.crawler.stats.inc_value('dupefilter/filtered', spider=spider)

scrapy框架默认的去重类RFPDupeFilter
按 Ctrl+C 复制代码

scrapy默认使用 scrapy.dupefilter.RFPDupeFilter 进行去重，相关配置有：

1
2
3
DUPEFILTER_CLASS = ‘scrapy.dupefilter.RFPDupeFilter’
DUPEFILTER_DEBUG = False
JOBDIR = “保存范文记录的日志路径，如：/root/” # 最终路径为 /root/requests.seen

使用redis的集合自定制去重规则：

按 Ctrl+C 复制代码

import redis
from scrapy.dupefilter import BaseDupeFilter
from scrapy.utils.request import request_fingerprint

class Myfilter(BaseDupeFilter):
def init(self,key):
self.conn = None
self.key = key

@classmethod
def from_settings(cls, settings):
    key = settings.get('DUP_REDIS_KEY')
    return cls(key)

def open(self):
    self.conn = redis.Redis(host='127.0.0.1',port=6379)

def request_seen(self, request):
    fp = request_fingerprint(request)
    ret = self.conn.sadd(self.key,fp)
    return ret == 0

基于redis自定制去重
按 Ctrl+C 复制代码

备注：利用scrapy的封装的request_fingerprint 进行对每个request对象进行加密，变成固长，方便存储。

定制完去重规则后，如何生效，只需更改配置文件即可：

settings.py文件中设置 DUPEFILTER_CLASS = ‘自定制去重规则的类的路径’

由此可见，去重规则是由两个因素决定的，一个是request对象中的dont_filter参数，一个是去重类。那这两个因素又是如何处理的？这是由调度器中的enqueue_request方法决定的

按 Ctrl+C 复制代码

scrapy下的core文件中的scheduler.py文件

class Scheduler(object):

def enqueue_request(self, request):
    if not request.dont_filter and self.df.request_seen(request):
        self.df.log(request, self.spider)
        return False
    dqok = self._dqpush(request)
    if dqok:
        self.stats.inc_value('scheduler/enqueued/disk', spider=self.spider)
    else:
        self._mqpush(request)
        self.stats.inc_value('scheduler/enqueued/memory', spider=self.spider)
    self.stats.inc_value('scheduler/enqueued', spider=self.spider)
    return True

按 Ctrl+C 复制代码

调度器
　　1.使用队列（广度优先）

2.使用栈（深度优先）

3.使用优先级的队列（利用redis的有序集合）

下载中间件
　　在request对象请求下载的过程中，会穿过一系列的中间件，这一系列的中间件，在请求下载时，会穿过每一个下载中间件的process_request方法，下载完之后返回时，会穿过process_response方法。那这些中间件有什么用处呢？

作用：统一对所有的request对象进行下载前或下载后的处理

我们可以自定制中间件，在请求时，可以添加一些请求头，在返回时，获得cookie

自定制下载中间件时，需要在settings.py配置文件中配置才会生效。

Enable or disable downloader middlewares

See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html

DOWNLOADER_MIDDLEWARES = {
‘myspider.middlewares.MyspiderDownloaderMiddleware’: 543,
}
如果想在下载时更换url，可以在process_request中设置，一般不会这么做

class MyspiderDownloaderMiddleware(object):

def process_request(self, request, spider):
    request._set_url(‘更改的url’)
    return None

我们可以在请求的中间件中添加请求头，也可以添加cookie，但是，scrapy框架为我们写好了很多东西，我们只需要用即可，自定制的中间件添加scrapy中没有的就行。那么scrapy为我们提供了那些下载中间件呢？

比如：我们请求头中常携带的useragent（在useragent.py中做了处理），还有redirect.py 中，处理了重定向的设置，我们在请求时，会出现重定向的情况，scrapy框架为我们做了重定向处理。

View Code

我们可以在settings配置文件中设置最大重定向的次数来阻止重定向（REDIRECT_MAX_TIMES）

下载中间件中也为我们处理了cookie。

cookie中间件中，实例化时，创建了一个默认的字典defaultdict（特点：创建默认字典时，传入什么，生成键值对时，值就是什么类型，比如 ret =defaultdict(list) s = ret[1] 此时的ret是一个key为1，值为[]的默认字典）。

在请求进来时，在请求requests对象中取一个cookiejar的值：cookiejarkey = request.meta.get(“cookiejar”)，并把这个值，直接赋值给了实例化时创建的字典， jar = self.jars[cookiejarkey]，此时的 self.jars = {cookiejarkey:CookieJar对象}，然后从这个CookieJar中取值。请求时携带取得值。

下载完成后，响应时，会从响应中取到cookie的值jar.extract_cookies(response, request) ，然后添加到cookiejar中

cookiemiddleware

因此，我们可以在发送请求时，在请求携带的参数中设置meta参数 meta={“cookiejar”:任意值} ，下次请求时，直接在请求中也携带同样的meta即可。如果不想携带本次的cookie，也可以重新设置值 meta={“cookiejar”:任意值1} ，那后面的请求就可以依据自己的需求，想携带谁就携带谁。

scrapy为我们提供了很多的内置中间件，但是我们自定制中间件时，需要在配置文件中配置，但是，在配置文件中，我们并看到这些scrapy自带的中间件，因为这些中间件的配置在scrapy的默认配置文件中。

打开这个默认的配置文件，可以看到scrapy默认的中间件以及优先级的数值

scrapy内置的下载中间件的配置信息

所以，但我们自定制对应的中间件时，请求时一定要比默认的对应的中间件的数值大，返回响应时一定要比默认的对应的中间件的数值小，否则默认的中间件会覆盖掉自定制的中间件（执行顺序：请求时从小到大，响应时从大到小），从而无法生效。

当然，这些中间件也是有返回值，请求中间件 process_request 返回None表示继续执行后续的中间件，返回response（怎么返回response？伪造一个，可以自己使用requests模块访问一个其他url，返回response，或者from scrapy.http import Response 实例化一个response对象即可）就会跳过后续的请求中间件，直接执行所有的响应中间件（是所有，不同于django的中间件）。也可以返回一个request对象，表示放弃此次请求，并将返回的request对象添加到调度器中。也可以抛出一个异常。

返回响应时， process_response 必须要有返回值，正常情况下返回response，也可以返回一个request对象，也可以抛出异常。

下载中间件中也可以设置代理。

爬虫中间件
　　爬虫应用将item对象或者request对象依次穿过爬虫中间件的process_spider_output方法传给引擎进行分发，下载完成后依次穿过爬虫中间件的process_spider_input方法。

返回值：process_spider_output方法必须返回None或者抛出一个异常

同样的，我们自定义爬虫中间件也要在配置文件中配置

Enable or disable spider middlewares

See https://doc.scrapy.org/en/latest/topics/spider-middleware.html

SPIDER_MIDDLEWARES = {
‘myspider.middlewares.MyspiderSpiderMiddleware’: 543,
}
　　那么爬虫中间件有什么作用呢？我们爬取的深度（DEPTH_LIMIT参数）和优先级是如何实现的呢？就是通过内置的爬虫中间件实现的。

scrapy框架为我们内置的一些爬虫中件间：

那爬虫爬取的深度限制和优先级是如何实现的呢？通过depth.py 这个文件

爬虫执行到深度中间件时，会先调用from_crawler方法，这个方法会先去settings文件中获取几个参数：DEPTH_LIMIT（爬取深度）、DEPTH_PRIORITY（优先级）、DEPTH_STATS_VERBOSE（是否收集最后一层）,然后通过process_spider_output 方法中判断有没有设置过depth，如果没有就给当前的request对象设置depth=0参数，然后通过每层自加一 depth = response.meta[‘depth’] + 1实现层级的控制

depthmiddleware
备注：response.request 表示当前响应是由那个request对象发起的

response.meta 等同于 response.request.meta 可以获取到当前响应对应的request对象的meta属性

没有meta属性时，会默认携带一些参数：比如当前页面下载的时间。

{‘download_timeout’: 180.0, ‘download_slot’: ‘dig.chouti.com’, ‘download_latency’: 0.5455923080444336}

同时，request的优先级，通过自身的priority的值自减depth的值得到request.priority -= depth * self.prio

如果配置值DEPTH_PRIORITY设置为1，则请求的优先级会递减（0，-1，-2，…）
如果配置值DEPTH_PRIORITY设置为-1，则请求的优先级会递增（0，1，2，…）
通过这种方式，通过改变配置的正负值，来实现优先级的控制（是深度优先（从大到小），还是广度优先（从小到大））

scrapy中DEPTH_LIMIT 和 DEPTH_PRIORITY的默认值

scrapy框架中默认的爬虫中间件的配置信息

scrapy框架内置的爬虫中间件的默认配置信息

备注：scrapy框架完美的遵循了开放封闭原则（源码封闭，配置文件开放）

自定制命令
有两种自定义命令的方式

执行单个爬虫时，直接写一个python脚本（.py文件）即可，这是scrapy框架默认支持的

通过脚本执行单个爬虫脚本

单个爬虫
如果我们希望可以同时执行多个爬虫时，就需要自定制命令

自定制命令的步骤：

在spiders同级创建任意目录，如：commands
在其中创建 crawlall.py 文件（此处文件名就是自定义的命令）备注：py文件什么名字，自定义命令就是什么名字
crawlall.py
在settings.py 中添加配置 COMMANDS_MODULE = ‘项目名称.目录名称’
在项目目录执行命令：scrapy crawlall

自定制扩展
　　自定义扩展是利用信号在指定位置注册指定操作

自定义扩展是基于scrapy中的信号的

自定义扩展
同样的我们自定义扩展后也要在配置文件中配置才能生效

Enable or disable extensions

See https://doc.scrapy.org/en/latest/topics/extensions.html

EXTENSIONS = {

‘scrapy.extensions.telnet.TelnetConsole’: None,

‘xxx.xxx.xxxx’: 500,
}
　　自定义扩展是在scrapy指定的位置实现的，那scrapy又给我们提供了哪些可扩展的地方？

解释：engine_stared 和 engine_stopped 是引擎的开始和结束，是整个爬虫爬取任务最开始和结束的地方

spider_opend 和 spider_closed 是爬虫开始和结束

spider_idle 表示爬虫空闲 spider_error 表示爬虫错误

request_scheduled 表示调度器开始调度的时候 request_dropped 表示请求舍弃

response_received 表示响应接收到 response_downloaded 表示下载完毕

代理
实现有三种方式：

基于环境变量（给当前进程中的所有的请求加代理）

借助os模块中的environ方法，print(os.environ) 得到的是当前进程中的共享的变量，可以通过设置key，val实现。

在爬虫程序刚开始启动之前设置环境变量：

启动脚本中设置

import os

os.environ[‘http_proxy’] = ‘代理http:xxx.com’

os.environ[‘https_proxy’] = ‘代理https:xxx.com’

或者start_requests方法中：

def start_requests(self):

import os

os.environ[‘http_proxy’] = ‘http:xxx.com’

yield Request(url=‘xxx’)

基于request的meta参数（给单个请求加代理）

在request参数中设置 meta={‘proxy’:‘代理http:xxx.com’}

基于下载中间件

怎么使用呢？先看源码中怎么实现的

请求到达HttpProxyMiddleware中间件后，先执行from_crawler方法，从配置文件中查看是否有HTTPPROXY_ENABLED参数

这个参数表示是否开启代理，然后实例化时，创建了一个空字典 self.proxies = {} ,并循环getproxies，这个getproxies是什么？

复制代码
class HttpProxyMiddleware(object):

def __init__(self, auth_encoding='latin-1'):
    self.auth_encoding = auth_encoding
    self.proxies = {}
    for type, url in getproxies().items():
        self.proxies[type] = self._get_proxy(url, type)

复制代码
getproxies = getproxies_environment 等于一个函数
复制代码
def getproxies_environment():

proxies = {}

for name, value in os.environ.items():
    name = name.lower()
    if value and name[-6:] == '_proxy':
        proxies[name[:-6]] = value

if 'REQUEST_METHOD' in os.environ:
    proxies.pop('http', None)
for name, value in os.environ.items():
    if name[-6:] == '_proxy':
        name = name.lower()
        if value:
            proxies[name[:-6]] = value
        else:
            proxies.pop(name[:-6], None)
return proxies

复制代码
　　这个函数中，循环环境变量的值，并从中找一个以_proxy结尾的key，然后进行字符串的切割，并将处理后的值放入示例化的proxies字典中。比如：我们设置了环境变量 os.environ[“http_proxy”] = ‘http:xxx.com’,那么处理后的proxies字典中的结果为{“http”:“http:xxx.com”} 。因此我们可以采用这种方式，实现添加代理，那我们在一开始就要设置好全局变量，在start_requests方法中就要设置，或者在脚本启动之前也可以。

执行process_request方法时，会先从request的meta参数中找 ‘proxy’ ，如果存在，则使用，不存在，就从self.proxies这个字典中找，这个字典的值来自于全局环境变量。

因此，request中meta参数的优先级高于全局环境变量的。

def process_request(self, request, spider):
# ignore if proxy is already set
if ‘proxy’ in request.meta:
if request.meta[‘proxy’] is None:
return
# extract credentials if present
creds, proxy_url = self._get_proxy(request.meta[‘proxy’], ‘’)
request.meta[‘proxy’] = proxy_url
if creds and not request.headers.get(‘Proxy-Authorization’):
request.headers[‘Proxy-Authorization’] = b’Basic ’ + creds
return
elif not self.proxies:
return
　　if scheme in self.proxies:
　　self._set_proxy(request, scheme)

HttpProxMiddleWare
　　小结：request的meta参数和全局环境变量的方式设置代理适用于下载量比较小的场景，当下载量很大时，由于频繁的使用一个或几个就会容易被封。

所以，当请求量很大时，就需要用到第三种方式了，自定制一个下载中间件，每次随机从所有的代理中取出一个取执行，这样就会没有规律性，就不容易被封。

自定制下载中间件
设置后要在settings.py 中配置

scrapy中settings.py文件解析

复制代码

-- coding: utf-8 --

Scrapy settings for step8_king project

For simplicity, this file contains only settings considered important or

commonly used. You can find more settings consulting the documentation:

http://doc.scrapy.org/en/latest/topics/settings.html

http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html

http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html

1. 爬虫名称

BOT_NAME = ‘step8_king’

2. 爬虫应用路径

SPIDER_MODULES = [‘step8_king.spiders’]
NEWSPIDER_MODULE = ‘step8_king.spiders’

Crawl responsibly by identifying yourself (and your website) on the user-agent

3. 客户端 user-agent请求头

USER_AGENT = ‘step8_king (+http://www.yourdomain.com)’

Obey robots.txt rules

4. 禁止爬虫配置

ROBOTSTXT_OBEY = False

Configure maximum concurrent requests performed by Scrapy (default: 16)

5. 并发请求数

CONCURRENT_REQUESTS = 4

Configure a delay for requests for the same website (default: 0)

See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay

6. 延迟下载秒数

DOWNLOAD_DELAY = 2

The download delay setting will honor only one of:

7. 单域名访问并发数，并且延迟下次秒数也应用在每个域名

CONCURRENT_REQUESTS_PER_DOMAIN = 2

单IP访问并发数，如果有值则忽略：CONCURRENT_REQUESTS_PER_DOMAIN，并且延迟下次秒数也应用在每个IP

CONCURRENT_REQUESTS_PER_IP = 3

Disable cookies (enabled by default)

8. 是否支持cookie，cookiejar进行操作cookie

COOKIES_ENABLED = True

COOKIES_DEBUG = True

Disable Telnet Console (enabled by default)

9. Telnet用于查看当前爬虫的信息，操作爬虫等…

使用telnet ip port ，然后通过命令操作

TELNETCONSOLE_ENABLED = True

TELNETCONSOLE_HOST = ‘127.0.0.1’

TELNETCONSOLE_PORT = [6023,]

10. 默认请求头

Override the default request headers:

DEFAULT_REQUEST_HEADERS = {

‘Accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8’,

‘Accept-Language’: ‘en’,

}

Configure item pipelines

See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html

11. 定义pipeline处理请求

ITEM_PIPELINES = {

‘step8_king.pipelines.JsonPipeline’: 700,

‘step8_king.pipelines.FilePipeline’: 500,

}

12. 自定义扩展，基于信号进行调用

Enable or disable extensions

See http://scrapy.readthedocs.org/en/latest/topics/extensions.html

EXTENSIONS = {

# ‘step8_king.extensions.MyExtension’: 500,

}

13. 爬虫允许的最大深度，可以通过meta查看当前深度；0表示无深度

DEPTH_LIMIT = 3

14. 爬取时，0表示深度优先Lifo(默认)；1表示广度优先FiFo

后进先出，深度优先

DEPTH_PRIORITY = 0

SCHEDULER_DISK_QUEUE = ‘scrapy.squeue.PickleLifoDiskQueue’

SCHEDULER_MEMORY_QUEUE = ‘scrapy.squeue.LifoMemoryQueue’

先进先出，广度优先

DEPTH_PRIORITY = 1

SCHEDULER_DISK_QUEUE = ‘scrapy.squeue.PickleFifoDiskQueue’

SCHEDULER_MEMORY_QUEUE = ‘scrapy.squeue.FifoMemoryQueue’

15. 调度器队列

SCHEDULER = ‘scrapy.core.scheduler.Scheduler’

from scrapy.core.scheduler import Scheduler

16. 访问URL去重

DUPEFILTER_CLASS = ‘step8_king.duplication.RepeatUrl’

Enable and configure the AutoThrottle extension (disabled by default)

See http://doc.scrapy.org/en/latest/topics/autothrottle.html

“”"
17. 自动限速算法
from scrapy.contrib.throttle import AutoThrottle
自动限速设置
1. 获取最小延迟 DOWNLOAD_DELAY
2. 获取最大延迟 AUTOTHROTTLE_MAX_DELAY
3. 设置初始下载延迟 AUTOTHROTTLE_START_DELAY
4. 当请求下载完成后，获取其"连接"时间 latency，即：请求连接到接受到响应头之间的时间
5. 用于计算的… AUTOTHROTTLE_TARGET_CONCURRENCY
target_delay = latency / self.target_concurrency
new_delay = (slot.delay + target_delay) / 2.0 # 表示上一次的延迟时间
new_delay = max(target_delay, new_delay)
new_delay = min(max(self.mindelay, new_delay), self.maxdelay)
slot.delay = new_delay
“”"

开始自动限速

AUTOTHROTTLE_ENABLED = True

The initial download delay

初始下载延迟

AUTOTHROTTLE_START_DELAY = 5

The maximum download delay to be set in case of high latencies

最大下载延迟

AUTOTHROTTLE_MAX_DELAY = 10

The average number of requests Scrapy should be sending in parallel to each remote server

平均每秒并发数

AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0

Enable showing throttling stats for every response received:

是否显示

AUTOTHROTTLE_DEBUG = True

Enable and configure HTTP caching (disabled by default)

See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings

“”"
18. 启用缓存
目的用于将已经发送的请求或相应缓存下来，以便以后使用

from scrapy.downloadermiddlewares.httpcache import HttpCacheMiddleware
from scrapy.extensions.httpcache import DummyPolicy
from scrapy.extensions.httpcache import FilesystemCacheStorage

“”"

是否启用缓存策略

HTTPCACHE_ENABLED = True

缓存策略：所有请求均缓存，下次在请求直接访问原来的缓存即可

HTTPCACHE_POLICY = “scrapy.extensions.httpcache.DummyPolicy”

缓存策略：根据Http响应头：Cache-Control、Last-Modified 等进行缓存的策略

HTTPCACHE_POLICY = “scrapy.extensions.httpcache.RFC2616Policy”

缓存超时时间

HTTPCACHE_EXPIRATION_SECS = 0

缓存保存路径

HTTPCACHE_DIR = ‘httpcache’

缓存忽略的Http状态码

HTTPCACHE_IGNORE_HTTP_CODES = []

缓存存储的插件

HTTPCACHE_STORAGE = ‘scrapy.extensions.httpcache.FilesystemCacheStorage’

“”"
19. 代理，需要在环境变量中设置
from scrapy.contrib.downloadermiddleware.httpproxy import HttpProxyMiddleware

方式一：使用默认
    os.environ
    {
        http_proxy:http://root:[email protected]:9999/
        https_proxy:http://192.168.11.11:9999/
    }
方式二：使用自定义下载中间件

def to_bytes(text, encoding=None, errors='strict'):
    if isinstance(text, bytes):
        return text
    if not isinstance(text, six.string_types):
        raise TypeError('to_bytes must receive a unicode, str or bytes '
                        'object, got %s' % type(text).__name__)
    if encoding is None:
        encoding = 'utf-8'
    return text.encode(encoding, errors)
    
class ProxyMiddleware(object):
    def process_request(self, request, spider):
        PROXIES = [
            {'ip_port': '111.11.228.75:80', 'user_pass': ''},
            {'ip_port': '120.198.243.22:80', 'user_pass': ''},
            {'ip_port': '111.8.60.9:8123', 'user_pass': ''},
            {'ip_port': '101.71.27.120:80', 'user_pass': ''},
            {'ip_port': '122.96.59.104:80', 'user_pass': ''},
            {'ip_port': '122.224.249.122:8088', 'user_pass': ''},
        ]
        proxy = random.choice(PROXIES)
        if proxy['user_pass'] is not None:
            request.meta['proxy'] = to_bytes（"http://%s" % proxy['ip_port']）
            encoded_user_pass = base64.encodestring(to_bytes(proxy['user_pass']))
            request.headers['Proxy-Authorization'] = to_bytes('Basic ' + encoded_user_pass)
            print "**************ProxyMiddleware have pass************" + proxy['ip_port']
        else:
            print "**************ProxyMiddleware no pass************" + proxy['ip_port']
            request.meta['proxy'] = to_bytes("http://%s" % proxy['ip_port'])

DOWNLOADER_MIDDLEWARES = {
   'step8_king.middlewares.ProxyMiddleware': 500,
}

“”"

“”"
20. Https访问
Https访问时有两种情况：
1. 要爬取网站使用的可信任证书(默认支持)
DOWNLOADER_HTTPCLIENTFACTORY = “scrapy.core.downloader.webclient.ScrapyHTTPClientFactory”
DOWNLOADER_CLIENTCONTEXTFACTORY = “scrapy.core.downloader.contextfactory.ScrapyClientContextFactory”

2. 要爬取网站使用的自定义证书
    DOWNLOADER_HTTPCLIENTFACTORY = "scrapy.core.downloader.webclient.ScrapyHTTPClientFactory"
    DOWNLOADER_CLIENTCONTEXTFACTORY = "step8_king.https.MySSLFactory"
    
    # https.py
    from scrapy.core.downloader.contextfactory import ScrapyClientContextFactory
    from twisted.internet.ssl import (optionsForClientTLS, CertificateOptions, PrivateCertificate)
    
    class MySSLFactory(ScrapyClientContextFactory):
        def getCertificateOptions(self):
            from OpenSSL import crypto
            v1 = crypto.load_privatekey(crypto.FILETYPE_PEM, open('/Users/wupeiqi/client.key.unsecure', mode='r').read())
            v2 = crypto.load_certificate(crypto.FILETYPE_PEM, open('/Users/wupeiqi/client.pem', mode='r').read())
            return CertificateOptions(
                privateKey=v1,  # pKey对象
                certificate=v2,  # X509对象
                verify=False,
                method=getattr(self, 'method', getattr(self, '_ssl_method', None))
            )
其他：
    相关类
        scrapy.core.downloader.handlers.http.HttpDownloadHandler
        scrapy.core.downloader.webclient.ScrapyHTTPClientFactory
        scrapy.core.downloader.contextfactory.ScrapyClientContextFactory
    相关配置
        DOWNLOADER_HTTPCLIENTFACTORY
        DOWNLOADER_CLIENTCONTEXTFACTORY

“”"

“”"
21. 爬虫中间件
class SpiderMiddleware(object):

    def process_spider_input(self,response, spider):
        '''
        下载完成，执行，然后交给parse处理
        :param response: 
        :param spider: 
        :return: 
        '''
        pass

    def process_spider_output(self,response, result, spider):
        '''
        spider处理完成，返回时调用
        :param response:
        :param result:
        :param spider:
        :return: 必须返回包含 Request 或 Item 对象的可迭代对象(iterable)
        '''
        return result

    def process_spider_exception(self,response, exception, spider):
        '''
        异常调用
        :param response:
        :param exception:
        :param spider:
        :return: None,继续交给后续中间件处理异常；含 Response 或 Item 的可迭代对象(iterable)，交给调度器或pipeline
        '''
        return None


    def process_start_requests(self,start_requests, spider):
        '''
        爬虫启动时调用
        :param start_requests:
        :param spider:
        :return: 包含 Request 对象的可迭代对象
        '''
        return start_requests

内置爬虫中间件：
    'scrapy.contrib.spidermiddleware.httperror.HttpErrorMiddleware': 50,
    'scrapy.contrib.spidermiddleware.offsite.OffsiteMiddleware': 500,
    'scrapy.contrib.spidermiddleware.referer.RefererMiddleware': 700,
    'scrapy.contrib.spidermiddleware.urllength.UrlLengthMiddleware': 800,
    'scrapy.contrib.spidermiddleware.depth.DepthMiddleware': 900,

“”"

from scrapy.contrib.spidermiddleware.referer import RefererMiddleware

Enable or disable spider middlewares

See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html

SPIDER_MIDDLEWARES = {

‘step8_king.middlewares.SpiderMiddleware’: 543,

}

“”"
22. 下载中间件
class DownMiddleware1(object):
def process_request(self, request, spider):
‘’’
请求需要被下载时，经过所有下载器中间件的process_request调用
:param request:
:param spider:
:return:
None,继续后续中间件去下载；
Response对象，停止process_request的执行，开始执行process_response
Request对象，停止中间件的执行，将Request重新调度器
raise IgnoreRequest异常，停止process_request的执行，开始执行process_exception
‘’’
pass

    def process_response(self, request, response, spider):
        '''
        spider处理完成，返回时调用
        :param response:
        :param result:
        :param spider:
        :return:
            Response 对象：转交给其他中间件process_response
            Request 对象：停止中间件，request会被重新调度下载
            raise IgnoreRequest 异常：调用Request.errback
        '''
        print('response1')
        return response

    def process_exception(self, request, exception, spider):
        '''
        当下载处理器(download handler)或 process_request() (下载中间件)抛出异常
        :param response:
        :param exception:
        :param spider:
        :return:
            None：继续交给后续中间件处理异常；
            Response对象：停止后续process_exception方法
            Request对象：停止中间件，request将会被重新调用下载
        '''
        return None


默认下载中间件
{
    'scrapy.contrib.downloadermiddleware.robotstxt.RobotsTxtMiddleware': 100,
    'scrapy.contrib.downloadermiddleware.httpauth.HttpAuthMiddleware': 300,
    'scrapy.contrib.downloadermiddleware.downloadtimeout.DownloadTimeoutMiddleware': 350,
    'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': 400,
    'scrapy.contrib.downloadermiddleware.retry.RetryMiddleware': 500,
    'scrapy.contrib.downloadermiddleware.defaultheaders.DefaultHeadersMiddleware': 550,
    'scrapy.contrib.downloadermiddleware.redirect.MetaRefreshMiddleware': 580,
    'scrapy.contrib.downloadermiddleware.httpcompression.HttpCompressionMiddleware': 590,
    'scrapy.contrib.downloadermiddleware.redirect.RedirectMiddleware': 600,
    'scrapy.contrib.downloadermiddleware.cookies.CookiesMiddleware': 700,
    'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 750,
    'scrapy.contrib.downloadermiddleware.chunked.ChunkedTransferMiddleware': 830,
    'scrapy.contrib.downloadermiddleware.stats.DownloaderStats': 850,
    'scrapy.contrib.downloadermiddleware.httpcache.HttpCacheMiddleware': 900,
}

“”"

from scrapy.contrib.downloadermiddleware.httpauth import HttpAuthMiddleware

Enable or disable downloader middlewares

See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html

DOWNLOADER_MIDDLEWARES = {

‘step8_king.middlewares.DownMiddleware1’: 100,

‘step8_king.middlewares.DownMiddleware2’: 500,

}

复制代码

你可能感兴趣的:(Python,scrapy,干货)

解决pip指令超时问题好学近乎知o pip python
用pip指令，在安装Django3.2时报错，询问ChatGpt后得到的解决方案pip下载超时——是当前网络连接到PyPI官方源太慢或不稳定，甚至可能连不上了，而pip默认的超时时间又太短，就导致了中途失败：ReadTimeoutError:HTTPSConnectionPool(host='files.pythonhosted.org',port=443):Readtimedout.解决方案：换
Python通关秘籍（五）数据结构——元组 Smile丶Life丶 Python 通关指南：从零基础到高手之路 Python python 数据结构 android
前文复习五、数据结构5.1列表（List）列表是一种有序的可变数据集合，可以包含不同类型的元素。5.2元组（Tuple）元组是一种有序的不可变数据集合，通常用于存储一组相关的值。5.2.1元组的定义与创建
Netty技术全解析：MessageToMessageDecoder类深度解析码到三十五 netty解析 java go 微服务
❃博主首页：「码到三十五」，同名公众号:「码到三十五」，wx号:「liwu0213」☠博主专栏：♝博主的话：搬的每块砖，皆为峰峦之基；公众号搜索「码到三十五」关注这个爱发技术干货的coder，一起筑基在Netty这个高性能的网络编程框架中，MessageToMessageDecoder类是一个关键的组件，它主要用于处理基于消息的解码。与直接处理字节流的解码器不同，MessageToMessageD
闲鱼监控助手实战项目：用 Python 实现闲鱼监控+自动秒拍
项目背景：为什么要做这个闲鱼助手？在闲鱼上抢东西，永远拼不过“秒拍党”。游戏机低价挂出，几秒没了优酷年卡、流量卡一上架立刻被拍想转卖赚差价，总是慢一步于是我写了一个Python闲鱼助手，实现自动闲鱼监控+秒拍下单，帮助我快速捡漏、低买高卖。核心功能一览（关键词自然带入）功能模块说明️‍♀️闲鱼监控实时监控指定关键词商品，自动刷新，发现即处理⚡闲鱼秒拍自动拍下匹配条件商品，支持延迟策略更隐蔽钉钉推送
vscode创建Python虚拟环境无法激活问题处理
系统环境win7环境，Python3.7，VScode1.70.3问题报错：PSC:\Users\Administrator\PycharmProjects\websites>.\venv\Scripts\activate无法加载文件C:\Users\Administrator\PycharmProjects\websites\venv\Scripts\Activate.ps1，因为在此系统中禁止
python+requests+pytest qiumiaomi 接口 python python pytest 开发语言
|-----api|-----------------init.py|-----------------api_np.py||-----scripts------------------init.py|------------------test01_mp.py|||-----pytest.iniapiinit.py##公共变量#1.请求域名host="127.0.0.1”#2.请求信息头head
Python 线程优先队列 PriorityQueue - Python零基础入门教程猿说编程
目录一.Python线程队列Queue分类二.Python线程优先队列PriorityQueue简介三.Python线程优先队列PriorityQueue函数介绍四.Python线程优先队列PriorityQueue使用五.猜你喜欢零基础Python学习路线推荐:Python学习目录>>Python基础入门在线程队列Queue/线程队列LifoQueue文章中分别介绍了先进先出队列Queue和先进
【Python练习】056. 编写一个函数，实现简单的CSV文件解析器视睿从零开始学习机器人 python 前端服务器
056.编写一个函数，实现简单的CSV文件解析器056.编写一个函数，实现简单的CSV文件解析器示例代码示例CSV文件内容示例运行代码说明扩展功能支持自定义分隔符的示例注意事项实现CSV文件解析的方法使用标准库csv模块解析使用pandas库解析手动实现基础解析器处理复杂CSV格式性能优化建议056.编写一个函数，实现简单的CSV文件解析器以下是一个简单的Python函数，用于解析CSV文件。这个
【Python练习】031. 解释python中的深拷贝和浅拷贝
031.解释python中的深拷贝和浅拷贝031.解释python中的深拷贝和浅拷贝1.浅拷贝（ShallowCopy）浅拷贝的实现方式示例代码2.深拷贝（DeepCopy）深拷贝的实现方式示例代码区别总结适用场景注意事项浅拷贝的应用深拷贝的应用不同数据类型的拷贝行为自定义对象的拷贝控制性能与适用场景031.解释python中的深拷贝和浅拷贝在Python中，深拷贝（DeepCopy）和浅拷贝（S
2022爆火的游戏wordle，python实现刘先生的u写倒了数据结构与算法（C）所有文章 python 游戏开发语言
2022爆火的游戏wordle实现近日，名为Wordle的填字游戏成为继《宝可梦GO》之后又一款在欧美流行的网红游戏，推出不到4个月便引发全球百万玩家抢玩。更让人意想不到的是，2月1日，《纽约时报》宣布收购Wordle，据称收购价格价值“7位数”美元。Wordle是一款免费无广告的网页填字游戏，玩法非常简单：玩家需要在6次机会中猜出一个由5个英文字母组成的英文单词，玩家猜中的字母会以绿底呈现，黄底
从API到Agent：万字洞悉LangChain工程化设计 bpluo42657 langchain
——构建下一代AI应用的核心范式迁移一、传统API范式的局限性：为什么需要Agent？接口式AI的痛点python#传统NLPAPI调用示例response=openai.Completion.create(model="text-davinci-003",prompt="请翻译：Helloworld",max_tokens=50)单次请求/响应模式缺乏状态管理与上下文延续硬编码逻辑难以应对复杂场
【项目实战】在 Python 中，可以通过 `subprocess` 模块调用系统的压缩程序（如 7-Zip 或系统自带的zip命令）来实现文件或文件夹的压缩。本本本添哥 011 -Python python 7-zip 开发语言
在Python中，可以通过subprocess模块调用系统的压缩程序（如7-Zip或系统自带的zip命令）来实现文件或文件夹的压缩。通过subprocess调用系统压缩工具（如7-Zip）是最灵活的方式，支持多线程、密码保护和多种压缩格式。需注意路径配置和参数的正确性，并通过异常处理提升代码健壮性。对于轻量需求，可优先考虑zipfile或py7zr等库。以下是详细的实现方法和注意事项：1.使用7-
《Python 微服务架构实践指南：框架与工具的深度解析》清水白石008 python Python题库架构 python 微服务
《Python微服务架构实践指南：框架与工具的深度解析》开篇引入背景介绍：在现代应用开发中，微服务架构因其高扩展性、灵活性和模块化优势而备受关注。从电商平台到数据处理，微服务架构逐渐取代传统单体架构，成为开发者首选。而Python凭借其简洁优雅的语法和丰富的生态系统，为实现微服务架构提供了坚实的基础。为什么写这篇文章：作为一名资深开发者和教育者，我深切感受到许多开发者在微服务设计中的困惑。因此，本
使用uv工具高效管理Python版本安装指南庞翰烽
使用uv工具高效管理Python版本安装指南前言在现代Python开发中，多版本Python环境管理是每个开发者都会遇到的挑战。传统方式需要手动下载安装不同版本的Python，配置环境变量，过程繁琐且容易出错。uv工具提供了一套优雅的解决方案，让Python版本管理变得简单高效。uv工具简介uv是一个现代化的Python工具链管理器，它不仅能够管理Python包依赖，还能智能地管理Python解释
用python实现无限弹窗-五一劳动节快乐数据知道 python3案例和总结 python 开发语言
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.使用`tkinter`实现无限弹窗1.1实现代码1.2代码说明2.使用`pyautogui`实现无限弹窗2.1安装`pyautogui`2.2实现代码2.3代码说明3.使用`ctypes`实现无限弹窗3.1实现代码3.2代码说明4.注意事项5.总结使用tkinter库使用pyautogui库在Python中实现无限弹窗可以通过tki
鸿蒙应用App Linking优化：深度链接性能操作系统内核探秘操作系统内核揭秘 harmonyos 华为 ai
鸿蒙应用AppLinking优化：深度链接性能关键词：鸿蒙系统、AppLinking、深度链接、性能优化、路由匹配、参数解析、冷启动优化摘要：本文深入探讨鸿蒙系统下AppLinking深度链接的性能优化策略。从核心概念解析出发，详细阐述深度链接在鸿蒙架构中的实现原理，包括Ability路由机制、链接解析算法和参数传递模型。通过数学模型分析路由匹配复杂度，结合Python算法示例演示链接解析过程。基
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
Python爬虫技术：高效采集开放数据的5种方法大数据洞察 python 爬虫 wpf ai
Python爬虫技术：高效采集开放数据的5种方法关键词：Python爬虫、开放数据采集、请求库、异步爬虫、分布式爬虫、动态网页解析、API直连摘要：本文围绕“如何用Python高效采集开放数据”展开，系统讲解5种主流爬虫方法（基础请求库、异步请求、动态网页渲染、分布式爬虫、API直连）的原理、适用场景与实战技巧。通过生活类比、代码示例和真实案例，帮助读者快速掌握不同场景下的爬虫策略，同时强调数据合
LeetCode 633.平方数之和（python题解） wendong97 LeetCode从零起步 #双指针 leetcode python 算法
LeetCode633.平方数之和（python题解）题目示例分析题解用到的基础知识计算平方和平方根取整参考题目给定一个非负整数c，你要判断是否存在两个整数a和b，使得a2+b2=c示例输入:5输出:True解释:1*1+2*2=5分析本题与上一题LeetCode167.两数之和II非常相似，把两数之和变成了平方数之和，利用上一题答案的思路，同样设置两个一左一右的指针，很容易就可以解答出来。这里要
[特殊字符] 简易分贝仪制作（基于麦克风 + Python） qq_27684373 python 开发语言
一、基本原理1.什么是dBSPL？**声压级（SoundPressureLevel,SPL）**定义为：SPL(dB)=20⋅log⁡10(pp0)\text{SPL(dB)}=20\cdot\log_{10}\left(\frac{p}{p_0}\right)SPL(dB)=20⋅log10(p0p)ppp：声压值（单位Pa，帕斯卡）p0=20μPa=2×10−5Pap_0=20\mu\text
数据质量是机器学习项目的核心痛点，AI技术能提供智能化解决方案。 zzywxc787 python pandas numpy 人工智能自动化运维 AI编程
一、数据质量诊断系统（Python实现）importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.ensembleimportIsolationForestfromtensorflow.keras.modelsimportSequentialfromte
使用python对音频做去噪处理莫夭阏之 python 信号处理语音识别
要使用Python对音频进行去噪处理，您可以使用许多库和算法。以下是使用librosa和scipy库实现的基本去噪算法：首先，您需要安装所需的库。您可以使用以下命令安装它们：pipinstalllibrosascipynumpy接下来，您需要导入所需的库：importlibrosaimportscipy.signalassignalimportnumpyasnp加载音频文件并提取音频数据：y,sr
Python实现音频均衡和降噪 0Kilobyte 音视频
使用librosa库来读取音频文件，音频处理是一个复杂过程，这里只是简单的进行降噪和均衡。importlibrosaimportsoundfileassfdefimprove_audio_quality(input_file,output_file):#读取音频文件audio,sample_rate=librosa.load(input_file)sf.write(output_file,audi
Python的简单降噪应用 adaierya python 开发语言
音频降噪是使用Python进行信号处理的一个常见应用，通常会使用一些信号处理库，如NumPy和SciPy，以及一个用于音频处理的库，如Librosa。如下是一个简单的音频降噪实现步骤和代码示例：步骤1:安装必要的库若还没有安装这些库，请先使用pip进行安装：pipinstallnumpyscipylibrosasoundfile步骤2:导入必要的库在Python代码中，我们需要导入这些库：impo
python 源码安装_源码安装python weixin_39959794 python 源码安装
编译安装新版本python一般来说python是linux系统的标配，但是版本一般却很老，而系统上面的很多服务可能与老的python存在依赖关系，我们又不能直接卸载。所以一般，我们可以在一个单独的目录来安装python。python安装有两种方法：1.源码编译2.使用pyenv此处我们使用源码编译安装：1.下载源码：https://www.python.org/ftp/python/此处有各个版本
python 源码安装 thjinhao python
linux环境下python3.9安装yum-yinstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgdbm-develdb4-devellibpcap-develxz-devellibffi-develyum-yinstallgcc4.python环境的安装（安装pyenv
uvx.exe 跨环境 Python 工具执行器的原理与实战指南
在Windows安装uv时，系统会同时生成一个可执行文件uvx.exe。它并不是新的打包管理器，而是uvtoolrun命令的便捷别名：调用uvx.exe就能在瞬间解析依赖、构建隔离虚拟环境并执行来自Python生态的任意命令行工具，完成过程无需事先创建venv，也不会污染当前项目。官方文档把这种体验类比为npx或pipx的一次性执行，但uvx速度更快、磁盘开销更小，更能契合CI/CD流水线、临时脚
vscode怎么装python_vscode如何安装python
vscode安装python的方法：1、在vscode的扩展中输入"extinstallpython"安装python插件打开VScode，Ctrl+p输入"extinstallpython"，搜索时间可能会比较长安装过程不能停止，否则重新安装；2、在配置文件“settings.json”修改python的安装路径修改用户设置-settings.json，将"python.pythonPath":
关于python的一些面试题
1.技术面试题（1）TCP与UDP的区别是什么？答：在工作机制上TCP采用三次握手四次挥手的机制保障信息传递的稳定性，更适合文件的传输和下载。而UDP采用的是直接传输和直接接受的机制提高信息传递的高效性，更适合点对点的实时交流的环境。（2）DHCP和DNS的作用是什么？答：DHCP相当于网络中的智能管家，他会自动将局域网内的设备进行配置包括但不限于：IP地址、子网掩码、DNS服务器地址。而DNS相
python里面ca_Python SSL服务器提供中间CA证书洗心岛 python里面ca
我使用Python(2.7)SSL模块编写一些服务器代码，如下所示：ssock=ssl.wrap_socket(sock,ca_certs="all-ca.crt",keyfile="server.key",certfile="server.crt",server_side=True,ssl_version=ssl.PROTOCOL_TLSv1)全部-约阴极射线管'包含签名CA证书和根CA证书：-
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

都是干货---真正的了解scrapy框架

scrapy下的core文件中的scheduler.py文件

Enable or disable downloader middlewares

See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html

Enable or disable spider middlewares

See https://doc.scrapy.org/en/latest/topics/spider-middleware.html

Enable or disable extensions

See https://doc.scrapy.org/en/latest/topics/extensions.html

‘scrapy.extensions.telnet.TelnetConsole’: None,

-- coding: utf-8 --

Scrapy settings for step8_king project

For simplicity, this file contains only settings considered important or

commonly used. You can find more settings consulting the documentation:

http://doc.scrapy.org/en/latest/topics/settings.html

http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html

http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html

1. 爬虫名称

2. 爬虫应用路径

Crawl responsibly by identifying yourself (and your website) on the user-agent

3. 客户端 user-agent请求头

USER_AGENT = ‘step8_king (+http://www.yourdomain.com)’

Obey robots.txt rules

4. 禁止爬虫配置

ROBOTSTXT_OBEY = False

Configure maximum concurrent requests performed by Scrapy (default: 16)

5. 并发请求数

CONCURRENT_REQUESTS = 4

Configure a delay for requests for the same website (default: 0)

See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay

See also autothrottle settings and docs

6. 延迟下载秒数

DOWNLOAD_DELAY = 2

The download delay setting will honor only one of:

7. 单域名访问并发数，并且延迟下次秒数也应用在每个域名

CONCURRENT_REQUESTS_PER_DOMAIN = 2

单IP访问并发数，如果有值则忽略：CONCURRENT_REQUESTS_PER_DOMAIN，并且延迟下次秒数也应用在每个IP

CONCURRENT_REQUESTS_PER_IP = 3

Disable cookies (enabled by default)

8. 是否支持cookie，cookiejar进行操作cookie

COOKIES_ENABLED = True

COOKIES_DEBUG = True

Disable Telnet Console (enabled by default)

9. Telnet用于查看当前爬虫的信息，操作爬虫等…

使用telnet ip port ，然后通过命令操作

TELNETCONSOLE_ENABLED = True

TELNETCONSOLE_HOST = ‘127.0.0.1’

TELNETCONSOLE_PORT = [6023,]

10. 默认请求头

Override the default request headers:

DEFAULT_REQUEST_HEADERS = {

‘Accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8’,

‘Accept-Language’: ‘en’,

}

Configure item pipelines

See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html

11. 定义pipeline处理请求

ITEM_PIPELINES = {

‘step8_king.pipelines.JsonPipeline’: 700,

‘step8_king.pipelines.FilePipeline’: 500,

}

12. 自定义扩展，基于信号进行调用

Enable or disable extensions

See http://scrapy.readthedocs.org/en/latest/topics/extensions.html

EXTENSIONS = {

# ‘step8_king.extensions.MyExtension’: 500,

}

13. 爬虫允许的最大深度，可以通过meta查看当前深度；0表示无深度

DEPTH_LIMIT = 3

14. 爬取时，0表示深度优先Lifo(默认)；1表示广度优先FiFo

后进先出，深度优先

DEPTH_PRIORITY = 0

SCHEDULER_DISK_QUEUE = ‘scrapy.squeue.PickleLifoDiskQueue’

SCHEDULER_MEMORY_QUEUE = ‘scrapy.squeue.LifoMemoryQueue’

先进先出，广度优先

DEPTH_PRIORITY = 1

SCHEDULER_DISK_QUEUE = ‘scrapy.squeue.PickleFifoDiskQueue’

SCHEDULER_MEMORY_QUEUE = ‘scrapy.squeue.FifoMemoryQueue’

15. 调度器队列

SCHEDULER = ‘scrapy.core.scheduler.Scheduler’

from scrapy.core.scheduler import Scheduler