小阳爱技术

Python逆向爬虫之scrapy框架,非常详细

爬虫系列目录

配套视频地址：https://www.wotiecity.com/system/course/MTc=?cid=93332355

文章目录

Python逆向爬虫之scrapy框架,非常详细
- 一、爬虫入门
- - 1.1 定义需求
  - 1.2 需求分析
  - - 1.2.1 下载某个页面上所有的图片
    - 1.2.2 分页
    - 1.2.3 进行下载图片
- 二、Scrapy 入门
- - 2.1 安装 Scrapy
  - 2.2 Scrapy 创建项目
  - 2.3 scrapy 命令
  - 2.4 生成文件详情
  - 2.5 第一个 scrapy 爬虫程序
  - - 2.5.1 编辑 spider
    - 2.5.2 编辑 piplines
    - 2.5.3 编辑配置文件
- 三、Scrapy Spider
- - 3.1 Spider 详细
  - 3.2 spider常用的方法
  - - 3.2.1 解析常用的几个方法
    - 3.2.2 response 常用的几个方法
- 四、Scrapy Pipline
- - 4.1 pipeline 中的函数
  - - 4.1.1 process_item(self, item, spider)
    - 4.1.2 close_spider(self,spider)
    - 4.1.3 open_spider(self,spider)
    - 4.1.4 from_crawler(cls,crawler)
  - 4.2 scrapy 自带的 pipeline
  - - 4.2.1 FilesPipeline
    - - 1. get_media_requests
      - 2. file_path
    - 4.2.2 ImagesPipeline
    - - 1. get_media_requests
      - 2. file_path
      - 3. item_completed
- 五、scrapy 中间件
- - 5.1 下载中间件（`DownloaderMiddleware`）
  - - 5.1.1 process_request(request, spider)
    - 5.1.2 process_response(request, response, spider)
    - 5.1.3 process_exception(request, exception, spider)
    - 5.1.3 下载图片案例
  - 5.2 scrapy 爬虫（spider）中间件
  - - 5.2.1 激活 Spider 中间件
    - 5.2.2 Spider 中间件
  - 5.3 Scrapy 自带中间件
  - - 5.3.1 HttpProxyMiddleware 代理中间件
- 六、CrawlSpider全站数据抓取
- - 6.1 创建 CrawSpider 项目
  - 6.2 参数说明
- 七、分布式爬虫
- - 7.1 scrapy框架是否可以自己实现分布式？
  - 7.2 基于scrapy-redis组件的分布式爬虫
  - 7.3 分布式实现流程
  - - 1.下载 scrapy-redis 组件
    - 2. redis 配置文件的配置
    - 3. 修改爬虫文件中的相关代码
    - 4. 在配置文件中进行相关配置，开启使用scrapy-redis组件中封装好的管道
    - 5. 在配置文件（setting）中进行相关配置，开启使用scrapy-redis组件中封装好的调度器
    - 6. 在配置文件中进行爬虫程序链接redis的配置
    - 7. 运行爬虫文件：scrapy runspider SpiderFile(x.py)
    - 8.向调度器队列中扔入一个起始url（在redis客户端中操作）：lpush redis_key属性值起始url
- 八、布隆过滤器

配套视频地址：https://www.wotiecity.com/system/course/MTc=?cid=93332355

Python逆向爬虫之scrapy框架,非常详细

一、爬虫入门

那么，我相信初学的小伙伴现在一定是似懂非懂的。那么下面我们通过一个案例来慢慢进行分析，具体如下：

今天，我们的目标是一个图片网站，https://www.quanjing.com/tupian/meinv-1.html

首先，我们第一步需要做的就是项目分析，我们来看看爬取这个网站我们需要哪些步骤。

1.1 定义需求

需求就是将该网站中所有的美女图片分类下载到本地。

1.2 需求分析

如果我们需要下载上面所表示的所有的图片的话，我们需要如下几个步骤：

下载某个页面上所有的图片
分页
进行下载图片

1.2.1 下载某个页面上所有的图片

# -*- coding: utf-8 -*-

import requests
from lxml import etree

import urllib3
urllib3.disable_warnings()

def getClassification(num):
    """
    获取分类链接
    :return:
    """

    url = f"https://www.quanjing.com/tupian/meinv-{num}.html"

    html = sendRequest(url, "get")

    htmlValus = htmlAnalysis(html.text, '//*[@id="gallery-list"]/li')

    for item in htmlValus:
        imgUrl = item.xpath('./a/img/@src')[0]
        downLoad(imgUrl)

def downLoad(url):

    """
    下载图片
    :param url:
    :return:
    """

    img = sendRequest(url)

    imgName = url.split("@")[0].split("/")[-1]

    with open("./quanjing/" + imgName, 'wb') as imgValue:
        imgValue.write(img.content)

def htmlAnalysis(html, rule):

    """
    根据 xpath 获取数据
    :param html:
    :param rule:
    :return:
    """

    htmlValues = etree.HTML(html)

    value = htmlValues.xpath(rule)

    return value


def sendRequest(url, method="get"):
    """
    发送请求
    :param url:
    :param method:
    :return:
    """
    if method.lower() == "get":
        html = requests.get(url=url, headers=getHeader(), verify=False)
    elif method.lower() == "post":
        html = requests.post(url=url, headers=getHeader())
    else:
        html = None

    return html


def getHeader():
    """
    获取Header
    :return:
    """

    ua_headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
        "referer": "https://www.quanjing.com/"
    }

    return ua_headers


def main():
    getClassification(1)


if __name__ == '__main__':
    main()

1.2.2 分页

def main():
    for i in range(10):
        getClassification(i)

1.2.3 进行下载图片

def downLoad(url):

    """
    下载图片
    :param url:
    :return:
    """

    img = sendRequest(url)

    imgName = url.split("@")[0].split("/")[-1]

    with open("./quanjing/" + imgName, 'wb') as imgValue:
        imgValue.write(img.content)

二、Scrapy 入门

配套视频地址：https://www.wotiecity.com/catalogue/MTc=/index.html?cid=93332355

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

下面我们给出一个 Scrapy 的架构图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qt7eRegs-1661835244698)(…/…/.vuepress/public/img/无标题-2022-07-21-1250.svg)]

上面的架构图明确的说明了 Scrapy 主要有 5 个部分。

引擎(Scrapy Engine)：引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。
管道(Pipline)：主要提供存储服务，把需要存储的数据存储到相关数据库之中。
调度器(Scheduler)：主要提供两个功能，分别是去重和队列。
下载器(Downloader)：下载器负责获取页面数据并提供给引擎，而后提供给spider。
爬虫(Spiders)：Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。

其实除了上述的内容外，Scrapy 还提供一些中间件，例如：下载器中间件(Downloader Middlewares)和爬虫中间件(Spider Middlewares)等。

所以，把上面完整的图可以画成如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MM5ShgB9-1661835244701)(https://img2022.cnblogs.com/blog/1143853/202208/1143853-20220817143142581-267267330.svg)]

2.1 安装 Scrapy

在命令行模式下使用pip命令即可安装。

$ pip install scrapy

2.2 Scrapy 创建项目

第一步：创建一个scrapy项目

$ scrapy startproject mySpider

第二步：生成一个爬虫

$ cd mySpider
$ scrapy genspider tupian https://www.quanjing.com/

2.3 scrapy 命令

#1 查看帮助
scrapy -h
scrapy <command> -h

#2 有两种命令：其中Project-only必须切到项目文件夹下才能执行，而Global的命令则不需要
Global commands:
    startproject #创建项目
    genspider    #创建爬虫程序
    settings     #如果是在项目目录下，则得到的是该项目的配置
    runspider    #运行一个独立的python文件，不必创建项目
    shell        #scrapy shell url地址  在交互式调试，如选择器规则正确与否
    fetch        #独立于程单纯地爬取一个页面，可以拿到请求头
    view         #下载完毕后直接弹出浏览器，以此可以分辨出哪些数据是ajax请求
    version      #查看scrapy的版本

Project-only commands:
    crawl        #运行爬虫，必须创建项目才行，确保配置文件中ROBOTSTXT_OBEY = False
    check        #检测项目中有无语法错误
    list         #列出项目中所包含的爬虫名
    edit         #编辑器，一般不用
    parse        #scrapy parse url地址 --callback 回调函数
    bench        #scrapy bentch压力测试

#3 官网链接
    https://docs.scrapy.org/en/latest/topics/commands.html

2.4 生成文件详情

scrapy.cfg：项目的主配置信息，用来部署scrapy时使用，爬虫相关的配置信息在settings.py文件中。
items.py：设置数据存储模板，用于结构化数据，如：Django的Model
pipelines：数据处理行为，如：一般结构化的数据持久化
settings.py：配置文件。
spiders：爬虫目录，如：创建文件，编写爬虫规则

2.5 第一个 scrapy 爬虫程序

2.5.1 编辑 spider

import scrapy
from ..items import MyspiderItem

class TupianSpider(scrapy.Spider):
    # 定义爬虫名，scrapy会根据该值定位爬虫程序,所以它必须要有且必须唯一
    name = 'tupian'
    # 定义允许爬取的域名，如果OffsiteMiddleware启动（默认就启动），
    # 那么不属于该列表的域名及其子域名都不允许爬取
    allowed_domains = ['www.quanjing.com']
    # 如果没有指定url，就从该列表中读取url来生成第一个请求
    start_urls = ['https://www.quanjing.com/tupian/meinv.html']

    # 爬虫启动函数，必须定义成这个函数名称
    def parse(self, response):

        imgList = response.xpath('//*[@id="gallery-list"]/li')

        for item in imgList:

            imgSrcValue = item.xpath('./a/img/@src').get()

            yield MyspiderItem(img_url=imgSrcValue)

2.5.2 编辑 piplines

from itemadapter import ItemAdapter


class MyspiderPipeline:

    def process_item(self, item, spider):
        print(item)
        return item

2.5.3 编辑配置文件

# 设置日志的级别
LOG_LEVEL = "WARNING"

# 关闭 Robots.txt 协议
ROBOTSTXT_OBEY = False

# 开启 pipelines
ITEM_PIPELINES = {
   'mySpider.pipelines.MyspiderPipeline': 300,
}

from scrapy import cmdline

# 方法 1
cmdline.execute('scrapy crawl yourspidername'.split())

# 方法 2
sys.argv = ['scrapy', 'crawl', 'down_info_spider']
cmdline.execute()

三、Scrapy Spider

配套视频地址：https://www.wotiecity.com/system/course/MTc=?cid=93332355

总结 Spider 主要有三个作用，分别是：链接配置、抓取逻辑和解析逻辑。

Spider 的整个爬取循环过程如下：

以初始的 URL 初始化 Request ，并设置回调函数。当该 Request 成功请求并返回时， Response 生成并作为参数传给该回调函数。
在回调函数内分析返回的网页内容。返回结果有两种形式：
- 一种是解析到的有效结果返回字典或 Item 对象，它们可以经过处理后（或直接）保存
- 另一种是解析得到下一个（如下一页）链接，可以利用此链接构造 Request 并设置新的回调函数，返回 Request 等待后续调度
如果返回的是字典或 Item 对象，我们可通过 Feed Exports 等组件将返回结果存入到文件。如果设置了 Pipeline 的话，我们可以使用 Pipeline 处理（如过滤、修正等）并保存。
如果返回的是 Request ，那么 Request 执行成功得到 Response 之后， Response 会被传递给Request 中定义的回调函数，在回调函数中我们可以再次使用选择器来分析新得到的网页内容，并根据分析的数据生成 Item。

3.1 Spider 详细

Spider 继承自 scrapy.spiders.Spider。scrapy.spiders.Spider 这个类是最简单最基本的 Spider 类，其他 Spider 必须继承这个类。
scrapy.spiders.Spider 类提供了start_requests()方法的默认实现，读取并请求 start_urls 属性，并根据返回的结果调用 parse() 方法解析结果。

它有如下一些基础属性：

name：爬虫名称，是定义 Spider 名字的字符串。Spider 的名字定义了 Scrapy 如何定位并初始化 Spider ，它必须是唯一的。不过我们可以生成多个相同的 Spider 实例，数量没有限制。name 是 Spider 最重要的属性。 如果 Spider 爬取单个网站，一个常见的做法是以该网站的域名名称来命名 Spider。 例如， Spider 爬取 mywebsite.com ，该 Spider通常会被命名为 mywebsite。
allowed_domains：允许爬取的域名，是可选配置，不在此范围的链接不会被跟进爬取 。
start_urls：它是起始 URL 列表，当我们没有实现start_requests()方法时，默认会从这个列表开始抓取。
custom_settings：它是一个字典，是专属于本 Spider 的配置，此设置会覆盖项目全局的设置。此设置必须在初始化前被更新，必须定义成类变量。
```
不同爬虫pipeline设置
custom_settings = {
    'ITEM_PIPELINES': {
        'video.pipelines.VideoPipeline': 301,
    }
}
```
crawler：它是由 from_crawler() 方法设置的，代表的是本 Spider 类对应的 Crawler 对象。Crawler 对象包含了很多项目组件，利用它我们可以获取项目的一些配置信息，如最常见的获取项目的设置信息，即 Settings。
settings：它是一个 Settings 对象，利用它我们可以直接获取项目的全局设置变量 。

除了基础属性，Spider 还有一些常用的方法。

start_requests()：此方法用于生成初始请求，它必须返回一个可迭代对象，该方法可以被重写。此方法会默认使用 start_urls 里面的 URL 来构造 Request，而且 Request 默认是 GET 请求方式。如果我们想在启动时以 POST方式访问某个站点，可以直接重写这个方法，发送 POST请求时使用 FormRequest 即可。
parse(response)：当 Response 没有指定回调函数时，该方法会默认被调用 。它负责处理 Response 处理返回结果，并从中提取出想要的数据和下一步的请求，然后返回。该方法需要返回一个包含 Request 或 ltem的可迭代对象。
closed(reason)：当 Spider 关闭时，该方法会被调用，在这里一般会定义释放资源的一些操作或其他收尾操作。

import scrapy
from ..items import MyspiderItem

class TupianSpider(scrapy.Spider):
    # 定义爬虫名，scrapy会根据该值定位爬虫程序,所以它必须要有且必须唯一
    name = 'tupian'
    # 定义允许爬取的域名，如果OffsiteMiddleware启动（默认就启动），
    # 那么不属于该列表的域名及其子域名都不允许爬取
    allowed_domains = ['www.quanjing.com']
    # 如果没有指定url，就从该列表中读取url来生成第一个请求
    start_urls = ['https://www.quanjing.com/tupian/meinv.html']

    def start_requests(self):
        
        """
        开始请求之前的执行
        :return: 
        """
        print("我是开始")
        yield scrapy.Request(
            url=self.start_urls[0],
            callback=self.parse
        )


    # 爬虫启动函数，必须定义成这个函数名称
    def parse(self, response):
        
        """
        爬虫具体内容
        :param response: 
        :return: 
        """
        print("我是 parse")

        imgList = response.xpath('//*[@id="gallery-list"]/li')

        for item in imgList:

            imgSrcValue = item.xpath('./a/img/@src').get()

            yield MyspiderItem(img_url=imgSrcValue)

    def close(spider, reason):
        
        """
        结束时调用
        :param reason: 
        :return: 
        """
        print("关闭")
        return None

3.2 spider常用的方法

3.2.1 解析常用的几个方法

我们可以通过 scrapy.selector.unified.SelectorList 对象来查找get()、getall()、extract()、extract_first()、**re.first()**的如何使用。

extract()方法：获取的是一个列表内容

    def parse(self, response):

        """
        爬虫具体内容
        :param response:
        :return:
        """
        imgList = response.xpath('//*[@id="gallery-list"]/li').extract()
        print(imgList)

extract_first()方法：返回列表的第一个内容，也就是extract()列表的第一个元素

    def parse(self, response):

        """
        爬虫具体内容
        :param response:
        :return:
        """
        imgList = response.xpath('//*[@id="gallery-list"]/li').extract_first()
        print(imgList)

getall()方法：返回所有的元素

imgList = response.xpath('//*[@id="gallery-list"]/li').extract_first()
print(imgList)

get()方法：返回第一个元素，是str类型数据

    def parse(self, response):

        """
        爬虫具体内容
        :param response:
        :return:
        """
        imgList = response.xpath('//*[@id="gallery-list"]/li').get()
        print(imgList)

re()方法：正则的使用。返回所以的满足条件，结果是列表类型

def parse(self, response):

    """
        爬虫具体内容
        :param response:
        :return:
        """
    imgList = response.xpath('//*[@id="gallery-list"]/li').re("\d+")
    print(imgList)

re_first()方法：正则使用，返回的是满足条件第一个元素

def parse(self, response):

    """
        爬虫具体内容
        :param response:
        :return:
        """
    imgList = response.xpath('//*[@id="gallery-list"]/li').re_first("\d+")
    print(imgList)

3.2.2 response 常用的几个方法

常见的几个 response 方法。

response.body.decode(“utf-8”)：返回 HTML 并设置字符集编码

response.body：以 bytes 类型返回请求的 HTML 。

response.url：返回 URL

print(response.url)

response.urljoin(“dsadasd”)：返回 URL 拼接后的结果

print(response.urljoin("dsadasd"))

response.encoding：返回请求状态码

四、Scrapy Pipline

当 Item 在 Spider 中被收集之后，就会被传递到 Item Pipeline 中进行处理。

每个 item pipeline 组件是实现了简单的方法的 python 类，负责接收到 item 并通过它执行一些行为，同时也决定此 Item 是否继续通过 pipeline ,或者被丢弃而不再进行处理。

item pipeline 的主要作用：清理html数据、验证爬取的数据、去重并丢弃和保存数据。

每个pipeline组件是一个独立的 pyhton 类，必须实现以process_item(self, item,spider) 方法。

每个item pipeline组件都需要调用该方法，这个方法必须返回一个具有数据的 dict,或者 item对象，或者抛出 DropItem 异常，被丢弃的 item 将不会被之后的 pipeline 组件所处理。

注意：如果要使用哪一个 pipeline ，必须在配置文件中配置 ITEM_PIPELINES。

4.1 pipeline 中的函数

scrapy pipeline 中主要的函数有 open_spider(self,spider)、close_spider(self,spider)和from_crawler(cls,crawler)。

4.1.1 process_item(self, item, spider)

表示当 spider 被开启的时候调用的主方法。

class MyspiderPipeline:

    def process_item(self, item, spider):
        print(item)
        return item

其中，item 参数是 spider 返回的数据。

spider 是调用该管道的 spider。

4.1.2 close_spider(self,spider)

当 spider 结束的时候这个方法被调用。

class MyspiderPipeline:

    def process_item(self, item, spider):
        print(type(spider))
        return item

    def close_spider(self, spider):
        print("结束时调用！")

4.1.3 open_spider(self,spider)

表示当 spider 被开启的时候调用这个方法。

def open_spider(self, spider):
    print("开始时调用")

4.1.4 from_crawler(cls,crawler)

获取参数。

@classmethod
def from_crawler(cls, crawler):
    log_level = crawler.settings.get('LOG_LEVEL')
    # FIXME: for now, stats are only supported from this constructor
    return cls(log_level)

def __init__(self, log_level):
    self.log_level = log_level

但是，scrapy 还提供一个新的获取配置的方法。

from scrapy.utils.project import get_project_settings
settings = get_project_settings()
print(settings.get('LOG_LEVEL'))

4.2 scrapy 自带的 pipeline

scrapy 默认携带了很多常用的中间件。下面我们来跟大家介绍几个常用的自带中间件。

4.2.1 FilesPipeline

文件下载中间件。

注意：使用 ImagesPipeline 首先定义存储文件的路径，所以需要定义一个FILES_STORE变量，在settings.py中添加如下代码：

FILES_STORE = "./quanjing/"

1. get_media_requests

设置下载文件时的请求头，并返回一个 request 对象。

def get_media_requests(self, item, info):
    
    """
        设置下载文件时的请求头， 返回一个 request 对象
        :param item:
        :param info:
        :return:
        """
    yield scrapy.Request(item['img_url'], meta={'Referer': item['img_url']})

2. file_path

设置下载文件的名称。

def file_path(self, request, response=None, info=None, *, item=None):

    """
        设置下载路径
        :param request:
        :param response:
        :param info:
        :param item:
        :return:
        """
    return request.url.split("@")[0].split("/")[-1]

4.2.2 ImagesPipeline

图片下载管道。

注意：使用 ImagesPipeline 首先定义存储文件的路径，所以需要定义一个IMAGES_STORE变量，在settings.py中添加如下代码：

IMAGES_STORE = './images'

1. get_media_requests

设置下载文件时的请求头，并返回一个 request 对象。

def get_media_requests(self, item, info):
    """
        设置下载文件时的请求头， 返回一个 request 对象
        :param item:
        :param info:
        :return:
        """

    yield scrapy.Request(item['img_url'], meta={'Referer': item['img_url']})

2. file_path

设置下载文件的名称。

def file_path(self, request, response=None, info=None, *, item=None):
    """
        设置下载路径
        :param request:
        :param response:
        :param info:
        :param item:
        :return:
        """
    return request.url.split("@")[0].split("/")[-1]

3. item_completed

当下载结束之后调用。

def item_completed(self, results, item, info):

    """
        当下载文件结束之后调用
        :param results:
        :param item:
        :param info:
        :return:
        """
    image_path = []
    error_path = []
    for ok, x in results:
        if ok:
            image_path.append(x)
        else:
            error_path.append(x)
            print(error_path)
            print(image_path)
            return item


# []
# [{'url': 'https://pic.quanjing.com/9e/57/QJ6173385556.jpg@!350h', 'path': 'QJ6173385556.jpg', 'checksum': 'e5af2c0cf607b968c1e7eec24e4934ac', 'status': 'uptodate'}]

五、scrapy 中间件

scrapy 中间件是 scrapy框架的重要组成部分，主要分为两大种类，分别是：下载器中间件（DownloaderMiddleware）和爬虫中间件（SpiderMiddleware）。

引擎（engine）将 request 对象交给下载器之前，会经过下载器中间件；并且 scrapy 是支持同时使用多个中间件的。多个中间件之间遵循先进后出的原理。

5.1 下载中间件（`DownloaderMiddleware`）

位于 Scrapy 引擎和下载器之间，主要用来处理从 EGINE 传到 DOWLOADER 的请求 request 和已经从 DOWNLOADER 传到 EGINE 的响应 response。在这个过程中你可用该中间件做以下几件事，分别是：添加ip代理、添加cookie、添加UA 和 请求重试 等。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ELGtKXDe-1661835244721)(https://img2022.cnblogs.com/blog/1143853/202208/1143853-20220817143557712-1145024781.svg)]

在下载中间件中，主要包含了 process_request(request, spider)、process_response(request, response, spider) 和 **process_exception(request, exception, spider)**三个函数。

5.1.1 process_request(request, spider)

当每个request通过下载中间件时，该方法被调用。process_request() 必须返回其中之一: 返回 None 、返回一个 Response 对象、返回一个 Request 对象或raise IgnoreRequest 。

返回 None 时，，Scrapy 将继续处理该 request，执行其他的中间件的相应方法，直到合适的下载器处理函数 (download handler) 被调用，该request被执行(其response被下载)。
如果其返回 Response 对象，Scrapy将不会调用任何其他的 process_request() 或 process_exception() 方法，或相应地下载函数；其将返回该response。已安装的中间件的 process_response() 方法则会在每个response返回时被调用。
如果其返回 Request 对象，Scrapy 则停止调用 process_request 方法并重新调度返回的 request。当新返回的 request 被执行后，相应地中间件链将会根据下载的 response 被调用。
如果其 raise 一个 IgnoreRequest 异常，则安装的下载中间件的 process_exception() 方法会被调用。如果没有任何一个方法处理该异常，则 request 的 errback(Request.errback) 方法会被调用。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)。

5.1.2 process_response(request, response, spider)

当下载器完成HTTP请求，传递响应给引擎的时候调用，它会返回 Response、Request、IgnoreRequest三种对象的一种。

若返回 Response 对象，它会被下个中间件中的 process_response() 处理
若返回 Request 对象，中间链停止，然后返回的 Request 会被重新调度下载
抛出 IgnoreRequest，回调函数 Request.errback 将会被调用处理，若没处理，将会忽略

5.1.3 process_exception(request, exception, spider)

当下载处理器 (download handler) 或 process_request() 抛出异常(包括 IgnoreRequest 异常)时， Scrapy 调用 process_exception() ，通常返回 None，它会一直处理异常

5.1.3 下载图片案例

tupian.py

import scrapy
from ..items import MyspiderItem

class TupianSpider(scrapy.Spider):
    # 定义爬虫名，scrapy会根据该值定位爬虫程序,所以它必须要有且必须唯一
    name = 'tupian'
    # 定义允许爬取的域名，如果OffsiteMiddleware启动（默认就启动），
    # 那么不属于该列表的域名及其子域名都不允许爬取
    allowed_domains = ['www.quanjing.com', 'pic.quanjing.com']
    # 如果没有指定url，就从该列表中读取url来生成第一个请求
    start_urls = ['https://www.quanjing.com/tupian/meinv.html']

    # 爬虫启动函数，必须定义成这个函数名称
    def parse(self, response):

        """
        爬虫具体内容
        :param response:
        :return:
        """

        imgList = response.xpath('//*[@id="gallery-list"]/li')

        ua_header = {
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
            'Accept-Language': 'zh-CN,zh;q=0.9',
            "Referer": "https://www.quanjing.com/"
        }

        for item in imgList:

            imgSrcValue = item.xpath('./a/img/@src').extract_first()

            yield scrapy.Request(
                url=imgSrcValue,
                callback=self.parse_detail,
                headers=ua_header,
                meta={ "img_url": imgSrcValue }
            )


    def parse_detail(self, response):

        """
        图片详情
        :param response: 
        :return: 
        """

        item = MyspiderItem()
        item['img_url'] = response.meta['img_url']
        item['img_body'] = response.body

        yield item

item.py

import scrapy

class MyspiderItem(scrapy.Item):
    # define the fields for your item here like:
    img_url = scrapy.Field()
    img_body = scrapy.Field()

pipeline.py

class MyspiderPipeline:

    def process_item(self, item, spider):
        settings = get_project_settings()

        with open(settings['IMAGES_STORE'] + item['img_url'].split("@")[0].split("/")[-1], 'wb') as f:
            f.write(item['img_body'])

        return item

setting.py

IMAGES_STORE = "./quanjing/"

5.2 scrapy 爬虫（spider）中间件

spider 中间件是一个与 Scrapy 的 spider 处理机制挂钩的框架，您可以在其中插入自定义功能来处理发送给spider进行处理的响应，并处理从 spider 生成的请求和项目。

5.2.1 激活 Spider 中间件

要激活蜘蛛中间件组件，请将其添加到 SPIDER_MIDDLEWARES设置中，这是一个 dict，其键是中间件类路径，它们的值是中间件顺序。

SPIDER_MIDDLEWARES = {
   'mySpider.middlewares.MyspiderSpiderMiddleware': 543,
}

5.2.2 Spider 中间件

spider 中间件主要是作用于引擎和调度器之间的。

from_crawler：类方法，用于初始化中间件
process_spider_input：当 response 通过 spider 中间件时，该方法被调用，处理该 response
process_spider_output：当 Spider 处理 response 返回 result 时，该方法被调用
process_spider_exception：异常时，该方法被调用
process_start_requests：该方法以 spider 启动的 request 为参数被调用，执行的过程类似于
process_spider_outpu ，只不过其没有相关联的 response 并且必须返回 request(不是item)。

调用顺序为：from_crawler --> spider_opened --> process_start_requests --> process_spider_input --> process_spider_output。

5.3 Scrapy 自带中间件

scrapy 默认自带了一部分常用的中间件。下面我们举几个案例介绍一些 Scrapy 自带的中间件。

5.3.1 HttpProxyMiddleware 代理中间件

middlewares.py

class RequestProxyMiddleware(HttpProxyMiddleware):

    def process_request(self, request, spider):
        settings = get_project_settings()
        self.proxies = settings.get("HTTP_PROXY")

        request.meta["proxy"] = random.choice(self.proxies)

        return None

settings.py

DOWNLOADER_MIDDLEWARES = {
   'mySpider.middlewares.RequestProxyMiddleware': 544
}
HTTP_PROXY = {
   "47.92.113.71:80",
   "59.124.224.205:3128",
   "118.163.13.200:8080",
   "47.57.188.208:80",
   "59.124.224.205:3128",
   "59.124.224.205:3128",
   "59.124.224.205:3128",
   "112.250.107.37:53281",
   "59.124.224.205:3128",
   "47.92.113.71:80",
   "59.124.224.205:3128"
}

六、CrawlSpider全站数据抓取

CrawlSpider 其实是 Spider 的一个子类，除了继承到 Spider 的特性和功能外，还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是 ”LinkExtractors链接提取器“。Spider 是所有爬虫的基类，其设计原则只是为了爬取 start_url 列表中网页，而从爬取到的网页中提取出的 url 进行继续的爬取工作使用 CrawlSpider 更合适。

6.1 创建 CrawSpider 项目

$ scrapy startproject crawSpiderProject
$ cd crawSpiderProject
$ scrapy genspider -t crawl netbian pic.netbian.com

6.2 参数说明

allow：接收一个正则表达式或一个正则表达式列表，提取绝对url于正则表达式匹配的链接，如果该参数为空，默认全部提取。
deny：接收一个正则表达式或一个正则表达式列表，与allow相反，排除绝对url于正则表达式匹配的链接，换句话说，就是凡是跟正则表达式能匹配上的全部不提取。
allow_domains：接收一个域名或一个域名列表，提取到指定域的链接。
deny_domains：和allow_doains相反，拒绝一个域名或一个域名列表，提取除被deny掉的所有匹配url。
deny_extensions：拒绝一个后缀。
restrict_xpaths：接收一个xpath表达式或一个xpath表达式列表，提取xpath表达式选中区域下的链接。
restrict_css：这参数和restrict_xpaths参数经常能用到，所以同学必须掌握
tags：接收一个标签（字符串）或一个标签列表，提取指定标签内的链接，默认为tags=（‘a’，‘area’）
attrs：接收一个属性（字符串）或者一个属性列表，提取指定的属性内的链接，默认为attrs=（‘href’，），示例，按照这个中提取方法的话，这个页面上的某些标签的属性都会被提取出来，如下例所示，这个页面的a标签的href属性值都被提取到了
process_value (callable) ：它接收来自扫描标签和属性提取每个值, 可以修改该值, 并返回一个新的, 或返回 None 完全忽略链接的功能｡如果没有给出, process_value 默认是 lambda x: x｡
cononicalize=(boolean) 规范化每个提取的url（使用w3lib.url.canonicalize_url）。默认为True。
unique=(boolean) 是否应对提取的链接应用重复过滤。

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class CrawlquanjingSpider(CrawlSpider):
    name = 'crawlquanjing'
    allowed_domains = ['so.gushiwen.cn']
    start_urls = ['https://so.gushiwen.cn/guwen/default.aspx?p=1']

    # 需求：
    # 爬取所有的图片
    # follow : 是否将该规则作用于 response
    # 1 2 3 4 5 ... 77 78 79         5    3 4 5 6  ... 77 78 79
    # 1 2 3 4 5 77 78 79   6 ~ 76
    rules = (
        # 列表页 规则
        # Rule(LinkExtractor(allow=r'https://movie.douban.com/subject/\d+/'), callback='parse_item'),
        # # 下一页 规则
        Rule(LinkExtractor(allow=r'/guwen/default.aspx\?p=\d+',
                           deny_extensions=['xxx'],
                           deny=r'/user/\w+\.aspx'),
             follow=True, callback='parse_item'),
    )

    def parse_item(self, response, **kwargs):
        # 只需要出来结果，不需要处理请求
        print(response.url)
        item = {}
        # item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
        # item['name'] = response.xpath('//div[@id="name"]').get()
        # item['description'] = response.xpath('//div[@id="description"]').get()
        return item

七、分布式爬虫

搭建一个分布式的集群，让其对一组资源进行分布联合爬取，提升爬取效率。

pip install scrapy-redis

7.1 scrapy框架是否可以自己实现分布式？

不可以！！！

其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）
其二：多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久化存储。（多台机器无法共享同一个管道）

7.2 基于scrapy-redis组件的分布式爬虫

scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道，我们可以直接使用并实现分布式数据爬取。

实现方式：
- 基于该组件的RedisSpider类
- 基于该组件的RedisCrawlSpider类

7.3 分布式实现流程

上述两种不同方式的分布式实现流程是统一的

1.下载 scrapy-redis 组件

pip install scrapy-redis

2. redis 配置文件的配置

- linux或者mac：redis.conf
- windows:redis.windows.conf
修改
- 注释该行：bind 127.0.0.1，表示可以让其他ip访问redis

- 将yes改为no： protected-mode no，表示可以让其他ip操作redis

3. 修改爬虫文件中的相关代码

将爬虫类的父类修改成基于RedisSpider或者RedisCrawlSpider。

注意：如果原始爬虫文件是基于Spider的，则应该将父类修改成RedisSpider，如果原始爬虫文件是基于CrawlSpider的，则应该将其父类修改成RedisCrawlSpider。

注释或者删除start_urls列表，且加入redis_key属性，属性值为scrpy-redis组件中调度器队列的名称

4. 在配置文件中进行相关配置，开启使用scrapy-redis组件中封装好的管道

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400
}

5. 在配置文件（setting）中进行相关配置，开启使用scrapy-redis组件中封装好的调度器

# 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化
 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
 # 使用scrapy-redis组件自己的调度器
 SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据
 SCHEDULER_PERSIST = True

6. 在配置文件中进行爬虫程序链接redis的配置

REDIS_HOST = 'redis服务的ip地址'
REDIS_PORT = 6379
REDIS_ENCODING ='utf-8'
REDIS_PARAMS = {'password':'xx'}

7. 运行爬虫文件：scrapy runspider SpiderFile(x.py)

scrapy runspider xxx.py

8.向调度器队列中扔入一个起始url（在redis客户端中操作）：lpush redis_key属性值起始url

八、布隆过滤器

pip install scrapy-redis-bloomfilter

# 替换scrapy_redis的去重类
DUPEFILTER_CLASS = "scrapy_redis_bloomfilter.dupefilter.RFPDupeFilter"

# 替换原来的请求调度器的实现类，使用 scrapy-redis 中请求调度器
SCHEDULER = "scrapy_redis_bloomfilter.scheduler.Scheduler"

# 设置布隆过滤器散列函数的个数，默认为6，可以自行修改
BLOOMFILTER_HASH_NUMBER = 6

# Bloom Filter的bit参数，默认30，占用128MB空间，可存储数据量级1亿
# BLOOMFILTER_BIT决定了位图的位数。如果BLOOMFILTER_BIT为30，那么位数组位数为2的30次方，这将占用Redis 128 MB的存储空间，去重量级在1亿左右。
BLOOMFILTER_BIT = 30

配套视频地址：https://www.wotiecity.com/system/course/MTc=?cid=93332355

你可能感兴趣的:(python,python,爬虫,scrapy)

python random模块中seed函数的详解_详解Python基础random模块随机数的生成 Fccf python
随机数参与的应用场景大家一定不会陌生，比如密码加盐时会在原密码上关联一串随机数，蒙特卡洛算法会通过随机数采样等等。Python内置的random模块提供了生成随机数的方法，使用这些方法时需要导入random模块。importrandom下面介绍下Python内置的random模块的几种生成随机数的方法。1、random.random()随机生成0到1之间的浮点数[0.0,1.0)。print("r
python随机密码生成以整数17为随机数种子_Python 随机数 random weixin_39908082
1.Pythonseed()函数seed()方法改变随机数生成器的种子，可以在调用其他随机模块函数之前调用此函数。seed()是不能直接访问的，需要导入random模块，然后通过random静态对象调用该方法。如：importrandomrandom.seed([x])其中的参数：x是改变随机数生成器的种子seed。如果不了解其原理，不必特别去设定seed，Python会自动选择seed。该函数没
python随机数种子通俗_随机数种子random.seed()理解 weixin_39754267 python随机数种子通俗
总结：若采用random.random()，每次都按照一定的序列(默认的某一个参数)生成不同的随机数。若采用随机数种子random.seed(100)，它将在所设置的种子100范围内调用random()模块生成随机数，如果再次启动random.seed(100)，它则按照之前的序列从头开始生成随机数，两次生成的随机序列相同。若采用random.seed()，它则按照默认的一个序列生成随机数。程序演
Python Twisted weixin_33946605 网络运维 python
Twsited异步网络框架Twisted是一个事件驱动的网络框架，其中包含了诸多功能，例如：网络协议、线程、数据库管理、网络操作、电子邮件等。事件驱动简而言之，事件驱动分为二个部分：第一，注册事件；第二，触发事件。例：程序一#!/usr/bin/envpython#-*-coding:utf-8-*-#event_drive.pyevent_list=[]defrun(): foreventin
django开发-django和tornado的不同 weixin_33693070 数据库网络 javascript ViewUI
python中常用的几个web框架有django,tornado,flask等，今天来总结一下django和tornado的不同。工作中django和tornado都用过，使用django相对更多一些。个人感觉django虽然好用，有搭建项目快、自带ORM、自动生成路由、自带管理后台等优势；但若实际工作中选择，我还是会偏向于使用tornado框架，因为torndo使用更加灵活，并且支持websoc
python twisted和flask_浅谈Python Web 框架：Django, Twisted, Tornado, Flask, Cyclone 和 Pyramid... 冯妥坨 python twisted和flask
Django是一个高级的PythonWeb框架，支持快速开发，简洁、实用的设计。如果你正在建一个和电子商务网站相似的应用，那你应该选择用Django框架。它能使你快速完成工作，也不必担心太多的技术选择。它能提供从模版引擎到ORM所需的一切东西。用Django构建你的app的时候，你必须要遵循Django的方式，这点像极了RubyonRails的Rails框架。有些人会觉得这样有点不爽，但在我看来这
介绍两个Python web框架：Django & Tornado weixin_30879169 python 数据库前端 ViewUI
在各种语言平台中，python涌现的web框架恐怕是最多的；猜想原因应该是在py中构造框架十分简单，使得轮子不断被发明。这里记述一下我了解过的两个pyweb框架，供大家参考，希望能起他山之石的作用。======Django======Django应该是最出名的py框架，GoogleAppEngine甚至Erlang都有框架受它影响。Django是走大而全的方向，它最出名的是其全自动化的管理后台：只
如何用Python实现流式下载，节省内存还带进度条！ python
引言本篇文章来分享一下如何使用Requests下载文件并且显示进度条。下载文件说到下载文件，大家可能一下子就能写出以下的代码：importrequeststotal=10485url=f'https://speed.cloudflare.com/__down?during=download&bytes={total}'#上面的URL是cloudflare的测试链接，可以传入想要下载的长度res=r
WebRover ：一个功能强大的 Python 库，用于从 Web 内容生成高质量的数据集。数据集
2024-11-30，由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型（LLM）和人工智能应用的训练提供丰富的数据资源。数据集地址：WebRoverDataset|自然语言处理数据集|AI模型训练数据集一、让我们一起来看一下WebRoverWebRover通过智能网络爬虫技术，自动从网络中提取与特定主题相关的内容，并支持多种输入格式，如JS
《CPython Internals》阅读笔记：p329-p335 python
《CPythonInternals》学习第16天，p329-p335总结，总计7页。一、技术总结1.debuggingp331,Therearetwotypesofdebugger,consoleandvisual——作者将debugger分为两类：(1)console：lldb(MAC系统使用),GDB(Linux系统使用))。(2)visual：VisualStudioDebugger,CLi
【机器学习实战入门】使用OpenCV进行性别和年龄检测精通代码大仙数据挖掘深度学习 python 机器学习 python opencv 数据挖掘人工智能
GenderandAgeDetectionPython项目首先，向您介绍用于此高级Python项目的性别和年龄检测中的术语：什么是计算机视觉？计算机视觉是一门让计算机能够像人类一样观察和识别数字图像和视频的学科。它面临的挑战大多源于对生物视觉有限的了解。计算机视觉涉及获取、处理、分析和理解数字图像，旨在从现实世界中提取高维数据，从而生成可用来做决策的符号或数值信息。该过程通常包括物体识别、视频跟踪
python 随机数随机种子 AI算法网奇 python宝典 python 开发语言后端
目录神经网络推理随机种子gpu新版：神经网络推理随机种子gpu：神经网络推理随机种子含npu：numpy.full创建相同矩阵python生成n个随机整数python随机数种子，每次获取相同的随机数随机在区间M内取不重复的N个随机数取一个范围内均匀不重复的随机数神经网络推理随机种子gpu新版：defset_random_seed(seed):"""Setrandomseeds."""random.
软件测试学习笔记丨Pytest的使用霍格沃兹测试开发学社测试人社区学习笔记 pytest 软件测试测试开发
本文转自测试人社区，原文链接：https://ceshiren.com/t/topic/221581.简介pytest是一个成熟的全功能python测试框架测试用例的skip和xfail，自动失败重试等处理能够支持简单的单元测试和复杂的功能测试，还可以用来做selenium/appnium等自动化测试，接口自动化测试pytest有很多第三方插件，并且可以自定义扩展，如pytest-allure（完
Python基础入门之随机数种子(seed)方法的使用我的小星星 python 前端 linux Python
随机数在编程中经常被用到，而在Python中，我们可以使用random模块来生成随机数。然而，有时候我们需要控制随机数的生成过程，使得每次运行程序时得到的随机数序列是可重复的。这时，就可以使用随机数种子(seed)方法来实现这个目的。随机数种子是一个整数值，它作为随机数生成算法的起始输入值。当使用相同的种子值时，每次生成的随机数序列都是相同的。这对于调试程序和复现实验结果非常有用。在Python中
网络爬虫~ rzydal 爬虫
简介网络爬虫，也被称为网页蜘蛛、网络机器人、网页抓取器或网页追逐者，是一种自动化程序或脚本。以下是对网络爬虫的详细介绍一、定义与工作原理网络爬虫按照一定的规则自动地抓取万维网上的信息。它模拟人类用户在网页上的行为，通过发送HTTP请求获取网页内容，并解析网页内容以提取所需信息。通常，网络爬虫从一个或多个种子URL开始，逐步抓取网页中的链接，并递归地访问这些链接，直到满足某个条件（如达到一定的抓取深
[OpenAI Codex] Evaluating Large Language Models Trained on Code ShadyPi 自然语言处理 AIGC 语言模型人工智能自然语言处理
Linkofpaper:https://arxiv.org/abs/2107.03374.EvaluatingLargeLanguageModelsTrainedonCodeIntroductionCodexisaGPT-basedmodelfine-tunedonpubliccodefromGitHub,towritePythoncode.(Butcopilot,adistinctversion
2025届-2026届计算机专业毕业设计选题指南推荐—解答选题困惑以及三大选题方向 IT跃迁谷毕设展 Python实战项目专栏 Java实战项目专栏大数据实战项目专栏计算机毕业设计课程设计毕设毕业设计 java python 大数据
作者：IT跃迁谷毕设展个人简介：曾长期从事计算机专业培训教学，本人也热爱上课教学，语言擅长Java、微信小程序、Python、Golang、安卓Android等。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。平常喜欢分享一些自己开发中遇到的问题的解决办法，也喜欢交流技术，大家有技术代码这一块的问题可以问我！想说的话：感谢大家的关注与支持！Java实战项目集微信小
初学python爬虫，爬取“豆瓣电影 Top 250”相关信息，并下载电影封面 ~柠月如风~ Python 爬虫 python 爬虫正则表达式
文章目录注：一、爬取“豆瓣电影Top250”相关信息：1、准备工作2、获取数据补充：urllib3、标签解析补充：BeautifulSoup4和re4、保存数据补充：xlwt附：爬取“豆瓣电影Top250”相关信息的完整代码：二、爬取/下载top250电影对应的封面效果展示附：下载电影封面的完整代码：注：所学的视频教程：B站Python爬虫基础5天速成（2021全新合集）Python入门+数据可视
python-with...as--管理上下文环境的语法结构赵钱孙李的赵 python
在Python中，with…as语句是一种用于管理上下文环境的语法结构，常用于处理资源的获取和释放，如文件操作、网络连接、锁定互斥等。它通过上下文管理协议（contextmanagementprotocol）来确保资源的正确使用和释放，即使在处理过程中出现了异常。在Python中，任何实现了上下文管理协议的对象都可以用作with…as语句中的上下文管理器。上下文管理协议要求对象实现两个特殊方法：e
python--对象存储服务器赵钱孙李的赵 python学习记录者 python 服务器开发语言
目录对象存储服务器定义概念普及对象（Object）桶（Bucket）终端节点（Endpoint）访问域名知名的对象存储服务器提供商微软云Azure：MicrosoftAzureBlobStorage华为云OBS:阿里云OSS:腾讯云COSMinIO:AmazonS3(SimpleStorageService)GoogleCloudStorageIBMCloudObjectStorage具体代码使用
python--数据结构赵钱孙李的赵 python学习记录者 python
1.list列表1.1特点有序：列表按照插入顺序排列。可变：可以添加，删除或者修改列表中的元素。异构：包含不同类型的数据。可重复：可迭代对象：可以使用迭代器协议来遍历列表中的元素，列表支持两种基本的迭代方法：for循环和迭代器协议。ps:迭代器协议要求对象实现两个特殊方法：iter()：返回一个迭代器对象next()：返回迭代器中的下一个值，如果没有更多值时，它会抛出StopIteration异常
Python 初始化方法钢铁男儿 Python
1、初始化方法1.1之前代码存在的问题----在类的外部给对象增加属性将案例代码进行调整，先调用方法再设置属性，观察一下执行效果。提示：在日常开发中，不推荐在类的外部给对象增加属性；如果在运行时，没有找到属性，程序会报错；对象应该包含有哪些属性，应该封装在类的内部；1.2初始化方法当使用**类名（）**创建对象时，会自动执行以下操作：1）、为对象在内存中分配空间—创建对象；2）、为对象的属性设置初
小波变换Python代码优游的鱼
小波变换是一种数字信号处理技术，用于对信号进行频域分析和处理。它通常用于信号压缩、滤波和其他信号处理应用中。在Python中，可以使用PyWavelets库来实现小波变换。下面是一个简单的例子，展示了如何使用PyWavelets库对信号进行小波变换：importpywtimportnumpyasnp#定义信号signal=np.random.rand(32)#进行小波变换wavelet='db1'
Python进阶篇 AI天才研究院 Python实战深度学习实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介什么是Python？Python是一种高级编程语言，它的设计理念强调代码可读性、简洁性和可扩展性。其语法简洁而清晰，它支持多种编程范式，包括面向对象的、命令式、函数式编程等。Python被认为是“胶水语言”——能够把许多编程语言连接起来并提供一个统一的接口，用以实现各种功能。为什么要学习Python？首先，Python是一种简单易学、功能丰富的语言。在很多情况下
网络爬虫技术如何影响网络安全的 silver687 爬虫
网络爬虫技术对网络安全的影响是多方面的，既有积极的一面，也有消极的一面。以下是具体分析：积极影响1.网络安全监测与漏洞发现网络爬虫可以被用于网络安全监测，帮助企业和机构发现网站或网络系统中的漏洞和安全隐患。例如，通过爬取网站内容，检测是否存在SQL注入、XSS攻击等潜在漏洞。2.威胁情报收集爬虫技术可用于收集网络上的威胁情报，帮助安全研究人员了解最新的攻击手段、恶意软件传播路径等，从而提前做好防御
初始化一个python项目 joker云 python 开发语言
初始化一个Python项目通常涉及以下步骤：选择项目名称：选择一个描述性的名称来代表你的项目。创建项目目录：在你的工作空间中创建一个新目录。设置虚拟环境：使用虚拟环境可以隔离项目依赖，避免不同项目之间的依赖冲突。编写代码：在项目目录中创建Python脚本。管理依赖：使用requirements.txt或Pipfile来管理项目依赖。配置项目：创建setup.py或pyproject.toml文件来
python里的初始化使用将将_毛团尾巴 python 开发语言 pytest
比如我们在函数B想要调用函数A，可以使用调用函数A的函数名，然后得到函数A的return值但是如果调用函数A需要传入参数才能运行，或者不想再去调用整个函数A获取值，此时可以将需要调用的参数初始化，变成全局参数，这样就不需要再次运行函数A，并且不仅仅只能调用得到一个return值（一个函数只能有一个return，且只能return一个变量值）1、普通类里面的初始化使用_init_def__init_
python小波变换万元神万得 python
def extract_wavelet_features(data, column_name='声波强度 (AE)', scales=np.arange(1, 4), wavelet='cmor'): emr_values = data[column_name].values coefficients, frequencies = pywt.cwt(emr_values, scales
人工智能学习（一）之python入门 power-辰南大模型算法实战工程 python 数据库前端
一、引言在当今的软件开发领域，面向对象编程（Object-OrientedProgramming，OOP）已经成为一种主流的编程范式。Python作为一门功能强大且简洁易读的编程语言，对面向对象编程提供了非常完善的支持。无论是开发大型项目、构建数据科学应用，还是进行自动化脚本编写，理解和掌握Python面向对象编程都能让你更高效地完成任务。本文将带你快速入门Python面向对象编程，通过清晰的概念
保姆级讲解 python之enumerate()方法，包教包会查理零世 python 开发语言
目录引入find()基本用法进入正题enumerate()基本用法使用enumerate()遍历列表并打印索引和值可以使用自定义起始索引实战演练总结引入在Python中，find()方法主要用于字符串操作，用于查找子字符串在字符串中的位置。它返回的是子字符串第一次出现的索引位置，如果找不到则返回-1。需要注意的是，find()是字符串的方法，而不是列表或数组的方法。那数组怎么办？当然是今天要介绍的
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

Python逆向爬虫之scrapy框架,非常详细

文章目录

Python逆向爬虫之scrapy框架,非常详细

一、爬虫入门

1.1 定义需求

1.2 需求分析

1.2.1 下载某个页面上所有的图片

1.2.2 分页

1.2.3 进行下载图片

二、Scrapy 入门

2.1 安装 Scrapy

2.2 Scrapy 创建项目

2.3 scrapy 命令

2.4 生成文件详情

2.5 第一个 scrapy 爬虫程序

2.5.1 编辑 spider

2.5.2 编辑 piplines

2.5.3 编辑配置文件

三、Scrapy Spider

3.1 Spider 详细

3.2 spider常用的方法

3.2.1 解析常用的几个方法

3.2.2 response 常用的几个方法

四、Scrapy Pipline

4.1 pipeline 中的函数

4.1.1 process_item(self, item, spider)

4.1.2 close_spider(self,spider)

4.1.3 open_spider(self,spider)

4.1.4 from_crawler(cls,crawler)

4.2 scrapy 自带的 pipeline

4.2.1 FilesPipeline

1. get_media_requests

2. file_path

4.2.2 ImagesPipeline

1. get_media_requests

2. file_path

3. item_completed

五、scrapy 中间件

5.1 下载中间件（DownloaderMiddleware）

5.1.1 process_request(request, spider)

5.1.2 process_response(request, response, spider)

5.1.3 process_exception(request, exception, spider)

5.1.3 下载图片案例

5.2 scrapy 爬虫（spider）中间件

5.2.1 激活 Spider 中间件

5.2.2 Spider 中间件

5.3 Scrapy 自带中间件

5.3.1 HttpProxyMiddleware 代理中间件

六、CrawlSpider全站数据抓取

6.1 创建 CrawSpider 项目

6.2 参数说明

七、分布式爬虫

7.1 scrapy框架是否可以自己实现分布式？

7.2 基于scrapy-redis组件的分布式爬虫

7.3 分布式实现流程

1.下载 scrapy-redis 组件

2. redis 配置文件的配置

3. 修改爬虫文件中的相关代码

4. 在配置文件中进行相关配置，开启使用scrapy-redis组件中封装好的管道

5. 在配置文件（setting）中进行相关配置，开启使用scrapy-redis组件中封装好的调度器

6. 在配置文件中进行爬虫程序链接redis的配置

7. 运行爬虫文件：scrapy runspider SpiderFile(x.py)

8.向调度器队列中扔入一个起始url（在redis客户端中操作）：lpush redis_key属性值 起始url

八、布隆过滤器

你可能感兴趣的:(python,python,爬虫,scrapy)

5.1 下载中间件（`DownloaderMiddleware`）

8.向调度器队列中扔入一个起始url（在redis客户端中操作）：lpush redis_key属性值起始url