简说Python

详解布隆过滤器+scrapyredis持久化去重

点击“简说Python”，选择“星标公众号”

福利干货，第一时间送达！

@图片自制byunsplash

简书博客地址： https://www.jianshu.com/u/8f4d80000566

阅读文本大概需要 15 分钟。

前提

网上大部分python实现的布隆过滤器库如：pybloomfilter、pybloom 但都是基于py2且哈希函数用的都是sha1类、md5类，效率不如mmh3.所以决定自己实现，

git地址：https://github.com/Sssmeb/BloomFilter

第一次自己实现库求星星！！也欢迎讨论、指教！！

Bloom Filter（布隆过滤器）

布隆过滤器是一种多哈希函数映射的快速查找算法，通常应用在一些需要快速判断某个元素是否属于集合，但并不严格要求100%正确的场合。

本质上是一种数据结构，比较巧妙的概率型数据结构。

布隆过滤器可能会出现误判，但不会漏判。即，如果过滤器判断该元素不在集合中，则元素一定不在集合中，但如果过滤器判断该元素在集合中，有一定的概率判断错误（在合适的参数情况下，误判率可以降低到0.000级别甚至更低）。

因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter相比于其他常见的算法极大节省了空间（相较于直接存储，可节省上千倍的空间）。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是存在误识别率和删除困难。

应用

常见适用的场景主要利用布隆过滤器减少磁盘io或网络请求等：

黑名单

例如邮件黑名单过滤器，判断邮件地址是否存在黑名单中

网络爬虫去重

K-V系统快速判断某个key是否存在

例如 Hbase每个Region都包含一个BloomFilter，用于快速判断某个key在该region中是否存在

缓解缓存穿透

大量查询不存在数据的请求，越过redis缓存后，全部打到数据库中
可以在服务器内存中搭建一个布隆过滤器缓解

去重背景

一般将数据存储用做去重判断的方法有：

将数据直接存储到数据库中
用HashSet（字典结构）/redis的set 将数据存储起来，实现O(1)时间复杂度的查询
经过MD5 或 SHA-1等单向哈希后再保存到HashSet或数据库
Bit-Map。建立一个BitSet，将每份数据通过哈希函数映射到某一位（bit）。

当数据量较小时，前3种方法都是不错的选择。但是当数据量非常大时（几G、甚至几十G）会出现存储瓶颈。

当数据量较大时，上述四种方法的表现：

查询效率非常低，每检查一个数据是否存在时都需要扫描全表。
占用大量的内存空间（内存较昂贵）
由于字符串经过MD5或SHA-1处理后，长度只有128bit或160bit，所以当数据本身长度较大时，比方法2节省内存。
消耗内存少，但单一哈希函数发生冲突的概率太高。若要冲突率降到1%，就要将Bitset的长度设置为数据个数的100倍。

Bloom Filter原理

基于以上的背景，可以看到：当数据量非常大时，方法4是较好的选择。但该较大的问题是冲突率高，为了降低冲突，Bloom Filter使用多个哈希函数，而不是一个。

总结BloomFilter的核心思想：

多个hash，增大随机性，减少hash碰撞的概率
扩大数组范围，使hash值均匀分布，进一步减少hash碰撞的概率

算法实现

创建一个m位的BitSet，先将所有位初始化为0
插入数据流程：
1. 加入字符串，经过k个哈希函数，分别计算出k个范围是0 - m-1的值
2. 将k个值对应的BitSet位置1

检查流程：

将数据经过k个哈希函数，分别计算出k个值
若k个位都为1，则判断存在。（可能误判）
有任意1位是0，则肯定不存在。

通过上述流程也得，布隆过滤器需要提前预定位数组的大小。

删除操作？

经典的布隆过滤器可以支持 add 和 isExist操作。但是不支持delete操作。

例如，有两个值共同覆盖了一个位，当需要删除其中一个值时，会导致另一个值的该位也被删除，最终导致错判。

可以使用计数删除解决这个问题。即不再使用bit位，而存储一个数值。插入操作时不再是置1，而是加1操作。判断时不再判断0、1，而是判断是否大于0。但是这种做法明显增大了占用的内存，这里不展开。

参数选择

哈希函数选择

简单总结经典哈希函数的5个特点：

输入域无穷
输出域有固定范围
相同的输入，输出一定相同
不同的输入，可能相同

产生哈希碰撞的原因

数据足够多的情况下，输出域近乎均匀

离散性
用来评判哈希函数优劣的关键。哈希函数越好，离散性越好（输出值分布越均匀）。
将其返回值对m取余(%m),得到的返回值可以认为也会均匀的分布在0~m-1位置上

哈希函数的选择对性能影响较大，一个好（离散性高）的哈希函数能近似等概率的将字符串映射到各个bit。选择k个不同的哈希函数比较麻烦，一种简单的方法是选择一个哈希函数，然后送入k个不同的参数。

哈希函数个数和位数组大小的确定

显然，哈希函数个数越少、位数组越小误报率就越高，效率越低。

取自：https://www.jianshu.com/p/2104d11ee0a2

哈希函数的个数k、位数组大小m、加入的字符串数量n、误报率p 的关系。

通过简单的数学推导可以得出以下结论：

哈希函数个数k取10，位数组大小m设为字符串个数n的20倍时，false positive发生的概率是0.0000889 ，即10万次的判断中，会存在9次误判，对于一天1亿次的查询，误判的次数为9000次。可见在参数良好的情况下，误报率在可接受的范围内。

公式推导

哈希函数的个数k、位数组大小m、加入的字符串数量n、误报率p 的关系。

在已得误报率p、数据量的情况下（通过用户输入），我们来建立关于p的表达式。

k 次哈希函数某一 bit 位未被置为 1 的概率为：

插入n个元素后依旧为 0 的概率和为 1 的概率分别是：

标明某个元素是否在集合中所需的 k 个位置都按照如上的方法设置为 1，但是该方法可能会使算法错误的认为某一原本不在集合中的元素却被检测为在该集合中（False Positives），该概率由以下公式确定

利用一点高数变化，当m很大时

则，上式得

取自：https://blog.csdn.net/wh_springer/article/details/52193110

进阶优化

性能很低的哈希函数不是个好选择，推荐 MurmurHash、Fnv 这些。

Redis 因其支持 setbit 和 getbit 操作，且纯内存性能高等特点，因此天然就可以作为布隆过滤器来使用。可以通过redis实现分布式的持久化去重。但是需要注意redis的bitmap是用字符串来实现的，而redis规定字符串最长为512MB（40多亿位），因此生产环境中建议对体积庞大的布隆过滤器进行拆分。

Bloom Filter具体实现（redis、python）

限于文章篇幅，以下仅使用简单实现说明。具体实现代码：

https://github.com/Sssmeb/BloomFilter/tree/master

求星星求start！！也非常欢迎讨论、指点~

python实现

基于以上分析，通过python实现一个简单的版本，核心函数add和contains都很好理解。初始化参数仅是数组大小和哈希函数个数。常见的实现是误判率（根据误判率来调整函数的个数）。

取自：https://blog.csdn.net/happytofly/article/details/80124542

    from bitarray import bitarray

    # 3rd party
    import mmh3


    class BloomFilter(set):

        def __init__(self, size, hash_count):
            super(BloomFilter, self).__init__()
            self.bit_array = bitarray(size)
            self.bit_array.setall(0)
            self.size = size
            self.hash_count = hash_count

        def __len__(self):
            return self.size

        def __iter__(self):
            return iter(self.bit_array)

        def add(self, item):
            for ii in range(self.hash_count):
                index = mmh3.hash(item, ii) % self.size
                self.bit_array[index] = 1

            return self

        def __contains__(self, item):
            out = True
            for ii in range(self.hash_count):
                index = mmh3.hash(item, ii) % self.size
                if self.bit_array[index] == 0:
                    out = False

            return out

哈希函数 - Murmur hash3

murmur hash是一种非加密型哈希函数，适用于一般的哈希检索操作。对于规律性较强的key，murmurhash的随机分布特征表现更良好。

redis在实现字典时用到了两种不同的哈希算法，murmur hash就是其中一种（另一种是djb）。
redis中数据库、集群、哈希键、阻塞操作等功能都用到了这个算法。

相比于md5，murmur hash在万次测试中，性能高4-5倍。

redis

简单的实现把数据放在本地内存中，无法实现布隆过滤器的共享，我们可以把数据放在redis中，用redis实现布隆过滤器。

思路是将布隆过滤器的位数组用redis的bitmap代替，由于redis最大申请空间为512MB，可以通过多个键来扩充位数组。

由于redis自带setbit、getbit，所以实现起来更加便捷。

具体实现参看git：https://github.com/Sssmeb/BloomFilter/tree/master

scrapy中的去重

scrapy自带了去重的功能，主要是通过fingerprint（指纹）标志过滤，用set实现去重功能。

在源码中的实现

class RFPDupeFilter(BaseDupeFilter):
    def __init__(self, path=None, debug=False):
        self.file = None
        self.fingerprints = set()   # 集合
        xxx # 省略

    # 通过request_fingerprint计算出请求的fp
    # 根据是否存在于fingerprints集合中判断
    def request_seen(self, request):
        fp = self.request_fingerprint(request)
        if fp in self.fingerprints:
            return True
        self.fingerprints.add(fp)
        if self.file:
            self.file.write(fp + os.linesep)

request_fingerprint方法用于计算请求的指纹（fp）。去重指纹是sha1(method + url + body + header)

    # 计算请求fp函数
    def request_fingerprint(request, include_headers=None):
        # 判断是否带请求头信息
        if include_headers:
            include_headers = tuple([h.lower() for h in sorted(include_headers)])
        # 获取该请求的缓存
        cache = _fingerprint_cache.setdefault(request, {}) 
        # 如果是新请求头信息
        if include_headers not in cache:
              # sha1算法
              fp = hashlib.sha1()
              fp.update(request.method)
              fp.update(canonicalize_url(request.url))
              fp.update(request.body or '') 
              if include_headers:
                for hdr in include_headers:
                      if hdr in request.headers:
                        fp.update(hdr)
                        for v in request.headers.getlist(hdr):
                              fp.update(v)
              cache[include_headers] = fp.hexdigest()
        return cache[include_headers]

如果想自定义Filter，可以通过继承，重写request_seen

from scrapy.dupefilter import RFPDupeFilter
class SeenURLFilter(RFPDupeFilter):
      """A dupe filter that considers the URL"""
      def __init__(self, path=None):
        self.urls_seen = set()
        RFPDupeFilter.__init__(self, path)
      def request_seen(self, request):
        if request.url in self.urls_seen:
              return True
        else:
              self.urls_seen.add(request.url)


# 修改settings设置
DUPEFILTER_CLASS ='scraper.custom_filters.SeenURLFilter'

scrapy-redis中的去重策略

scrapy-redis的策略基本和scrapy相同，只是所用的数据结构不同。

去重结构使用的是redis中的集合，键名为XX:dupefilter。该结构中存储了已爬取的请求。

另外， 请求队列使用的是redis中的有序集合， 键名为XX:request， 存储了待爬取的请求
        items数据使用的是redis中的列表， 键名为XX:items， 存储了爬取到的数据

存在的问题

redis是内存数据库，也就是说以上的三块数据：所有待爬取的请求、爬取到的items数据、去重的集合，都会存在内存中。

请求队列会随着爬取的进行，动态的出入，不会无限的叠加。爬取到的items数据一般会转移到其他的数据库中（mysql、mongodb），也不会无限的叠加。但是去重集合会随着爬取的进行，添加新的指纹，导致占用的内存空间越来越大，最终可能成为运行瓶颈。

改用布隆过滤器流程

以下只介绍修改流程，布隆过滤器实现见git：https://github.com/Sssmeb/BloomFilter/tree/master

1. 加入文件

（可以先复制一份scrapy_redis源码文件到当前scrapy工作目录下）将自己编写的bloomfilter.py文件加入scrapy_redis源码中

2. 修改源码，加入布隆过滤器

dupefilter.py（去重相关）文件中导入布隆过滤器文件

from .bloomfilter import BloomFilter

在init函数中，加入实例化

self.bf = BloomFilter(server, key)

修改request_seen方法的去重规则

fp = self.request_fingerprint(request)
if self.bf.is_exist(fp):
    return True
else:
    self.bf.add(fp)
    return False

3. 修改配置

像正常使用scrapy_redis一样修改即可。

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

如果想标识这个特别的scrapy_redis，可以修改scrapy_redis目录名称，在导入时修改对应的文件名即可

引用

https://piaosanlang.gitbooks.io/spiders/content/09day/section9.1.html

点击阅读原文查看完整项目代码

--本文完--

今日留言主题：

说说你看了本文后的感触？

或者一句激励自己的话？

（字数不少于15字）

说明：最近每日留言赠书暂停一段时间

不过，留言打卡30天进福利群

还在继续，等你～

2小时快速掌握Python基础知识要点。

完整Python基础知识要点

学Python | 聊赚钱

Zookeeper 在 Kafka 中的作用详解：分布式协调服务的核心价值 lxb_不卑不亢消息队列 MQ 进阶实战分布式 zookeeper kafka rocketmq
摘要ApacheKafka是一个高吞吐、分布式的流处理平台，广泛应用于大数据和实时系统中。而ApacheZookeeper，则是Kafka背后不可或缺的“隐形英雄”。本文将深入剖析Zookeeper在Kafka架构中的核心作用，帮助开发者全面理解其在分布式协调、元数据管理、故障恢复等方面的关键地位。一、Zookeeper简介Zookeeper是一个开源的分布式协调服务，最初由Hadoop生态发展而
【ASP.NET Core】内存缓存（MemoryCache）原理、应用及常见问题解析 ArabySide #ASP.NET Core asp.net 缓存后端 asp.net core c#
系列文章目录链接:【ASP.NETCore】REST与RESTful详解，从理论到实现链接:【ASP.NETCore】深入理解Controller的工作机制文章目录系列文章目录前言一、ASP.NETCore中的内存缓存——MemoryCache1.1内存缓存的结构1.2MemoryCache的注册1.3MemoryCache的配置项1.3.1缓存时间的过期策略1.3.2缓存的优先级1.4Memor
HoRain云--Docker容器迁移全攻略：4种方法详解与实战避坑指南 HoRain云小助手 arm开发
HoRain云小助手：个人主页个人专栏:《Linux系列教程》《c语言教程》⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。专栏介绍专栏名称专栏介绍《C语言》本专栏主要撰写C干货内容和编程技巧，让大家从底层了解C，把更多的知识由抽象到简单通俗易懂。《网络协议》本专栏主要是注重从底层来给大家一步步剖析网
Kafka 控制器（Controller）详解：架构、原理与实战锅锅来了 #Kafka运维实战 kafka 架构分布式
目录Kafka控制器（Controller）详解：架构、原理与实战一、控制器的核心职责1.元数据管理2.分区状态机3.故障恢复4.集群操作协调二、传统ZooKeeper模式下的控制器1.控制器选举机制2.控制器与ZooKeeper的交互3.潜在问题三、KRaft模式下的控制器1.架构革新2.控制器节点配置3.Raft协议实现4.优势Kafka控制器（Controller）详解：架构、原理与实战Ka
【ASP.NET Core】ASP.NET Core中Redis分布式缓存的应用 ArabySide #.NET Core Redis 缓存 redis 分布式缓存 asp.net asp.net core
系列文章目录链接:【ASP.NETCore】REST与RESTful详解，从理论到实现链接:【ASP.NETCore】深入理解Controller的工作机制链接:【ASP.NETCore】内存缓存（MemoryCache）原理、应用及常见问题解析文章目录系列文章目录前言一、Redis1.1Redis简介1.2常用数据结构1.3Redis的持久化1.3.1RDB1.3.2AOF1.4常用应用场景1.
美团优惠券领取的方法有哪些?美团优惠券在哪里可以领取好项目氧券
详解美团优惠券领取方法，让你省钱攻略轻松掌握！美团作为中国领先的本地生活服务平台，为消费者提供了丰富多样的优惠券活动。那么，你知道美团优惠券在哪里可以领取吗？本文将为你详细介绍美团优惠券的领取方法，让你省钱攻略轻松掌握！一、美团优惠券领取方法1.手机端领取：（1）打开美团APP，点击首页右下角的“我的”按钮，进入个人中心。（2）在个人中心页面，找到“我的优惠”选项，点击进入。（3）在优惠券页面，你
磁盘I/O性能测试详解：监控与优化的全景指南测试不打烊性能测试服务器 linux 压力测试
磁盘I/O（Input/Output）性能是衡量系统存储设备读取和写入数据效率的关键指标之一。磁盘I/O性能问题会影响整体系统响应时间、吞吐量等关键性能指标。在性能测试中，监控磁盘I/O至关重要，以下将从监控方式、命令使用方法、输出示例、参数分析以及如何通过监控结果发现性能异常来做详细说明。磁盘I/O监控：为什么它如此重要？磁盘I/O监控是确保系统性能的关键。通过监控，我们可以实时了解磁盘的读写速
Javascript 严格模式use strict详解滴水成川 JavaScript学习记录 javascript use strict
一、概述除了正常运行模式，ECMAscript5添加了第二种运行模式："严格模式"（strictmode）。顾名思义，这种模式使得Javascript在更严格的条件下运行。设立"严格模式"的目的，主要有以下几个：-消除Javascript语法的一些不合理、不严谨之处，减少一些怪异行为;-消除代码运行的一些不安全之处，保证代码运行的安全；-提高编译器效率，增加运行速度；-为未来新版本的Javascr
函数调用栈回溯机制详解硬核科技嵌入式单片机开发实战嵌入式嵌入式硬件软件单片机
函数调用回溯Backtrace是现代软件系统调试中的关键技术之一，尤其在嵌入式开发和Linux平台调试中更显重要。它提供了程序在运行或崩溃时的函数调用路径，有助于快速定位错误源。一、函数调用栈与Backtrace的理论基础1.1什么是函数调用栈？函数调用栈（CallStack）是一种由编译器和运行时系统共同维护的后进先出（LIFO）数据结构。每次函数调用时，当前函数的返回地址、局部变量、保存的寄存
【爬虫】05 - 爬虫攻防是小崔啊 #爬虫学习爬虫
爬虫05-爬虫攻防文章目录爬虫05-爬虫攻防一：随机User-Agent爬虫1：fake-useragent2：高级反反爬策略3：生产环境建议二：代理IP爬虫1：获取代理IP2：高阶攻防3：企业级的代理实战三：动态数据的抓取1：动态页面技术全景2：动态页面逆向工程2.1：XHR请求追踪与解析2.2：websocket实时数据捕获3：无头浏览器控制技术3.1：Playwright详解3.2：反反爬虫
API签名认证详解派大星在做蟹黄包后端
本质签发签名认证签名(使用签名或校验码。这就像一些短信接口的key一样别纠结名字)accessKeysecretKey/appKeyappSecret一样1.思考(场景)如果说我们把这个接口提供给开发者，但是我们现在是不是根本不知道是谁来调用的。假如说我们的服务器只能允许100个人来调用。假如说有一个攻击者来了，他就刷量了，他想疯狂的刷我的服务器，那是不是非常的不安全？另外一方面就是你的服务器的性
华为OD机试2025C卷 - 小明的幸运数 (C++ & Python & JAVA & JS & GO) 无限码力华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
小明的幸运数华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述小明在玩一个游戏，游戏规则如下：在游戏开始前，小明站在坐标轴原点处（坐标值为0）.给定一组指令和一个幸运数，每个指令都是一个整数，小明按照指令前进指定步数或者后退指定步数。前进代表朝坐标轴的正方向走，后退代表朝坐标轴的负方向走。幸运数为一个整数，如果某个
华为OD 机试 2025 B卷 - 周末爬山 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
周末爬山华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷200分题型题目描述周末小明准备去爬山锻炼，0代表平地，山的高度使用1到9来表示，小明每次爬山或下山高度只能相差k及k以内，每次只能上下左右一个方向上移动一格，小明从左上角(0,0)位置出发输入描述第一行输入mnk(空格分隔)。代表m*n的二维山地图，k为小明每次爬山或下山高度
RabbitMQ面试精讲 Day 3：Exchange类型与路由策略详解在未来等你 RabbitMQ面试专栏 RabbitMQ 消息队列 Exchange 路由策略 AMQP 面试题分布式系统
【RabbitMQ面试精讲Day3】Exchange类型与路由策略详解文章标签RabbitMQ,消息队列,Exchange,路由策略,AMQP,面试题,分布式系统文章简述本文是"RabbitMQ面试精讲"系列第3天内容，深入解析RabbitMQ的核心组件——Exchange及其路由策略。文章详细剖析4种Exchange类型(Direct/Fanout/Topic/Header)的工作原理和适用场景
【Elasticsearch】安全地删除快照仓库、快照
安全地删除快照仓库、快照1.删除仓库2.删除快照在上一篇博文《【Elasticsearch】快照与恢复功能详解》中，我们针对Elasticsearch的快照和恢复功能进行的讲解。细心的同学可能会对以下的命令产生疑惑，直接删除是安全的吗？本文将会给你答案。删除仓库：DELETE/_snapshot/my_backup_repo删除快照：DELETE/_snapshot/my_backup_repo/
Java内存模型深度解析：栈、堆、方法区详解 wsj__WSJ java java
本文通过生动比喻和实战案例，帮你彻底掌握Java内存结构中栈内存、堆内存和方法区的核心原理与协作方式。一、为什么要区分三种内存？Java划分栈、堆、方法区是为了提高内存使用效率，不同数据有不同的生命周期和访问频率：数据类型类比场景存储位置生命周期临时数据（方法参数）便签纸栈内存方法执行期间对象实例常用文件夹堆内存对象存在期间类定义信息公司制度手册方法区程序运行期间就像高效的办公桌管理：栈内存：临时
MySQL学习----Explain 典孝赢麻崩乐急 mysql 学习数据库
使用Explain可以查看sql的性能瓶颈信息，并根据结果进行sql的相关优化。当使用Explain分析SQL查询时，MySQL会返回一个包含多个字段的结果集，每个字段都提供了查询执行计划的重要信息。主要输出字段详解（1）id含义：SELECT标识符作用：表示查询中SELECT子句的执行顺序值说明：id相同：执行顺序从上到下id不同：从大到小执行id为NULL：表示结果集，如UNION结果（2）s
Socket 套接字原理详解 ASDDAG Socket python python
Socket套接字原理详解socket编程介绍Socket编程封装了常见的TCP、UDP操作，可以实现非常方便的网络编程。socket()函数介绍#socket.socket(family,type)tcpSocket=socket.socket(AF_INET,SOCK_STREAM)#family地址系列应为AF_INET(IPv4),AF_INET6(IPv6)#type套接字类型应为SOC
Spring所有知识点整理
文章目录一、引言1.1原生web开发中存在哪些问题？二、Spring框架2.1概念2.2访问与下载三、Spring架构组成四、自定义工厂4.1配置文件4.2工厂类五、构建Maven项目5.1新建项目5.2选择Maven目录5.3GAV坐标六、Spring环境搭建6.1pom.xml中引入Spring常用依赖6.2创建Spring配置文件七、Spring工厂编码八、依赖与配置文件详解8.1Sprin
IPSAN 共享存储详解：架构、优化与落地实践指南 Sally璐璐运维 php 开发语言
一、IPSAN技术定位与核心价值核心价值对比矩阵：维度IPSANFC-SAN实现方案成本端口成本$500端口成本$2000复用IP网络设备传输距离跨地域（VPN/专线）≤10公里两地三中心架构运维效率SNMP/CLI管理Zone/ALPA管理自动化运维工具链协议标准IETFRFC3720专有光纤协议全平台兼容性能指标100GbE（12GB/s）32GFC（3.5GB/s）NVMe/TCP+DPU加
Python爬虫高阶：Selenium+Scrapy+Playwright融合架构，攻克动态页面与高反爬场景程序员威哥 python 爬虫 selenium
随着互联网应用的不断发展，越来越多的网站采用JavaScript动态渲染页面，常见的静态页面数据抓取方式逐渐失效。此外，高反爬技术也使得传统爬虫架构面临着更大的挑战，许多网站通过复杂的反爬机制如验证码、IP屏蔽、请求频率限制等来防止数据抓取。为了应对这些挑战，我们需要采用更为先进和灵活的爬虫架构。在此背景下，结合Selenium、Scrapy和Playwright这三种技术，能够帮助我们突破动态页
《Spring Bean生命周期全景图解：从实例化到销毁》没有bug.的程序员 Spring全家桶实战精通系列 spring java 后端 Spring生命周期源码解析 Java后端实战 IOC容器
SpringBean生命周期全景图解：从实例化到销毁文章目录SpringBean生命周期全景图解：从实例化到销毁一、引言：为什么需要理解Bean生命周期？二、SpringBean生命周期全景图三、生命周期阶段详解与源码剖析1️⃣实例化阶段：instantiateBean2️⃣依赖注入阶段：populateBean3️⃣初始化阶段：initializeBean✅执行Aware接口✅调用BeanPos
代理服务器详解(proxy server) 玄魄灵归分布式代理模式服务器 java
什么是代理服务器(proxyserver)代理服务器（ProxyServer）是一个中间服务器，位于客户端和目标服务器之间。它代表客户端向目标服务器发送请求，并将目标服务器的响应返回给客户端，其模型如下图所示：客户端请求：客户端（如浏览器）向代理服务器发送请求，例如请求访问一个网站。请求转发：代理服务器接收到客户端的请求后，会将该请求转发给目标服务器。目标服务器响应：目标服务器处理请求并将响应数据
使用C#对象将WinRiver项目文件进行复杂的XML序列化和反序列化实例详解中游鱼 C#序列化和反序列化 MMT c#xml 序列化和反序列化属性的序列化和反序列化完整序列化 ADCP和WinRiver
使用C#对象将WinRiver项目文件进行XML序列化和反序列化的实例详解一、序列化和反序列化的目的二、WinRiver的项目MMT文件架构示例三、以WinRiver为对象进行C#代码编程3.1声明WinRiver对象3.2声明Project对象3.3声明Site_Information对象3.4声明Site_Discharge对象3.5声明QA_QC、Collect_Data、DisplaySe
Android UI 组件系列（五）：CheckBox、RadioButton 与 Switch 控件详解
博客专栏：Android初级入门UI组件与布局源码：通过网盘分享的文件：Android入门布局及UI相关案例链接:https://pan.baidu.com/s/1EOuDUKJndMISolieFSvXXg?pwd=4k9n提取码:4k9n引言在Android开发中，用户与应用的交互往往离不开各种“选择”操作，例如：注册表单中选择兴趣爱好（可多选）设置界面中切换通知、Wi-Fi开关（开/关状态）
【Android】UI布局工具及详解米莱虾 #Android ui android
ViewGroup1.简介ViewGroup是一种View，他是View容器，也就是里边可以包含其他View.分类：（1）layout布局类的ViewGroup（2）ScrollView带滚动条的ViewGroup（3）高级View容器（适配器View）（4）其他ViewGroup2.布局类的ViewGroup布局类的容器主要是用来控制子元素的排布方式和排列位置分类：（1）线性布局（2）相对布局（
Android Room使用方法与底层原理详解你过来啊你 android room
Room是一个强大的SQLite对象映射库，旨在提供更健壮、更简洁、更符合现代开发模式的数据库访问方式。核心价值：消除大量样板代码，提供编译时SQL验证，强制结构化数据访问，并流畅集成LiveData、Flow和RxJava以实现响应式UI。一、使用流程(Step-by-StepWorkflow)Room的使用遵循一个清晰的结构化流程：添加依赖：//build.gradle(Module)depe
Java中HashMap的实现原理详解
HashMap是Java集合框架中的核心类，基于哈希表实现键值对（Key-Value）存储，提供O(1)时间复杂度的快速查找。以下从数据结构、哈希机制、冲突解决、扩容策略等角度详细解析其实现原理（基于Java8）。一、核心数据结构：数组+链表+红黑树transientNode[]table;//哈希桶数组staticclassNode{//链表节点finalinthash;finalKkey;Vv
王阳明心外无物，是一种先后观，不是主客观2022-05-08 仁也
王阳明心外无物，是一种先后观，不是主客观王阳明说的心外无物，不是在所谓的主客观层面上说的，不是说心之外就没有客观世界存在，如果你从主客观的层面来解读心学，其实是走偏了。【原文】爱问：“‘知止而后有定’，朱子以为‘事事物物皆有定理’，似与先生之说相戾。”【仁也详解】徐爱问：“知止而后有定”，朱熹认为是事事物物都有定理的意思，这个好像和先生的说法相悖？徐爱这里问的，还是“四书”中的入门书《大学》里面的
TDengine时序数据库数据写入操作详解沈宝彤
TDengine时序数据库数据写入操作详解引言TDengine作为一款高性能的时序数据库，其数据写入方式与传统关系型数据库有所不同。本文将详细介绍TDengine中各种数据写入方式的特点和使用场景，帮助开发者更好地理解和应用TDengine的数据写入功能。基础写入操作单条数据写入在TDengine中，最基本的写入方式是使用INSERT语句向单个子表写入一条数据。以智能电表场景为例：--指定列名写入
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$