JECK_ケーキ

记录一个爬虫过程，从基础爬虫到逆向，再到jsrpc，再到selenium，啥都包括了

这篇文章记录一下我跟一个网站的恩怨纠葛，为了爬这个网站，不断学习新知识，不断尝试，水平提高了不少。总算有点成就了，这里做一个记录，当然还是不完美，期待未来可能技术更精进，能有更好的方法吧。

这个网站是：aHR0cDovL3NkLmNoaW5hdm9sdW50ZWVyLm1jYS5nb3YuY24vc3Vic2l0ZS9zaGFuZG9uZy9ob21l

读者可以自己解码（后面的爬取过程还是有很多提示，不会解码也没关系，可以看后面的一些截图）。

说起这个网站，跟它的缘分应该是从好几年前开始，那时候需要写一篇志愿服务的论文，正好看到这个网站，只不过——那时候网站是静态网页，爬取静态网页的技术我还是有的，可以说没费什么力气，只不过花些时间。目前这个网站的静态版本还是可以在网上看到的。也就是说，这个网站正在经历改版，从静态网页改成动态网页。静态网页的网址是这个。

aHR0cHM6Ly9zZC56aGl5dWFueXVuLmNvbS8=

比较一下两个网站的界面

动态版本

静态版本

我们不是网站运维人员，当然也不知道他们怎么怎么做出来这两种效果。我估计是同一个sql的数据库吧。只不过两个页面系统，数据应该是做了迁移，或者就是前端的两种渲染方式。静态网页和动态网页所用的数据应该是一样的。

几年前爬取数据的时候，只是用了简单的requests，我的目标是爬取一些志愿者服务的时长，比如像这样的页面。

要进入到这个页面，需要每一个项目都点进去，然后再点击时长公示。当然在静态页面的网页系统下，这个时长的统计表格是也页面一起发送的，发包的时候，是一个大包，里面有时长的table，只需要把这个table提取出来就可以。

可以直接提取table里面的tr，剩下的问题就是保存数据的问题。

暑假里面没事的时候又想用这个网站的数据，本着避免麻烦的思想，我还是使用传统套路，爬取这个网站的数据。可是后来发现这个网站的数据非常多，爬起来很慢，而且相当的麻烦。主要问题是：

你不知道哪一个志愿者组织是否有项目，也不知道有几个项目，同时也不知道每一个项目是否有记录时长。而且你也不知道每一个项目的时长是几页的。每次都要做很多的判断，很多的try，except。相当麻烦，而且爬取下来数据后还要存。本来我是想着以组织为单位，每一个志愿者组织一个字典。然后把组织的信息，项目的信息都存在这个字典里。但是也很麻烦。

后来下定决心，放弃之前的静态网站，从动态的入手，毕竟动态的网站有一个优势吸引我，就是返回的数据都是json。免得我一步一步的处理。而且暑假里面也学了不少js逆向的知识，这个网站的请求参数是加密的，试试用逆向解密这个网站的加密参数，然后请求，拿到数据。

#想法还是很简单，但是实际做起来，一点也不简单。

接下来开始一步步的踩坑之旅。

首先第一步，我准备爬取这个网站的志愿队伍，

点击进去，可以看到一些条件筛选界面，如果不加筛选，默认是返回的全山东省的志愿队伍。

比如下面这样。

我想这次把爬取数据的范围缩小一些，只爬取烟台市的。

比如这样。

在地区里面，选择烟台市，然后选择各个区。

这一步需要用到js逆向了。

刷新一下网页，发现还需要重新点击选择地区，

再点击两次地区之后，发现这个网站的返回结果里面有几个query。

上图是开发者工具里的网络面板，搞爬虫的应该不陌生。

点击这个query，发现返回的都是我们想要的数据。

接下来要做的就是我们看看请求头怎么。

果然，动态的网站虽好，但是加密了就不那么友善了。

可以看到这个query请求是需要携带参数的。

这个bean参数，可以看出一大堆。初步判断，肯定不是简单的md5。所以放弃幻想吧，撸起袖子加油干吧。

我们看看源码吧，找找这个加密过程，看看能不能逆向出来这个bean。

搜索bean，发现只有一个文件，这还是不错。

进入这个js，发现bean有8个，也很容易定位的。

还不算难，先尝试在第一bean的地方打上断点。

var o = {
                    bean: __WEBPACK_IMPORTED_MODULE_3_babel_runtime_core_js_json_stringify___default()({
                        encryData: getSM4().encrypt(i)
                    })

这段代买很可疑。打上断点，继续跑一下。

很顺利的断住了。这里可以看出，e是请求网址的部分内容。t是请求的原始参数，i是处理后的t，不过i还有一些其他内容，

加密过程主要是

encryData: getSM4().encrypt(i)

这个getSM4函数，应该就是加密库。（后来才知道，这个SM4的加密方法应该是国产的一种加密方式，跟标准加密方式是不一样的。）我当时要是简单地认为，这个加密过程不是很复杂，点进去getSM4这个函数，看了一圈，也是没看太明白。主要是因为这个函数的代码是webpack打包的，我逆向也就刚入门，对于分析这种webpack的代码还是很头大，上一个函数很简单，就是那个，

__WEBPACK_IMPORTED_MODULE_3_babel_runtime_core_js_json_stringify__

我初步判断这个函数就是一个JSON.stringify()函数，但还是困难就在下面的加密函数。

挑战一下，点进去看一下吧。

点进去这个app.b21af4文件。

一看这种形式，好像也并不难，没有混淆，只不过是一般的webpack打包，算是很友好了。我觉得对于大神来说，这个可能就是一般的扣代码过程，奈何我的抠代码技术不是很过关。目前只能分析，这个getsm4函数是一个大的加密库。

其实这个跳转并没有调出原来的文件，还是原来的那个app的js文件。

折叠一下代码，

这个getsm4应该是在一个大的包里面，包结束的位置是 L2RF，再网上找，

最后找到

这个var的地方，应该就是包的开始部分吧。

理论上来说，这个函数应该是可以抠出来的。

只不过我想了一个取巧的方法，想直接通过标准加密还原，当时是发现这条路走不通的。后来放弃了。虽然没成功，还是把过程贴出来吧。

因为进去这个getsm4，发现有几个熟悉的东西，key，iv，mode，猜测这应该是一个aes，

我也没犹豫，直接上标准加密，

拿到函数里面的i，不是可以直接出来加密结果了吗？当时是这样想的。

ok，结果出来了。

是不是这个呢，我们把请求发出去，看看下面的query的参数是什么？

结果发现不一样，悲剧了，上面的标准加密的结果，明显和下面的esff2A这个结果不一样。

后来在B站里面也请教了一些大神。经常看他们的视频，给3个大神冲了一个月的电，发现充一个月也才6块，3个就18块，这我还是花得起。静等他们的回音。后来有一个大神回了我信息，他说他也看了，确实不是标准加密，但是他比较忙，没时间帮我抠代码，建议我使用jsrpc或者是selenium。另外两个大神到现在还是没有回音，一方面可能是因为我爬取的这个网站是.gov结尾的，大神也怕惹麻烦，另一方面可能他们也太忙吧，毕竟6块钱不是很多。

JSRPC过程

好在毕竟有热心的。跟那个回复的大神交流了以下，觉得他说的也行，不行咱就试一下jsRPC。一直觉得rpc比较高大上，不敢入门。怕自己水平达不到啊。

从网上找了一些rpc的教程看了，也在B站看了看jsrpc的视频。先看的其中一个大神的，他可能使用的是比较老的框架，看他用的很熟练，奈何我模仿他的操作方式，还是不行。后来无脑在网上乱搜一气，找到了 github上的一个黑脸怪的jsRpc框架。又看了一个视频介绍使用这个框架爬取建筑市场的一个数据，反复操作了几次，基本熟练了。接下来开始移植到这个志愿者网站上。

我的理解是jsrpc就是一个添加网络进程的方式，比如平时我们访问网页，主要走的是http过程，我们访问网页，服务器返回数据，这里面只用到了一般的网络通信。但是jsrpc的方式就是在我们进行一般网络通信的时候，再开一个进程，这个进程是实时的跟踪我们浏览网页的过程，但是我们还可以在这个新开的进程里面做一些其他的事。比如和服务器交换一些参数。类似于这样一个过程，比如我们去看一个演出，我们看就是观众，舞台上演什么我们就看什么，这个过程里面，我们自己和普通观众都是一样的。但是jsrpc就相当于，我看演出的时候，走到前排，塞给演员一个纸条，说，小姐姐，你有没有微信啊，加我一个微信吧，晚上约你吃饭吧，或者是美女，你这个演出其中有一个动作，可以这样做，飞吻可以飞出去的更妩媚一些，等等了。这个过程我们不仅仅看演出，还在另一过程里面跟台上的演员互动。达到我们的目的。

话不多说了，开始。

先去github把黑脸怪的框架下载下来，其中有一个localhost，是一个可执行文件，需要单独运行。

按照他的步骤一步步操作，应该没有啥困难。

1. 线运行localhost

这个界面黑漆漆一片，啥也没有，不用担心，后面会有显示的。

2. 开启一个新的进程，相当于我们现在要给舞台上的演员递小纸条了。

首先你得开启一个通道，比如走到前排，这个开启通道的过程，大神已经给我们写好了，直接复制就可以。

resource里面有一个dev.js

整个文件全部复制，当然你也可以看看，里面的代码基本上是开启通信过程的各种函数，比如发送消息，接收消息。

粘贴到控制台，这相当于已经有了一个政策通道了。也就是说，这个作用是什么呢？就是出台一个政策，说，以前舞台上的演员只是表演，下面只是观看，现在有一个新玩法，就是可以观众给演员提意见。这个文件就是相当于告诉观众和演员，有了一种新玩法。

接下来，我们要为自己开启一个单独的通信，我们希望给我们单独开一个小窗私聊。

 var demo = new Hlclient("ws://127.0.0.1:12080/ws?group=zzz&name=hlg");

这一句相当于开启私聊，我们的私聊群组就叫zzz，我们的代号就是hlg。

然后我们通过这个demo的私聊窗口给服务器，传递信息。就是提出我们的要求。

注意：这里的操作，都是需要再浏览器的非调试状态下开启的。如果还在断点的时候，是不行的。就相当于，你得等人家演员至少表演完一个节目啊，不能毫无征兆的中间就打断，说咱们有了一个新玩法，这多不礼貌。

好了，接下来，我们要往小窗里发送一个东西了。就是我们希望服务器给我们返回他的 getSM4函数的结果。

demo.regAction("hello3", function (resolve,param) {
    //这里还是param参数 param里面的key 是先这里写，但到时候传接口就必须对应的上
    res=getSM4().encrypt(param["i"])
    resolve(res);
})

这个hello3就是我们的小窗标题，我们想的是，服务器给我们返回我们的参数i的处理结果，这个处理的过程就是getSM4。

注意：这里我其实也有一个疑问，就是这个小窗私聊的过程是应该什么时候发送。其实我觉得应该是在调试的过程中发送，就是表演过程中。我也是一直这么做的。

我们先开一个小窗，显示rpc连接成功。

然后进入我们的断点，

把我们的regAction函数复制到控制台，这样就算是注入成功了。接下来，就可以等待服务器返回我们想要的结果，结果是保存到res里面，我们在爬虫的过程，使用这个res就可以了。

过掉之前的断点。接下来，就是使用python调用刚才的res了。

直接上代码了。

import requests
import json

#  var demo = new Hlclient("ws://127.0.0.1:12080/ws?group=zzz&name=hlg");
# {"areaId":"370602000000000000","pageNum":3,"pageSize":12,"albe0002":"","albe0017":"","albe0005":"","albe0041":"","albe0026":1,"albe0056Start":"","albe0056End":"","albe0046Start":"","albe0046End":""}


'''
demo.regAction("hello3", function (resolve,param) {
    //这里还是param参数 param里面的key 是先这里写，但到时候传接口就必须对应的上
    res=getSM4().encrypt(param["i"])
    resolve(res);
})

'''


dt_list = []
for i in range(1):

    i = '{"areaId":"370691000000000000","pageNum":' + str(i+1) + ',"pageSize":12,"albe0002":"","albe0017":"","albe0005":"","albe0041":"","albe0026":1,"albe0056Start":"","albe0056End":"","albe0046Start":"","albe0046End":""}'

    url = "http://localhost:12080/go"

    data = {
        "group": "zzz",
        "name": "hlg",
        "action": "hello3",
        "param": json.dumps({"i":i})
    }
    print(data["param"]) #dumps后就是长这样的字符串{"user": "\u9ed1\u8138\u602a", "status": "\u597d\u56f0\u554a"}
    res=requests.post(url, data=data) #这里换get也是可以的
    print(json.loads(res.text)['data'])

    result = json.loads(res.text)['data']

    # cookies = {
    #     'SF_cookie_73': '23217056',
    #     'http_waf_cookie': '8cdae343-ec71-4123e94002750b074357af42a14b10c968c6',
    #     'SF_cookie_135': '42503913',
    # }

    cookies = {
        'http_waf_cookie': '8cdae343-ec71-4123e94002750b074357af42a14b10c968c6',
        'SF_cookie_73': '23906175',
        'SF_cookie_135': '42503913',
    }



    headers = {
        'Origin': 'http://sd.chinavolunteer.mca.gov.cn',
        'Referer': 'http://sd.chinavolunteer.mca.gov.cn/subsite/shandong/group',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.0.0',
        'deviceid': 'cb5c1906-70b1-4a7d-bbf7-ab46b5f50fcc',
        'devicetype': 'web',
        'ip': '2001:da8:7018:1111:5c7f:9624:d218:ca8f',
        'token': 'null',
    }
    print("\n"*2)
    print('{"encryData":' + '"' +  result + '"}')

    data = {
      'bean': '{"encryData":' + '"' + result + '"}'
    }



    # data = {
    # '{"encryData":"'+ ' ' + result + '"}'
    # }

    # data = {
    #   'bean': '{"encryData":"ugYbgxxHxcIFFYezD0TvCbP/B04JNieRjbRvT8Ww99NQGbXi8h5Kn/qrCqzspUE01ujy5ciNOmRRGl5dzjkqIIMv4JDWZQBKDkCwtFEIznuDWb1vJ3H8a3B4GLtl2xXJK7GFYVd3/dc5TmUDfETP/NRwk1oi1wTgFeZbYA2K/WiFQvrX8EaY1da374f6F4MHTEIPU7x8hz8hWFsko2tr1OoQ5KllYQR1+FDcimLqemJxWue01Fkgm4vn1hytfeIrYHWsVfEF/07krVTqpckVbg=="}'
    # }


    resp = requests.post('http://sd.chinavolunteer.mca.gov.cn/nvsidfapis/NVSIDF/restservices/webapi/queryTeamPageWeb/query', headers=headers,cookies = cookies,  data=data, verify=False)
    print(resp.json())
    dt_list.append(resp.json())

print("=============      ************            =================")
print(dt_list)

with open("team_Yantai_gaoxinqu.json", 'w', encoding='utf-8') as f:
    f.write(json.dumps(dt_list, ensure_ascii=False))

运行一下，可以看到返回的加密参数，也可以看到我们的请求结果。

可以看到这个7kpM2开头的就是我们的加密参数，结果也符合我们的要求。

至此，我们使用jsrpc已经解决了我们爬取组织的问题。

文章先写到这里，下一篇再介绍，selenium使用和har吧。因为担心文章会有太多信息，通不过审核，我就先写到这里吧。

零基础学习性能测试第一章：核心性能指标-吞吐量QPS/TPS 试着性能测试学习性能测试零基础性能指标 QPS TPS
目录零基础学习性能测试：第一章-核心性能指标：吞吐量(QPS/TPS)一、吞吐量核心概念解析1.吞吐量定义与分类2.核心区别与关系二、吞吐量关键价值与工作应用1.吞吐量的业务意义2.实际工作场景应用三、吞吐量测试实战指南1.测试工具选择2.JMeter吞吐量测试全流程3.关键配置参数四、吞吐量瓶颈分析与优化1.瓶颈定位四步法2.常见瓶颈及解决方案3.优化案例：电商系统吞吐量提升五、工作应用模板与工
零基础学习性能测试第一章：核心性能指标-并发量试着性能测试学习性能测试零基础性能指标并发量
目录零基础学习性能测试：第一章-核心性能指标：并发量一、并发量核心概念解析1.并发量定义与分类2.并发量关键特性二、并发量测试的核心价值1.业务意义三角模型2.实际工作场景应用三、并发量测试实战指南1.测试工具配置要点2.并发测试四步流程3.JMeter并发测试实操四、并发瓶颈分析与优化1.并发瓶颈定位矩阵2.常见并发问题解决方案3.电商系统并发优化案例五、工作应用模板与工具1.并发测试报告模板2
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 基于wordcloud库实现词云图
大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解基于wordcloud库实现词云图视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更新中..
Python 爬虫实战：自动化获取学术会议数据（会议安排、论文提交等） Python爬虫项目 python 爬虫自动化智能家居数据分析开发语言运维
1.引言学术会议是研究人员获取最新科研成果、发表论文、交流思想的重要平台。对于研究者而言，掌握最新的会议安排、论文提交截止日期、会议议程以及演讲嘉宾等信息至关重要。然而，学术会议信息通常分散在不同的官方网站上，人工查找和整理这些数据既费时又容易遗漏。为了提高效率，我们可以使用Python爬虫自动化获取学术会议数据，包括：会议名称、日期、地点论文提交截止日期会议议程及嘉宾信息论文录用结果重要通知及相
接口测试框架3之httprunnerV3入门以及HttpRunner安装详解吃喝玩乐秀起来 #接口测试接口
这里写目录标题一、HttpRunner简介二、HtttpRunner安装详解1.环境准备2.脚手架生成项目三、幕布登录的演练1.抓包2.脚本生成一、HttpRunner简介参考文案：https://mubu.com/doc/2vXRWPx5i3c密码：hogwarts1.为什么要开发HttpRunner（1）.工具多而且杂接口测试工具，性能测试工具（2）.学习成本高（3）.团队协作难风格迥异，整合
爬虫基础理论总结 qianxun0921
一、什么是爬虫爬虫：又称网页蜘蛛,网络机器人，从互联网上自动抓取数据的程序，通俗地讲，就是可以爬取浏览器中看得到的数据二、爬虫的基本流程1、分析网站，得到目标url2、根据url，发起请求，获取页面的HTML源码3、从页面源码中提取数据：a、提取到目标数据，做数据的筛选和持久化存储b、从页面中提取新的url地址，继续执行第二步操作4、爬虫结束：所有的目标url都提取完毕，并且得到数据了，再也没有其
Python爬虫热点项目之实现代理IP池（IP proxy pool）薛定谔的猫96 Python 爬虫
代理池概述代理池就是由多个稳定可用代理IP组成的池子。用来应对ip反爬，而网上的免费代理稳定可用的极少，更有甚者连收费的也不都是稳定可用。开发环境：windous，python3，sublimetext使用的主要模块：requests，lxml，pymongo，Flask完整源码请前往我的github仓库查看：https://github.com/R2h1/ProxyPool欢迎star哦！！！代
Python返回函数完全指南：从基础到高级应用 Python_trys python 数据库开发语言 Python教程 Python技巧 Python入门 Python基础
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取】前言在Python编程中，函数不仅可以执行操作，还可以作为返回值，这种特性为编程带来了极大的灵活性和强大的表达能力。本文将全面介绍Python中的返回函数，从基础概念到高级应用场景，帮助开发者掌握这一重要特性。一、返回函数的基本概念1.1什么是返回函数？返回函数指的是一个函数可以返回另一个函数作为其结果。在Python中，函数是一等对象，可
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
python爬虫从入门到精通大模型猫叔 python 爬虫数据库
目录一、正确认识Python爬虫二、了解爬虫的本质1.熟悉Python编程2.了解HTML3.了解网络爬虫的基本原理4.学习使用Python爬虫库三、了解非结构化数据的存储1.本地文件2.数据库四、掌握各种技巧，应对特殊网站的反爬措施1.User-Agent2.Cookies3.IP代理五、学习爬虫框架，搭建工程化的爬虫1.创建Scrapy项目2.创建Spider3.编写Spider4.运行Spi
python爬虫入门（小白五分钟从入门到精通）一百天成为python专家 python 爬虫开发语言网络爬虫 python3.11 ipython
网络爬虫的介绍本节主要介绍Pytbon语言中支持网络爬虫的库,此外还将介绍如何获取网站的爬取规则，读者在学习和践过程中一定要严格遵守网站提供的爬取规则。网络爬虫网络爬虫通俗来讲就是使用代码将HTML网页的内容下载到本地的过程。爬取网页主要是为了获取网中的关键信息，例如网页中的数据、图片、视频等。Python语言中提供了多个具有爬虫功能的库，下面将具urHIib库:是Python自带的标准库，无须下
Python批量爬取谷歌原图，2021年最新可用版
文章目录前言一、环境配置1.安装selenium2.使用正确的谷歌浏览器驱动二、使用步骤1.加载chromedriver.exe2.设置是否开启可视化界面3.输入关键词、下载图片数、图片保存路径三、爬取效果四、完整代码前言作为一名CVer，数据集获取少不了用到数据、图片爬虫技术，谷歌作为全球最大的数据搜索网站，如何从中快速获取大量有用图片数据尤为重要，但是技术更新，很多代码大多就会失效，爬与反爬永
Python爬虫实战：批量下载小红书笔记图片的全流程技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫笔记开发语言音视频 github
1.引言：为什么要爬取小红书笔记图片小红书作为新兴的生活方式分享平台，聚集了大量高质量原创笔记内容，涵盖时尚、美妆、旅游、美食等多领域。笔记中的图片往往是内容的核心，批量下载小红书笔记图片，有助于：内容归档与备份数据分析与用户行为研究图像识别与机器学习训练电商推广及内容再加工但小红书对内容保护做得较好，爬取难度较高，需要结合多技术手段突破。2.小红书平台特点与爬取难点动态加载与API接口多变：页面
基于Python的Google Patents专利数据爬取实战：从入门到精通 Python爬虫项目 2025年爬虫实战项目 python 开发语言爬虫 scrapy selenium
摘要本文将详细介绍如何使用Python构建一个高效的GooglePatents专利爬虫，涵盖最新技术如Playwright浏览器自动化、异步请求处理、反反爬策略等。文章包含完整的代码实现、性能优化技巧以及数据处理方法，帮助读者全面掌握专利数据采集技术。1.引言在当今知识经济时代，专利数据已成为企业技术研发、市场竞争分析的重要资源。GooglePatents作为全球最大的专利数据库之一，收录了来自全
Python爬虫【二十四章】分布式爬虫架构实战：Scrapy-Redis亿级数据抓取方案设计程序员_CLUB Python入门到进阶 python 爬虫分布式
目录一、背景：单机爬虫的五大瓶颈二、Scrapy-Redis架构深度解析1.架构拓扑图2.核心组件对比三、环境搭建与核心配置1.基础环境部署2.Scrapy项目配置四、分布式爬虫核心实现1.改造原生Spider2.布隆过滤器集成五、五大性能优化策略1.动态优先级调整2.智能限速策略3.连接池优化4.数据分片存储5.心跳监控系统六、实战：新闻聚合平台数据抓取1.集群架构2.性能指标七、总结1.核心收
分布式爬虫：设计一个分布式爬虫架构来抓取大规模数据 Python爬虫项目 2025年爬虫实战项目分布式爬虫架构开发语言 redis 测试工具 python
✨引言随着互联网信息的爆炸式增长，单机爬虫面对大规模网站数据抓取显得力不从心。特别是爬取新闻、商品、社交平台等网站时，经常遇到响应慢、IP被封等问题。为了解决这些问题，分布式爬虫系统应运而生。在本文中，我们将手把手带你打造一个基于Scrapy+Redis+Celery+FastAPI+Docker的现代分布式爬虫架构，实现任务调度、去重控制、分布式抓取与结果存储。本文代码均基于Python3.10
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
分布式爬虫架构：Scrapy-Redis+Redis集群实现百万级数据采集傻啦嘿哟分布式爬虫架构
目录当单机爬虫遇到百万数据量架构设计核心原理分布式任务调度弹性去重机制Redis集群部署实践集群规模计算高可用配置Scrapy项目改造分布式爬虫编写百万级数据优化策略流量控制机制动态IP代理数据存储优化实战案例分析监控与维护集群健康检查日志分析架构演进方向当单机爬虫遇到百万数据量想象你正在搭建一个电商价格监控系统，需要每天抓取十万条商品数据。使用传统Scrapy框架时，单台服务器每天最多只能处理3
Selenium 中 findElement 方法全解析：定位网页元素的 7 种方式二向箔reverse selenium 测试工具
在自动化测试和网页数据抓取场景中，准确找到目标元素是核心任务。Selenium提供的findElement方法支持多种定位策略，本文将深入介绍各种搜索模式的完整语法及适用场景。一、CSS选择器定位CSS选择器是定位网页元素的首选方式，它具有语法简洁、性能优异的特点。1.基本选择器元素选择器语法与说明：driver.find_element(By.CSS_SELECTOR,"标签名")通过HTML标
Selenium 性能优化实战：让自动化测试速度提升 60% 的 10 个技巧二向箔reverse selenium 性能优化测试工具
在Web自动化测试中，脚本执行效率直接影响测试反馈周期和资源成本。本文将分享10个经过实战验证的Selenium性能优化技巧，帮助你将测试速度提升60%以上。一、使用无头浏览器模式传统浏览器渲染UI会消耗大量资源，而无头模式（Headless）可以在后台静默执行，显著提升速度。优化前（有UI模式）：fromseleniumimportwebdriverdriver=webdriver.Chrome
Selenium 处理动态网页与等待机制详解二向箔reverse okhttp
在使用Selenium进行网页自动化操作时，动态网页往往是开发者遇到的第一个“拦路虎”。想象一下：你明明在代码中写好了元素定位逻辑，运行时却频繁报错“元素不存在”，但手动打开网页时元素明明就在眼前——这很可能是因为网页还没加载完成，Selenium就急着执行下一步操作了。本文将深入解析动态网页的特性，系统讲解Selenium的三种等待机制，并通过实战案例告诉你如何优雅地处理动态内容加载问题。一、动
python爬虫之获取渲染代码
获取渲染后的网页代码过get()方法获取浏览器中的网页资源后,浏览器将自动渲染网页源代码内容，并生成渲染后的的时使用page_source()方法即可获取渲染后的网页代码。示例代码:'''获取渲染后的网页代码'''fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionschrome_options=O
爬虫实战案例（两个） AI 嗯啦爬虫
该博客展示两个简单的爬虫实战案例，一个是从人民邮电出版社上爬取其中一个分类的全部图书信息，另一个是在苏宁易购上爬取某个商品的好评和差评，用两个简单的案例讲解爬虫在实际情况下的运作流程一、获取图书信息需求：统计人民邯电出版社官网中与关键词“python”有关的全部图书，包含图书名、价格、作者名等信息，并将获取的信息写入“Excel图书汇总，txt”文件中。流程：配置浏览器并打开目标网站搜索"Pyth
网络爬虫——python爬取豆瓣评论 SSeaflower 爬虫 python 开发语言
网络爬虫——python爬取豆瓣评论一、网络爬虫概述1.1网络爬虫定义网络爬虫，又被称为网络蜘蛛（WebSpider）、网络机器人等。它根据网页地址（URL）爬取网页内容，网页地址（URL）就是我们在浏览器中输入的网站链接。例如：https://www.baidu.com；https://movie.douban.com/。网络爬虫不仅能够复制网页信息和下载音视频，还可以做到网站的模拟登录和行为链
标题 “Python 网络爬虫 —— selenium库驱动浏览器 WeiJingYu. python 爬虫 selenium
一、Selenium库核心认知Selenium库是Web应用程序测试与自动化操作的利器，能驱动浏览器（如Edge、Firefox等）执行点击、输入、打开、验证等操作。与Requests库差异显著：Requests库仅能获取网页原始代码，而Selenium基于浏览器驱动程序工作，浏览器可渲染网页源代码，借此能轻松拿到渲染后的数据信息（如JS动态加载内容），完美解决Requests库无法处理的动态页面
Python网络爬虫实现selenium对百度识图二次开发以及批量保存Excel WeiJingYu. python 爬虫 selenium
一.百度识图自动上传图片fromseleniumimportwebdriverfromselenium.webdriver.edge.optionsimportOptionsfromselenium.webdriver.common.byimportByedge_options=Options()edge_options.binary_location=r"C:\ProgramFiles(x86)
Python 网络爬虫 —— 代理服务器 WeiJingYu. 爬虫服务器前端
一、会话（Session）（一）核心逻辑HTTP本身无记忆，每次请求独立。会话（Session）就是为解决这问题，让客户端（浏览器）和服务器“记住”交互状态（比如登录态），常用Cookie实现：服务器发Cookie给客户端存着，下次请求带着，服务器就知道“是同一用户”。（二）创建会话（requests实现）用requests库的Session类，自动维持会话、管理Cookie，代码形式：impor
python爬虫技术——基础知识、实战南瓜AI python 爬虫 scrapy
参考文献：Python爬虫入门(一)（适合初学者）-CSDN博客一、常用爬虫工具包Scrapy语言:Python特点:高效、灵活的爬虫框架，适合大型爬虫项目。BeautifulSoup语言:Python特点:用于解析HTML和XML，简单易用。Selenium语言:Python/Java/C#特点:支持浏览器自动化，适合处理JavaScript渲染的网页。Requests语言:Python特点:简
分享两个爬虫练习网站高质量海王哦爬虫爬虫 python
Python爬虫案例|ScrapeCenterSpiderbuf|Python爬虫练习靶场
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

记录一个爬虫过程，从基础爬虫到逆向，再到jsrpc，再到selenium，啥都包括了

#想法还是很简单，但是实际做起来，一点也不简单。

这一步需要用到js逆向了。

JSRPC过程

你可能感兴趣的:(爬虫,selenium,测试工具)