Amo Xiang

爬虫工程师必须掌握的 Web 网站调试与抓包分析

1、Chrome 开发者工具
- Elements 面板
- Console 面板
- Sources 面板
- Network 面板
- Application 面板
2、JS 逆向调试技巧
- 善用搜索
- 查看请求调用堆栈
- XHR 请求断点
- Console 插桩
- 堆内存函数调用
- 复制Console面板输出
3、本地覆盖
- Chrome local override
- Fiddler 自动响应

1、Chrome 开发者工具

Google Chrome 浏览器中内置了一套强大的开发者工具，无论是做源码分析还是 JS 脚本的调试都是比较方便的。要进行抓包或者调试前端的加密脚本，和控制台的交互必不可少。不少做了安全防护的网站都会禁止用户打开 Chrome 开发者工具，下面总结所有 Chrome 控制台的打开方法。

按 F12 键。
按 Ctrl + Shift + I 键。
右击网页页面，出现菜单后，单击检查菜单项。如下图所示：
在浏览器中，单击自定义及控制 Google Chrome ⇒ 更多工具 ⇒ 开发者工具选项。如下图所示：
在浏览器中新建窗口，使用上述任意方法打开开发者工具，再切换回要调试的页面。

Elements 面板

Elements(元素) 面板，左侧显示页面源码的 DOM 树，可以在这里对页面源代码进行增、删、改、查等操作，右侧展示被选中页面节点的层叠样式表 (Cascading Style Sheets, CSS)，它主要是用来对页面进行修饰美化。值得注意的是，左侧显示的页面源代码并非原始代码，而是和 HTML、CSS与 JS 结合的结果。 获取原始网页源代码，有以下两种方式：

右击任意网页页面空白处，单击查看网页源代码菜单项，或者按 Ctrl + U 组合键，如下图所示：
切换到 Sources 面板，选择左栏中包含网页地址的 HTML 文件。如下图所示：

如果想要隐藏网页中展示的节点，如一些容易误触的广告，只需要选中 Elements 面板中对应的代码节点后，按 H 键(也可以右键单击需要隐藏的节点，然后选择 Hide element)。日常开发中使用的组合键，如 Ctrl + C 键和 Ctrl + V 键等，也都可以在 Elements 面板中使用。也就是说，在 Elements 面板中可以对网页进行自由调整和编辑。

在日常的爬虫开发中，需要与源代码打交道的地方大多数是页面元素的定位。Chrome 开发者工具内置了一套定位工具，只需要在 Elements 面板中按 Ctrl + F 键，就会在源代码下方出现如下图所示的调试框，可以在其中编写 CSS 选择器语法或 Xpath 语法，实时地对页面节点进行定位。

如果要快速复制页面节点的路径，可以点击要定位的节点，再单击 Copy 菜单项，其中有多种可供选择的网页页面定位语法，如下图所示：

笔者其实不大喜欢这种方式，虽说从一定时间上能提升开发的效率，但更多时候其实也是需要自己修改的, 所以笔者更偏向自己写 Xpath 规则(更相信自己)。

此外，断点操作是进行代码调试和分析时的必要操作。 在 Elements 面板中可以进行 DOM 断点分析，右击页面任意节点，会发现 Break on 菜单项中有以下三种断点：

subtree modifications：在节点子树发生修改时断点。attribute modifications：在节点属性发生修改时断点。node removal：在节点被移除时发生断点。更具体的断点操作将在后续进行说明。

Console 面板

Console 面板是与网页进行交互的控制台窗口，它用于显示 DOM 对象信息和调试 JS 代码，熟练使用它将会大大提升开发速度。在 Console 面板中操作节点时，通常需要先定位到页面节点，才可以进行节点操作。输入 $0 可以对当前选中的页面节点进行引用，输入 $1 可以对上一次选择的节点进行引用，以此类推，输入可以一直回溯到 $4。也可以使用 CSS 选择器语法对节点进行操作。复制需要定位的网页节点的 selector 路径后，使用 document. querySelector 或者 $ 方法可以定位第一个符合语法的节点。如果要选择所有符合 CSS 选择器语法的节点，可以使用 document.querySelectorAll 或者 $ $ 方法返回一个符合语法的节点数组。Console 面板中提供了多种方法来观察和检查事件监听器，常用的方法：monitorEvents()：监听目标事件信息。unmonitorEvents()：停止监听。getEventListeners()：获取 DOM 节点的监听器。monitorEvents() 的第一个参数是要监听事件的对象，第二个参数是要监听的事件字符串或者字符串数组。以监听 CSDN 首页的“搜索”按钮为例，代码如下：

只要没有取消对目标节点的事件监听，在每次和页面交互时，控制台都输出监听信息。要停止监听事件，需要使用 unmonitorEvents() 方法，参数是要停止事件监听的页面节点，例如：

unmonitorEvents(searchBtn);

getEventListeners() 方法的参数是网页页面节点，它返回在节点上注册事件的监听器，其中会包含每个已经注册事件类型的数组。例如，以下代码会监听“搜索” 按钮已注册事件的监听器。

getEventListeners(searchBtn);

如果要查看 DOM 节点上注册的事件监听器，则需要到 Elements 面板中查看 EventListeners 选项卡，它会显示附加到页面上的所有事件，如下图所示：

Sources 面板

Sources 面板是我们必须掌握的面板，对 JS 加密脚本的断点调试与代码分析主要从这里出发。如一个网页对登录参数做了加密，可以在加密 JS 脚本处设置断点，这样就可以跟进查看加密函数了。

1. 设置断点。 设置断点最基本的方法是在代码的行序列号上手动添加，也可以将其设置为在满足某些条件下才会触发断点。一旦在某一代码行上设置了断点，网页在加载到这一行代码时就会全局暂停，直到断点删除。要在特定的代码行上设置断点，需要打开 Source 面板，并在 File Navigator 窗口中选择要分析的脚本文件，在源代码的左侧可以看到行序列号，单击行序列号就会在这一行代码上添加断点，如下图所示：

如果一个表达式占据了多行，这时把一个断点设置在表达式中间，那么断点会被自动调整到下一个表达式上。如下图所示，在代码第684行设置断点，断点会自动调整到第692行。

条件断点只有在输人表达式为 true 时，才会被触发暂停。如图所示，右击行序列号，单击 Add conditional breakpoint 菜单项可以创建一个条件断点。

调试者在代码中添加的所有断点都会被记录在右侧的 Breakpoints 栏中。如果要删除一个断点，除了再次单击行序列号之外，还可以右击下图所示断点，选择 Remove breakpoint 菜单项。如果只是想暂时性地删除该断点，可以仅取消勾选复选框。

在 XHR 请求中设置断点的情况也很常见。当任何 XHR 与设置的 URL 中的子串相匹配时或者 XHR 到达生命周期的某个阶段时，这类断点会被触发。如果想在 XHR 与 URL 子串匹配时触发暂停，可以在 XHR/fetch Break points 窗格中进行 XHR 断点设置。如果想要在 XHR 生命周期的某个阶段触发暂停，可以在 Event Listener Breakpoints 窗格中查看 XHR 目录，如图所示：

2.调试代码。 设置好断点后就可以开始遍历代码了，可以通过一次执行一行代码或者一个函数来观察数据和页面的更改，也可以修改 JS 脚本及其中的数值。页面登录时的密码加密方式和判断参数正确的标志?都可以通过代码调试逐步找出来。代码调试通过 Sources 面板右上角的图标进行操纵，如图所示：

第一个图标的含义是，恢复代码执行直到遇到下一个断点，如果没有遇到断点，就会恢复正常；第二个图标的含义是，执行当前行的代码，并跳转到下一行；第三个图标的含义是，如果下一行代码包含一个函数调用，就跳转到该函数内部并在该函数的第一行暂停；第四个图标的含义是，执行当前函数的剩余部分，然后在函数调用后的下一个语句处暂停；第五个图标的含义是，暂时禁用所有断点，用于恢复完整的执行，而不是将断点全部删除；第六个图标的含义是，当异常发生时自动暂停代码。在实际的加密脚本调试中，需要将上述图标结合起来使用。除此之外，当脚本暂停在断点时，Scope 窗格会显示当前时刻所有定义在本地、闭包和全局的属性，如图所示：

仅在脚本暂停时，Scope 窗格才会有显示。当页面正常运行时，Scope 窗格是空白的。在进行断点时，Call Stack 窗格会显示代码的执行路径。如下图所示，它按照时间逆序，从上到下单击查看时，会自动跳转到对应代码块，这有助于调试者理解代码如何运行。

3.在任何页面上运行自定义代码块。 代码块是可以在 Sources 面板中创建和执行的小脚本，在任何页面都可以访问和运行。假设调试者有一个 JS 加密方法库，内置了多种常见的加密方法，在调试脚本时，如果要在多个页面中反复使用，就可以考虑将脚本另存为代码块。要创建一个代码块，需要打开 Sources 面板，单击左侧 Snippets 选项卡，右击空白处，选择 Create new snippet(或 New snippet) 选项，如图：

如果代码块编写后还未保存，文件名会出现下图所示的符号 “*”，需要按 Ctrl + S 键来进行保存。保存后的代码块要想在当前页面中使用，需要右击文件名，单击 Run 菜单项。

4.美化打印代码块。 一般来说，打开一个网页源代码或者脚本文件，会发现它是经过压缩的，观察起来比较困难，如下图所示：

单击源代码左下角的 {} 图标，可以进行代码的美化打印。

5.跟踪监视变量。 有时候需要持续监视脚本运行中某一个变量的值，如果一直在控制台进行调试输出会有些烦琐。Sources 面板右侧的 Watch 窗格提供了在程序中跟踪监视变量的功能，利用它可以不用反复地将监控对象输出到控制台中。要将变量添加到监控列表中，只需要单击 Watch 窗格中的 Add expression 图标(只有在 Watch 窗格展开时才会出现)，如下图所示：

此时会打开一个内联输入框，输入要监控的变量名称，按 Enter 键，即可完成变量添加。如果要监控的变量没有被设置或未被找到，就会显示为下图中的 not available：

Network 面板

Network 面板会记录与网页有关的每个网络操作的详细信息，包括 HTTP 请求和 HTTP 响应。在该面板中，要掌握的是下图中标注的三个窗格，其中1号窗格用于控制 Network 面板的外观和功能，2号窗格用于过滤请求列表中的资源请求和响应，3号窗格列举了按照时间顺序存储的每个网络资源。

1号窗格中的 Preserve Log 复选框用于保存日志，Disable cache 复选框用于禁用缓存。单击3号窗格中的任意一个网络资源，可以查看该网络资源的更多详细信息，如下图所示，打开后默认显示 HTTP 请求头，包含统一资源定位符、HTTP 请求方法和状态码。

请求的详细内容后续笔者在另一篇博文中展开，这里主要讲解面板的使用。如果要对网络资源进行 Preview 预览，二进制图片资源会直接显示请求资源在页面中的展示，也可能不显示具体信息，具体情况取决于选择查看的资源类型。如果查看 HTTP 响应的具体内容，可以单击 Response 选项卡，如下图所示，HTML 资源会以源代码的方式呈现，具体返回内容取决于查看的资源类型。

Application 面板

Application 面板中可以查看和删除 Cookie，但是不能修改 Cookie 值。如下图所示，Cookie 会按照域列出，不过需要注意，来自不同域的 Cookie 可能会出现在同一栏中，相同的 Cookie 也可能会出现在多栏中。

使用 local storage 本地存储来存储键值对，可以在其中进行键值对的检查、修改和删除操作。常用的5种方法如下所示：
(1) setItem()：存储一个名称为 key 的值 value，如果 key 存在，就更新value。
(2) getItem()：获取名称为 key 的 value，如果 key 不存在，则返回 null。
(3) removeItem()：删除名称为 key 的信息，这个 key 所对应的 value 也会全部被删除。
(4) clear()：清空 localStorage 中所有信息。
(5) key()：键的索引。

以设置键值对为例，创建一个 key 为 name、value 为 test 的键值对，可以在控制台输入如下代码：

localStorage.setItem("name", "test");

2、JS 逆向调试技巧

在掌握了 Chrome 开发者工具的基本使用后，需要将其运用到实际的调试中。在做日常的网页端数据抓包时，通常会遇到各类加密参数，如何快速定位加密脚本和关键函数极为重要。

善用搜索

在 Network 面板中找到了需要的资源包，当其中的 HTTP 内容中存在加密键值对时，可以使用搜索来快速定位加密脚本和关键函数。如下图所示，需要先单击右上角的展开图标，再单击 Search 菜单项，之后在下方的搜索框中输入要搜索的加密参数，最后单击搜索框右边的 Refresh 图标。如果 Sources 中存在这个加密参数，就会在下方返回符合条件的所有文本文件。

以全局搜索 safe 加密参数为例，因为通常情况下返回的匹配内容是较多的，可以在原有参数基础上再加一些标识符，例如：password=、 password:。这样可以大幅度减少匹配项，从而减轻寻找关键函数的负扭。

查看请求调用堆栈

在 Network 面板中，通过资源的 Initiator 列可以看到它的请求调用栈，排序方式是逆序。如果将鼠标移动到某一个请求资源的 Initiator 上，会弹出该请求资源的请求调用堆栈。单击下图的请求调用堆栈中的任意显示项，即可跳转到对应的脚本文件的具体调用行中。

XHR 请求断点

不少加密数据包传输的时候，会使用 XHR 请求断点。当目标加密参数存在于 XHR 数据包的时候，选择 XHR 请求断点会比全局搜索更加快捷，下图是添加 XHR 请求断点的联内输入框。

Console 插桩

条件断点不仅可以写判断表达式，还可以在其中输入、输出表达式，这样就可以在脚本运行到对应行时，在控制台中打印输出对应参数，达到插桩的效果。如下图所示，添加条件断点时，可以输入 “console.log()” 对密码加密脚本中的密码值进行输出调试。

Console 插桩通常用于滑块验证码的调试，滑块轨迹的输出如果设置了一般断点，就会移动一次暂停一次，使用插桩形式就可以直接在控制台中流畅地输出滑动轨迹了。

堆内存函数调用

在脚本中设置断点后，可以在当前断点暂停时，在 Console 面板中调试输出具体函数，单击函数内容可以跳转到具体的代码行，如下图所示：

复制Console面板输出

在 Console 面板的调试中，通常需要将调试输出内容进行复制，方便将其写入本地文件进行调用。但一般情况下，直接复制往往得不到需要的内容，这个时候，可以在控制台中尝试以下四种方法，最后一种方法需要在 Sources 面板的 Snippets 代码块中添加 CryptoJS 加密库。(1) copy()、(2) JSON.stringify()、(3) Object.toString()、(4) CryptoJS.enc.Utf8.stringfy()。使用复制方法后，Console 面板的内容就会被复制到粘贴板上。

3、本地覆盖

本地覆盖是一个实用的调试方法，能够使开发者用自己的文件来替换请求的资源。即不必再继续向服务器请求资源，而是直接在本地修改，当浏览器向目标地址请求资源时，会使用本地的文件来进行代替。这样，开发者可以随意对网页脚本文件进行修改，包括添加 Console 插桩、添加循环 debugger 以及实现脚本文件在被调用时，直接在控制台对加密参数或函数进行输出等操作。这里讲解 Chrome local override 和 Fiddler 自动响应两种方法。

Chrome local override

Chrome 64 之后的开发者工具可以直接在 Sources 面板中进行操作，如下图所示，切换到 Overrides 选项卡中，单击 Select folder for overrides 选项，在弹出的文件夹选择框中选择要进行替换的资源的所属文件夹。

选择文件夹后，浏览器上方会弹出对话框询问是否允许 Chrome 开启访问目录权限，单击 “允许” 按钮。接下来，以替换百度首页图标为例进行说明。
(1) 打开 Network 面板进行抓包，找到百度首页图标的 HTTP 请求包。
(2) 右击对应请求资源，选择下图中的 Save for overrides 菜单项。

(3) 在 Overrides 中，将选择的文件夹下的图片直接拖动到中间区域。
(4) 再次刷新百度首页页面，会发现图标已经被替换。

Fiddler 自动响应

除了在 Chrome 中完成本地覆盖，也可以在 Fiddler 抓包工具中实现相同效果，只需要进行如下三步操作：

复制 Network 面板中的百度图标 URL 地址。
打开 Fiddler 抓包工具，按照下图所示进行操作。首先单击左下角空白处，显示 Capturing 后开始网页抓包，然后切换到右侧的 AutoResponsder 选项卡，在下方输入栏的第一行输入第一步操作中复制的 URL 地址，第二行输入本地要替换的图片地址，最后单击 Save 按钮。
刷新百度首页，发现百度图标已经被替换。

新电脑配置安装下载今天吃了嘛o 前端
1、谷歌浏览器地址https://www.google.cn/chrome/下载安装即可。2、nvm下载下载地址：地址https://nvm.uihtm.com/#google_vignettenvminstall相对应的node版本//安装nvmlist可以查看已下载的node版本//查看nvmuse相对应的node版本号//使用nvmuninstall对应版本号//卸载3、git下载官网地址h
Python爬虫TLS dme. Python爬虫零基础入门爬虫 python
TLS指纹校验原理和绕过浏览器可以正常访问，但是用requests发送请求失败。后端是如何监测得呢？为什么浏览器可以返回结果，而requests模块不行呢？https://cn.investing.com/equities/amazon-com-inc-historical-data1.指纹校验案例1.1案例：ascii2dhttps://ascii2d.net/importrequestsres
python爬虫Selenium库详细教程_python爬虫之selenium库的使用详解嘻嘻哈哈学编程程序员 python 爬虫 selenium
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！2.2访问页面2.3查找元素2.3.1单个元素下面
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Selenium使用指南程序员杰哥 selenium 测试工具 python 测试用例职场和发展程序人生功能测试
概述selenium是网页应用中最流行的自动化测试工具，可以用来做自动化测试或者浏览器爬虫等。官网地址为：相对于另外一款web自动化测试工具QTP来说有如下优点：免费开源轻量级，不同语言只需要一个体积很小的依赖包支持多种系统，包括Windows，Mac，Linux支持多种浏览器，包括Chrome，FireFox，IE，safari，opera等支持多语言，包括Java，C，python，c#等主流
基于Python的搜索引擎的设计与实现 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
搜索引擎,Python,爬虫,自然语言处理,信息检索,索引,算法,数据库1.背景介绍在信息爆炸的时代，海量数据无处不在，高效地获取所需信息变得至关重要。搜索引擎作为信息获取的桥梁，扮演着不可或缺的角色。传统的搜索引擎往往依赖于庞大的服务器集群和复杂的算法，对资源消耗较大，且难以满足个性化搜索需求。基于Python的搜索引擎设计，则凭借Python语言的易学易用、丰富的第三方库和强大的社区支持，为开
python进程数上限_python 多进程数量对爬虫程序的影响 weixin_39759995 python进程数上限
1.首先看一下python多进程的优点和缺点多进程优点：1.稳定性好：多进程的优点是稳定性好，一个子进程崩溃了，不会影响主进程以及其余进程。基于这个特性，常常会用多进程来实现守护服务器的功能。然而多线程不足之处在于，任何一个线程崩溃都可能造成整个进程的崩溃，因为它们共享了进程的内存资源池。2.能充分利用多核cpu：由于python设计之初，没预料到多核cpu能够得到现在的发展，只考虑到了单核cpu
python爬虫--安装XPath Helper S903784597 python 爬虫开发语言
给chrome浏览器安装xpath插件。-从网盘下载xpath的插件文件链接：https://pan.baidu.com/s/1B85d5cLDyAz1xUQqmL3uug?pwd=3306提取码：3306-在chrome中输入chrome://extensions/打开扩展程序。-将从百度网盘中下载的xpath.zip文件直接拖到浏览器的扩展程序页面中-得到chrome插件，将插件开关开启，并且
使用Python爬虫实时监控行业新闻案例海拥✘ python 爬虫开发语言
目录背景环境准备请求网页数据解析网页数据定时任务综合代码使用代理IP提升稳定性运行截图与完整代码总结在互联网时代，新闻的实时性和时效性变得尤为重要。很多行业、技术、商业等领域的新闻都可以为公司或者个人发展提供有价值的信息。如果你有一项需求是要实时监控某个行业的新闻，自动化抓取并定期输出这些新闻，Python爬虫可以帮你轻松实现这一目标。本文将通过一个案例，带你一步一步实现一个简单的Python爬虫
Python爬虫-猫眼电影的影院数据写python的鑫哥爬虫案例1000讲 python 爬虫猫眼电影电影院数据采集
前言本文是该专栏的第46篇，后面会持续分享python爬虫干货知识，记得关注。本文笔者以猫眼电影为例子，获取猫眼的影院相关数据。废话不多说，具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。接下来，跟着笔者直接往下看正文详细内容。（附带完整代码）正文地址：aHR0cHM6Ly93d3cubWFveWFuLmNvbS8=目标：获取猫眼电影的影院数据1.项目场景介绍老规矩，我们还是通过接码
Python从0到100（四）：Python中的运算符介绍(补充) 是Dream呀 python java 数据库
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python从0到100（三十五）：beautifulsoup的学习是Dream呀 Dream的茶话会 python beautifulsoup 学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Chromedriver各个版本浏览器驱动下载地址 xl.liu 浏览器驱动
来自：淘宝源如果没有对应浏览器版本的驱动，下载低于浏览器版本且最接近的驱动即可！！！2.0/2013-09-25T22:57:39.349Z2.1/2013-09-25T22:57:49.481Z2.10/2014-05-01T20:46:22.843Z-2.11/2014-10-08T01:17:17.918Z-2.12/2014-10-27T09:27:24.626Z-2.13/2014-12
python分布式爬虫去重_Python分布式爬虫(三) - 爬虫基础知识 weixin_39997311 python分布式爬虫去重
0相关源码1技术选型爬虫能做什么1.1scrapyVSrequests+beautifulsoup做爬虫的时候，经常都会听到scrapyVSrequests+beautifulsoup的组合在本次分布式爬虫实现中只用scrapy而不用后者的原因是：requests和beautifulsoup都是库，scrapy是一个框架框架中可以应用requests等，可以集合很多第三方库基于twisted(异步
Scrapy分布式爬虫系统 ivwdcwso 开发运维 scrapy 分布式爬虫 python 开发
一、概述在这篇博文中,我们将介绍如何使用Docker来部署Scrapy分布式爬虫系统,包括Scrapyd、Logparser和Scrapyweb三个核心组件。这种部署方式适用于Scrapy项目和Scrapy-Redis分布式爬虫项目。需要安装的组件:Scrapyd-服务端,用于运行打包后的爬虫代码,所有爬虫机器都需要安装。Logparser-服务端,用于解析爬虫日志,配合Scrapyweb进行实时
使用Python抓取新闻媒体网站的最新头条与相关内容：深入的爬虫开发与数据分析实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫数据分析数据挖掘人工智能开发语言
引言在互联网时代，新闻媒体网站是人们获取信息和了解世界的重要渠道。随着新闻的即时更新，获取最新头条并进行数据分析成为许多行业领域（如媒体、广告、舆情监测等）的重要需求。通过抓取新闻媒体网站的内容，我们不仅能获取各类新闻文章，还能为后续的数据分析、情感分析、舆情监控等提供基础数据。本篇博客将详细讲解如何使用Python编写一个爬虫，抓取新闻媒体网站的最新头条及其相关内容。我们将使用最新的技术栈，包括
Python爬虫实战：获取笔趣阁图书信息，并做数据分析 ylfhpy 爬虫 python 爬虫数据分析
注意：以下内容仅供技术研究，请遵守目标网站的robots.txt规定，控制请求频率避免对目标服务器造成过大压力！1.环境准备与反爬策略pythonimportrequestsfrombs4importBeautifulSoupimportpandasaspdimportreimporttimeimportrandomfromfake_useragentimportUserAgent#需安装：pip
如何利用Python爬虫获取淘宝分类详情：实战案例指南数据小爬虫@ python 爬虫开发语言
在电商领域，淘宝作为中国最大的电商平台之一，其分类详情数据对于市场分析、竞争策略制定以及电商运营优化具有极高的价值。通过Python爬虫技术，我们可以高效地获取这些数据，为电商从业者提供强大的数据支持。本文将详细介绍如何利用Python编写爬虫程序，快速获取淘宝分类详情数据。一、准备工作（一）环境搭建确保你的开发环境中已经安装了以下必要的库：requests：用于发送HTTP请求。Beautifu
Python 爬虫功能介绍 chengxuyuan1213_ python 爬虫网络爬虫
在当今互联网信息爆炸的时代，数据的获取与分析成为了各行各业不可或缺的一部分。Python，作为一种简洁、易读且功能强大的编程语言，凭借其丰富的库和框架，在数据抓取（即网络爬虫）领域展现了极大的优势。本文旨在介绍Python爬虫的基础功能，帮助初学者快速入门，理解爬虫的基本工作原理及常用技术。一、什么是网络爬虫网络爬虫（WebCrawler），又称网络蜘蛛（WebSpider）或网络机器人（WebR
Python爬虫+数据分析：京东商品评论数据接口代码逐梦人爬虫技能晋升路线 python 爬虫数据分析
一、引言在电商领域，商品评论数据蕴含着丰富的信息，如消费者的满意度、产品的优缺点等。京东作为国内知名的电商平台，其商品评论数据对于商家进行市场调研、改进产品，以及消费者了解商品真实情况都具有重要价值。通过获取京东商品评论数据接口，我们可以方便、高效地获取这些有价值的信息，为后续的数据分析和决策提供支持。二、接口概述需要说明的是，京东并没有公开免费的商品评论数据接口供开发者随意使用。如果要获取京东商
python爬虫多线程原理代码逐梦人爬虫技能晋升路线 python 爬虫开发语言
多线程爬虫原理与优势在Python爬虫中，多线程是一种提升爬取效率的有效技术。在传统的单线程爬虫里，每次只能处理一个请求，只有等当前请求完成（包括发送请求、等待响应、解析数据）之后，才能开始下一个请求。而多线程爬虫可以让多个请求同时进行，在等待某个请求响应的时间里，CPU可以去处理其他请求，充分利用了CPU时间，大大提高了爬取效率。多线程爬虫的实现步骤1.引入必要的库importrequestsi
Python爬虫+数据分析：淘宝商品评论页面数据代码逐梦人爬虫技能晋升路线 python 爬虫数据分析
一、引言在电商平台中，商品评论包含了大量消费者的反馈信息，这些信息对于商家了解产品优缺点、改进服务，以及消费者做出购买决策都具有重要价值。淘宝作为国内知名的电商平台，其商品评论页面的数据蕴含着丰富的信息。通过Python爬虫技术获取这些数据，并运用数据分析方法进行处理和解读，可以挖掘出有价值的商业洞察。然而，需要注意的是，淘宝有严格的反爬机制，在进行爬虫操作时要遵守相关法律法规和平台规则，避免过度
Python网络爬虫-WebSocket数据抓取程序小勇 faiss 爬虫 python 网络协议 websocket 开发语言
目录前言1、WebSocket请求的分析通常涉及以下几个方面：2、利用WebSocket爬取数据总结最后，创作不易！非常感谢大家的关注、点赞、评论啦！谢谢三连哦！好人好运连连，学习进步！工作顺利哦！博主介绍：✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神，答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战，
浏览器chrome://version/命令行被篡改，快捷方式没有网址，还是被劫持菜鸟王小凡主页篡改首页被劫持
flag-switches-begin--flag-switches-end--origin-trial-disabled-features=SecurePaymentConfirmation劫持网址是MLXG、SysRoll等病毒的清除方法。https://download.csdn.net/download/wqs15192095633/19392652可以恢复。。
chrome://命令大全 sina_wjz chrome
chrome://.......命令集结Chrome有很多的特性在界面菜单中是没有体现的，可以通过chrome://命令来访问我搜集了下面这些！！！当然也是在网上找的！有的我自己也不知道是什么，具体作用是什么！还是等高人来探讨吧！chrome://.......后面还有很多命令chrome://plugins（插件）chrome://flags（实验室）chrome://performance（性
【解决方案】谷歌chrome浏览器被hao123/桔梗劫持 chrome://version命令行被篡改 Nzhi chrome 前端
我的谷歌被桔梗劫持了，百度了五六个解决方案，这个找到步骤详细明了，能解决命令行问题。顶[【解决方案】谷歌chrome浏览器被hao123劫持chrome://version命令行被篡改](https://blog.csdn.net/chichu261/article/details/83538876)
流行编程语言全解析：优势、应用与短板 a小胡哦 python java c++c语言 javascript swift r语言
Python：优势Python以其简洁、易读的语法闻名，新手能快速上手。丰富的库和框架，能极大地提高开发效率。适用领域数据科学与分析：处理和分析大规模数据集，进行数据可视化。典型示例：Google用Python进行数据分析，处理海量数据以支持各种业务决策。机器学习与人工智能：构建和训练模型。典型示例：OpenAI在很多人工智能项目中广泛使用Python，如GPT系列模型的研发。网络爬虫：轻松从网页
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源