钱曙光

创建一个分布式网络爬虫的故事

原文：The Tale of Creating a Distributed Web Crawler
作者：Benoit Bernard
译者：roy

编者按：作者通过创建和扩展自己的分布式爬虫，介绍了一系列工具和架构, 包括分布式体系结构、扩展、爬虫礼仪、安全、调试工具、Python 中的多任务处理等。以下为译文：

大概600万条记录，每个记录有15个左右的字段。

这是我的数据分析项目要处理的数据集，但它的记录有一个很大的问题：许多字段缺失，很多字段要么格式不一致或者过时了。换句话说，我的数据集非常脏。

但对于我这个业余数据科学家来说还是有点希望的-至少对于缺失和过时的字段来说。大多数记录包含至少一个到外部网站的超链接，在那里我可能找到我需要的信息。因此，这看起来像一个完美的网络爬虫的用例。

在这篇文章中，你将了解我是如何构建和扩展分布式网络爬虫的，特别是我如何处理随之而来的技术挑战。

初始需求

创建网络爬虫的想法令人兴奋。因为，你知道，爬虫很酷，对吧？

但我很快意识到，我的要求比我想象的要复杂得多:

给定指定 URL，爬虫程序需要自动发现特定记录中缺失字段的值。因此，如果一个网页不包含我正在寻找的信息，爬虫程序需要跟踪出站链接，直到找到该信息。
它需要是某种爬虫和抓取的混合功能，因为它必须同时跟踪出站链接并从网页中提取特定信息。
整个程序需要分布式处理，因为有可能有数亿个URL需要访问。
抓取的数据需要存储在某处，很可能是在数据库中。
爬虫程序需要7*24小时不间断工作，所以不能在我的笔记本电脑上运行它。
我不希望在云服务上花费太多 ¹。
需要用Python编码，这是我选择的语言。

好吧，我曾经在以前的工作中写过很多爬虫,但从没有这么大的规模。所以对我来说这是个全新的领域。

初始设计

我最开始的设计是这样的：

主要组件包括：

一个爬虫调度器，负责把URL分派给 m 个爬虫主控制器，并从它们收集结果（字段）。
m个爬虫主控制器，负责管理 n 个子进程。这些子过程执行实际的爬取操作。为方便起见，我把他们称为爬虫。
一个数据库服务器，负责存储初始URL和提取的字段。

这样我最终会有
m*n个爬虫，从而将负载分布在许多节点上。例如，4个主控制器，每个包含8个子进程的话，就相当于32个爬虫。

另外，所有进程间通信都将使用队列。所以在理论上，它将很容易扩展。我可以添加更多的主控制器，爬网率 - 一个性能指标- 会相应增加。

初始实现

现在我有一个看起来不错的设计，我需要选择使用哪些技术。

但别误会我的意思:我的目标不是提出一个完美的技术栈。相反，我主要把它看作是一个学习的机会，也是一个挑战 - 所以如果需要，我更愿意提出自制的解决方案。

1. 云托管

我可以选择AWS，但是我对DigitalOcean更熟悉，恰好它是更便宜的。所以我用了几个5美元每月的虚拟机（很省钱啦）。

2. HTTP 库

requests库是Python里处理HTTP请求的不二选择。

3. ETL 管道

当然，我需要从每个访问过的网页中提取所有的超链接。但我也需要在一些页面抓取具体数据。

因此，我构建了自己的ETL管道，以便能够以我所需的数据格式提取数据并进行转换。

它可以通过配置文件进行定制，如下所示：

{
    "name": "gravatar",
    "url_patterns": [
        {
            "type": "regex",
            "pattern": "^https?:\\/\\/(?:(?:www|\\w{2})\\.)?gravatar\\.com\\/(?!avatar|support|site|connect)\\w+\\/?$"
        }
    ],
    "url_parsers": [
        {
            "description": "URLs in the 'Find Me Online' section.",
            "processors": [
                {
                    "type": "xpath",
                    "parameters": {
                        "expression": "//h3[contains(text()，'Find Me Online')]/following-sibling::ul[@class='list-details'][1]//a/@href"
                    }
                }
            ]
        },
        {
            "description": "URLs in the 'Websites' section.",
            "processors": [
                {
                    "type": "xpath",
                    "parameters": {
                        "expression": "//ul[@class='list-sites']//a/@href"
                    }
                }
            ]
        }
    ],
    "fields": [
        {
            "name": "name",
            "processors": [
                {
                    "type": "xpath",
                    "parameters": {
                        "expression": "//div[@class='profile-description']/h2[@class='fn']/a/text()"
                    }
                },
                {
                    "type": "trim",
                    "parameters": {
                    }
                }
            ]
        },
        {
            "name": "location",
            "processors": [
                {
                    "type": "xpath",
                    "parameters": {
                        "expression": "//div[@class='profile-description']/p[@class='location']/text()"
                    }
                },
                {
                    "type": "trim",
                    "parameters": {
                    }
                }
            ]
        }
    ]
}

你在上面看到的是一个Gravatar 用户个人资料页面的映射。它告诉爬虫程序应该从这些页面中抓取什么数据以及如何抓取：

url_patterns 定义了与当前页URL 进行试探性匹配的模式。如果有一个匹配，那么当前页面确实是Gravatar的用户配置文件。
url_parsers 定义了能够在页面中抓取特定URL的解析器，比如那些指向用户的个人网站或社交媒体资料的URL。
fields 字段定义了要从页面抓取的数据。在Gravatar的用户配置文件里，我想抓取用户的全名和位置信息。

url_parsers 和 fields 都包含了一系列针对 web 页面 HTML 数据的处理器。它们执行转换(XPath，JSONPath，查找和替换，等等)以获取所需的确切数据,并转成我想要的格式。因此，数据在存储在其它地方之前被规范化，这是特别有用的，因为所有网站都是不同的，并且它们表示数据的方式各不相同。

手动创建所有这些映射花费了我很多时间，因为相关网站的列表非常长（数百个）。

4. 消息处理

最初，我想知道RabbitMQ是否适合。但是我决定，我不想要单独的服务器来管理队列。我想要的一切都要如闪电般快速而且要独立运行。

所以我用了ZeroMQ的push/pull队列，我把它们加到了queuelib的FifoDiskQueue上，以便将数据保存到磁盘，以防系统崩溃。另外，使用push/pull队列可以确保使用轮转调度算法将URL分派给主控制器。

了解ZeroMQ如何工作和理解其几个极端案例花了我一段时间。但是学习如何实现自己的消息传递真的很有趣，最终是值得的，尤其是性能方面。

5. 存储处理

一个好的关系数据库可以完成这项工作。但是我需要存储类似对象的结果（字段），所以我选了MongoDB。

加分项：MongoDB相当容易使用和管理。

6. 日志记录和监控

我使用了 Python 的日志模块，加上一个 RotatingFileHandler，每个进程生成一个日志文件。这对于管理由每个主控制器管理的各个爬虫进程的日志文件特别有用。这也有助于调试。

为了监视各种节点，我没有使用任何花哨的工具或框架。我只是每隔几个小时使用 MongoChef连接到 MongoDB 服务器，按照我的计算，检查已经处理好的记录的平均数。如果数字变小了，很可能意味着某件事情 (坏的) 正在发生，比如一个进程崩溃了或其他别的什么事情。

当然，你知道的-所有的血，汗水和眼泪都在这里。

7. 管理已经爬过的URLs

Web爬虫很可能会不止一次碰到同一个URL。但是你通常不想重新抓取它，因为网页可能没有改变。

为了避免这个问题，我在爬虫程序调度器上使用了一个本地SQLite数据库来存储每个已爬过的URL，以及与其抓取日期相对应的时间戳。因此，每当新的URL出现时，调度程序会在SQLite数据库中搜索该URL，以查看是否已经被爬过。如果没有，则执行爬取。否则，就忽略掉。

我选择SQLite是因为它的快速和易于使用。每个爬取URL附带的时间戳对调试和事件回溯都非常有用，万一有人对我的爬虫提出投诉的话。

8. URL过滤

我的目标不是抓取整个网络。相反，我想自动发现我感兴趣的网址，并过滤掉那些没用的网址。

利用前面介绍的ETL配置，我感兴趣的URL被列入白名单。为了过滤掉我不想要的网址，我使用Alexa的100万顶级网站列表中的前20K个网站。

这个概念很简单：任何出现在前20K的网站有很大的可能性是无用的，如youtube.com或amazon.com。然而，根据我自己的分析，那些20K以外的网站更有可能有与我的分析相关，比如个人网站和博客等。

9. 安全

我不希望任何人篡改我的 DigitalOcean 虚拟机，所以:

我关闭了每个虚拟机上使用 iptables的所有端口。我选择性地打开了我绝对需要的端口(80、443、22、27017等)。
我在 MongoDB 上启用了 SSL 身份验证，因此只有拥有适当证书的用户才能登录。
我在所有虚拟机上都使用了加密的磁盘。
我在每个虚拟机上都启用了fail2ban，以阻止多次失败的登录请求。
我在所有虚拟机上都配置了基于SSH密钥的身份验证。
我在 ZeroMQ 中启用了 SSL身份验证。

好吧，也许我对安全有点过分了:) 但我是故意的:这不仅是一个很好的学习机会，而且也是保护我数据的一种非常有效的方法。

10. 内存

一个每月5美元的DigitalOcean 虚拟机只有512MB的内存，所以它可做的相当有限。经过多次测试运行，我确定我的所有节点都应该有1GB的内存。所以我在每个虚拟机上创建了一个512MB的交换文件。

礼貌…是啥？

我对自己实现最初设计的工作速度感到惊讶。事情进展顺利，我的早期测试显示了我爬虫的令人印象深刻的性能数字(爬网率) 。所以我很兴奋，那是肯定的：）!

但后来，我看到Jim Mischel的一篇文章，完全改变了我的想法。事实是，我的爬虫根本不 “客气”。它不停地抓取网页，没有任何限制。当然，它抓取速度非常快，但由于同样的原因，网站管理员可能会封杀它。

那么，礼貌对网络爬虫意味着什么呢？

它必须通过适当的用户代理字符串标识自己。
它必须尊重 robots.txt 的规则。
它不能太快地向网站发送连续请求。

相当容易实现，对不对？

错。我很快意识到，我爬虫的分布式特性使事情复杂了许多。

更新的要求

除了我已经实现的需求之外，我还需要：

创建一个页面描述我的爬虫在做什么。
在我的爬虫所做的每一个HTTP请求中传递User-Agent头，并包含一个指向我创建的说明页面的链接。
为每个域定期下载robots.txt，并根据以下条件检查是否允许抓取URL：
1. 包含/排除规则。
2. 抓取延迟指令。在不存在的情况下，对同一域的后续请求需要以保守的秒数（例如15秒）间隔开。这是为了确保爬虫不会在网站上造成额外的负载。

然而，第三点有些难度。实际上，分布式Web爬虫怎么能：

# 保持一个单一的，最新的robots.txt文件缓存，并与所有进程分享？
# 避免过于频繁地下载同一个域的robots.txt文件？
# 跟踪每个域上次爬网的时间，以尊重抓取延迟指令？

这意味着我的爬虫会有一些重大的变化。

更新的设计

这是我更新后的设计。

与以前设计的主要区别是:

将为每个域下载Robots.txt文件。
Robots.txt 文件将被缓存在数据库中。每隔一小时左右，每个文件将根据需要单独失效并根据域重新下载。这样做是为了确保爬虫能够遵守robots.txt文件里的任何更改。
最后一个抓取日期也将被缓存到每个域的数据库中。这将用作参考，以遵守 robots.txt 中包含的抓取延迟指令。

此时，我担心这些变化会减慢我爬虫的速度。实际上几乎肯定会。但我没有选择，否则我的爬虫会使其它网站超负载。

更新后的实现

到目前为止，我所选择的一切都保持不变，除了几个关键的区别。

1. 处理 robots.txt

我选择了 reppy 库而不是 urllib 的 robotparser 是因为:

它支持抓取延迟(crawl-delay)指令。
它会自动处理已过期的robots.txt文件的下载。
它支持目录包含规则 (即允许指令)，基于Google 自己的 robots.txt 的实现。这些规则在网络上的robots.txt文件中很常见。

所以这是一个显而易见的选择。

2. 缓存 robots.txt 和上次爬网日期

我添加了第二个专门用于缓存内容的MongoDB服务器。在服务器上，我创建了两个不同的数据库，以避免任何可能的数据库级锁争用²:

# 数据库(1): 保存了每个域的上次爬网日期。
# 数据库(2): 保存了每个域的 robots.txt 文件副本。

此外，我不得不小小修改一下修改 reppy 库，使它缓存 robots.txt 文件在 MongoDB而不是在内存中。

处理 bug 和问题

在开发过程中，我花了大量的时间调试、分析和优化我的爬虫。实际上比我预期的时间多了很多。

除了挂掉³，内存泄漏⁴，变慢⁵，崩溃⁶和各种其他错误，我遇到了一系列意想不到的问题。

1. 内存管理

内存不是无限的资源 - 特别是在每月5美元的 DigitalOcean 虚拟机上。

事实上，我不得不限制在内存中一次存放多少个Python对象。例如，调度员非常快地将URL推送给主控制器，比后者爬取它们要快得多。同时，主控制器通常有8个爬取进程可供使用，因此这些进程需要不断地提供新的URL来爬取。

因此，我设置了一个阈值，确定主控制器上可以在内存中一次处理多少个URL。这使我能够在内存使用和性能之间取得平衡。

2. 瓶颈

我很快意识到，我不能让我的网络爬虫不受约束，否则它会抓取整个网络-这根本不是我的目标。

因此，我将爬取深度限制为 1，这意味着只会抓取指定网址及其直接的子网址。这样我的爬虫可以自动发现它要特别寻找的大部分网页。

3. 动态生成的内容

我发现很多网站都是用JavaScript动态生成的。这意味着当你使用爬虫下载任意网页时，你可能没有它的全部内容。也就是说，除非你能够解释和执行其脚本来生成页面的内容。要做到这一点，你需要一个JavaScript引擎。

现在有很多方法可以解决这个问题，但我还是选择了一个非常简单的解决方案。我指定了一些主控制器，让它们只抓取动态生成的网页。

在那些主控制器上：

我安装了谷歌浏览器和Chrome驱动程序。
我安装了Selenium的Python绑定。
我安装了xvfb来模拟监视器的存在，因为Chrome有一个GUI，而CentOS默认没有。

因此，我有几个节点能够抓取动态生成的网页。

4. 极端情况

我已经知道，构建一个常规爬虫意味着要处理各种奇怪的API极端案例。但是网络爬虫呢？

好吧，如果你把网络看成是一个API，它肯定是巨大的，疯狂的，非常不一致的：

页面并非都是以同样的方式构建的。
页面通常包含无效字符（即与页面编码不兼容）。
服务器经常返回各种HTTP错误（500,404,400等等），包括自定义的错误（999，有人能告诉我这是啥不？）。
服务器经常无法访问，导致超时。域名/网站可能不再存在，或者可能存在DNS问题，或者可能是负载过重，或者服务器可能配置不正确或者…你明白的:)
有些页面是巨大的，有几十兆字节或者更多⁷。这意味着，如果你一次下载完全，并将它们全部加载到内存中的话，你很可能会在某个时刻耗尽内存⁸。
服务器有时返回不正确的HTML，或非HTML内容，如JSON、XML或其他内容。谁知道为什么？！
网页通常包含无效和不正确的URL。或你不想爬取的URL，比如像大的二进制文件（如PDF文件，视频，等等）。

以上只是网络爬虫需要处理的许多问题的一部分。

性能数据

使用网络爬虫，你通常会对爬取速度感兴趣，即每秒下载的网页数量。例如，每4个主控制器，每个使用8个子进程，我估计我的爬虫程序速率超过每秒40页。

但我更感兴趣的是，每小时我的原始数据集有多少记录得到正确的解析。因为，正如前面提到的，我爬虫的最初目的是通过抓取丢失的字段或刷新过时的字段来填充数据集中的空白。

因此，使用与上面相同的配置，每小时它能够解析大约2600条记录。当然，这是一个令人失望的数字，但仍然足够好了，因为大多数网页都是无用的，而且过滤掉了。

未来的改进

如果我不得不从头开始的话，有几件事情，我会采用不同的方式:

1. 消息传递

我可能会选择 RabbitMQ 或者 Redis，而不是ZeroMQ, 主要是为了方便和易用性，即使他们比较慢。

2. 监控/日志

我可能会使用 New Relic 和 Loggly 工具来监控我虚拟机上的资源并集中处理所有节点生成的日志。

3. 设计

我可能会把处理 robots.txt 文件和上次爬取日期的缓存去中心话来提高总体爬取速度。这意味着，对于每个爬虫过程，将 MongoDB 服务器 #2 替换为在每个主控制器上的缓存。

下面是可能的体系结构:

总结:

在每个主控制器节点上，每个爬虫程序进程都将有自己的 robots.txt 文件和上次爬取的日期缓存;这将替换集中式缓存 (MongoDB 服务器 #2)。
由于这个原因，调度员需要将每个 URL 发送到一个非常特定的主控制器节点。
当接收到一个新的要爬取的URL，一个主控制器节点需要发送到一个非常特定的爬虫。否则，不同主控制器下面的的多个爬虫进程可能同时抓取完全相同的网站。我的爬虫可能会被禁止，因为它没有遵循 robots.txt 的规则。

幸运的是，ZeroMQ 支持前缀匹配，因此我可以根据域名将 URL 路由到特定的主控制器节点。我已经写了一个主要基于 SQLite的持久化缓存。我肯定会重用它，以防止多个缓存占用太多的内存。

　最后的思考

在这篇文章中，我们已经看到了如何构建一个分布式 web 爬虫来填补脏数据集中的缺失数据。

起初，我并不期待这个项目变得如此庞大和复杂-大多数软件项目可能都这样。

但最终我确实得到了回报，因为我学到了大量的东西: 分布式体系结构、扩展、礼仪、安全、调试工具、Python 中的多任务处理、robots.txt文件等等。

现在，有一个问题，我没有在我的文章里回答。哪一个数据集可以证明所有的工作都是正确的？这一切背后的原因是什么？

这是你在我以后的文章中会看到的!

后记：请在下面的评论栏中留下你的问题和意见！

更新(2017/09/19): 这篇文章发表在Reddit。它也发表在Python Weekly，Pycoders Weekly 和Programming Digest。如果你有机会订阅他们，你不会失望的！谢谢大家的支持和反馈！

1: 我只花了35美元每月 (5美元/月/VM * 7 VMs = 35美元/月)。我曾想给文章取标题为“一个穷人关于创建一个分布式网络爬虫的的建议”。
2: 现在回想起来，有2个不同的MongoDB数据库可能是不必要的。这是因为在MongoDB 3 以上版本写锁是针对每个文件的，而不是针对每个数据库。这似乎与3之前版本相反，据MongoDB的文档和这个Stackoverflow答案。
3: 关于更多挂机的细节，请看这里和这里
4: 关于更多内存泄露的细节，请看这里和这里
5: 关于更多运行缓慢的细节，请看这里
6: 关于更多崩溃的细节，请看这里
7: 这就是你为什么要按块下载网页
8: 有些网页就是这样设计的。其他的输出一条错误信息或者看起来无限长的堆栈跟踪信息。无论哪种方式，它们都很大！

【蓝桥杯集训·每日一题2025】 AcWing 4905. 面包店 python 查理零世蓝桥杯2025每日一题蓝桥杯算法 python
AcWing4905.面包店Week43月14日题目描述贝茜开了一家面包店。贝茜的面包店中只有一个烤箱，该烤箱制作一块饼干需要花费的时间为tCt_CtC，制作一块松饼需要花费的时间为tMt_MtM。烤箱每次只能制作一个糕点，也就是说制作AAA块饼干和BBB块松饼需要花费的时间为A×tC+B×tMA\timest_C+B\timest_MA×tC+B×tM。有NNN个客人来光顾贝茜的生意，编号1∼N
《算法笔记》8.1小节——搜索专题-＞深度优先搜索（DFS）问题 C: 【递归入门】组合+判断素数圣保罗的大教堂《算法笔记》算法
题目描述已知n个整数b1,b2,…,bn以及一个整数k（k＜n）。从n个整数中任选k个整数相加，可分别得到一系列的和。例如当n=4，k＝3，4个整数分别为3，7，12，19时，可得全部的组合与它们的和为：3＋7＋12=223＋7＋19＝297＋12＋19＝383＋12＋19＝34。现在，要求你计算出和为素数共有多少种。例如上例，只有一种的和为素数：3＋7＋19＝29。输入第一行两个整数：n,k（1
202年充电计划——自学手册网络安全（黑客技术）网安康sir web安全安全网络 python linux
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
Maven的安装配置 2301_82243979 作者\/maven java
（注：文章是前段时间写的忘记发了，防止丢失在此记录一下）Maven是Apache下的纯Java开发的开源项目,是一个项目管理工具,使用Maven对项目进行构建,依赖管理。依赖管理就是一个项目中要使用第三方jar包才可以运行。Maven正是对这些jar包进行规范化管理，所以在Maven的项目中只需要在pom.xml中添加jar包的坐标,自动从Maven仓库中下载jar包,运行即可。Maven项目对比
微信小程序点餐系统的设计与实现（开题报告+源码+论文）_在线点餐外卖系统设计与实现文献 2301_82243979 程序员微信小程序小程序
二.技术环境jdk版本：1.8及以上ide工具：Eclipse或者IDEA，微信小程序开发工具数据库:mysql5.7（必须5.7）编程语言:Javajava框架：ssmmaven:3.6.1详细技术：HTML+CSS+JAVA+SSM+MYSQL+VUE+MAVEN+微信开发工具三.功能设计本基于微信小程序的外卖点餐系统的设计与实现有管理员，外卖员，餐厅，用户共四个角色。管理员功能有个人中心，外
docker拉取 sentinel 并启动追风林 docker sentinel 容器
拉取镜像dockerpullbladex/sentinel-dashboard:latest#默认拉取最新版启动镜像访问账号密码都是默认的sentinel
69.Harmonyos NEXT图片预览组件应用实践（二）：电商、内容与办公场景 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyosNEXT图片预览组件应用实践（二）：电商、内容与办公场景效果预览一、电商应用最佳实践1.功能需求电商应用中的商品图片预览需求包括：支持商品多角度图片查看高清缩放查看商品细节商品参数标注和热点标记与商品信息面板的联动支持视频和图片混合展示2.实现
程序员副业变现的三种模式：我的实践分享程序员
程序员副业变现的三种模式：我的实践分享大家好，今天想和大家分享我作为程序员在探索副业道路上的三种不同变现模式。每种模式都有其特点和优势，希望能给想要开启副业之路的程序员朋友一些启发。一、ToB技术服务：与科技公司的直接合作这是最直接的技术变现模式，通过与其他科技公司的现场对接获取收益。特点：直接面对企业客户谈判周期较短项目需求明确付款相对及时优势：技术门槛高，议价能力强合作方式灵活可以建立长期合作
现代数据栈：秽土重生？——从 SAP x Databricks 看数据世界的轮回数据库
由SAP官宣与Databricks合作想开去。现代数据栈（ModernDataStack）曾一度是数据行业最炙手可热的概念。Snowflake、Databricks、Fivetran、dbt……一众明星公司描绘出一个美好的未来：所有数据汇集到云端数据仓库，所有分析、BI和AI应用直接连接仓库数据，再无数据孤岛，数据流转自由，一切井然有序。但现实并没有这么美好。现代数据栈经历了一轮狂热，又在短短几年
征程 6 基于 Linux 和 Node-Locked License 配置 DSP 开发环境自动驾驶算法
说明：该文档以征程6上使用的Q8DSP安装为例，同样的步骤在征程5上使用方法类似只是征程6使用的DSP为VP61.获取所需文件在配置征程6的DSP开发环境前，您需要获取以下文件：标准工具链发布包部分（请联系地平线项目对接人获取）OpenExplorer算法工具链Docker镜像OpenExplorer算法工具链交付包（OE包中提供了大量示例，包括DSP示例）OpenExplorer算法工具链中文文
吴恩达出手，开源最新Python包，一个接口调用OpenAI等模型 Bryan Ding python
用相同的代码方式调用OpenAI、Anthropic、Google等发布的大模型，还能实现便捷的模型切换和对比测试。刚刚，AI著名学者、斯坦福大学教授吴恩达最新开源项目实现了。吴恩达在推文中宣布了这一好消息开源新的Python包：aisuite！这个工具可以让开发者轻松使用来自多个提供商的大型语言模型。在谈到为何构建这个项目时，吴恩达表示构建应用时，发现与多个提供商集成非常麻烦。aisuite正是
C++入门基础------类的介绍 XG丶小哥 C++c++
本文是对C++的一些知识点总结以及自己的理解，建议是对于C有较好的理解或者是学过一些C++的同学使用，可以加深自己的理解！C++基础一、类的定义二、创建类对象三、访问类的成员四、类成员变量和成员函数五、C++类的访问权限六、类的简单封装七、类的构造函数八、C++构造函数初始化列表九、析构函数十、this指针十一、C++中的静态变量十二、静态函数十三、const成员函数一、类的定义类是创建对象的模板
《深度剖析：鸿蒙系统下智能NPC与游戏剧情的深度融合》人工智能深度学习
在游戏开发领域，鸿蒙系统的崛起为开发者们带来了前所未有的机遇与挑战。尤其是在开发基于鸿蒙系统的人工智能游戏时，实现智能NPC的行为逻辑与游戏剧情紧密结合，成为了打造沉浸式游戏体验的关键。鸿蒙系统作为一款面向全场景的分布式操作系统，具有强大的多设备协同能力和出色的性能表现。这为人工智能游戏的开发提供了坚实的基础，使得游戏能够在不同设备上流畅运行，并且实现数据的无缝同步。而人工智能技术的融入，则为游戏
一些时间方法院人冲冲冲 vue.js 前端 javascript
1.禁用之前的时间timeDate;//比较时间戳},isDate(value,time){constvalueDate=newDate(value);//将value转换为Date对象consttimeDate=newDate(time);//将time转换为Date对象returnvalueDate>=timeDate;//比较时间戳},getCurrentTime(){constnow=ne
记录：uniapp中sass问题SassError: expected selector. 院人冲冲冲 sass 前端
SassError:expectedselector.看了网上很多方法可以将/deep/改成：::v-deep降低sass-loader版本（我没实现）最后npmuninstallsass-gsass--version'sass'不是内部或外部命令，也不是可运行的程序或批处理文件。以上解决
uniapp、hbuilder运行到微信开发者工具报错院人冲冲冲 uni-app
1.没有出现微信开发者工具选项事件：hbuilder运行到微信开发者工具：在设置里面配置路径，微信开发者在安全设置里面开启服务端口号问题：选择运行到微信小程序没有出现选项、没有连接上解决：右键重新识别项目类型就好了2.微信开发者工具运行报错问题：出现权限报错可能是没有设置微信号可以开发权限出现没有找到文件报错，但是文件路径配置都没错，就重启微信开发者工具，或者安装最新版的微信开发者工具解决：找项目
element表格滚动错位问题，使用uniapp写的项目院人冲冲冲 uni-app
element表格设置滚动条滚动到底错位_element表格滚动条无法滚动到最后-CSDN博客参考上面的博主写的::v-deep::-webkit-scrollbar{display:block!important;width:8px!important;height:8px!important;background:rgb(241,241,241)!important;-webkit-appea
uniapp(全端兼容) - 最新详细实现可拖动悬浮按钮功能，支持手指拖曳放到页面任意位置，uniapp可拖动的悬浮球，悬浮图标支持拖动效果（详细示例源码及注释，复制粘贴快速植入）街尾杂货店& 前端组件与功能(开箱即用)uni-app 悬浮球 uniapp悬浮在屏幕上的组件 uniapp悬浮功能 uniapp可拖曳拖动的悬浮球
效果图百度搜的代码都太难用了而且有bug。。。在uniapp小程序/h5网页网站/安卓苹果app/nvue等（全平台完美兼容）开发中，详细实现在uniapp中实现一个可拖动的悬浮按钮，uniapp全平台兼容的悬浮球功能，可挂载各种小卡片、客服等，自由拖动。支持一次全局引入，无需每个页面都引用。你可以直接复制源码，复制到你的项目中，附带全局组件注册的方法（要不每个页面都需要引一次），uniappVu
elk的相关的基础 weixin_43806846 elk
以下是关于ELK（Elasticsearch,Logstash,Kibana）的200个基础问题及其答案，涵盖了ELK的核心概念、组件、配置、使用场景、优化等方面。Elasticsearch基础**什么是Elasticsearch？**答：Elasticsearch是一个分布式、RESTful的搜索和分析引擎，基于ApacheLucene构建。**Elasticsearch的主要用途是什么？**答
kubernetes集群部署kubesphere环境 weixin_43806846 devops kubernetes 自动化
安装步骤选择4核8G（master）、8核16G（node1）、8核16G（node2）三台机器，按量付费进行实验，CentOS7.9安装Docker安装Kubernetes安装KubeSphere前置环境安装KubeSphere1.安装Docker配置docker的yum源地址yum-yinstallwgetwgethttps://mirrors.aliyun.com/docker-ce/lin
centos7升级openssh9.8 weixin_43806846 运维
前言处理新发布的CVE-2024-6387关于openssh的漏洞，升级openssh到9.8版本。一、升级准备？确认系统版本[root@CentOS7~]#uname-aLinuxCentOS73.10.0-1160.el7.x86_64#1SMPMonOct1916:18:59UTC2020x86_64x86_64x86_64GNU/Linux[root@CentOS7~]#cat/etc/c
linux系统的加固，防火墙，弱口令的梳理 weixin_43806846 安全加固
防火墙开启防火墙：systemctlstartfirewalldsystemctlenablefirewalld弱口令opensslrand-base648>/root/.passwd#生成随机密码，保存至/root/.passwd，保存好root密码后，可以删除此文件cat/root/.passwd|passwdroot--stdin#更改root密码禁止root账号远程登录系统，并修改ssh默
Perl包相关 weixin_30500473
名称冲突问题假如在sum2.pm中使用require导入了一个代码文件sum1.pm：#!/usr/bin/envperlusestrict;usewarnings;use5.010;require'/perlapp/sum1.pm';subsum{say"sum2:sum()";}1;如果在sum1.pm中也有一个sum子程序：#!/usr/bin/envperlusestrict;usewar
Caddy2使用阿里云DNS申请https证书，利用阿里云DNS境内外不同解析给Gone文档做一个同域名的国内镜像站点 dapeng-大鹏大鹏运维记录 caddy https docker docker-compose
我从头到尾实现了一个Golang的依赖注入框架，并且集成了gin、xorm、redis、cron、消息中间件等功能；自己觉得还挺好用的，并且打算长期维护！github地址：https://github.com/gone-io/gone文档原地址：https://goner.fun/zh/guide/auto-gen-priest.html请帮忙在github上点个⭐️吧，这对我很重要；万分感谢！！
Gone v2 提供 gRPC服务 dapeng-大鹏 Gone框架介绍 golang gRPC gone
项目地址：https://github.com/gone-io/gone原文地址：https://github.com/gone-io/goner/blob/main/grpc/README.md文章目录编写proto文件，生成golang代码编写服务端代码注册客户端编写配置文件测试总结首先创建一个grpc目录，在这个目录中初始化一个golangmod：mkdirgrpccdgrpcgomodin
Gone 从 v1 到 v2 的更新分析 dapeng-大鹏 Gone框架介绍 gone 依赖注入后端框架
项目地址：https://github.com/gone-io/gone原文地址：https://github.com/gone-io/gone/blob/main/docs/gone-v1-to-v2-analysis.md文章目录1.概念简化与术语变更2.接口重新设计2.1组件定义的简化2.2组件加载方式的统一2.3生命周期方法的优化3.依赖注入逻辑重写3.1注入标签的简化3.2依赖注入查找流
python的reload 风语者666 python java linux
先看看from...import...的问题#importparse_tumor_report.parse_tumor_report#这样是错的fromparse_tumor_reportimportparse_tumor_report#这个是正确用法再看reload的问题parse_report是我自定义的一个模块文件。该文件（模块）中包含了一个parse_tumor_report类。这样是没错
Python中三种表示NA的方式风语者666 python
Python中三种表示NA的方式#-*-coding:utf-8-*-importnumpyasnpimportpandasaspd#data_frame=np.load('a.npy',allow_pickle=True)#print(data_frame.columns)df=pd.DataFrame({'one':[1,2,3,pd.NA]})df=pd.DataFrame({'one':[
《解锁华为黑科技：MindSpore+鸿蒙深度集成奥秘》人工智能深度学习
在数字化浪潮汹涌澎湃的当下，人工智能与操作系统的融合已成为推动科技发展的核心驱动力。华为作为科技领域的先锋，其AI开发框架MindSpore与鸿蒙系统的深度集成备受瞩目，开启了智能生态的新篇章。华为MindSpore：AI框架的创新先锋MindSpore自2019年诞生以来，迅速在AI领域崭露头角。它以其独特的设计理念和先进的技术架构，为开发者提供了全场景的AI开发支持。从设计理念上看，MindS
[免费送Claude账号密码]ChatGPT的平替——Claude赠送2个免费Claude账号密码卡密！（内附Claude注册教程） NBA首席形象大使阿坤日常小功能实现人工智能 chatgpt claude gpt-3
一、账号说明1.账号格式：登录邮箱—密码—验证邮箱2.登录方式：访问Claude官网，选择登录，输入登录邮箱、密码不多叭叭，上账号！账号1：登录邮箱:[email protected]—登录密码:c934dfqcwuz8g—验证邮箱:[email protected]账号2：登录邮箱:[email protected]—登录密码:jx68
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

创建一个分布式网络爬虫的故事

初始需求

初始设计

初始实现

1. 云托管

2. HTTP 库

3. ETL 管道

4. 消息处理

5. 存储处理

6. 日志记录和监控

7. 管理已经爬过的URLs

8. URL过滤

9. 安全

10. 内存

礼貌…是啥？

更新的要求

更新的设计

更新后的实现

1. 处理 robots.txt

2. 缓存 robots.txt 和上次爬网日期

处理 bug 和问题

1. 内存管理

2. 瓶颈

3. 动态生成的内容

4. 极端情况

性能数据

未来的改进

1. 消息传递

2. 监控/日志

3. 设计

最后的思考

你可能感兴趣的:(创建一个分布式网络爬虫的故事)

　最后的思考