禾乃儿_xiuer

CHAPTER 9: 《DESIGN A WEB CRAWLER》第9章《设计一个web爬虫》

CHAPTER 9: 《DESIGN A WEB CRAWLER》第九章设计一个web爬虫

在本章中，我们将重点介绍网络爬虫设计：一种有趣而经典的系统设计
面试问题。
网络爬虫被称为机器人或蜘蛛。它被搜索引擎广泛用于发现网络上的新内容或更新内容。内容可以是网页、图像、视频、PDF文档等。网络爬虫首先收集一些网页，然后跟踪这些网页上的链接页面以收集新内容。图 9-1 显示了爬网过程的直观示例。

爬虫有多种用途：

搜索引擎索引：这是最常见的用例。爬虫收集网络页面为搜索引擎创建本地索引。例如Googlebot 就是网络谷歌搜索引擎背后的爬虫。
Web 存档：这是从 Web 收集信息以保存的过程数据以备将来使用。例如，许多国家图书馆运行爬虫来存档网络网站。值得注意的例子是美国国会图书馆[1]和欧盟网络档案馆[2]。
网络挖矿：网络的爆炸性增长为数据挖掘。网络挖掘有助于从互联网上发现有用的知识。为例如，顶级金融公司使用爬虫下载股东大会和年度报告以了解公司的关键举措。
网络监控。爬虫有助于监控版权和商标侵权行为通过互联网。例如，Digimarc [3] 利用爬虫来发现盗版作品和报告。

开发网络爬虫的复杂性取决于我们打算支持的规模。它可以是一个只需要几个小时就能完成的小型学校项目，也可以是一个巨大的项目需要专门的工程团队持续改进的项目。因此，我们将在下面探讨要支持的规模和功能。

第 1 步 - 了解问题并确定设计范围

网络爬虫的基本算法很简单：

给定一组 URL，下载这些 URL 链接的所有网页。
从这些网页中提取 URL
将新 URL 添加到要下载的 URL 列表中。重复这 3 个步骤。

网络爬虫真的像这个基本算法一样简单吗？不完全是。设计一个可扩展的网络爬虫是一项极其复杂的任务。任何人都不太可能设计面试期间的大型网络爬虫。在开始设计之前，我们必须提出问题以了解需求并确定设计范围：
应聘者：爬虫的主要用途是什幺？它是否用于搜索引擎索引，数据挖掘，还是别的什幺？
面试官：搜索引擎索引。
应聘者：网络爬虫每月收集多少个网页？
面试官：10 亿页。
应聘者：包括哪些内容类型？仅限 HTML 或其他内容类型，例如还有 PDF 和图像？
面试官：仅限 HTML。
应聘者：我们可以考虑新添加或编辑的网页吗？
面试官：是的，我们应该考虑新添加或编辑的网页。
应聘者：我们需要存储从网络上抓取的 HTML 页面吗？
面试官：是的，最长 5 年
应聘者：如何处理重复内容的网页？
面试官：包含重复内容的页面应被忽略

以上是您可以向面试官提出的一些示例问题。重要的是了解要求并澄清歧义。即使你被要求设计一个
像网络爬虫这样的简单产品，你和你的面试官也可能有不一样的想法。

除了与面试官澄清的功能外，记下一个好的网络爬虫的以下特征：

可测量性：网络非常大。那里有数十亿个网页。使用并行化爬网应该非常有效。
鲁棒性：网络充满了陷阱。错误的 HTML、无响应的服务器、崩溃、恶意链接等都很常见。爬网进程必须处理所有这些边缘情况。
原则性：爬虫不应在短时间内向网站发出太多请求时间间隔。
可扩展性：系统非常灵活，因此只需进行最少的更改即可支持新的内容类型。例如，如果我们将来想抓取图像文档，我们不应该需要重新设计整个系统。

封底计算

以下估计基于许多假设，重要的是与面试官沟通以达成共识。

假设每月下载10亿个网页。
QPS：1,000,000,000 / 30 天 / 24 小时 / 3600 秒 = ~400 页/秒。
峰值 QPS = 2 * QPS = 800
假设平均网页大小为 500k。
10 亿页 x 500k = 每月 500 TB 存储。如果您不清楚数字存储单元，请再次浏览第 2 章中的“2 的幂”部分。
假设数据存储 5 年，则 500 TB * 12 个月 * 5 年 = 30 PB。一个 30 PB需要存储来存储五年的内容。

第 2 步 - 提出高级设计并获得支持

一旦明确了需求，我们就会继续进行高级设计。灵感来自以前的在对网络爬虫的研究[4] [5]中，我们提出了一个如图9-2所示的高级设计。

首先，我们探索每个设计组件以了解它们的功能。然后我们逐步检查爬虫工作流程。
种子网址
网络爬虫使用种子 URL 作为爬网过程的起点。例如，要抓取大学网站上的所有网页，选择种子 URL 的直观方法是使用大学的域名。要抓取整个网络，我们需要创造性地选择种子 URL。一个好的种子网址作为一个很好的起点，爬虫可以利用它来遍历尽可能多的链接。一般策略是将整个 URL 空间划分为更小的空间。第一个提出的该方法基于地点，因为不同的国家可能有不同的流行网站。另一种方法是根据主题选择种子 URL；例如，我们可以划分 URL 空间购物、体育、医疗保健等。种子 URL 选择是一个开放式问题。你应该不会给出完美的答案。开放思考
网址前沿
大多数现代网络爬虫将爬行状态分为两种：待下载和已下载下载了。存储要下载的 URL 的组件称为 URL Frontier。您可以将其称为先进先出 (FIFO) 队列。有关详细信息URL Frontier，请参阅深入研究。
HTML下载器
HTML 下载器从 Internet 下载网页。通过 URL 边界提供了这些 URL。
DNS解析器
要下载网页，必须将 URL 转换为 IP 地址。超文本标记语言下载器调用DNS解析器来获取URL对应的IP地址。为了例如，自 2019 年 3 月 5 日起，URL www.wikipedia.org 已转换为 IP 地址198.35.26.96。
内容解析器
下载网页后，必须对其进行解析和验证，因为格式错误的网页页面可能会引发问题并浪费存储空间。在中实现内容解析器抓取服务器会减慢抓取过程。因此，内容解析器是一个单独的成分。
内容已存在了？
在线研究[6]显示，29%的网页是重复内容，这可能导致相同的内容被存储多次。我们介绍“看到的内容？”数据结构，消除数据冗余并缩短处理时间。它有助于检测新的之前存储在系统中的内容。要比较两个 HTML 文档，我们可以一个接一个的比较他们。然而，这种方法速度慢且耗时，尤其是当涉及数十亿个网页时。完成这项任务的一个有效方法是比较两个网页的哈希值[7]。
内容存储
它是一个用于存储HTML内容的存储系统。存储系统的选择取决于数据类型、数据大小、访问频率、寿命等因素。磁盘和内存被使用。

大多数内容存储在磁盘上，因为数据集太大，无法放入内存。
热门内容保留在内存中以减少延迟。

网址提取器
URL Extractor 从 HTML 页面中解析并提取链接。图 9-3 显示了一个示例链接提取过程。通过添加以下内容将相对路径转换为绝对 URL“https://en.wikipedia.org”前缀。

URL 过滤器
URL 筛选器排除了“列入黑名单”的网站。
URL Seen？
“URL Seen？”是一种数据结构，用于跟踪之前或已经访问过的 URL最尾端地址。“URL Seen？”有助于避免多次添加相同的 URL增加服务器负载并导致潜在的无限循环。布隆过滤器和哈希表是实现“URL Seen？”组件。我们不会详细介绍 bloom 过滤器和哈希表的实现这里。有关详细信息，请参阅参考资料 [4] [8]。
URL 存储
URL 存储存储已访问的 URL。到目前为止，我们已经讨论了每个系统组件。接下来，我们把它们放在一起来解释工作流。
网络爬虫工作流程
为了更好地逐步解释工作流程，在设计中添加了串行号如图9-4所示。
步骤 1：将种子 URL 添加到 URL 边界
第 2 步：HTML 下载器从 URL Frontier 获取 URL 列表。
第 3 步：HTML 下载器从 DNS 解析器获取 URL 的 IP 地址并启动下载。
第 4 步：内容解析器解析 HTML 页面并检查页面是否格式不正确。
第 5 步：解析和验证内容后，将其传递给“看到的内容”组件。
第 6 步：“看到的内容”组件检查 HTML 页面是否已在存储中。

如果它在存储中，这意味着不同 URL 中的相同内容已经处理。在这种情况下，HTML 页面将被丢弃。
如果它不在存储中，则系统之前没有处理过相同的内容。这内容被传递给链接提取器。

第 7 步：链接提取器从 HTML 页面中提取链接。
第 8 步：提取的链接将传递到 URL 过滤器。
第 9 步：过滤链接后，它们被传递到“URL Seen？”组件。
第 10 步：“URL Seen”组件检查 URL 是否已经在存储中，如果是，则为之前处理过，不需要做任何事情。
第 11 步：如果之前未处理过 URL，则会将其添加到 URL 边界。

第 3 步 - 深入探究设计

到目前为止，我们已经讨论了高级设计。接下来，我们将讨论最多的重要的建筑构件和技术深度：

深度优先搜索（DFS）与广度优先搜索（BFS）
URL 边界
HTML 下载器
鲁棒性
扩展
检测并避免有问题的内容

DFS 与 BFS

您可以将 Web 视为有向图，其中网页充当节点和超链接（URL）作为边。爬网过程可以看作是从一个 Web 遍历有向图页面给其他人。两种常见的图遍历算法是 DFS 和 BFS。但是，DFS 是通常不是一个好的选择，因为DFS的深度可能很深。BFS 通常由网络爬虫使用，并由先进先出（FIFO）实现
队列。在 FIFO 队列中，URL 按照其排队顺序取消排队。但是，这实现有两个问题：

来自同一网页的大多数链接都链接回同一主机。在图 9-5 中，所有wikipedia.com 中的链接是内部链接，使爬虫忙于处理 URL来自同一主机（wikipedia.com）。当爬虫尝试下载同时，维基百科服务器将充斥着请求。这被认为是“不礼貌的”。
标准 BFS 不考虑 URL 的优先级。网络很大并非每个页面都具有相同的质量和重要性水平。因此，我们可能想要根据URL的页面排名、网络流量、更新频率等确定URL的优先级。
URL 边界
URL 边界有助于解决这些问题。URL 边界是一种存储的数据结构要下载的 URL。URL 边界是确保礼貌的重要组成部分，URL 优先级和新鲜度。书中提到了一些关于URL前沿的值得注意的论文在参考资料[5] [9]中。这些论文的发现如下：
礼貌
通常，网络爬虫应避免向同一托管服务器发送过多请求在短时间内。发送过多的请求被认为是“不礼貌”的，甚至被对待作为拒绝服务（DOS）攻击。例如，在没有任何约束的情况下，爬虫可以发送每秒有数千个请求发送到同一个网站。这可能会使网络不堪重负服务器。强制礼貌的一般思路是一次从同一页面下载一页主机。可以在两个下载任务之间添加延迟。礼貌约束是通过维护从网站主机名到下载（工作线程）线程的映射来实现。每个下载器线程都有一个单独的 FIFO 队列，并且仅下载从那个队列。图 9-6 显示了管理礼貌的设计。
队列路由器：确保每个队列（b1、b2、…bn）仅包含来自同一主机。
映射表：它将每个主机映射到一个队列。
FIFO 队列 b1、b2 到 bn：每个队列都包含来自同一主机的 URL。
队列选择器：每个工作线程都映射到一个 FIFO 队列，并且它只下载该队列中的 URL。队列选择逻辑由队列选择器完成。
工作线程 1 到 N。工作线程从同一个线程中一个接一个地下载网页主机。可以在两个下载任务之间添加延迟。

优先权
来自一个关于苹果产品的论坛的随机帖子具有非常不同的分量而不是 Apple 主页上的帖子。尽管它们都有“Apple”关键字，但它是爬虫首先抓取 Apple 主页是明智的。我们根据有用性对 URL 进行优先级排序，这可以通过 PageRank [10] 来衡量，网站流量、更新频率等。 “优先级排序器”是处理 URL 优先级的组件。有关此概念的深入信息，请参阅参考资料 [5] [10]。图 9-7 显示了管理 URL 优先级的设计。

优先级排序器：它将 URL 作为输入并计算优先级。
队列 f1 到 fn：每个队列都有一个分配的优先级。具有高优先级的队列是以更高的概率被选中。
队列选择器：随机选择一个偏向于较高队列的队列优先权。

图 9-8 显示了 URL 边界设计，它包含两个模块：

前队列：管理优先级
后排：管理礼貌

新鲜
网页不断地被添加、删除和编辑。网络爬虫必须定期重新抓取下载的页面以保持我们的数据集最新。重新抓取所有 URL 是时候了 -消耗和资源密集型。下面列出了一些优化新鲜度的策略：

根据网页的更新历史重新抓取。
优先考虑URL 并首先且更频繁地重新抓取重要页面。

URL Frontier 的存储
在现实世界的搜索引擎抓取中，前沿的 URL 数量可能有数百个数百万[4]。将所有内容放入内存既不持久也不可扩展。保持磁盘中的所有内容都是不受欢迎的，因为磁盘速度很慢；它可以很容易地
成为爬行的瓶颈。

我们采用了混合方法。大多数URL都存储在磁盘上，因此存储空间不是问题。为了降低从磁盘读取和写入磁盘的成本，我们在内存中维护缓冲区以进行入队/出队操作。缓冲区中的数据为定期写入磁盘。
HTML下载器
HTML 下载器使用 HTTP 协议从 Internet 下载网页。
在讨论 HTML 下载器之前，我们首先看一下机器人排除协议。
Robots.txt
Robots.txt，全称为机器人排除协议，是网站用于通信的标准与爬虫。它指定允许爬虫下载哪些页面。在尝试之前爬虫抓取网站时，首先要检查其对应的robots.txt并遵循其规则。

为了避免重复下载 robots.txt 文档，我们缓存该文档的结果。该文档是定期下载并保存到缓存。这是一段 robots.txt 文档，取自https://www.amazon.com/robots.txt。某些目录（例如 Creatorhub）是不允许的对于谷歌机器人。

用户代理：Googlebot
禁止：/creatorhub/*
禁止：/rss/people//reviews
禁止：/gp/pdp/rss//reviews
禁止：/gp/cdp/member-reviews/
禁止：/gp/aw/cr/

除了 robots.txt 之外，性能优化是我们将介绍的另一个重要概念
HTML 下载器。
性能优化
以下是 HTML 下载器的性能优化列表。
1.分布式抓取
为了获得高性能，爬虫作业被分发到多台服务器上，每台服务器运行多个线程。 URL空间被分割成更小的部分；所以，每个下载者负责 URL 的子集。图 9-9 显示了分布式爬网的示例。

2.缓存DNS解析器
DNS 解析器是爬虫的瓶颈，因为 DNS 请求可能会由于以下原因而花费时间：许多 DNS 接口的同步特性。 DNS 响应时间范围从 10 毫秒到200毫秒。一旦某个爬虫线程执行了对 DNS 的请求，其他线程就会被阻塞直到第一个请求完成。维护我们的 DNS 缓存以避免调用 DNS频繁是速度优化的有效技术。我们的 DNS 缓存保留域名名称到 IP 地址的映射，并由 cron 作业定期更新。
3. 地点
按地理位置分布爬网服务器。当爬行服务器距离网站主机较近时，爬虫体验更快的下载时间。设计局部性适用于系统的大部分组件：爬取服务器、缓存、队列、存储等。
4、超时时间短
一些网络服务器响应缓慢或者可能根本不响应。为了避免长时间等待，指定了最长等待时间。如果主机在预定时间内没有响应，爬虫将停止该作业并爬取其他一些页面。
鲁棒性
除了性能优化之外，鲁棒性也是一个重要的考虑因素。我们提出提高系统鲁棒性的几种方法：

一致的散列：这有助于在下载者之间分配负载。一个新的可以使用一致性哈希来添加或删除下载服务器。参见第五章：设计一致的哈希以获取更多细节。
保存爬网状态和数据：为了防止失败，爬网状态和数据被写入一个存储系统。通过加载保存的状态可以轻松重新启动中断的爬网数据。
异常处理：在大型系统中，错误是不可避免且常见的。这爬虫必须优雅地处理异常而不导致系统崩溃。
数据验证：这是防止系统错误的重要措施。

可扩展性
随着几乎每个系统的发展，设计目标之一就是使系统变得灵活足以支持新的内容类型。爬虫可以通过插入新的扩展模块。图9-10显示了如何添加新模块。

插入 PNG 下载器模块以下载 PNG 文档。
添加Web监控模块，监控网页，防止版权和商标侵权。

检测并避免有问题的内容本节讨论如何检测和预防冗余、无意义或有害的内容。
1. 冗余内容
如前所述，近 30% 的网页是重复的。哈希值或校验和帮助检测重复 [11]。
2. 蜘蛛陷阱
蜘蛛陷阱是导致爬虫无限循环的网页。例如，无穷深层目录结构如下：
www.spidertrapexample.com/foo/bar/foo/bar/foo/bar/…
可以通过为 URL 设置最大长度来避免此类蜘蛛陷阱。然而，没有人-存在适合所有尺寸的解决方案来检测蜘蛛陷阱。包含蜘蛛陷阱的网站很容易由于在此类网站上发现了异常大量的网页而进行识别。它是难以开发自动算法来避免蜘蛛陷阱;但是，用户可以手动验证并识别蜘蛛陷阱，然后从爬虫中排除这些网站或应用一些自定义的 URL 过滤器。
3.数据噪声
有些内容几乎没有价值，例如广告、代码片段、垃圾邮件URL 等。这些内容对爬虫没有用处，应尽可能排除。

第 4 步 - 结束

在本章中，我们首先讨论了一个好的爬虫的特征：可扩展性、礼貌性、可扩展性和健壮性。然后，我们提出了一个设计方案，并讨论了关键组件。构建可扩展的网络爬虫并非易事，因为网络非常庞大，而且到处都是陷阱。尽管我们已经涵盖了许多话题，但我们仍然错过了许多相关的谈话积分：

服务器端渲染：许多网站使用 JavaScript、AJAX 等脚本来即时生成链接。如果我们直接下载和解析网页，我们将无法检索动态生成的链接。为了解决这个问题，我们执行服务器端在解析页面之前先渲染（也称为动态渲染）[12]。
过滤掉不需要的页面：凭借有限的存储容量和抓取资源，反垃圾邮件组件有助于过滤掉低质量和垃圾页面 [13] [14]。
数据库复制和分片：复制和分片等技术用于提高数据层的可用性、可扩展性和可靠性。
水平扩展：对于大规模爬网，数百甚至数千台服务器是需要执行下载任务。关键是保持服务器无状态。
可用性、一致性和可靠性：这些概念是任何大型系统的成功。我们在第 1 章中详细讨论了这些概念。刷新你的关于这些主题的记忆。
分析：收集和分析数据是任何系统的重要组成部分，因为数据是微调的关键成分。

恭喜你走到这一步！现在拍拍自己的背。干得好！

参考资料
[1] 美国国会图书馆：https://www.loc.gov/websites/
[2] 欧盟网络档案馆：http://data.europa.eu/webarchive
[3] Digimarc：https://www.digimarc.com/products/digimarc-services/piracy-intelligence
[4] Heydon A.， Najork M. Mercator：可扩展、可扩展的网络爬虫万维网，2（4）（1999），第219-229页
[5] 作者：Christopher Olston、Marc Najork：网络爬虫http://infolab.stanford.edu/~olston/publications/crawling_survey.pdf
[6] 29% 的网站面临重复内容问题：https://tinyurl.com/y6tmh55y
[7] Rabin M.O. 等人。随机多项式指纹识别 Center for Research in大学艾肯计算实验室计算技术（1981）
[8] B. H. Bloom，“具有允许误差的哈希编码中的空间/时间权衡”，《ACM通讯》，第13卷，第7期，第422-426页，1970年。
[9] 唐纳德·帕特森（Donald J. Patterson），网络爬虫：https://www.ics.uci.edu/~lopes/teaching/cs221W12/slides/Lecture05.pdf
[10] L. Page、S. Brin、R. Motwani 和 T. Winograd，“PageRank 引文排名：为网络带来秩序，“技术报告，斯坦福大学，1998.
[11] 伯顿·布鲁姆。哈希编码中的空间/时间权衡与允许的误差。ACM 通讯，13（7），第 422–426 页，1970 年 7 月。
[12] 谷歌动态渲染：
https://developers.google.com/search/docs/guides/dynamic-rendering
[13] T. Urvoy、T. Lavergne 和 P. Filoche，“使用隐藏样式跟踪网络垃圾邮件相似性“，载于第二届对抗性信息国际研讨会论文集网络上检索，2006 年。
[14] H.-T.Lee、D. Leonard、X. Wang 和 D. Loguinov，“IRLbot：扩展到 60 亿页及其他“，第 17 届国际万维网会议论文集，2008 年。

03Spring底层架构核心概念解析奔向sj 工作学习记录架构 java 数据库
为了感谢罕哥对我工作的帮助，特此记录下学习过程，期待成为和罕哥一样优秀的人时间：2024.7.13内容：spring源码课程3学习记录一、BeanDefinitionBeanDefinition表示Bean的定义，BeanDefinition中存在很多属性用来描述一个Bean的特点class：表示Bean类型scope：表示Bean的作用域（单例/原型）lazyInit：表示Bean是否是懒加载i
Spring Boot与MongoDB集成指南行动π技术博客 spring boot mongodb 后端
1.引言在当今快速发展的软件开发领域，选择合适的技术栈对于构建高效、可扩展的应用程序至关重要。随着微服务架构和云原生应用的兴起，开发人员需要更灵活、更快速的解决方案来满足不断变化的业务需求。SpringBoot和MongoDB的结合正是这一需求的完美答案。1.1为什么选择SpringBoot和MongoDB？SpringBoot是一个开源的Java框架，它基于Spring框架，提供了快速开发和简化
手把手教你学simulink（43.1）--光伏发电场景示例：基于Simulink开发一个完整的光伏发电系统模型:实现MPPT控制策略小蘑菇二号手把手教你学 MATLAB 专栏手把手教你学 Simulink simulink
目录基于Simulink的光伏发电系统在MPPT控制策略下的项目实例详细介绍1.项目背景2.系统架构2.1光伏发电系统组成2.2MPPT控制策略3.模型设计3.1光伏阵列建模3.2DC-DC变换器建模3.3逆变器建模3.4MPPT控制器设计3.5仿真环境搭建3.6仿真与优化3.6.1运行仿真3.6.2参数优化基于Simulink的光伏发电系统在MPPT控制策略下的项目实例详细介绍1.项目背景需求分
Spring Cloud和SpringBoot版本对应关系？思维导图代码示例（java 架构) 用心去追梦 java spring cloud spring boot
SpringCloud和SpringBoot的版本之间存在一定的对应关系，因为SpringCloud依赖于SpringBoot提供的基础功能。通常情况下，每个主要版本的SpringCloud都是与特定版本范围的SpringBoot兼容的。以下是截至2024年12月的最新版本信息和一个简化的关系图。SpringCloud和SpringBoot版本对应关系简化的关系图SpringEcosystemVe
微软集成与Azure愿景蓝图套件：一站式视觉化你的IT架构秦言舸Gale
微软集成与Azure愿景蓝图套件：一站式视觉化你的IT架构Microsoft-Integration-and-Azure-Stencils-Pack-for-VisioMicrosoftIntegration,Azure,PowerPlatform,Office365andmuchmoreStencilsPackit’saVisiopackagethatcontainsfullyresizable
RESTful API：概念、实际场景应用及在 Java 和 C# 中的实现太阳 restful java c#
RESTfulAPI：概念、实际场景应用及在Java和C#中的实现一、什么是RESTfulAPI**RESTfulAPI（RepresentationalStateTransferAPI）**即符合REST（RepresentationalStateTransfer，表述性状态转移）架构风格的应用程序编程接口。它是一种基于HTTP协议的软件架构风格，用于设计网络应用程序。（一）主要特点资源导向：将
为什么说软件架构师应该关心性能优化？ AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录1.简介2.基本概念术语说明2.1服务器架构2.2云计算3.核心算法原理和具体操作步骤以及数学公式讲解3.1概述3.2CPU3.2.1CPU缓存和页面置换算法3.2.2NUMA架构3.3内存3.3.1内存分配策略（1）如何划分内存给进程（2）如何划分内存给堆和栈（3）是否允许堆和栈向操作系统申请更多的内存3.3.2内存碎片3.4网络3.4.1网络协议优化（1）协
微信小程序实战十五：Https服务搭建及Nginx配置博主逸尘微信小程序微信小程序 Https Nginx
文章目录1.最终效果预览2.后端jar包部署及启动3.前端管理系统部署4.Nginx的配置5.https证书申请6.小程序后台中配置子域名这篇文章重点介绍下微信小程序正式版上线前https服务的搭建及配置过程，之前整个流程都操作过，时隔一年再次从零开始操作有些地方的印象已经模糊了，好记性不如烂笔头，仅以此篇文章记录那些年所学的点点滴滴。1.最终效果预览在微信开发工具中去掉开发时的配置不校验合法域名
前端必知必会-TypeScript 函数的使用编程岁月前端 typescript javascript
文章目录TypeScript函数返回类型Void返回类型参数可选参数默认参数命名参数剩余参数类型别名总结TypeScript函数TypeScript具有用于键入函数参数和返回值的特定语法。返回类型可以明确定义函数返回值的类型。示例//此处的`:number`指定此函数返回一个数字functiongetTime():number{returnnewDate().getTime();}如果没有定义返回
深入剖析ipywidgets-7.0.0b1：Python交互式前端库的新进展多行不易
本文还有配套的精品资源，点击获取简介：ipywidgets是一个用于创建交互式用户界面的Python库，广泛应用于数据可视化和科学计算。最新版本7.0.0b1带来了新特性、性能优化、API改进和兼容性增强。本详细解析包括ipywidgets的核心概述、主要功能、版本新特性以及其在教育、数据探索和应用原型开发等场景中的应用。1.ipywidgets核心概念介绍在当今数据科学和机器学习领域，交互式可视
基于Spark的实时计算服务的流程架构小小搬运工40 spark 大数据
基于Spark的实时计算服务的流程架构通常涉及多个组件和步骤，从数据采集到数据处理，再到结果输出和监控。以下是一个典型的基于Spark的实时计算服务的流程架构：1.数据源数据源是实时计算服务的起点，常见的数据源包括：消息队列：如Kafka、RabbitMQ、AmazonKinesis等。日志系统：如Flume、Logstash等。传感器数据：物联网设备产生的数据流。数据库变更数据捕获（CDC）：如
游戏引擎介绍：Game Engine He Des 游戏引擎
简介定义：软件框架，一系列为开发游戏的工具的集合可协作创意生产工具，复杂性艺术，注重realtime实时目的为艺术家，设计师，程序员设计工具链游戏引擎开发参考书推荐：GameEngineArchitecturalbyJasonGregroy观察引擎代码先看update函数骨干架构基础构建Architectural：引擎架构与层级Layer，数据组织与管理DataManagement渲染Render
python websocket爬虫_python爬虫----爬取阿里数据银行websocket接口 weixin_39722917 python websocket爬虫
业务需求：爬取阿里品牌数据银行的自定义模块==>>>人群透视==>>>查看报告==>>数据最终获取页面：页面获取情况如下：绿色的就是我们需要模拟的请求，红色朝下的就是请求对应的数据，通过rid参数来找寻对应请求和数据，这个rid和时间戳很类似，没错这就是一个13位的时间戳，和随机数组合而成的：randomID=str(int(time.time()*1000))+str(self.count).z
python3简单爬虫 (爬取各个网站上的图片)_Python简单爬取图片实例神楽坂有木 python3简单爬虫 (爬取各个网站上的图片)
都知道Python的语法很简单易上手，也很适合拿来做爬虫等等，这里就简单讲解一下爬虫入门——简单地爬取下载网站图片。效果就像这样自动爬取下载图片到本地：代码：其实很简单，我们直接看下整体的代码：#coding=utf-8importurllibimportredefgetHtml(url):page=urllib.urlopen(url)html=page.read()returnhtmldefg
【硬刚大数据】2021年从零到大数据专家之Hbase八股文王知无(import_bigdata)
欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)
ACTF2020 新生赛 Upload 1 xinjuun CTF 网络安全
打开网页发现是个文件上传的页面，试着上传php文件，发现不行后，尝试burp抓包，修改文件后缀，进行前端绕过，发现可行。具体步骤如下：1、书写一句话木马，例如：eval和assert：php任意代码执行的一句话后门，我们喜欢用的是传统的eval，php5，7通用。create_function和preg_replace函数：create_function，它的作用是创建一个匿名函数，在内部也相当于
DDD架构实战第六讲总结：领域驱动设计中的聚合每天三杯咖啡 DDD
云架构师系列课程之DDD架构实战第六讲总结：领域驱动设计中的聚合聚合提升了对象系统的粒度，保证了业务逻辑的完整性，减少了错误产生的概率一、引言本讲将探讨领域驱动设计（DDD）中的重要概念——聚合。聚合是业务完整性的单元，是一个更大力度的封装。在领域驱动设计中，聚合处于生命周期模型的核心位置。理解聚合有助于理解资源库和工厂的概念。二、领域模型复习回顾领域模型出行计划：用户创建出行计划，包含出发时间、
为什么多模态大模型中使用Q-Former的工作变少了？附Q-Former结构简介同屿Firmirin 多模态大模型深度学习人工智能面试
面试中遇到的问题，自己在实践中注意到了却没有深究原因，没有回答好，特此记录和探讨这个问题。多模态大模型中需要一个输入投影模块，将视觉特征投射到LLM能理解的语言特征维度，这里就可以选择各种不同的模块。LLaVA最初用了简单的线性投射，然而作者提到这么做是为了做实验更快一点，使用复杂的模块可能会有更好的效果。后来就有用MLP的，代表工作有LLaVA后续系列、Intern-VL。还有用Q-Former
一图看懂 HBase 架构（全面详细） BigData_Hubert 大数据 hbase hadoop hbase 组件架构大数据
HBase一图看懂HBase架构HBase最常用的shell操作HBase工作机制及读写流程HBase架构HBase前言HBase简介什么是HBaseHBase特点NoSQL与RDBMS对比HBase生态圈技术HBase架构Client客户端ZooKeeper集群协调一致性服务HMaster节点HRegionServer节点HDFSHBase组件整体物理结构RegionWALStoreFile（H
使用Python爬虫获取1688店铺所有商品信息的完整指南不会玩技术的技术girl Python API python 爬虫开发语言
在当今的电商时代，获取电商平台的商品信息对于市场分析、竞争对手研究以及数据挖掘等任务至关重要。1688作为中国领先的B2B电商平台，拥有海量的商品和商家数据。通过Python爬虫技术结合1688的API接口，我们可以高效地获取店铺的所有商品信息。本文将详细介绍如何实现这一目标。一、1688API接口简介1688开放平台提供了丰富的API接口，允许开发者通过合法的方式获取商品信息、店铺信息等数据。其
Python爬虫系列：爬取小说并写入txt文件_python爬虫爬取小说保存txt 2301_82244158 程序员 python 爬虫开发语言
哈喽，哈喽~都说手机自带的浏览器是看小说最好的一个APP，不须要下载任何软件，直接百度就ok了。但是小编还是想说，如果没有网，度娘还是度娘吗？能把小说下载成一个**.txt文件看**不是更香吗？这能难倒小编吗？坚决不能滴。于是乎，自己动手丰衣足食，Python就是万能的好吧。概要：程序语言：python第三方库：requests，parsel最后Python崛起并且风靡，因为优点多、应用领域广、被
Quartz 架构和单体应用介绍小马不敲代码 SpringBoot 架构定时任务
一、摘要Quartz架构介绍SpringBootQuartz应用整合二、关于QuartzQuartz是OpenSymphony开源组织在Jobscheduling领域开源的一个作业调度框架项目，完全由Java编写，主要是为了实现在Java应用程序中进行作业调度并提供了简单却强大的机制！Quartz不仅可以单独使用，还可以与J2EE与J2SE应用程序相结合使用！同时，Quartz允许程序开发人员根据
技术文档规划布局：构建系统性与连贯性的架构 m0_74136676 软件工程
在技术文档的创作历程中，规划布局堪称构建稳固大厦的蓝图设计环节。合理确定文档的整体架构，包括精心设计章节设置与巧妙安排逻辑顺序，是确保信息呈现系统性与连贯性的关键所在，直接关系到文档的质量与可用性。一、明确核心主题与目标受众在着手规划文档架构之前，必须对文档的核心主题有透彻的理解。无论是关于一款软件的使用指南、一项技术的研发手册还是某个系统的运维说明，明确主题边界与重点内容是基础。同时，精准定位目
Python爬虫获取custom-1688自定义API操作接口不会玩技术的技术girl Python API 1688API python 爬虫开发语言
一、引言在电子商务领域，1688作为国内领先的B2B平台，提供了丰富的API接口，允许开发者获取商品信息、店铺信息等。其中，custom接口允许开发者进行自定义操作，获取特定的数据。本文将详细介绍如何使用Python调用1688的custom接口，并对获取到的数据进行分析和应用。二、准备工作注册1688开放平台账号访问1688开放平台官网，注册一个账号并完成相关认证。这是获取API接口权限的前提。
DeepSeek V3 模型微调（SFT）技术详解 zhangjiaofa 大模型 DeepSeek 模型微调
DeepSeekV3模型微调（SFT）技术详解目录引言背景知识2.1深度学习与预训练模型2.2微调（Fine-tuning）的概念2.3监督微调（SupervisedFine-tuning,SFT）DeepSeekV3模型概述3.1模型架构3.2预训练任务3.3模型性能监督微调（SFT）技术详解4.1数据准备4.1.1数据收集与清洗4.1.2数据标注4.1.3数据增强4.2模型初始化4.2.1预训
Python可视化Seaborn库绘图（参数说明+代码实战）步入烟尘 python 开发语言 Seaborn 可视化
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
DeepSeek 模型：架构创新与实际应用详解汪子熙人工智能架构语言模型人工智能
DeepSeek模型是近年来在自然语言处理（NLP）领域备受瞩目的开源大规模语言模型系列。其最新版本DeepSeek-V3采用了混合专家（Mixture-of-Experts，MoE）架构，拥有6710亿个参数，每个词元（token）激活370亿个参数。该模型在多项基准测试中表现出色，性能媲美GPT-4和Claude等领先的闭源模型。以下将详细介绍DeepSeek模型的架构、用途，并通过具体案例和
多租户架构未提供足够的租户安全培训和教育图幻未来网络安全
多租户架构下租户安全培训与教育的需求分析与解决方案引言随着云计算和大数据技术的飞速发展，多租户架构已成为企业数字化转型的重要基石。多租户架构允许一个应用程序实例为多个租户提供服务，从而降低了企业的运营成本。然而，这种架构也带来了一系列的安全挑战。为了解决这些问题，企业需要加强对租户的安全培训和教育，确保租户了解如何在使用多租户架构时保护自己的数据和应用程序。本文将探讨多租户架构下的租户安全培训和教
简述大前端技术栈的渲染原理程序员
作者：京东物流卢旭大前端包括哪些技术栈大前端指的是涵盖所有与前端开发相关的技术和平台，应用于各类设备和操作系统上。大前端不仅包括Web开发，还包括移动端开发和跨平台应用开发，具体包括：•原生应用开发：Android、iOS、鸿蒙（HarmonyOS）等；•Web前端框架：Vue、React、Angular等；•小程序开发：微信小程序、京东小程序、支付宝小程序等；•跨平台解决方案：ReactNati
python 监控键盘输入_python 监控键盘输入 weixin_39717121 python 监控键盘输入
软件测试精品文章汇总测试基础python测试开发库及项目谷歌如何测试软件python工具书籍下载-持续更新2018软件测试标准汇总下载python测试开发自学每周一练python测试工具开发自学每周一练-2018-06软件测试工具书籍与面试题汇总下载(持续更新)python测试开发自动化测试数据分析...文章python人工智能命理2019-05-131907浏览量Shell历史记录异地留痕审计与
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

CHAPTER 9: 《DESIGN A WEB CRAWLER》第9章 《设计一个web爬虫》

CHAPTER 9: 《DESIGN A WEB CRAWLER》第九章 设计一个web爬虫