csdn_zuoqiang

网络爬虫调研报告

调研背景

项目中要对指定的网络资源进行抓取、存储、分类、索引、并提供检索服务。充当全文检索数据库的是Apache组织下的开源项目Lucene 检索工具，而Lucene只是个搜索引擎工具，它提供API接口，通过编写程序对信息进行索引和检索，在其后台需要网络爬虫程序的支持，其目的是通过网络爬虫软件抓取网页，作为提供给Lucene搜索引擎的资源，进行索引和查询。

调研对象

Nutch http://nutch.apache.org/

Heritrix http://crawler.archive.org/

Nutch

Nutch 是 Apache 基金会的一个开源项目，它原本是开源文件索引框架 Lucene 项目的一个子项目，后来渐渐发展成长为一个独立的开源项目。它基于 Java 开发，基于 Lucene 框架，提供 Web 网页爬虫和搜索引擎两部分功能。

Nutch主要分为两个部分：网页爬虫（Crawler）和搜索引擎（Searcher）。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。另外很吸引人的一点在于，它提供了一种插件框架，使得其对各种网页内容的解析、各种数据的采集、查询、集群、过滤等功能能够方便的进行扩展，正是由于有此框架，使得 Nutch 的插件开发非常容易，第三方的插件也层出不穷，极大的增强了 Nutch 的功能和声誉。

爬虫工作策略

Nutch爬虫的工作策略一般则可以分为累积式抓取（cumulative crawling）和增量式抓取（incremental crawling）两种。

累积式抓取是指从某一个时间点开始，通过遍历的方式抓取系统所能允许存储和处理的所有网页。在理想的软硬件环境下，经过足够的运行时间，累积式抓取的策略可以保证抓取到相当规模的网页集合。但由于Web数据的动态特性，集合中网页的被抓取时间点是不同的，页面被更新的情况也不同，因此累积式抓取到的网页集合事实上并无法与真实环境中的网络数据保持一致。

增量式抓取是指在具有一定量规模的网络页面集合的基础上，采用更新数据的方式选取已有集合中的过时网页进行抓取，以保证所抓取到的数据与真实网络数据足够接近。进行增量式抓取的前提是，系统已经抓取了足够数量的网络页面，并具有这些页面被抓取的时间信息。

面向实际应用环境的网络蜘蛛设计中，通常既包括累积式抓取，也包括增量式抓取的策略。累积式抓取一般用于数据集合的整体建立或大规模更新阶段；而增量式抓取则主要针对数据集合的日常维护与即时更新。

在确定了抓取策略之后，如何从充分利用网络带宽，合理确定网页数据更新的时间点就成了网络蜘蛛运行策略中的核心问题。

总体而言，在合理利用软硬件资源进行针对网络数据的即时抓取方面，已经形成了相对比较成熟的技术和实用性解决方案，这方面目前所需解决的主要问题，是如何更好的处理动态网络数据问题（如数量越来越庞大的Web2.0数据等），以及更好的根据网页质量修正抓取策略的问题。

工作流程

Nutch架构图

Nutch工作流程图

Nutch工作流程：

建立初始URL集合分析

初始URL集的建立有两种方式：超链接和站长提交。

超链接是指机器人程序根据网页链到其他网页中的超链接，就像日常生活中所说的“一传十，十传百……”一样，从少数几个网页开始，连到数据库上所有到其他网页的链接。理论上，若网页上有适当的超连结，机器人便可以遍历绝大部分网页。

站长提交是指在实际运行中，爬虫不可能抓取到所有站点，为此，网站站长可以向搜索引擎进行提交，要求收录，搜索引擎经过核查之后，便将该网站加入到URL集合中，进行抓取。

1. inject操作分析

inject操作调用的是Nutch的核心包之一crawl包中的类org.apache.nutch.crawl.Injector。它执行的结果是：crawldb数据库内容得到更新，包括URL及其状态。

inject操作主要作用可以从下面3方面来说明：

(1) 将URL集合进行格式化和过滤，消除其中的非法URL，并设定URL状态(UNFETCHED),按照一定方法进行初始化分值；

(2) 将URL进行合并，消除重复的URL入口；

(3) 将URL及其状态、分值存入crawldb数据库，与原数据库中重复的则删除旧的，更换新的。

2. generate操作分析

generate操作调用的是crawl包中的类org.apache.nutch.crawl.Generator。它执行的结果是：创建了抓取列表，存放于segments目录下，以时间为文件夹名称。循环抓取多少次，segments文件夹下就会有多少个以时间为名称的文件夹。

generate操作主要作用可以从下面3方面来说明：

(1) 从crawldb数据库中将URL取出并进行过滤；

(2) 对URL进行排序，通过域名、链接数和一种hash算法综合进行降序排列；

(3) 将排列列表写入segments目录中。

3. fetch操作分析

fetch操作调用的是fetcher包中的类org.apache.nutch.fetcher.Fetcher。它执行的结果是：将页面内容抓取下来，存于segment目录下。

fetch操作主要作用可以从下面4方面来说明：

(1) 执行抓取，按照segments目录下的抓取列表进行；

(2) 抓取过程中，页面的URL地址可能因为链接发生改变，从而需要更新URL地址；

(3) 抓取采用多线程方式进行，以提高抓取速度；

(4) fetch操作过程中调用了parse操作。

4. parse操作分析

parse操作调用的是parse包中的类org.apache.nutch.parse.ParseSegment。它执行的结果是：将fetch得到的页面解析为text和data，存于segments目录下。

parse操作主要作用可以从下面3方面来说明：

(1) 解析segment中由fetch得到的页面，并进行整理，将页面分成为parse-date和parse-text；

(2) parse-date中保存的是页面的题名、作者、日期、链接等内容；

(3) parse-text中保存的是页面的文本内容。

例如，我只执行一次抓取任务，就执行了上述的一些操作，操作的结果直接反映在segments目录中。可以看到在home/SHIYANJUN /nutch-0.9/mydir/segments目录下面创建了20081004102407这个目录，该目录中包含6个目录：content、 crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text，从目录名称就可以大致知道该目录存取的相关内容信息。

5. updatedb操作分析

updatedb操作调用的是crawl包中的类org.apache.nutch.crawl.CrawlDb。它执行的结果是：更新了crawldb数据库，为下一轮抓取做准备。

updatedb操作主要作用如下：

根据segments目录下fetch目录和parse目录中的内容，对crawldb进行更新，增加新的URL，更换旧的URL。

6. invertlinks操作分析

invertlinks操作用来更新linkDB，为建立索引的工作提供准备。

7. index过程分析

index过程，即索引过程，包括：将数据转换成文本、分析文本、将分析过的文本保存到数据库中这三个操作。

(1) 转换成文本

在索引数据之前，首先必须将数据转换成Nutch 能够处理的格式――纯文本字符流。但是，在现实世界中，信息多以富媒体(rich media)文档格式呈现：PDF、WORD、EXCEL、HTML、XML等。为此，Nutch采用了插件机制(plugin)，通过各种各样的文档解析器，将富媒体转换成纯文字字符流。文档解析器种类繁多，开发人员可以根据需要进行选择，同时还可以自己修改或编写，非常灵活方便。

(2) 分析文本

在对数据进行索引前，还需要进行预处理，对数据进行分析使之更加适合被索引。分析数据时，先将文本数据切分成一些大块或者语汇单元 (tokens)，然后对它们执行一些可选的操作，例如：在索引之前将这些语汇单元转换成小写，使得搜索对大小写不敏感；最有代表性的是要从输入中去掉一些使用很频繁但却没有实际意义的词，比如英文文本中的一些停止词(a、an、the、in、on等)。同样的，我们也需要分析输入的语汇单元，以便从词语中去掉一些不必要的字母以找到它们的词干。这一处理过程称为分析(analyze)。分析技术在索引和搜索时都会用到，比较重要。

(3) 将分析过的文本保存到数据库中

对输入的数据分析处理完成之后，就可以将结果写入到索引文件中。Nutch采用的是Lucene的索引格式，可以参考关于Lucene的索引机制。Lucene采用“倒排索引”的数据结果来存储索引的。

8. 搜索程序分析

Nutch的搜索程序执行过程，可以从下面的步骤了解：

(1) HTTP服务器接收用户发送过来的请求。对应到Nutch的运行代码中就是一个servlet，称为查询处理器(Query Handler)。查询处理器负责响应用户的请求，并将相应的HTML结果页面返回给用户。

(2) 查询处理器对查询语句做一些微小的处理并将搜索的项(terms)转发到一组运行索引搜索器的机器上。Nutch的查询系统似乎比lucene简单的多，这主要是因为搜索引擎的用户对他自己所要执行的查询内容有非常清晰的思路。然而，lucene的系统结构非常灵活，且提供了多种不同的查询方式。看似简单的Nutch查询最终被转换为特定的lucene查询类型。每个索引搜索器并行工作且返回一组有序的文档ID列表。

(3) 现在存在这大量从查询处理器返回过来的搜索结果数据流。查询处理器对这些结果集进行比较，从所有的结果查找出匹配最好的那些。如果其中任何一个索引搜索器在1~2秒之后返回结果失败，该搜索器的结果将被忽略。因此，最后列表由操作成功的搜索器返回的结果组成。

关于查询处理器

查询处理器对查询作了一些细微的处理，例如删除停止词(例如the、of等)。接着Nutch需要执行一些操作以便于它在大规模的数据环境下能更好的工作。一个索引搜索器涉及搜索的文档集数目非常庞大，所以Nutch需要同时与很多索引搜索器交互来提高搜索速率。实际运行环境中，为了保证系统级别的稳定性，文档集的段文件会被复制到多个不同主机上。因为对于文档集中的每个段，查询处理器会随机的与其中一个可搜索到自身的索引搜索器相交互。如果发现一个索引搜索器不能交互，查询处理器会通知之后的搜索操作不使用该搜索器，但是查询处理器每隔一段时间会回头检查一次搜索器的状态，以防该主机上的搜索器再次可用。

关于分析器

Nutch使用自己的分析器，对应于analysis包。Nutch把索引时进行分析所使用的二元语法技术(bigram)与查询过程中对短语的优化技术结合在一起，通过二元语法技术可以把两个连续的词组合成一个语汇单元。这就可以大大减少搜索时需要考虑的文档范围，例如，包含词组the quick的文档比包含the 的文档要少的多。

分析器对分析操作进行了封装。分析器通过执行若干操作，将文本语汇单元化，这些操作可能包括提取单词、去除标点符号、去掉语汇单元上的音调符号、将字母转化为小写(也称为规格化)、移除常用词、将单词转换为词干形式(词干还原)，或者将单词转换为基本形等。这个过程也称为语汇单元化过程。分析操作发生在两个阶段：建立索引和进行查询时。

Nutch的其他一些特性

● 为了获取小数量的文档(通常是10个左右)，查询处理器会对每个索引搜索器进行查询。因为最后的结果是从多个索引搜索器中合并得到的，所以就没有必要从一个数据源中获取过多的文档结果，尤其是在用户很少去查看第一页之后的结果的情况下。

● 实际上，在每个用户查询被处理之前，它会被扩展为十分复杂的lucene查询。每个索引过的文档都包含了三个域：网页自身的内容，网页的URL文本值，以及由所有关键(anchor)文本所组成的合成文档，这些关键文本可在导航网页的超链接中找到。每个域对应一个不同的权重值。Nutch的查询处理器生成一个lucene布尔查询，其中在三个域中都包含了搜索引擎用户所输入的文本。

● Nutch也会特别的把那些在web上出现的非常频繁的关键字组作为一个整体来索引(其中的许多关键字是与HTTP相关的词组)。这些关键字序列出现的非常频繁，所以无需花费精力去对这些词序中的每个组成部分单独搜索，也不必查找出这些搜索结果中是否有交集的部分。我们不用把这些项划分为单独的单词对来搜索文档，而是把它们作为一个单元，当然前提是Nutch在索引期间必须检测到它们是作为一个整体而存在的。另外，在与索引搜索器交互之前，查询处理器会查找出用户输入的字符串中单词的任意组合。如果这样一个词序确实存在，它的单词成员就会整合成一个特殊的搜索项。

● 在使用lucene执行索引操作之前，Nutch的内容获取器/索引器需要预处理HTML文档。它使用NekoHTML解析器剥离HTML中的内容，并索引其中的非标记文本。对于从HTML文档提取标题文本，NekoHTML是很有建树的。

● Nutch进程间通信层(IPC)保持了查询处理器与索引搜索器间长时间的连接。查询处理器端可能存在多个并发的线程，对于给定的地址，任一线程都可以向远程服务器发送调用请求。服务器每接受一个请求之后，就会根据给定字符串尝试去查找对应的注册服务(运行在自己线程上)。客户端的请求线程会一直阻塞其他事件，直到服务器端响应的IPC代码到达后，消息通知请求线程为止。如果服务器的响应花费的时间超过了IPC规定的时限，IPC的代码就会宣布此服务器不可用，并抛出一个异常。

● 另外，Nutch的排序算法是仿照Google的PageRank算法，关于PageRank算法的资料有很多，推荐《Google的秘密PageRank彻底解说中文版》。

优点

Nutch支持分布式抓取，并有Hadoop支持，可以进行多机分布抓取，存储和索引。另外很吸引人的一点在于，它提供了一种插件框架，使得其对各种网页内容的解析、各种数据的采集、查询、集群、过滤等功能能够方便的进行扩展，正是由于有此框架，使得 Nutch 的插件开发非常容易，第三方的插件也层出不穷，极大的增强了 Nutch 的功能和声誉。

缺点

Nutch的爬虫定制能力比较弱

Heritrix

Heritrix，是www.archive.org 上的开源产品，出色之处在于它的可扩展性，可以扩展它的组件，来实现自定义的抓取逻辑，但配置比较复杂。Heritrix在抓取中可以获取完整、精确的站点内容的复制。包括文本和非文本信息，抓取并存储内容，不对页面进行内容上的修改。在抓取速度上慢、需要大容量存储空间和宽速网络。重新爬行对相同的URL不进行替换。Heritrix 有 Web 控制管理界面，进行启动、监控。

工作流程

Heritrix架构图

Heritrix流程图

Heritrix的工作流程是一个循环，具体流程是：

　　1 在预定的URI中选择一个。

　　2 从选择的URI的网址下载远程文件

　　3 分析，归档下载到的内容

　　4 从分析到的内容里面选择感兴趣的URI。加入预定队列。

5 标记已经处理过的URI

CrawlController（下载控制器）

整个下载过程的总的控制者，整个抓取工作的起点，决定整个抓取任务的开始和结束。从Frontier获取URI，传递给线程池（ToePool）中的ToeThread处理。

Frointier(边界控制器)

主要确定下一个将被处理的URI，负责访问的均衡处理，避免对某一web服务器造成太大的压力。

它保存着crawl的状态：

（1）发现的URI（URIs have been discovered）

（2）正在被处理的URI（URIs are being processed (fetched)）

（3）已经处理的URI（URIs have been processed）

TeoThread(处理线程)

Heritrix是多线程的，每一个URI被一个ToeThread处理。

Processor(处理器)

下图为处理器的整个结构图

许多Processor组成一个处理链（processor chains）中,每一个处理链对URI进行一系列的处理。

(1)Pre-fetch processing chain(预处理链)

主要根据robot协议，DNS以及下载范围控制信息判断当前URI是否应当处理。

(2)Fetch processing chain（抓取处理链）

从远程服务器获取数据

(3) Extractor processing chain（抽取处理链）

从网页中抽取新的URI

(4)Write/index processing chain（写处理链）

负责把数据写入本地磁盘

(5)Post-processing chain（后置处理链）

由CrawlStateUpdater，LinksScoper，FrontierScheduler构成。

Heritrix主要有三大部件：范围部件，边界部件，处理器链

范围部件：主要按照规则决定将哪个URI入队。

边界部件：跟踪哪个预定的URI将被收集，和已经被收集的URI，选择下一个 URI，剔除已经处理过的URI。

处理器链：包含若干处理器获取URI，分析结果，将它们传回给边界部件

Heritrix的其余部件有：

WEB管理控制台：大多数都是单机的WEB应用，内嵌JAVA HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。

Crawler命令处理部件：包含足够的信息创建要爬的URI。

Servercache（处理器缓存）：存放服务器的持久信息，能够被爬行部件随时查到，包括IP地址，历史记录，机器人策略。

处理器链：

预取链：主要是做一些准备工作，例如，对处理进行延迟和重新处理，否决随后的操作。

提取链：主要是获得资源，进行DNS转换，填写请求和响应表单

抽取链：当提取完成时，抽取感兴趣的HTML，JavaScript，通常那里有新的也适合的URI，此时URI仅仅被发现，不会被评估

写链：存储爬行结果，返回内容和抽取特性，过滤完存储。

提交链：做最后的维护，例如，测试那些不在范围内的，提交给边界部件

Heritrix 1.0.0包含以下关键特性：

1. 用单个爬虫在多个独立的站点一直不断的进行递归的爬。

2. 从一个提供的种子进行爬，收集站点内的精确URI，和精确主机。

3. 主要是用广度优先算法进行处理。

4. 主要部件都是高效的可扩展的

良好的配置，包括：

1. 可设置输出日志，归档文件和临时文件的位置

2. 可设置下载的最大字节，最大数量的下载文档，和最大的下载时间。

3. 可设置工作线程数量。

4. 可设置所利用的带宽的上界。

5. 可在设置之后一定时间重新选择。

6. 包含一些可设置的过滤机制，表达方式，URI路径深度选择等等。

优点

Heritrix的爬虫定制参数多

缺点

单实例的爬虫，之间不能进行合作。在有限的机器资源的情况下，却要复杂的操作。只有官方支持，仅仅在Linux上进行了测试。每个爬虫是单独进行工作的，没有对更新进行修订。在硬件和系统失败时，恢复能力很差。很少的时间用来优化性能。

相对于Nutch，Heritrix仅仅只是一个爬虫工具，没有提供搜索引擎。如果要对抓取的站点排序必须要实现类似于Pagerank的复杂算法。

其它爬虫

Web-Harvest http://web-harvest.sourceforge.net

Crawler4j http://code.google.com/p/crawler4j/

Web-Harvest

Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。

Crawler4j

Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。

Nutch与Heritrix比较

Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌

Nutch 可以修剪内容，或者对内容格式进行转换。

Nutch 保存内容为数据库优化格式便于以后索引；刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。

Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。

Nutch 的定制能力不够强，不过现在已经有了一定改进。Heritrix 可控制的参数更多。

Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒，不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整，允许弹性的定义要获取的URL。

Nutch支持分布式抓取，Heritrix仅支持单机抓取，不能多机协同工作。

crawler	功能单一	支持分布式爬取	定制能力	镜像保存
Nutch	×	√	弱	×
Heritrix	√	×	强	√

调研结果

考察垂直爬虫的几个原则：

性能较高：较好支持多线程并发处理；支持异步、非阻塞socket；支持分布式爬取；爬取调度算法性能较高；内存使用效率较高，不要老是出现out of memory问题；

架构优美：组件式设计式架构，扩展方便；架构设计精巧。至少值得花时间去学习架构设计思想。

扩展方便：能够与现有框架较好集成；由于是垂直爬虫，需要针对不同的网页定制爬取规则集逻辑，需要能够方便测试，不要老是重新编译，因此最好支持python等脚本语言

功能全面：内置支持ajax/javascript爬取、登录认证、深度爬取设置、页面压缩处理等

管理功能：提供爬虫管理接口，能够实时监控和管理爬取

调研结果：

如果开发一个基于Pagerank或OPIC(On-Line Page Importance Computation)网页排序算法的搜索引擎，且不用对站点图片进行存储的搜索引擎可以用Nutch。Nutch本身就是一个网络搜索引擎解决方案，它分为抓取部分与搜索部分，并且实现了OPIC算法。

如果要开发一个可定制的、比较复杂的并要对站点进行深度复制，对网络资源进行长期保存的搜索引擎，可以使用Heritrix+Lucene。

个人感觉还是用Nutch比较好些。因为开发强度也比较小，如果仅仅只对某几个网站进行垂直搜索,且对网站数据的排序只与检索词相关度有关,不涉及PageRank，可以使用Heritrix+lucene.因为要在短时间实现PageRank算法并且成熟应用是比较困难的.且Heritrix本身不支持分布式抓取。

你可能感兴趣的:(网络爬虫)

Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
盘点一个Python网络爬虫抓取股票代码问题（上篇）皮皮_f075
大家好，我是皮皮。一、前言前几天在Python白银群【厚德载物】问了一个Python网络爬虫的问题，这里拿出来给大家分享下。image.png二、实现过程这个问题其实for循环就可以搞定了，看上去粉丝的代码没有带请求头那些，导致获取不到数据。后来【瑜亮老师】、【小王子】给了具体思路，代码如下图所示：image.png后来【小王子】也给了一个具体代码，如下：importrequestsimportt
python ray分布式_取代 Python 多进程！伯克利开源分布式框架 Ray weixin_39946313 python ray分布式
Ray由伯克利开源，是一个用于并行计算和分布式Python开发的开源项目。本文将介绍如何使用Ray轻松构建可从笔记本电脑扩展到大型集群的应用程序。并行和分布式计算是现代应用程序的主要内容。我们需要利用多个核心或多台机器来加速应用程序或大规模运行它们。网络爬虫和搜索所使用的基础设施并不是在某人笔记本电脑上运行的单线程程序，而是相互通信和交互的服务的集合。云计算承诺在所有维度上(内存、计算、存储等)实
如何用python爬取股票数据选股_用python爬取股票数据 weixin_39752087
获取数据是数据分析中必不可少的一部分，而网络爬虫是是获取数据的一个重要渠道之一。鉴于此，我拾起了Python这把利器，开启了网络爬虫之路。本篇使用的版本为python3.5，意在抓取证券之星上当天所有A股数据。程序主要分为三个部分：网页源码的获取、所需内容的提取、所得结果的整理。一、网页源码的获取很多人喜欢用python爬虫的原因之一就是它容易上手。只需以下几行代码既可抓取大部分网页的源码。imp
使用 RecursiveUrlLoader 实现递归网页爬取：深入解析与实践指南 qq_37836323 python 前端数据库
使用RecursiveUrlLoader实现递归网页爬取：深入解析与实践指南1.引言在当今的数字时代，网络爬虫已成为获取和分析大量在线信息的重要工具。LangChain提供的RecursiveUrlLoader是一个强大的工具，能够递归地爬取网页内容，并将其转换为易于处理的文档格式。本文将深入探讨RecursiveUrlLoader的使用方法、特性以及实际应用场景。2.RecursiveUrlLo
Python 协程 & 异步编程 (asyncio) 入门介绍 linmeiyun 后端 python python 爬虫学习开发语言机器学习
在近期的编码工作过程中遇到了async和await装饰的函数，查询资料后了解到这种函数是基于协程的异步函数。这类编程方式称为异步编程，常用在IO较频繁的系统中，如：Tornadoweb框架、文件下载、网络爬虫等应用。协程能够在IO等待时间就去切换执行其他任务，当IO操作结束后再自动回调，那么就会大大节省资源并提供性能。接下来便简单的讲解一下异步编程相关概念以及案例演示。1.协程简介1.1协程的含义
python网络爬虫（五）——爬取天气预报光电的一只菜鸡 python python 爬虫开发语言
1.注册高德天气key 点击高德天气，然后按照开发者文档完成key注册；作为爬虫练习项目之一。从高德地图json数据接口获取天气，可以获取某省的所有城市天气，高德地图的这个接口还能获取县城的天气。其天气查询API服务地址为https://restapi.amap.com/v3/weather/weatherInfo?parameters，若要获取某城市的天气推荐2.安装MongoDB Mong
顶级的python入门教程！小白到大师，从这篇教程开始！马大哈（Python） python pycharm 开发语言学习青少年编程
1.为什么要学习Python？学习Python的原因有很多，以下是几个主要的原因：广泛应用：Python被广泛应用于Web开发、数据科学、人工智能、机器学习、自动化运维、网络爬虫、科学计算、游戏开发等多个领域。掌握Python意味着你可以在这些领域中找到丰富的职业机会。入门简单：Python的语法简洁明了，易于学习和理解，对于编程初学者来说非常友好。它的代码风格一致，可读性强，有助于培养良好的编程
爬虫更换ip地址 xiaoxiongip666 爬虫 tcp/ip 网络协议
网络爬虫更换IP地址是为了应对网站的反爬策略，如IP限制、频率控制等。IP地址轮换的主要目的是保持匿名性和隐蔽性，防止被目标服务器识别为同一个爬虫客户端。以下是一些常见的IP更换方法：使用代理IP池：通过购买或使用免费的代理IP服务，爬虫程序会周期性地从池中获取一个新的IP地址，然后进行请求。常见的代理服务提供商有小熊IP等。间隔时间更换：爬虫可以在每次请求之间设置一个随机或固定的等待时间，然后更
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
Day21—爬虫性能优化技巧 Ztop 爬虫（新手推荐）爬虫 python 性能优化
在网络爬虫的开发过程中，性能优化是一个关键环节。一个高效的爬虫不仅能够快速完成任务，还能减轻对目标网站的压力，降低被封禁的风险。本文将讨论如何优化爬虫性能，包括请求头优化、连接池、缓存策略等技巧。1.请求头优化请求头是HTTP请求的重要组成部分，它包含了客户端向服务器发送的元数据。通过优化请求头，可以模拟正常用户的行为，减少被网站识别为爬虫的可能性。User-Agent：设置合适的User-Age
【网络安全】Bingbot索引投毒实现储存型XSS 秋说网络安全 web安全漏洞挖掘
未经许可，不得转载。文章目录前言Bingbot如何运作正文漏洞步骤前言Bing是由微软开发的搜索引擎，提供网页、视频、图片和地图等多种搜索功能。其目标是通过呈现有条理且相关的搜索结果，帮助用户做出更明智的决策。Bingbot是微软开发的网络爬虫，也被称为蜘蛛或搜索引擎机器人，主要用于探索和索引Bing搜索引擎的网页。自2010年10月推出以来，Bingbot通过外部和内部链接发现新网页，并更新已存
21.7K Star力荐！跨平台的开源免费可视化爬虫，让数据采集不再是难题！科技Ins 实用工具爬虫
朋友们！你是否曾梦想着轻松地从网上抓取数据，却苦于编程技能的门槛？现在，有了EasySpider，这一切都变得触手可及！这不仅仅是一个工具，它是一个革命性的网络爬虫神器，让你能够像专业人士一样，无需编写一行代码，就能轻松设计和执行爬虫任务。无论是动态内容还是复杂页面，EasySpider都能帮你搞定。而且，它完全免费，开源，跨平台，还有活跃的社区支持。准备好了吗？让我们一探究竟，看看EasySpi
爬虫进阶之人见人爱的Scrapy框架--Scrapy入门我真的超级好
不要重复造轮子，这是学习Python以来听得最多的一句话，无非就是叫我们要灵活运用现有的库，毕竟Python的一大特点就是拥有功能强大强大而种类丰富的库。那么在爬虫领域要灵活使用哪个轮子呢？--当然是目前最火的爬虫框架Scrapy。笔者通过慕课网免费课程《Python最火爬虫框架Scrapy入门与实践》+书籍《精通Scrapy网络爬虫》+度娘+CSDN完成自学，其中遇到诸多困难（要么太深入没看懂，
python网络爬虫（一）——网络爬虫基本原理光电的一只菜鸡 python python 爬虫数据库
1.使用BeautifulSoup解析网页通过request库已经抓取到网页源码，接下来要从源码中找到并提取数据。BeautifulSoup是python的一个库，其主要功能是从网页中抓取数据。BeautifulSoup目前已经被移植到bs4库中，也就是说在导入BeautifulSoup时需要先安装bs4。安装好bs4库后，还需要安装lxml库。如果我们不安装lxml库，就会使用python默
Python爬虫核心面试题2 闲人编程程序员面试 python 爬虫开发语言面试网络 HTTP
网络爬虫1.什么是HTTP协议？它有哪些常见的请求方法？2.在进行网络爬虫时，如何判断一个网站是否允许被爬取？3.在使用HTTP请求时，如何处理重定向？4.解释HTTP状态码200、404、500的含义。5.什么是Session？如何在爬虫中保持Session？6.在爬虫中，如何处理Cookies？7.解释什么是SSL/TLS？如何在爬虫中处理SSL证书验证？8.如何处理请求超时？9.什么是HTT
如何在Java爬虫中设置代理IP：详解与技巧天启代理ip java 爬虫 tcp/ip
在进行网络爬虫时，使用代理IP可以有效地避免被目标网站封禁，提升数据抓取的成功率。本文将详细介绍如何在Java爬虫中设置代理IP，并提供一些实用的技巧和示例代码。为什么需要代理IP？在进行爬虫操作时，频繁的请求可能会引起目标网站的注意，甚至导致IP被封禁。就像一只贪心的小猫不停地偷鱼吃，迟早会被发现。为了避免这种情况，我们可以使用代理IP，模拟多个用户，从而降低被封禁的风险。获取代理IP获取代理I
Java爬虫开发：Jsoup库在图片URL提取中的实战应用小白学大数据 python java 爬虫开发语言测试工具前端 javascript
在当今的互联网时代，数据的获取和处理变得尤为重要。对于网站内容的自动化抓取，爬虫技术扮演着不可或缺的角色。Java作为一种广泛使用的编程语言，拥有丰富的库支持网络爬虫的开发。其中，Jsoup库以其简洁、高效的特点，成为处理HTML内容和提取数据的优选工具。本文将详细介绍如何使用Jsoup库开发Java爬虫，以实现图片URL的提取。Jsoup库简介Jsoup是一个用于解析HTML文档的Java库，它
Scrapy添加代理IP池：自动化爬虫的秘密武器天启代理ip scrapy tcp/ip 自动化
在网络爬虫的世界里，IP地址的频繁更换是防止被目标网站封禁的有效手段。通过在Scrapy中添加代理IP池，你可以轻松实现自动化的IP切换，提高数据抓取的效率和稳定性。今天，我们就来详细讲解一下如何在Scrapy中添加代理IP池，让你的爬虫更加智能和高效。什么是代理IP池？代理IP池是指一组可以轮换使用的代理IP地址集合。通过在爬虫中使用代理IP池，你可以在每次请求时随机选择一个代理IP，从而避免因
python网络爬虫（三）——爬虫攻防光电的一只菜鸡 python python 爬虫开发语言
爬虫是模拟人的浏览访问行为，进行数据的批量抓取，当抓取的数据量逐渐增大时，会给被访问的服务器造成很大的压力，甚至有可能崩溃。换句话说就是，服务器是不喜欢有人抓取自己的数据的，那么，网站方面就会这队这些爬虫者采取一些反爬策略。服务器识别爬虫的一种方式是通过检查连接的User-Agent来识别到底是浏览器访问还是代码访问的。如果是代码访问的，当访问量增大时，服务器其就会直接封掉来访IP。在
python网络爬虫（二）——数据的清洗与组织光电的一只菜鸡 python python 爬虫 java
学会了网络爬虫发送请求后，我们可以获得一段目标的HTML代码，但是还没有把数据提取出来，接下来需要进行数据的清洗与组织。foritemindata:result={'title':item.get_test(),'link':item.get('href')}print(result) 首先明确要提取的数据是标题和链接，标题在a标签中，提取标签的正文用get_text()方法；链接在a标签的
python网络爬虫的流程图_python爬虫系列（1）- 概述 weixin_39649965 python网络爬虫的流程图
原标题：python爬虫系列（1）-概述事由之前间断地写过一些python爬虫的一些文章，如：工具分享|在线小说一键下载Python帮你定制批量获取智联招聘的信息Python帮你定制批量获取你想要的信息用python定制网页跟踪神器，有信息更新第一时间通知你（附视频演示）把python网页跟踪神器部署到云上，彻底解放你的电脑个人认为学习python语言的话，爬虫是一个非常适合入门的方向。为了把学习
【Python进阶】Python爬虫的基本概念，带你进一步了解Python爬虫！！！程序员陌陌 python 爬虫开发语言
一、Python爬虫基本概念网络爬虫，又称为网页蜘蛛或爬虫，是一种自动浏览万维网的程序。它按照一定的算法顺序抓取网页内容，同时将抓取到的数据存储起来，用于进一步的分析和处理。网络爬虫在信息获取、数据挖掘、搜索引擎构建等方面发挥着关键作用。二、工作流程确定目标网站：明确需要抓取数据的网站和具体页面。分析网页结构：使用开发者工具查看网页的HTML结构，确定数据存放的位置。编写爬虫代码：使用Python
搜索引擎原理详解风不归Alkaid 搜索引擎搜索引擎
搜索引擎是一种复杂的软件系统，旨在帮助用户找到互联网上的信息。它们通过索引大量网页并快速响应用户查询来工作。搜索引擎的核心功能包括爬虫（crawling）、索引（indexing）、查询处理（queryprocessing）和排名（ranking）。一、网络爬虫（WebCrawling）网络爬虫（WebCrawling）是搜索引擎的核心组件之一，它的主要任务是发现和获取互联网上的网页内容，以便后续
网络爬虫是否存在侵权行为，合法吗？ Bj陈默爬虫 python 网络
网络爬虫是一种按照一定规则自动抓取互联网信息的程序或脚本。其是否存在侵权行为以及是否合法不能一概而论，需要根据具体情况进行分析判断，主要从以下几个方面考量：一、合法性的判定遵守robots协议：robots协议（也称爬虫协议）是网站通过该协议明确警示搜索引擎哪些页面可以爬取，哪些页面不能爬取，相当于网站立在自己房间门口的一个“牌子”，告知外来者谁可以过来，谁不可以过来。如果网络爬虫在被爬取方设置的
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&