朱庇特不是宙斯

python爬虫被重定向_50 种最棒的开源爬虫框架/项目

作者：Prowebscraper 博客

译者：Rays

摘要： 说起爬虫框架，你可能会马上脱口而出：「 Scrapy 或者 Pyspider」，甚至你可能认为只有 Python 才能爬虫。其实还有很多好用的开源爬虫框架，也绝不仅仅只有 Python 才能写爬虫，大多数热门语言都可以做。

总之，开源 Web 爬虫纷繁多样，下面按照所用程语言，罗列五十种最好的开源爬虫框架，每一个各具特长，适用于不同场景和用户需求。下面来一睹为快。

Python 编写的开源 Web 爬虫

1. Scrapy

实现语言：Python
GitHub Star 数：28660
官方支持链接

简介：

Scrapy 是一种高速的高层 Web 爬取和 Web 采集框架，可用于爬取网站页面，并从页面中抽取结构化数据。
Scrapy 的用途广泛，适用于从数据挖掘、监控到自动化测试。
Scrapy 设计上考虑了从网站抽取特定的信息，它支持使用 CSS 选择器和 XPath 表达式，使开发人员可以聚焦于实现数据抽取。
对于熟悉 Python 的开发人员，只需几分钟就能建立并运行 Scrapy。
支持运行在 Linux、Mac OS 和 Windows 系统上。

特性：

内置支持从 HTML 和 XML 抽取数据、使用扩展的 CSS 选择器（Selector）和 XPath 表达式等特性。
支持以多种格式（JSON、CSV、XML）生成输出。
基于 Twisted 构建。
稳健的支持，自动检测编码方式。
快速，功能强大。

– 官方文档：https://docs.scrapy.org/en/latest/

– 官方网站：https://scrapy.org/

2. Cola

实现语言：Python
GitHub Star 数：1274
官方支持链接

简介：

Cola 是一种高层分布式爬取框架，实现从网站爬取网页，并从中抽取结构化数据。
它提供了一种实现目标数据获取的简单且灵活的方式。
用户只需要编写其中一部分代码，就可在本地和分布式环境下运行。

特性：

高层分布式爬取框架。
简单且高速。
灵活。

– 官方文档：https://github.com/chineking/cola

– 官方网站：https://pypi.org/project/Cola/

3. Crawley

实现语言 Python
GitHub Star 数： 144
官方支持链接

简介：

Crawley 是一种 Python 爬取和采集框架，意在简化开发人员从 Web 网页抽取数据到数据库等结构化存储中。

特性：

基于 Eventlet 构建的高速 Web 爬虫。
支持 MySQL、PostgreSQL、Oracle、Sqlite 等关系数据库引擎。
支持 MongoDB、CouchDB 等 NoSQL 数据库（最新特性！）。
支持导出数据为 JSON、XML 和 CSV 格式（最新特性！）。
命令行工具。
支持开发人员使用自己喜好的工具，例如 XPath 或 Pyquery（一种类似于 JQuery 的 Python 软件库）等。
支持 Cookie 处理器（Handler）。

– 官方文档：https://pythonhosted.org/crawley/

– 官方网站：http://project.crawley-cloud.com/

4. MechanicalSoup

实现语言： Python
GitHub Star 数： 2803
官方支持链接

简介：

MechanicalSoup 是一种设计模拟人类使用 Web 浏览器行为的 Python 软件库，它基于解析软件库 BeautifulSoup 构建。
如果开发人员需要从单个站点采集数据，或是不需要大量数据采集，那么使用 MechanicalSoup 是一种简单高效的方法。
MechanicalSoup 自动存储和发送 Cookie、跟踪重定向、支持链接跟随和提交表单。

特性：

轻量级。
支持 Cookie 处理器。

– 官方文档： https://mechanicalsoup.readthedocs.io/en/stable/

– 官方网站：https://mechanicalsoup.readthedocs.io/

5. PySpider

实现语言： Python
GitHub Star 数： 11803
官方支持链接

简介：

PySpider 是一种 Python 编写的强大 Web 爬虫。
它支持 JavaScript 网页，并具有分布式架构。
PySpider 支持将爬取数据存储在用户选定的后台数据库，包括MySQL, MongoDB, Redis, SQLite, Elasticsearch等。
支持开发人员使用 RabbitMQ、Beanstalk 和 Redis 等作为消息队列。

特性：

提供强大 Web 界面，具有脚本编辑器、任务监控、项目管理器和结果查看器。
支持对重度 Ajax 网站的爬取。
易于实现适用、快速的爬取。

– 官方文档： http://docs.pyspider.org/

– 官方网站：https://github.com/binux/pyspider

6. Portia

实现语言： Python
GitHub Star 数： 6250
官方支持链接

简介：

Portia 是由 Scrapinghub 创建的一种可视化爬取工具，它不需要用户具有任何程序开发知识。
如果用户并非开发人员，最好直接使用 Portia 实现 Web 爬取需求。
用户无需任何安装就可免费试用 Portia，只需要在 Scrapinghub 注册一个账户，就可使用托管版本。
即便用户没有编程技能，在 Portia 中创建爬虫并抽取 Web 内容也是非常易于实现的。
用户无需安装任何程序，因为 Portia 是运行在 Web 页面上的。
用户可以使用 Portia 的基本点击工具标注需要爬取的数据，然后 Portia 就会根据这些标注理解如何爬取类似页面中的数据。
一旦检测到需要爬取的页面，Portia 会形成一个用户已创建结构的实例。

特性：

通过记录并回放用户在页面上的操作，实现点击、拖动和等待等动作。
Portia 可以很好地爬取基于 Ajax 构建的网站（基于 Splash），也适用于爬取 Backbone、Angular 和 Ember 等重度 JavsScript 框架。

– 官方文档：https://portia.readthedocs.io/en/latest/index.html

– 官方网站： https://github.com/scrapinghub/portia

7. Beautifulsoup

实现语言： Python
官方支持链接

简介：

Beautiful Soup 一种设计用于实现 Web 爬取等快速数据获取项目的 Python 软件库。
它在设计上处于 HTML 或 XML 解析器之上，提供用于迭代、搜索和修改解析树等功能的 Python 操作原语。往往能为开发人员节省数小时乃至数天的工作。

特性：

Beautiful Soup 自动将输入文档转换为 Unicode 编码，并将输出文档转换为 UTF-8 编码。
Beautiful Soup 处于一些广为采用的 Python 解析器（例如，lxml和html5lib）之上，支持用户尝试使用多种不同的解析策略，并在速度和灵活性上做出权衡。

– 官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/

– 官方网站： https://www.crummy.com/software/BeautifulSoup/

8. Spidy 爬虫

实现语言： Python
GitHub Star 数： 152
官方支持链接

简介：

Spidy 是一种从命令行运行的 Web 爬虫。易于使用。用户只需提供 Web 网页的 URL 链接，Spidy 就可以开始爬取！Spidy 无疑是一种整体爬取 Web 的简单有效的方式。
Spidy 使用 Python 请求查询 Web 页面，并使用 lxml 抽取页面中的所有链接。非常简单！

特性：

错误处理。
跨平台兼容性。
频繁时间戳日志。
可移植性。
用户友好的日志。
保存 Web 页面。
支持文件压缩。

– 官方文档：https://github.com/rivermont/spidy

– 官方网站： http://project.crawley-cloud.com/

9. Garb

实现语言： Python
GitHub Star 数： 1627
官方支持链接

简介：

Grab 是一种用于构建爬虫的 Python 框架。
使用 Grab 可构建出各种复杂度的 Web 爬虫，从只有五行代码的脚本，到可处理百万量级 Web 页面的复杂异步爬虫。
Grab 提供了执行网络请求、处理接收内容的 API。例如，实现与 HTML 文档的 DOM 树进行交互。

特性：

支持 HTTP 和 SOCKS 代理，可使用也可不使用认证。
自动字符集检测。
强大的 API，支持使用 XPath 查询从 HTML 文档的 DOM 树中抽取数据。
自动 Cookie（或会话）支持。

– 官方文档：https://grablib.org/en/latest/

– 官方网站： https://github.com/lorien/grab

Java 编写的开源 Web 爬虫

10. Apache Nutch

实现语言： Java
GitHub Star 数： 1743
官方支持链接

简介：

Apache Nutch 是一种高度可扩展、可伸缩的开源 Web 爬虫软件项目。
如果要列出最好的开源 Web 爬虫列表，Apache Nutch 无疑金榜题名。
作为一种用于数据挖掘的高度可扩展、可伸缩的开源代码 Web 数据抽取软件项目，Apache Nutch 得到了广泛的使用。
Nutch 支持单机运行，但是在 Hadoop 集群上运行可最大化地发挥其强大能力。
全球范围内很多数据分析人员和科研人员、应用开发人员和 Web 文本挖掘工程师都在使用 Apache Nutch。
Apache Nutch 是一种 Java 编写的跨平台解决方案。

特性：

默认情况下，爬取数据和分析数据是独立的过程。
广泛支持多种文档格式，包括纯文本、HTML/XHTML+XML、XML、PDF、ZIP 等。
使用 XPath 和命名空间实现映射。
通过 Hadoop 支持分布式文件系统。
链接图形式的数据库。
支持 NTLM 认证。

– 官方文档： https://wiki.apache.org/nutch/

– 官方网站： http://nutch.apache.org/

11. Heritrix

实现语言： Java
GitHub Star 数： 1236
官方支持链接

简介：

在使用 Java 编写的免费开源 Web 爬虫中，Heritrix 是其中一种得到广泛使用的工具。事实上，它是一种可扩展、Web 规模、存档质量（archival-quality）的 Web 爬取项目。
Heritrix 是一种扩展能力和性能很好的解决方案，支持用户即刻爬取并归档一组网站。此外，它在设计上考虑了 robots.txt 禁止规则和 META 机器人标签。
Heritrix 可运行在 Linux/Unix 和 Windows 系统上。

特性：

HTTP 认证。
NTLM 认证。
链接抽取中的 XSL 转换。
独立于搜索引擎。
是一种成熟并稳定的平台。
高度可配置。
支持在任一机器上运行。

– 官方文档： https://github.com/internetarchive/heritrix3/wiki/Heritrix%203.0%20and%203.1%20User%20Guide

– 官方站： https://github.com/internetarchive/heritrix3b

12. ACHE 爬虫

实现语言： Java
GitHub Star 数： 154
官方支持链接

简介：

ACHE 是一种专用于特定用途的 Web 爬虫。
ACHE 爬取满足特定标准的 Web 页面。例如，属于特定领域并包含用户指定模式的页面。
不同于通用爬虫，ACHE 使用页面分类器遴选特定领域中的相关和无关页面。
页面分类器可以是基本的正则表达式（例如，匹配所有包含给定单词的页面），也可以基于机器学习的分类模型。ACHE 也可以自动学习如何对链接做优先处理，实现高效地定位相关内容，避免检索无关的页面内容。

特性：

对固定网站列表的正常爬取。
通过自动链接优先处理，发现并爬取新的相关网站。
可配置不同类型的页面分类器（例如，机器学习、正则表达式等）。
持续重新爬取站点，实现页面更新的发现。
使用 ElasticSearch 对爬取页面做索引。
实时搜索爬取页面的 Web 接口。
用于监控爬虫的 REST API 和基于 Web 的用户接口。
使用 TOR 代理爬取隐含服务。

– 官方文档： http://ache.readthedocs.io/en/latest/

– 官方网站： https://github.com/ViDA-NYU/ache

13. Crawler4j

实现语言： Java
GitHub Star 数： 3039
官方支持链接

简介：

crawler4j 是一种 Java 编写的开源 Web 爬虫，提供了爬取 Web 网站的基本接口。
开发人员可以使用 crawler4j 在数分钟内建立一个多线程 Web 爬虫。

– 官方文档： https://github.com/yasserg/crawler4j

– 官方网站： https://github.com/yasserg/crawler4j

14. Gecco

实现语言： Java
GitHub Star 数： 1245
官方支持链接

简介：

Gecco 是一种使用 Java 开发的轻量级 Web 爬虫，易于使用。
Gecco 集成了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等优秀框架。用户只需要配置一系列 jQuery 风格选择器，就能很快地建立一个爬虫。
Gecco 框架具有优秀的扩展能力。框架基于一些开放式和封闭式设计原则，对改进封闭，对扩展开放。

特性：

易于使用，使用 jQuery 风格选择器抽取元素。
支持页面中的异步 Ajax 请求。
支持页面 JavaScript 变量抽取。
使用 Redis 实现分布式爬取（参见 gecco-redis 文档）。
支持使用 Spring 开发业务逻辑（参见 gecco-spring 文档）。
支持 htmlunit 扩展（参见 gecco-htmlunit 文档）。
支持多种扩展机制。
支持下载 UserAgent 的随机选择。
支持下载代理服务器的随机选取。

– 官方文档： https://github.com/xtuhcy/gecco

– 官方网站： https://github.com/xtuhcy/gecco

15. BUbiNG

实现语言： Java
GitHub Star 数：24
官方支持链接

简介：

BUbiNG 令人惊喜，它可称为下一代的开源 Web 爬虫。BUbiNG 是一种 Java 开发的完全分布式爬虫（无需中央协调），每秒可爬取数千个网页，并支持采集大规模数据集。
BUbiNG 的分布式是基于高速协议实现的，因此可以获得非常高的通量。
BUbiNG 提供对海量数据的大规模爬取。它完全可配置、易于扩展，并可集成垃圾信息检测。

特性：

高度并行。
完全分布式。
使用 JAI4J。JAI4J 是一种基于 JGroups 实现的瘦功能层，实现任务指派。
（当前）使用剥离网页的指纹，检测近似的重复内容。
快速。
大规模爬取。

– 官方文档： http://law.di.unimi.it/software/bubing-docs/index.html

– 官方网站： http://law.di.unimi.it/software.php#bubing

16. Narconex

实现语言：Java
官方支持链接

简介：

对于寻求可满足企业级需求的开源 Web 爬虫的用户而言，Narconex 是一种很好的工具。
Norconex 支持用户爬取任何 Web 内容。用户可以独立运行这种全功能数据采集器，或是将其集成在自己的应用中。
支持所有操作系统。可在具有一般容量的单体服务器上爬取数百万信息。此外，Narconex 提供多种内容和元数据操作特性，还可以抽取页面中特定的图像。

特性：

多线程。
支持按各种计划任务，抽取不同时间段的数据。
从 HTML、Word、PDF 等多种文件格式中抽取文本内容。
抽取文档相关的元数据。
支持抽取使用用 JavaScript 渲染的页面。
检测语言。
支持翻译。
可配置爬取速度。
可检测发生修改或已被删除的文档。
支持使用外部命令分析或操作文档。

– 官方文档： http://www.norconex.com/collectors/collector-http/getting-started

– 官方网站： http://www.norconex.com/collectors/collector-http/

17. WebSPHINX

实现语言： Java
当前尚不提供官方支持。

简介：

WebSphinix 是一种非常易于使用的可定制 Web 爬虫。它设计用于高级 Web 用户和 Java 编程人员，支持他们自动爬取小部分 Web。
WebSphinix 数据抽取解决方案也提供了一种全面的 Java 类库和交互式软件开发环境。WebSphinix 包括两部分：爬虫基准测试（Crawler Workbench），WebSPHINX 类库。
爬虫基准测试提供了很好的用户图形接口，支持用户配置并控制定制的 Web 爬虫。
WebSPHINX 类库为使用 Java 编写 Web 爬虫提供支持。
WebSphinix 支持运行在 Windows、Linux、Mac 和 Android IOS 上。

特性：

以图的方式可视化 Web 页面采集。
将多个页面组合为单个文档，以供查看和打印。
支持抽取所有满足设定模式的文本。
支持 HTML 解析。
支持 robot.txt 禁止标准。
通用 HTML 转换。
多线程 Web 页面检索。

– 官方文档： https://www.cs.cmu.edu/~rcm/websphinx/doc/index.html

– 官方网站： https://www.cs.cmu.edu/~rcm/websphinx/#about

18. Spiderman

实现语言： Java
GitHub Star 数： 2400
官方支持链接

简介：

Spiderman 是一种 Java 开源 Web 数据抽取工具。它采集特定的 Web 页面，并从中抽取有用数据。
Spiderman 主要使用 XPath 和正则表达式等技术抽取实际数据。

特性：

更高的性能。
持久化集合状态。
分布式。
支持 JavaScript。
– 官方文档： https://gitee.com/l-weiwei/spiderman

– 官方网站： https://gitee.com/l-weiwei/spiderman

19. WebCollector :

实现语言： Java
GitHub Star 数： 1986
官方支持链接

简介：

WebCollector 是一种基于 Java 的开源 Web 爬虫框架。
它为实现 Web 爬取功能提供了一下基本的接口。用户可以使用它在五分钟内建立起一个多线程爬虫。

特性：

快速。

– 官方文档： https://github.com/CrawlScript/WebCollector

– 官方网站： https://github.com/CrawlScript/WebCollector

20. Webmagic

实现语言： Java
GitHub Star 数： 6891
官方支持链接

简介：

WebMagic 是一种可扩展的爬虫框架。
WebMagic 涵盖了爬虫的整个生命周期，包括下载、URL 管理、内容抽取和持久化。
可用于简化一些特定爬虫的开发。

特性：

高度灵活的简单内核。
提供实现 HTML 抽取的简单 API。
使用 POJO 标注定制爬虫，无需配置。
支持多线程和分布式。
易于集成。

– 官方文档： http://webmagic.io/docs/en/

– 官方网站： https://github.com/code4craft/webmagic

21. StormCrawler

实现语言： Java
GitHub Star 数：437
官方支持链接

简介：

StormCrawler 是一种基于 Apache Storm 构架分布式 Web 爬虫的开源 SDK。
StormCrawler 为开发人员构建爬虫提供了软件库和一系列资源。
StormCrawler 完全适用于以数据流提供需获取和解析的 URL 的情况，也非常适用于大规模递归性爬取，尤其是需要低延迟的情况。

特性：

可扩展。
有弹性。
低延迟。
易于扩展。
运行良好且高效。

– 官方文档： http://stormcrawler.net/docs/api/

– 官方网站： http://stormcrawler.net/

JavaScript 编写的开源 Web 爬虫

22. NodeCrawler

实现语言： JavaScript
GitHub Star 数： 3999
官方支持链接

简介：

NodeCrawler 是一种广为使用的 Web 爬虫，它基于 NodeJS 实现，具有非常快的爬取速度。
Nodecrawler 非常适用于偏爱使用 JavaScript 编程或者致力于 JavaScript 项目的开发人员。其安装也非常简单。
JSDOM 和 Cheerio（用于 HTML 解析）实现服务器端渲染。其中，JSDOM 更为稳定。

特性：

使用 Cheerio（默认）或 JSDOM 实现服务端 DOM 和自动 jQuery 插入。
可配置池子规模和重试次数。
控制爬取率限制。
请求的优先队列。
支持 forceUTF8 模式，使得爬虫可以检测并转换字符集。
与 4.x 乃至更新版本兼容。

– 官方文档：https://github.com/bda-research/node-crawler

– 官方网站：http://nodecrawler.org/

23. Simplecrawler

实现语言： JavaScript
GitHub Star 数：1764
官方支持链接

简介：

Simplecrawler 设计提供基本的、灵活且稳定的网站爬取 API。
Simplecrawler 在实现上考虑了针对特大型 Web 站点的归档、分析和搜索。它可爬取上百万页面，并毫无问题地向磁盘写入数十 GB 数据。

特性：

提供了用于自动检测链接资源的一些简单逻辑，用户可自行替换和添加。
自动请求任何 robots.txt 禁止规则。
具有灵活的队列系统，可在磁盘上冻结和解冻。

– 官方文档： https://github.com/simplecrawler/simplecrawler

– 官方网站： https://www.npmjs.com/package/simplecrawler

24. Js-crawler :

实现语言： JavaScript
GitHub Star 数： 167
官方支持链接)

简介：

使用 NodeJS 实现的 Web 爬虫，支持 HTTP 和 HTTPS

– 官方文档： https://github.com/antivanov/js-crawler

– 官方网站： https://github.com/antivanov/js-crawler

25. Webster

实现语言： JavaScript
GitHub Star 数： 201
官方支持链接

简介：

Webster 是一种使用 NodeJS 编写的可靠 Web 爬取和采集框架，用于爬取 Web 站点并从页面中抽取结构化数据。
与其他爬取框架的不同之处在于，Webster 可以抓取浏览器客户端的 JavaScript 和 Ajax 请求呈现的内容。

– 官方文档： http://webster.zhuyingda.com/

– 官方网站： https://github.com/zhuyingda/webster

26. Node-osmosis

实现语言：JavaScript
GitHub Star 数： 3630
**官方支持链接

简介：

* 一种使用 NodeJS 实现的 HTML/XML 解析器和 Web 爬虫。

特性：

使用原生 libxml 的 C 绑定。
干净的 Promise 类接口。
支持 CSS 3.0 和 XPath 1.0 选择器的混合。
Sizzle 选择器、Slick 选择器以及更多。
不具有像 jQuery、cheerio 或 jsdom 那样的大型依赖。
构成深度和复杂的数据结构。
HTML 解析器特性：
快速解析；
高速搜索；
内存占用小。
HTML DOM 特性：
加载和搜索 ajax 内容；
DOM 交互和事件；
执行嵌入和远程脚本；
在 DOM 中执行代码。
HTTP 请求特性：
日志记录 URL，重定向和错误；
Cookie 的 jar 包，以及自定义 Cookie/头部/用户代理；
登录/表单提交、会话 Cookie，基本的认证；
单代理、多代理，处理代理失败情况；
限制重试和重定向。

– 官方文档： https://rchipka.github.io/node-osmosis/global.html

– 官方网站： https://www.npmjs.com/package/osmosis

27. Supercrawler

实现语言：JavaScript
GitHub Star 数： 4341
官方支持链接

简介：

Supercrawler 是一种使用 NodeJS 实现的 Web 爬虫，在设计上支持高度可配置和易用性。
一旦成功爬取一个网页（可以是图像、文本文档或其他任何文件），Supercrawler 将会触发用户自定义的内容类型（content-type）处理器，处理页面解析、保存数据以及其它一些用户定义的功能。

特性：

链接检测：Supercrawler 会解析所爬取的 HTML 文档，识别其中链接并添加到队列中。
机器人解析：在爬取前 Supercrawler 会请求 robots.txt 并检查其中的禁止规则。它也可识别站点地图。
站点地图解析：Supercrawler 可以从 XML 站点地图文件中读取链接，并将链接添加到队列中。
并发限制：Supercrawler 可限制在任一时间发出的请求数。
速率限制：Supercrawler 可添加请求的时延，以免对服务器产生轰炸。
指数补偿（Exponential backoff）重试：Supercrawler 将依此在一小时、两小时、四小时乃至更多时间后重试请求。要使用该特性，爬取队列必须使用数据库或 Redis 作为后端。
主机名均衡：Supercrawler 可在不同主机名间平均分割请求量。要使用该特性，爬取队列必须以 Redis 为后端。

– 官方文档： https://github.com/brendonboshell/supercrawler

– 官方网站： https://github.com/brendonboshell/supercrawler

28. Web scraper 的 Chrome 扩展

实现语言：JavaScript
GitHub Star 数： 775
官方支持链接

简介：

Web Scraper 是一种 Chrome 浏览器扩展，构建用于从 Web 页面抽取数据。
用户可以使用该扩展创建计划（站点地图），定义如何遍历一个 Web 网站，以及如何从中抽取数据。
Web Scraper 使用站点地图相应地遍历网站，并从中抽取数据。
支持以 CSV 格式导出所抽取的数据。

特性：

抽取多个页面。
站点地图和抽取的数据存储在浏览器的本地存储，也可存储在 CouchDB 中。
多种数据类型选取。
支持从动态网页（JavaScript+AJAX）抽取数据。
浏览抽取的数据。
以 CSV 格式导出抽取的数据。
导入、导出站点地图。
只依赖于 Chrome 浏览器。

– 官方文档： https://www.webscraper.io/documentation

– 官方网站： https://www.webscraper.io

29. Headless Chrome 爬虫

实现语言：JavaScript
GitHub Star 数： 3256
官方支持链接

简介：

使用基本 HTML 文件请求的爬虫，通常速度很快。但这样的爬虫往往会抽取到空白内容，尤其是在爬取使用 AngularJS、React 和 Vue.js 等现代前端框架构建的网站时。

特性：

分布式爬取。
可配置并发、延迟和重试。
支持深度优先搜索和广度优先搜索算法。
支持插拔缓存存储，例如 Redis。
支持导出 CSV 和 JSON。
在达到最大请求时暂停爬取，并可在任一时刻恢复。
自动插入用于抽取的 jQuery。
保存屏幕截图，用于证实爬取过程。
模拟设备和用户代理。
具有优先队列，可提高爬取效率。

– 官方文档： https://github.com/yujiosaka/headless-chrome-crawler/blob/master/docs/API.md

– 官方网站： https://github.com/yujiosaka/headless-chrome-crawler

30. X-ray

实现语言：JavaScript
GitHub Star 数： 4464
官方支持链接

特性：

模式灵活：支持字符串、数组、对象以及嵌套对象结构。模式并非绑定于所抽取的页面结构，支持用户获取选定结构中的数据。
可组合（Composable）：API 是完全可组合的，赋予用户抽取每个页面的极大灵活性。
分页支持：爬取页面在 Web 站点上的所有分页。X-ray 还支持请求延迟和分页限制，并支持将爬取页面导入到单个文件中。这样一旦单个页面产生错误，用户不会失去所有已爬取的数据。
爬虫支持：从一个页面开始，轻易跳转另一个页面。页面跳转是可预测的，按深度优先爬取所有页面。
负责任的爬取：X-ray 支持并发、限制、延迟、超时和限制，实现负责任地爬取任何页面。
可插拔驱动：可按用户需求置换不同的爬虫。

– 官方文档： https://github.com/matthewmueller/x-ray

– 官方网站： https://www.npmjs.com/package/x-ray-scraper

C 编写的开源 Web 爬虫

31. Httrack

实现语言：C
GitHub Star 数： 747
官方支持链接

简介：

HTTracks 是一项免费（GPL、Libre/自由软件）且易于使用的离线浏览器功能。
支持用户将 Web 站点下载到本地目录，递归构建全部目录，以及获取 HTML、图像和其它文件到本地计算机。
HTTrack 会维持原站点的相对链接结构。用户可以用浏览器打开本地的“镜像”页面，并逐个链接浏览，与在线浏览无异。
HTTrack 也支持对已有镜像站点的更新，以及从中断点恢复下载。
HTTrack 高度可配置，并提供帮助文档。

特性：

多语言窗口，提供对 Linux/UNIX 的接口。
镜像单个站点，或是一并镜像多个站点。
支持按文件类型、链接位置、结构深度、文件大小过滤，接受或拒绝站点或文件名。
支持代理，可最大化速度，并可选认证。

– 官方文档： http://www.httrack.com/html/index.html

– 官方网站： http://www.httrack.com/

32. GNU Wget

实现语言：C
GitHub Star 数： 22
官方支持链接

简介：

GNU Wget 是一种免费软件包，它使用 HTTP、HTTPS、FTP、FTPS 等广为使用的互联网协议检索文件。
Wget 是一种非交互式命令行工具，易于从脚本、Cron 任务、不具有 X 窗口支持的终端等处调用。

特性：

使用 REST 和 RANGE 支持从中断处恢复下载。
基于 NLS 的消息文件，可使用多种语言。
可运行于大多数类 UNIX 操作系统上，也支持 Windows.
支持 HTTP 代理。
支持 HTTP Cookie。

– 官方文档： https://www.gnu.org/software/wget/manual/

– 官方网站： https://www.gnu.org/software/wget/

C++编写的开源 Web 爬虫

33. gigablast

实现语言：C++
GitHub Star 数： 912
**官方支持链接

简介：

Gigablast 是一种开源的 Web 和企业搜索引擎，也是一种爬虫。
Gigablast 是自身维护数十亿页面检索索引的数家美国搜索引擎之一。

特性：

大规模。
高性能。
实时信息检索技术。

– 官方文档： http://www.gigablast.com/api.html

– 官方网站： http://www.gigablast.com/

C#编写的开源 Web 爬虫

34. http://Arachnode.net

实现语言：C#
GitHub Star 数： 9
官方支持链接

简介：

http://Arachnode.net 适用于寻求开源 Web 爬虫的 C#开发人员。
http://Arachnode.net 软件类库从因特网下载内容、对内容做索引，并对过程做定制。
用户可使用该工具做个人内容聚合，也可用于将下载的内容抽取、采集和解析为多个表单。
http://Arachnode.net 索引所发现的内容，并存储在 http://Lucene.NET 索引中。
http://Arachnode.net 非常适用于文本挖掘，也适用于学习高级爬取技术。

特性：

可配置规则和行为。
集成 http://Lucene.NET。
支持 SQL Server 和全文本索引。
支持对.DOC/.PDF/.PPT/.XLS 等文件类型的索引。
支持将 HTML 转化为 XML 和 XHTML。
支持全部 JavaScript/AJAX 功能。
支持多线程和节流(Throttling)。
行为适当（Respectful）的爬取。
分析服务。

– 官方文档： https://documentation.arachnode.net/index.html

– 官方网站： http://arachnode.net/

35. Abot

实现语言：C#
GitHub Star 数： 1392
官方支持链接

简介：

Abot 是一种 C#实现的开源 Web 爬虫，主要侧重于速度和灵活性。
Abot 在实现中考虑了底层技术细节，包括多线程、HTTP 请求、调度、链接解析等。
用户只需注册事件，就可以处理分页数据。
支持用户插入自己的核心接口实现，实现对整个爬取过程的完全控制。

特性：

高速！
易于定制（可插拔架构，支持用户定义爬取内容和方式）。
经过大量的单元测试（高代码覆盖率）。
非常轻量级（并非过度工程化）。
无过程之外的依赖，例如对数据库、所安装服务等的依赖。

– 官方文档： https://github.com/sjdirect/abot

– 官方网站： https://github.com/sjdirect/abot

36. Hawk

实现语言：C#
GitHub Star 数： 1875
官方支持链接

简介：

HAWK 无需用户做任何编程，提供图形可视化数据获取和清理工具，并以 GPL 协议开源。

特性：

无需编程，即可实现对 Web 内容的智能分析。
所见即所得（WYSIWYG），可视化拉拽，支持对数据转换和过滤等的快速处理。
支持从多种数据库和文件中导入和导出。
任务可保存并可重用。
尤其适用于爬取和数据清理，但其功能并不仅局限于此。

– 官方文档： https://github.com/ferventdesert/Hawk

– 官方网站： https://ferventdesert.github.io/Hawk/

37. SkyScraper

实现语言：C#
GitHub Star 数： 39
官方支持链接

简介：

一种异步 Web 获取和爬虫，使用了 async/await 和响应式扩展。

– 官方文档： https://github.com/JonCanning/SkyScraper

– 官方网站： https://github.com/JonCanning/SkyScraper

.NET 编写的 Web 爬虫

38. DotnetSpider

实现语言：.NET
GitHub Star 数： 1382
官方支持链接

简介：

DotnetSpider 是一种使用.NET Standard 实现的 Web 爬取软件库，类似于 WebMagic 和 Scrapy。
它是一种适用于.NET 的轻量级、高效和高速的高层 Web 爬取和获取框架。

– 官方文档： https://github.com/dotnetcore/DotnetSpider/wiki

– 官方网站： https://github.com/dotnetcore/DotnetSpider

PHP 编写的开源 Web 爬虫

39. Goutte

实现语言：PHP
GitHub Star 数： 6574
官方支持链接

简介：

Goutte 是一种 PHP 实现的屏幕抓取和 Web 爬取软件库。
Goutte 为爬取 Web 站点和从 HTML/XML 响应中抽取数据提供了很好的 API。

– 官方文档： https://goutte.readthedocs.io/en/latest/

– 官方网站： https://github.com/FriendsOfPHP/Goutte

40. Dom-crawler

实现语言：PHP
GitHub Star 数： 1340
官方支持链接

简介：

DomCrawler 组件简化了对 HTML 和 XML 文档的 DOM 浏览。

– 官方文档： https://symfony.com/doc/current/components/dom_crawler.html

– 官方网站： https://github.com/symfony/dom-crawler

41. Pspider

实现语言：PHP
GitHub Star 数： 249
官方支持链接

简介：

Pspider 是最近完全使用 PHP 实现的一种并行爬取框架，它基于 hightman/httpclient 组件。

– 官方文档： https://github.com/hightman/pspider

– 官方网站： https://github.com/hightman/pspider

42. Php-spider

实现语言：PHP
GitHub Star 数： 1023
官方支持链接

简介：

一种可配置、可扩展的 Web 爬虫。

特性：

可限制爬取深度、队列大小和最大下载数。
支持基于 XPath、CSS 选择器或普通（Plain old）PHP 添加自定义的 URI 发现逻辑。
提供了一系列有用的 URI 过滤器，例如域限制等。
收集爬取统计信息，用于形成报告。

– 官方文档： https://github.com/mvdbos/php-spider

– 官方网站： https://github.com/mvdbos/php-spider

43. Spatie / Crawler

实现语言：PHP
GitHub Star 数： 740
**官方支持链接

简介：

该软件包提供了从 Web 站点爬取链接的类。在实现的底层机制上，使用了 GuzzleHttp/Promise 并发爬取多个 URL。
该爬虫支持执行 JavaScript，可以爬取使用 JavaScript 渲染的站点。从实现的底层机制看，该特性使用了 Chrome 和 Puppeteer。

– 官方文档： https://github.com/spatie/crawler

– 官方网站： https://github.com/spatie/crawler

Ruby 实现的开源 Web 爬虫

44. Mechanize

实现语言：Ruby
GitHub Star 数： 3728
官方支持链接

简介：

Mechanize 软件库用于实现于 Web 站点的自动交互。
Mechanize 自动按重定向存储并发送 Cookie。可以根据链接提交表单，支持填写和提交表单域。
Mechanize 也可跟踪用户访问过站点的历史记录。

– 官方文档： http://docs.seattlerb.org/mechanize/

– 官方网站： https://github.com/sparklemotion/mechanize

GO 编写的开源 Web 爬虫

45. Colly

实现语言：Go
GitHub Star 数： 5439
官方支持链接

简介：

为 Go 爱好者提供了一种快速且适用的爬取框架。
Colly 提供了非常清晰的接口，可用于编写任何类型的爬虫和数据获取工具。
Colly 使得用户可以轻易地从站点抽取结构化数据。这些数据适用于大范围的应用，例如数据挖掘、数据处理和归档。

特性：

清晰的 API。
高速（支持单核每秒处理一千次以上的请求）。
按域管理请求延迟和最大并发。
自动 Cookie 和会话管理。
同步/异步/并行爬取。
支持缓存。
对非 unicode 响应的自动编码。
支持 robots.txt 禁止规则。
分布式爬取。
可通过环境变量配置。
支持扩展。

– 官方文档： http://go-colly.org/docs/

– 官方网站： http://go-colly.org/

46. Gopa

实现语言：Go
GitHub Star 数： 169
官方支持链接

特性：

轻量级，低资源占用，小于 100MB 的内存需求。
易于部署，无需任何运行时和依赖关系。
易于使用，不需要用户具有任何编程和脚本技能，提供开箱即可用特性。

– 官方文档： https://github.com/infinitbyte/gopa

– 官方网站： https://github.com/infinitbyte/gopa

47. Pholcus

实现语言：Go
GitHub Star 数： 4341
官方支持链接

简介：

Pholcus 是一种完全使用 Go 语言实现的高并发性、重量级爬虫软件。
它针对因特网数据采集，为只具有基本 Go 或 JavaScript 编程基础的用户提供了一种只需要关注自定义功能的特性。
规则简单灵活，并发批处理任务，提供丰富的输出方式，包括 MySQL、MongoDB、Kafka、CSV、Exvel 等。
用户共享了大量的演示。此外，Pholcus 支持两种水平和垂直爬取模式，支持模拟登陆、暂停任务、取消任务等一系列高级特性。

特性：

一种强大的爬取工具。
支持三种运行模式：单机、服务器和客户。
提供三种操作接口：Web、GUI 和命令行。

– 官方文档： https://pholcus.gitbooks.io/docs/

– 官方网站： https://github.com/henrylee2cn/pholcus

R 编写的开源 Web 爬虫

48. Rvest

实现语言：R
GitHub Star 数： 969
官方支持链接

简介：

Rvest 为用户从 Web 页面抽取信息提供帮助。它在设计上使用了 magrittr 软件包，易于表达通用 Web 抽取。

– 官方文档： https://cran.r-project.org/web/packages/rvest/rvest.pdf

– 官方网站： https://github.com/hadley/rvest

Scala 编写的开源 Web 爬虫

49. Sparkler

实现语言： Scala
GitHub Star 数： 198
官方支持链接

简介：

Web 爬虫是一种机器人程序，它从 Web 网站采集资源，用于构建搜索引擎、知识库等应用。
Sparkler（“Spark-Crawler”的缩写）是一种新型的 Web 爬虫，它通过整合 Spark、Kafka、Lucene/Solr、Tika、pf4j 等多种 Apache 项目，使用了分布式计算和信息检索领域的最新进展。

特性：

提供更高的性能，具有更好的容错。
支持复杂和近实时分析。
实时输出数据流。
可扩展的插件框架。
通用解析器。

– 官方文档： http://irds.usc.edu/sparkler/dev/development-environment-setup.html#contributing-source

– 官方网站： http://irds.usc.edu/sparkler/

Perl 编写的开源 Web 爬虫

50. Web-scraper

实现语言：Perl
GitHub Star 数： 91
官方支持链接

简介：

Web Scraper 是一种使用 HTML、CSS 选择器或 XPath 表达式的 Web 采集工具集。

– 官方文档： https://github.com/miyagawa/web-scraper

– 官方网站： https://github.com/miyagawa/web-scraper

小结

以上罗列了 50 个不同编程语言下的不错爬虫框架/项目，感兴趣可以用用看。

英文原文： http://www.prowebscraper.com/blog/50-best-open-source-web-crawlers/

欢迎关注我的公众号：高级农民工，博客：高级农民工，阅读体验更好。

你可能感兴趣的:(python爬虫,被重定向)

30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
活给自己看，笑容才灿烂听着了么
白岩松说“有时候，我们活得很累，并非生活过于刻薄，而是我们太容易被外界的氛围所感染，被他人的情绪所左右。”心情是自己的。若只是活在别人的眼里、嘴里，便掌握不了让自己开心的主动权。人活着，不是为了活给别人看的，唯有做最真实的自己，活给自己看，笑容才灿烂。诚然，世事纷繁复杂，人人都有一张嘴，管也管不了。永远有人欣赏你，也永远有人批评你，不可能做到让所有人都满意，开心做自己才是最重要的。人生苦短，有太多
直抒《紫罗兰永恒花园外传》雷姆的黑色童话
没看过《紫罗兰永恒花园》的我莫名的看完了《紫罗兰永恒花园外传》，又莫名的被故事中的姐妹之情狠狠地感动了的一把。感动何在：困苦中相依为命的姐妹二人被迫分离，用一个人的自由换取另一个人的幸福。之后，虽相隔不知几许依旧心心念念彼此牵挂。这种深深的姐妹情谊就是令我为之动容的所在。贝拉和泰勒分别影片开始，海天之间一个孩童凭栏眺望，手中拿着折旧的信纸。镜头一转，挑灯伏案的薇尔莉特正在打字机前奋笔疾书。这些片段
今天我破防了 sin信仰
今天本来是大年初一，新年的第一天，应该是高高兴兴的一天，但是我怎么也高兴不起来。具体原因很简单，原本计划年后去县城找了一份会计的工作，被公公婆婆否定了，我心里立马就不舒服了，但是当时刚好肚子疼，我去了厕所，等我上完厕所，公公由于喝了酒还在那里和婆婆唠叨个没完。然后我就在心情极度压抑的情况下把午饭吃完的碗筷和锅给刷了。边刷碗筷和锅，边在那里难受，感觉自己在这个家里真的是过的憋屈死了，公婆不让我去上班
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
被带偏的家人，可气又感动艾孤璟
当我还是个严肃且内敛的孩子时，爷爷也是个严谨且和蔼的人，虽然不苟言笑，但没有距离感。当我接触的人越来越多，知道怎么调动气氛，家人们就被我带偏了。家里人本来没有外号的，后来都被我给取了各种各样的名字，“骂人”时就相对应的有了暗号。村里的小孩，本来不知道怎么使用假动作“打人”，怎么给人取合适的外号，后来也被我带偏了。老人常说我，古灵精怪，好的不学非得学坏的，带着不良风气。而我对他的话总是想生气又觉得搞
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
那个严厉的启蒙老师小米星的天空
本文参加鹏哥教师节征文活动我的启蒙老师李老师，大概是唯一动手打过我，但是我仍然很感恩的老师吧。李老师当年四十多岁，擅长珠心算教学，算是我们乡镇小学的王牌老师。李老师很严厉，不仅要骂学生，还要动手打人，他的大眼睛一瞪，全班同学都瑟瑟发抖。在九十年代，家长不像现在这样宠溺孩子。许多家长都跟老师说，管得严一点，不听话就给我打。那时候棍棒教育是很正常的，教室里的木质米尺，常常因为被用来打调皮男生的屁股而折
一个历史事件和查理一世走上断头台有很大关系，这个事件是什么？王老师聊围棋
今天我要讲的历史事件，查理一世被处死的始末。其实查理一世给被处死的时候，与一个事件有很大的联系。这个事件是“普莱德清洗”。提到这个事件，我们不得不提到一个人，这个人就是克伦威尔。可以说，查理一世能够走上断头台，克伦威尔有很大的功劳。为什么这么说呢。那我们就成英国内战的终结说起吧。我们都知道英国的内战是有保王党挑起来。在保王党军队一路凯歌进攻的同时。就在1645年6月14日，在纳西比荒原上进行最后的
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
2019-10-24 柒月的可可
今日上班无事，人又懒怠动，不知道如何打发这个下午，终于打开了。我大概是把当日记来写的。重庆的天气骤然凉了。早上出门的时候，满地都是落叶，脚踩上去，却是刚下过雨，叶子已润掉，走不出声响。白天在办公室不见天日，对温度也无甚感觉，晚上一个人回到家，屋子里窗户都开着，被冷风吹了一天，一迈进屋，便觉冷气森然。将近二十度的天气，竟要裹着毯子才觉温暖。再过一周，就到十一月。扛过十一月，就可以开暖气了。然而我真的
2023-07-24 DXZHY
很2023年7月24号星期天，今天呢一早我就去开店，淋完花我就赶去了中心联谊，感谢中心联谊过程当中，他们在唱诵读者上面1.一边流泪，感觉自己的内在灵魂太长，时间没有得到这样了，所以一边唱手一边在流泪，我分不清楚自己是感动了，还是被呼唤的灵魂所能看到，但我就是哭了，泪流满面，我全身细胞在放松，最后我们荣耀完了之后，我打包了一部分回来，我发现我是挺真爱想摸的，然而。那我们商量好之后，他要做出一些违背我
第九十章真情溪境
图片发自App图片发自App和雏田在一起的日子真的很开心。姐姐永远是最亲的最真的。佐助总来捣乱。小樱准备一盆水泼佐助。想到恋爱通告亦菲被泼水不免高兴。亦菲是最美的。没想到她也会有这种遭遇。也许不需要赚那么多钱。和家人在一起的日子真好。却轻易破碎。雏田的话语温软，依稀在耳边。她的微笑纯美温柔。喜欢温柔的哥哥，雏田就是这样啊。不知道雏田是喜欢男生还是女生。我都支持。过去门当户对。现在自由恋爱。想永远和
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
可爱的外甥女水翼虎
看到我，被陌生感浸泡在沉默里，看到你，因亲情变得熟悉无比，我亲爱的外甥女，我可爱的孩子，圆嘟嘟的小脸，被帽子遮住大半，甜甜的小嘴很会说呢，等你叫声舅舅真的很开心，无可替代的亲情啊，多么完美，真想放下手里的东西，立马抱起你，告诉你舅舅爱你。
《经年驯养》黎栀傅谨臣（高分女频）全章节在线阅读云轩书阁
《经年驯养》黎栀傅谨臣（高分女频）全章节在线阅读主角：黎栀傅谨臣简介：傅谨臣养大黎栀，对她有求必应，黎栀以为那是爱。结婚两年才发现，她不过他豢养最好的一只宠物，可她拿他当全世界。关注微信公众号【看精灵】去回个书號【9328】，即可阅读【经年驯养】小说全文！第10章温柔的眼神，宠溺的动作，留恋的话近乎情人低语。是黎栀做梦都想要的一切……她口干舌燥，紧张难言。一颗心似被浸泡在温水里，酥麻舒适，无可抗拒
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
中原焦点团队网络初中级30期阴丽丽坚持分享第三百八十八次2022.10.18分享约练次数（74）咨询师（6）来访者（53）观察者（15）阴丽丽
今天是忙碌的一天，一早起来，总想着找点把事情弄完，可总也弄不完。就这样弄着吧！孩子的事，自己的事都在那里搁置着，不想做，有点欧！今天总体还不错，只是在下午起床时走神了俩小时，也算是给自己的放松吧！今日难得1.儿子乖巧、听话，努力配合，一天下来也是忙忙碌碌，这真的很难得！2.儿子今天录的视频被班主任认可，这真的很难得3.我今天早上做核酸时，自己把教案整了一下，这真的很难得
“这才好”麻辣香锅能够增加人身体的免疫能力小补文知
我就来介绍一种香锅，那就是“这才好”麻辣香锅，它产出于著名的蜀地文化，具有悠久的历史土家风味，麻辣鲜香，健康安全。采用传统秘制麻辣香锅油辣子，还有贴心加料“孜然包”满足人们的不同口味需求，香锅底料辣椒，微辣且香，含有丰富微量元素和维生素，具有辣而不躁，味道纯正，醇厚温和。花椒采用历史悠久，被列为宫廷供品的“贡椒”的汉源花椒。我们还挑选了“川菜之魂”郫县豆瓣的鼻祖品牌豆瓣，保留最原始的郫县豆瓣味道，
119:虚惊一场追梦的小蚂蚁
医院体检结果出来了。老a被通知再次去复查，又复查了一遍，结果还是不理想。老a心里有点不痛快了，难不成饭吃到头了？这人生最悲剧的事情就是人没了，钱还没花完。我从明天开始想吃的想喝的一毛都不省，天天抽华子。上班期间，老a掏出华子给人散。老c：“这发什么横财了？都整上了华子了？”老a：“别tm废话，抽不？不抽我装上了！”老c：“哥哥，肯定抽啊，拿来。”老a：“就凭这个哥哥，以后给你天天发华子！”老c：“
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
半夜给爸爸盖被子，桐桐被冻感冒了虹彩幻象
半夜，桐桐醒来看到爸爸没有盖被子，叹了口气，仿佛在看到责怪爸爸不乖。随后站起来给桐爸盖上自己的被子。早上醒来，桐爸发现自己身上盖着女儿的珊瑚绒被子，桐桐却啥也没盖，结果桐桐感冒流鼻涕了….
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
过了放弃的半生，很想偿偿坚持后的结果乐安河
这一阵子又迷茫了，找不到生活的目标，失去了坚持的意义，放弃太简单了，不想了，不看了，不写了，不做了，就行了。放弃的剎那，仿佛全身获得了解救，不再跟自己较劲，真轻松，真爽。短暂的惬意过后，是被抛弃的痛苦，是本该可以的不甘，是悔不当初的懊恼。我的前半生就是一次次的放弃过后的自我放逐。不愿努力，只好说平凡可贵，我们都是普通人，为什么非要整出仙人。不愿意轰轰烈烈，只想要现世安稳。只是，到最后发现，安稳变得
多子女家庭问题 3e5c5362403c
杨宁宁焦点解决网络初17中19坚持分享589天（2021.3.20）本周约练我1次，总计166次，读书打卡第256天案例督导收获：【家有老大篇】被爱与高期待下的独舞家里的第一个孩子往往集万千宠爱于一身。爸爸妈妈、爷爷奶奶、姥姥姥爷的目光都聚焦在他的身上。在这种光环下长大的孩子，就如小皇帝一般，衣来伸手、饭来张口。拥有爱的同时，也意味着拥有了更高的被期待，父母会花血本给你报各种各样的早教班，给你买各
但行好事，莫问前程浅草拾光
鸿星尔克被冲上了热搜，他可能做梦也没有想到自己的一个善举便迎来了他的春天。在这次河南救灾中很多明星企业都纷纷捐款，而一个快被人遗忘的品牌掏出了自己的家底。在自己年利润是亏损2.28亿的时候还大方的捐了五千万物资。热心的网友纷纷留言，大家都跑去直播间支持国货，去实体店买鞋子。以至于订单爆满，仓库清空。老板劝大家理性消费，大家反而更冲动。就是这样一种热情，这样一种情怀，感动了平凡的你我。大家都说华夏儿
祭坛随笔阿门不热
街角右拐，便是北宋的祠堂。平日里冉冉的佛香被雨水打湿了，一地枯黄的银杏显得平静哀伤，如同一地被踩碎的阳光。我喜欢在这样的阴暗里吞噬古代的讯息，那遥远的来自过去的历史风潮。谢却茶扉，轻轻地抚上墙壁，寒风不御，无数深浅的纹路交织在心底，如同一把古琴不堪重负的尾音。寂寞锁朱门，香客们已是三三两两，巨大的雨帘让天空失掉了颜色，灰蒙蒙掉在阁楼一角，沉稳不惊地暗下去，再暗下去......古树上红色的挂牌像一块
5分钟说透AppStore审核原理，让你拥有上架新思路！ Q仔本人噢
在AppStore上架是越来越难了!相信非常多公司的技术人员都为此困扰，然而外包团队水平又层次不齐，容易遇坑，实在是内忧外患。是什么原因导致审核机制频繁调整？又是什么原因使得审核变得越发严格？那么接下来听小Q分解，马上给各位带来解答!首先看一下近一年的上下架的情况：近一年上架情况近一年下架情况通过数据我们发现越是马甲包产量权重高的分类里被下架的app数量越多，苹果此举可谓是上有政策，下有对策。通过
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

python爬虫 被重定向_50 种最棒的开源爬虫框架/项目