不想敲代码的小码农

今天大佬不吝啬的告诉你们30 种最好用的开源爬虫软件

生为张家界人我为张家界加油也会整个湖南加油！疫情爆发是张家界是最安全的，可在这个关键时刻张家界确实最危险的地方了，本篇文章会有点长都是干货可以耐心看完会收获到很多东西，如果需要python相关的资料欢迎找我领取哦~

加v：qwe54996

Python 编写的开源 Web 爬虫1. Scrapy

实现语言：Python
GitHub 星标数：28660
官方支持链接：https://scrapy.org/community/

简介

Scrapy 是一种高速的高层 Web 爬取和 Web 采集框架，可用于爬取网站页面，并从页面中抽取结构化数据。
Scrapy 的用途广泛，适用于从数据挖掘、监控到自动化测试。
Scrapy 设计上考虑了从网站抽取特定的信息，它支持使用 CSS 选择器和 XPath 表达式，使开发人员可以聚焦于实现数据抽取。
对于熟悉 Python 的开发人员，只需几分钟就能建立并运行 Scrapy。
支持运行在 Linux、Mac OS 和 Windows 系统上。

特性

内置支持从 HTML 和 XML 抽取数据、使用扩展的 CSS 选择器（Selector）和 XPath 表达式等特性。
支持以多种格式（JSON、CSV、XML）生成输出。
基于 Twisted 构建。
稳健的支持，自动检测编码方式。
快速，功能强大。
官方文档：https://docs.scrapy.org/en/latest/
官方网站：https://scrapy.org/

2. Cola

实现语言：Python
GitHub 星标数：1274
官方支持链接：https://scrapy.org/community/

简介

Cola 是一种高层分布式爬取框架，实现从网站爬取网页，并从中抽取结构化数据。
它提供了一种实现目标数据获取的简单且灵活的方式。
用户只需要编写其中一部分代码，就可在本地和分布式环境下运行。

特性

高层分布式爬取框架。
简单且高速。
灵活。
官方文档：https://github.com/chineking/cola
官方网站：https://pypi.org/project/Cola/

3. Crawley

实现语言 Python
GitHub 星标数： 144
官方支持链接：https://scrapy.org/community/

简介

Crawley 是一种 Python 爬取和采集框架，意在简化开发人员从 Web 网页抽取数据到数据库等结构化存储中。

特性

基于 Eventlet 构建的高速 Web 爬虫。
支持 MySQL、PostgreSQL、Oracle、Sqlite 等关系数据库引擎。
支持 MongoDB、CouchDB 等 NoSQL 数据库（最新特性！）。
支持导出数据为 JSON、XML 和 CSV 格式（最新特性！）。
命令行工具。
支持开发人员使用自己喜好的工具，例如 XPath 或 Pyquery（一种类似于 JQuery 的 Python 软件库）等。
支持 Cookie 处理器（Handler）。
官方文档：https://pythonhosted.org/crawley/
官方网站：http://project.crawley-cloud.com/

4. MechanicalSoup

实现语言： Python
GitHub 星标数： 2803
官方支持链接：https://scrapy.org/community/

简介

MechanicalSoup 是一种设计模拟人类使用 Web 浏览器行为的 Python 软件库，它基于解析软件库 BeautifulSoup 构建。
如果开发人员需要从单个站点采集数据，或是不需要大量数据采集，那么使用 MechanicalSoup 是一种简单高效的方法。
MechanicalSoup 自动存储和发送 Cookie、跟踪重定向、支持链接跟随和提交表单。

特性

轻量级。
支持 Cookie 处理器。
官方文档： https://mechanicalsoup.readthedocs.io/en/stable/
官方网站：https://mechanicalsoup.readthedocs.io/

5. PySpider

实现语言： Python
GitHub 星标数： 11803
官方支持链接：https://scrapy.org/community/

简介

PySpider 是一种 Python 编写的强大 Web 爬虫。
它支持 JavaScript 网页，并具有分布式架构。
PySpider 支持将爬取数据存储在用户选定的后台数据库，包括 MySQL, MongoDB, Redis, SQLite, Elasticsearch 等。
支持开发人员使用 RabbitMQ、Beanstalk 和 Redis 等作为消息队列。

特性

提供强大 Web 界面，具有脚本编辑器、任务监控、项目管理器和结果查看器。
支持对重度 Ajax 网站的爬取。
易于实现适用、快速的爬取。
官方文档： http://docs.pyspider.org/
官方网站：https://github.com/binux/pyspider

6. Portia

实现语言： Python
GitHub 星标数： 6250
官方支持链接：https://scrapy.org/community/

简介

Portia 是由 Scrapinghub 创建的一种可视化爬取工具，它不需要用户具有任何程序开发知识。
如果用户并非开发人员，最好直接使用 Portia 实现 Web 爬取需求。
用户无需任何安装就可免费试用 Portia，只需要在 Scrapinghub 注册一个账户，就可使用托管版本。
即便用户没有编程技能，在 Portia 中创建爬虫并抽取 Web 内容也是非常易于实现的。
用户无需安装任何程序，因为 Portia 是运行在 Web 页面上的。
用户可以使用 Portia 的基本点击工具标注需要爬取的数据，然后 Portia 就会根据这些标注理解如何爬取类似页面中的数据。
一旦检测到需要爬取的页面，Portia 会形成一个用户已创建结构的实例。

特性

通过记录并回放用户在页面上的操作，实现点击、拖动和等待等动作。
Portia 可以很好地爬取基于 Ajax 构建的网站（基于 Splash），也适用于爬取 Backbone、Angular 和 Ember 等重度 JavsScript 框架。
官方文档：https://portia.readthedocs.io/en/latest/index.html
官方网站： https://github.com/scrapinghub/portia

7. Beautifulsoup

实现语言： Python
官方支持链接：https://scrapy.org/community/

简介

Beautiful Soup 一种设计用于实现 Web 爬取等快速数据获取项目的 Python 软件库。
它在设计上处于 HTML 或 XML 解析器之上，提供用于迭代、搜索和修改解析树等功能的 Python 操作原语。往往能为开发人员节省数小时乃至数天的工作。

特性

Beautiful Soup 自动将输入文档转换为 Unicode 编码，并将输出文档转换为 UTF-8 编码。
Beautiful Soup 处于一些广为采用的 Python 解析器（例如，lxml 和 html5lib）之上，支持用户尝试使用多种不同的解析策略，并在速度和灵活性上做出权衡。
官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/
官方网站： https://www.crummy.com/software/BeautifulSoup/

8. Spidy 爬虫

实现语言： Python
GitHub 星标数： 152
官方支持链接：https://scrapy.org/community/

简介

Spidy 是一种从命令行运行的 Web 爬虫。易于使用。用户只需提供 Web 网页的 URL 链接，Spidy 就可以开始爬取！Spidy 无疑是一种整体爬取 Web 的简单有效的方式。
Spidy 使用 Python 请求查询 Web 页面，并使用 lxml 抽取页面中的所有链接。非常简单！

特性

错误处理。
跨平台兼容性。
频繁时间戳日志。
可移植性。
用户友好的日志。
保存 Web 页面。
支持文件压缩。
官方文档：https://github.com/rivermont/spidy
官方网站： http://project.crawley-cloud.com/

9. Garb

实现语言： Python
GitHub 星标数： 1627
官方支持链接：https://scrapy.org/community/

简介

Grab 是一种用于构建爬虫的 Python 框架。
使用 Grab 可构建出各种复杂度的 Web 爬虫，从只有五行代码的脚本，到可处理百万量级 Web 页面的复杂异步爬虫。
Grab 提供了执行网络请求、处理接收内容的 API。例如，实现与 HTML 文档的 DOM 树进行交互。

特性

支持 HTTP 和 SOCKS 代理，可使用也可不使用认证。
自动字符集检测。
强大的 API，支持使用 XPath 查询从 HTML 文档的 DOM 树中抽取数据。
自动 Cookie（或会话）支持。
官方文档：https://grablib.org/en/latest/
官方网站： https://github.com/lorien/grab

Java 编写的开源 Web 爬虫10. Apache Nutch

实现语言： Java
GitHub 星标数： 1743
官方支持链接：https://wiki.apache.org/nutch/HelpContents

简介

Apache Nutch 是一种高度可扩展、可伸缩的开源 Web 爬虫软件项目。
如果要列出最好的开源 Web 爬虫列表，Apache Nutch 无疑金榜题名。
作为一种用于数据挖掘的高度可扩展、可伸缩的开源代码 Web 数据抽取软件项目，Apache Nutch 得到了广泛的使用。
Nutch 支持单机运行，但是在 Hadoop 集群上运行可最大化地发挥其强大能力。
全球范围内很多数据分析人员和科研人员、应用开发人员和 Web 文本挖掘工程师都在使用 Apache Nutch。
Apache Nutch 是一种 Java 编写的跨平台解决方案。

特性：

默认情况下，爬取数据和分析数据是独立的过程。广泛支持多种文档格式，包括纯文本、HTML/XHTML+XML、XML、PDF、ZIP 等。使用 XPath 和命名空间实现映射。通过 Hadoop 支持分布式文件系统。链接图形式的数据库。支持 NTLM 认证。
官方文档： https://wiki.apache.org/nutch/
官方网站： http://nutch.apache.org/

11. Heritrix

实现语言： JavaGitHub
星标数： 1236
官方支持链接：https://github.com/internetarchive/heritrix3/issues

简介：

在使用 Java 编写的免费开源 Web 爬虫中，Heritrix 是其中一种得到广泛使用的工具。事实上，它是一种可扩展、Web 规模、存档质量（archival-quality）的 Web 爬取项目。Heritrix 是一种扩展能力和性能很好的解决方案，支持用户即刻爬取并归档一组网站。此外，它在设计上考虑了 robots.txt 禁止规则和 META 机器人标签。Heritrix 可运行在 Linux/Unix 和 Windows 系统上。

特性：

HTTP 认证。NTLM 认证。链接抽取中的 XSL 转换。独立于搜索引擎。是一种成熟并稳定的平台。高度可配置。支持在任一机器上运行。
官方文档： https://github.com/internetarchive/heritrix3/wiki/Heritrix%203.0%20and%203.1%20User%20Guide
官方网站： https://github.com/internetarchive/heritrix3b

12. ACHE 爬虫

实现语言： JavaGitHub
星标数： 154
官方支持链接：https://gitter.im/ViDA-NYU/ache

简介：

ACHE 是一种专用于特定用途的 Web 爬虫。ACHE 爬取满足特定标准的 Web 页面。例如，属于特定领域并包含用户指定模式的页面。不同于通用爬虫，ACHE 使用页面分类器遴选特定领域中的相关和无关页面。页面分类器可以是基本的正则表达式（例如，匹配所有包含给定单词的页面），也可以基于机器学习的分类模型。ACHE 也可以自动学习如何对链接做优先处理，实现高效地定位相关内容，避免检索无关的页面内容。

特性：

对固定网站列表的正常爬取。通过自动链接优先处理，发现并爬取新的相关网站。可配置不同类型的页面分类器（例如，机器学习、正则表达式等）。持续重新爬取站点，实现页面更新的发现。使用 ElasticSearch 对爬取页面做索引。实时搜索爬取页面的 Web 接口。用于监控爬虫的 REST API 和基于 Web 的用户接口。使用 TOR 代理爬取隐含服务。
官方文档： http://ache.readthedocs.io/en/latest/
官方网站： https://github.com/ViDA-NYU/ache

13. Crawler4j

实现语言： JavaGitHub
星标数： 3039
官方支持链接：https://github.com/yasserg/crawler4j/issues

简介：

crawler4j 是一种 Java 编写的开源 Web 爬虫，提供了爬取 Web 网站的基本接口。开发人员可以使用 crawler4j 在数分钟内建立一个多线程 Web 爬虫。
官方文档： https://github.com/yasserg/crawler4j
官方网站： https://github.com/yasserg/crawler4j

14. Gecco

实现语言： JavaGitHub
星标数： 1245
官方支持链接：https://github.com/xtuhcy/gecco/issues

简介：

Gecco 是一种使用 Java 开发的轻量级 Web 爬虫，易于使用。Gecco 集成了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等优秀框架。用户只需要配置一系列 jQuery 风格选择器，就能很快地建立一个爬虫。Gecco 框架具有优秀的扩展能力。框架基于一些开放式和封闭式设计原则，对改进封闭，对扩展开放。

特性：

易于使用，使用 jQuery 风格选择器抽取元素。支持页面中的异步 Ajax 请求。支持页面 JavaScript 变量抽取。使用 Redis 实现分布式爬取（参见 gecco-redis 文档）。支持使用 Spring 开发业务逻辑（参见 gecco-spring 文档）。支持 htmlunit 扩展（参见 gecco-htmlunit 文档）。支持多种扩展机制。支持下载 UserAgent 的随机选择。支持下载代理服务器的随机选取。
官方文档： https://github.com/xtuhcy/gecco
官方网站： https://github.com/xtuhcy/gecco

15. BUbiNG

实现语言： JavaGitHub
星标数：24
官方支持链接：https://github.com/LAW-Unimi/BUbiNG/issues

简介：

BUbiNG 令人惊喜，它可称为下一代的开源 Web 爬虫。BUbiNG 是一种 Java 开发的完全分布式爬虫（无需中央协调），每秒可爬取数千个网页，并支持采集大规模数据集。BUbiNG 的分布式是基于高速协议实现的，因此可以获得非常高的通量。BUbiNG 提供对海量数据的大规模爬取。它完全可配置、易于扩展，并可集成垃圾信息检测。

特性：

高度并行。完全分布式。使用 JAI4J。JAI4J 是一种基于 JGroups 实现的瘦功能层，实现任务指派。（当前）使用剥离网页的指纹，检测近似的重复内容。快速。大规模爬取。
官方文档： http://law.di.unimi.it/software/bubing-docs/index.html
官方网站： http://law.di.unimi.it/software.php#bubing

16. Narconex

实现语言：Java
官方支持链接：https://github.com/norconex/collector-http/issues

简介：

对于寻求可满足企业级需求的开源 Web 爬虫的用户而言，Narconex 是一种很好的工具。Norconex 支持用户爬取任何 Web 内容。用户可以独立运行这种全功能数据采集器，或是将其集成在自己的应用中。支持所有操作系统。可在具有一般容量的单体服务器上爬取数百万信息。此外，Narconex 提供多种内容和元数据操作特性，还可以抽取页面中特定的图像。

特性：

多线程。支持按各种计划任务，抽取不同时间段的数据。从 HTML、Word、PDF 等多种文件格式中抽取文本内容。抽取文档相关的元数据。支持抽取使用用 JavaScript 渲染的页面。检测语言。支持翻译。可配置爬取速度。可检测发生修改或已被删除的文档。支持使用外部命令分析或操作文档。
官方文档： http://www.norconex.com/collectors/collector-http/getting-started
官方网站： http://www.norconex.com/collectors/collector-http/

17. WebSPHINX

实现语言： Java
当前尚不提供官方支持。

简介：

WebSphinix 是一种非常易于使用的可定制 Web 爬虫。它设计用于高级 Web 用户和 Java 编程人员，支持他们自动爬取小部分 Web。WebSphinix 数据抽取解决方案也提供了一种全面的 Java 类库和交互式软件开发环境。WebSphinix 包括两部分：爬虫基准测试（Crawler Workbench），WebSPHINX 类库。爬虫基准测试提供了很好的用户图形接口，支持用户配置并控制定制的 Web 爬虫。WebSPHINX 类库为使用 Java 编写 Web 爬虫提供支持。WebSphinix 支持运行在 Windows、Linux、Mac 和 Android IOS 上。

特性：

以图的方式可视化 Web 页面采集。将多个页面组合为单个文档，以供查看和打印。支持抽取所有满足设定模式的文本。支持 HTML 解析。支持 robot.txt 禁止标准。通用 HTML 转换。多线程 Web 页面检索。
官方文档： https://www.cs.cmu.edu/~rcm/websphinx/doc/index.html
官方网站： https://www.cs.cmu.edu/~rcm/websphinx/#about

18. Spiderman

实现语言： JavaGitHub
星标数： 2400
官方支持链接：https://gitee.com/l-weiwei/spiderman/issues

简介：

Spiderman 是一种 Java 开源 Web 数据抽取工具。它采集特定的 Web 页面，并从中抽取有用数据。Spiderman 主要使用 XPath 和正则表达式等技术抽取实际数据。

特性：

更高的性能。持久化集合状态。分布式。支持 JavaScript。
官方文档： https://gitee.com/l-weiwei/spiderman
官方网站： https://gitee.com/l-weiwei/spiderman

19. WebCollector :

实现语言： JavaGitHub
星标数： 1986
官方支持链接：https://github.com/CrawlScript/WebCollector/issues

简介：

WebCollector 是一种基于 Java 的开源 Web 爬虫框架。它为实现 Web 爬取功能提供了一下基本的接口。用户可以使用它在五分钟内建立起一个多线程爬虫。

特性：

快速。
官方文档： https://github.com/CrawlScript/WebCollector
官方网站： https://github.com/CrawlScript/WebCollector

20. Webmagic

实现语言： JavaGitHub
星标数： 6891
官方支持链接：https://groups.google.com/forum/#!forum/webmagic-java

简介：

WebMagic 是一种可扩展的爬虫框架。WebMagic 涵盖了爬虫的整个生命周期，包括下载、URL 管理、内容抽取和持久化。可用于简化一些特定爬虫的开发。

特性：

高度灵活的简单内核。提供实现 HTML 抽取的简单 API。使用 POJO 标注定制爬虫，无需配置。支持多线程和分布式。易于集成。
官方文档： http://webmagic.io/docs/en/
官方网站： https://github.com/code4craft/webmagic

21. StormCrawler

实现语言： JavaGitHub
星标数：437
官方支持链接：https://stackoverflow.com/questions/tagged/stormcrawler

简介：

StormCrawler 是一种基于 Apache Storm 构架分布式 Web 爬虫的开源 SDK。StormCrawler 为开发人员构建爬虫提供了软件库和一系列资源。StormCrawler 完全适用于以数据流提供需获取和解析的 URL 的情况，也非常适用于大规模递归性爬取，尤其是需要低延迟的情况。

特性：

可扩展。有弹性。低延迟。易于扩展。运行良好且高效。
官方文档： http://stormcrawler.net/docs/api/
官方网站： http://stormcrawler.net/

JavaScript 编写的开源 Web 爬虫22. NodeCrawler

实现语言： JavaScriptGitHub
星标数： 3999
官方支持链接：https://gitter.im/node-crawler/discuss?utm_source=badge

简介：

NodeCrawler 是一种广为使用的 Web 爬虫，它基于 NodeJS 实现，具有非常快的爬取速度。Nodecrawler 非常适用于偏爱使用 JavaScript 编程或者致力于 JavaScript 项目的开发人员。其安装也非常简单。JSDOM 和 Cheerio（用于 HTML 解析）实现服务器端渲染。其中，JSDOM 更为稳定。

特性：

使用 Cheerio（默认）或 JSDOM 实现服务端 DOM 和自动 jQuery 插入。可配置池子规模和重试次数。控制爬取率限制。请求的优先队列。支持 forceUTF8 模式，使得爬虫可以检测并转换字符集。与 4.x 乃至更新版本兼容。
官方文档：https://github.com/bda-research/node-crawler
官方网站：http://nodecrawler.org/

23. Simplecrawler

实现语言： JavaScriptGitHub
星标数：1764
官方支持链接：https://github.com/simplecrawler/simplecrawler/issues

简介：

Simplecrawler 设计提供基本的、灵活且稳定的网站爬取 API。Simplecrawler 在实现上考虑了针对特大型 Web 站点的归档、分析和搜索。它可爬取上百万页面，并毫无问题地向磁盘写入数十 GB 数据。

特性：

提供了用于自动检测链接资源的一些简单逻辑，用户可自行替换和添加。自动请求任何 robots.txt 禁止规则。具有灵活的队列系统，可在磁盘上冻结和解冻。
官方文档： https://github.com/simplecrawler/simplecrawler
官方网站： https://www.npmjs.com/package/simplecrawler

24. Js-crawler :

实现语言： JavaScriptGitHub
星标数： 167
官方支持链接：https://github.com/antivanov/js-crawler/issues

简介：

使用 NodeJS 实现的 Web 爬虫，支持 HTTP 和 HTTPS
官方文档： https://github.com/antivanov/js-crawler
官方网站： https://github.com/antivanov/js-crawler

25. Webster

实现语言： JavaScriptGitHub
星标数： 201
官方支持链接：https://github.com/zhuyingda/webster/issues

简介：

Webster 是一种使用 NodeJS 编写的可靠 Web 爬取和采集框架，用于爬取 Web 站点并从页面中抽取结构化数据。与其他爬取框架的不同之处在于，Webster 可以抓取浏览器客户端的 JavaScript 和 Ajax 请求呈现的内容。
官方文档： http://webster.zhuyingda.com/
官方网站： https://github.com/zhuyingda/webster

26. Node-osmosis

实现语言：JavaScriptGitHub
星标数： 3630
官方支持链接：https://github.com/rchipka/node-osmosis/issues

简介：

一种使用 NodeJS 实现的 HTML/XML 解析器和 Web 爬虫。

特性：

使用原生 libxml 的 C 绑定。干净的 Promise 类接口。支持 CSS 3.0 和 XPath 1.0 选择器的混合。Sizzle 选择器、Slick 选择器以及更多。不具有像 jQuery、cheerio 或 jsdom 那样的大型依赖。构成深度和复杂的数据结构。
HTML 解析器特性：快速解析；高速搜索；内存占用小。
HTML DOM 特性：加载和搜索 ajax 内容；DOM 交互和事件；执行嵌入和远程脚本；在 DOM 中执行代码。
HTTP 请求特性：日志记录 URL，重定向和错误；Cookie 的 jar 包，以及自定义 Cookie/ 头部 / 用户代理；登录 / 表单提交、会话 Cookie，基本的认证；单代理、多代理，处理代理失败情况；限制重试和重定向。
官方文档： https://rchipka.github.io/node-osmosis/global.html
官方网站： https://www.npmjs.com/package/osmosis

27. Supercrawler

实现语言：JavaScriptGitHub
星标数： 4341
官方支持链接：https://github.com/brendonboshell/supercrawler/issues

简介：

Supercrawler 是一种使用 NodeJS 实现的 Web 爬虫，在设计上支持高度可配置和易用性。一旦成功爬取一个网页（可以是图像、文本文档或其他任何文件），Supercrawler 将会触发用户自定义的内容类型（content-type）处理器，处理页面解析、保存数据以及其它一些用户定义的功能。

特性：

链接检测：Supercrawler 会解析所爬取的 HTML 文档，识别其中链接并添加到队列中。
机器人解析：在爬取前 Supercrawler 会请求 robots.txt 并检查其中的禁止规则。它也可识别站点地图。
站点地图解析：Supercrawler 可以从 XML 站点地图文件中读取链接，并将链接添加到队列中。
并发限制：Supercrawler 可限制在任一时间发出的请求数。
速率限制：Supercrawler 可添加请求的时延，以免对服务器产生轰炸。
指数补偿（Exponential backoff）重试：Supercrawler 将依此在一小时、两小时、四小时乃至更多时间后重试请求。要使用该特性，爬取队列必须使用数据库或 Redis 作为后端。
主机名均衡：Supercrawler 可在不同主机名间平均分割请求量。要使用该特性，爬取队列必须以 Redis 为后端。
官方文档： https://github.com/brendonboshell/supercrawler
官方网站： https://github.com/brendonboshell/supercrawler

28. Web scraper 的 Chrome 扩展

实现语言：JavaScriptGitHub
星标数： 775
官方支持链接：https://forum.webscraper.io/

简介：

Web Scraper 是一种 Chrome 浏览器扩展，构建用于从 Web 页面抽取数据。用户可以使用该扩展创建计划（站点地图），定义如何遍历一个 Web 网站，以及如何从中抽取数据。Web Scraper 使用站点地图相应地遍历网站，并从中抽取数据。支持以 CSV 格式导出所抽取的数据。

特性：

抽取多个页面。
站点地图和抽取的数据存储在浏览器的本地存储，也可存储在 CouchDB 中。
多种数据类型选取。
支持从动态网页（JavaScript+AJAX）抽取数据。
浏览抽取的数据。
以 CSV 格式导出抽取的数据。
导入、导出站点地图。
只依赖于 Chrome 浏览器。
官方文档： https://www.webscraper.io/documentation
官方网站： https://www.webscraper.io

29. Headless Chrome 爬虫

实现语言：JavaScriptGitHub
星标数： 3256
官方支持链接：https://github.com/yujiosaka/headless-chrome-crawler/issues

简介：

使用基本 HTML 文件请求的爬虫，通常速度很快。但这样的爬虫往往会抽取到空白内容，尤其是在爬取使用 AngularJS、React 和 Vue.js 等现代前端框架构建的网站时。

特性：

分布式爬取。
可配置并发、延迟和重试。
支持深度优先搜索和广度优先搜索算法。
支持插拔缓存存储，例如 Redis。
支持导出 CSV 和 JSON。
在达到最大请求时暂停爬取，并可在任一时刻恢复。
自动插入用于抽取的 jQuery。
保存屏幕截图，用于证实爬取过程。
模拟设备和用户代理。
具有优先队列，可提高爬取效率。
官方文档： https://github.com/yujiosaka/headless-chrome-crawler/blob/master/docs/API.md
官方网站： https://github.com/yujiosaka/headless-chrome-crawler

30. X-ray

实现语言：JavaScriptGitHub
星标数： 4464
官方支持链接：https://github.com/matthewmueller/x-ray/issues

特性：

模式灵活：支持字符串、数组、对象以及嵌套对象结构。
模式并非绑定于所抽取的页面结构，支持用户获取选定结构中的数据。
可组合（Composable）：API 是完全可组合的，赋予用户抽取每个页面的极大灵活性。
分页支持：爬取页面在 Web 站点上的所有分页。
X-ray 还支持请求延迟和分页限制，并支持将爬取页面导入到单个文件中。这样一旦单个页面产生错误，用户不会失去所有已爬取的数据。
爬虫支持：从一个页面开始，轻易跳转另一个页面。页面跳转是可预测的，按深度优先爬取所有页面。
负责任的爬取：X-ray 支持并发、限制、延迟、超时和限制，实现负责任地爬取任何页面。
可插拔驱动：可按用户需求置换不同的爬虫。
官方文档： https://github.com/matthewmueller/x-ray
官方网站： https://www.npmjs.com/package/x-ray-scrape

需要相关资料的可以通过扫一下领取python资料

你可能感兴趣的:(eclipse,java,tomcat,jar,hibernate)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
【Java】已解决：java.util.concurrent.CompletionException 屿小夏 java 开发语言
文章目录一、分析问题背景出现问题的场景代码片段二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：java.util.concurrent.CompletionException一、分析问题背景在Java并发编程中，java.util.concurrent.CompletionException是一种常见的运行时异常，通常在使用CompletableFuture进行异步计算时出现
设计模式之建造者模式(通俗易懂--代码辅助理解【Java版】） ok!ko 设计模式设计模式建造者模式 java
文章目录设计模式概述1、建造者模式2、建造者模式使用场景3、优点4、缺点5、主要角色6、代码示例：1）实现要求2）UML图3)实现步骤：1）创建一个表示食物条目和食物包装的接口2）创建实现Packing接口的实体类3）创建实现Item接口的抽象类，该类提供了默认的功能4）创建扩展了Burger和ColdDrink的实体类5）创建一个Meal类，带有上面定义的Item对象6）创建一个MealBuil
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分