jay900323

开源爬虫Labin，Nutch，Heritrix介绍和对比

转载原文：http://www.open-open.com/bbs/view/1325332257061/

从网上找了一些开源spider的相关资料，整理在下面：

-----------------------------------------------------------------------------------

**************

Larbin
开发语言：C++
http://larbin.sourceforge.net/index-eng.html
larbin是个基于C++的web爬虫工具，拥有易于操作的界面，不过只能跑在LINUX下，在一台普通PC下larbin每天可以爬5百万个页面(当然啦，需要拥有良好的网络)

简介

Larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。
Larbin只是一个爬虫，也就是说larbin只抓取网页，至于如何parse的事情则由用户自己完成。另外，如何存储到数据库以及建立索引的事情 larbin也不提供。
Latbin最初的设计也是依据设计简单但是高度可配置性的原则，因此我们可以看到，一个简单的larbin的爬虫可以每天获取５００万的网页，非常高效。

功能
      1. larbin 获取单个、确定网站的所有联结，甚至可以镜像一个网站。
      2. larbin建立 url 列表群，例如针对所有的网页进行 url retrive后，进行xml的联结的获取。或者是 mp3 。
      3. larbin 定制后可以作为搜索引擎的信息的来源（例如可以将抓取下来的网页每2000一组存放在一系列的目录结构里面）。

问题
Labin的主要问题是，：

仅提供保存网页保存功能，没有进行进一步的网页解析；

不支持分布式系统；

功能相对简单，提供的配置项也不够多；

不支持网页自动重访，更新功能；

从2003年底以后，Labin已经放弃更新，目前处于荒芜长草的状态

**********

Nutch
开发语言：Java
http://lucene.apache.org/nutch/

简介：

Apache的子项目之一，属于Lucene项目下的子项目。

Nutch是一个基于Lucene，类似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。
总体上Nutch可以分为2个部分：抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引，搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引，两者都使用索引中的字段。抓取程序和搜索程序可以分别位于不同的机器上。下面详细介绍一下抓取部分。

抓取部分：
抓取程序是被Nutch的抓取工具驱动的。这是一组工具，用来建立和维护几个不同的数据结构： web database， a set of segments， and the index。下面逐个解释这三个不同的数据结构：
    1、The web database，或者WebDB。这是一个特殊存储数据结构，用来映像被抓取网站数据的结构和属性的集合。WebDB 用来存储从抓取开始（包括重新抓取）的所有网站结构数据和属性。WebDB 只是被抓取程序使用，搜索程序并不使用它。WebDB 存储2种实体：页面和链接。页面表示网络上的一个网页，这个网页的Url作为标示被索引，同时建立一个对网页内容的MD5 哈希签名。跟网页相关的其它内容也被存储，包括：页面中的链接数量（外链接），页面抓取信息（在页面被重复抓取的情况下），还有表示页面级别的分数 score 。链接表示从一个网页的链接到其它网页的链接。因此 WebDB 可以说是一个网络图，节点是页面，链接是边。
    2、Segment 。这是网页的集合，并且它被索引。Segment的Fetchlist 是抓取程序使用的url列表，它是从 WebDB中生成的。Fetcher 的输出数据是从 fetchlist 中抓取的网页。Fetcher的输出数据先被反向索引，然后索引后的结果被存储在segment 中。 Segment的生命周期是有限制的，当下一轮抓取开始后它就没有用了。默认的重新抓取间隔是30天。因此删除超过这个时间期限的segment是可以的。而且也可以节省不少磁盘空间。Segment 的命名是日期加时间，因此很直观的可以看出他们的存活周期。
    3、The index。索引库是反向索引所有系统中被抓取的页面，它并不直接从页面反向索引产生，而是合并很多小的segment的索引产生的。Nutch 使用 Lucene 来建立索引，因此所有Lucene相关的工具 API 都用来建立索引库。需要说明的是Lucene的segment 的概念和Nutch的segment概念是完全不同的，不要混淆。简单来说 Lucene 的 segment 是 Lucene 索引库的一部分，而Nutch 的Segment是WebDB中被抓取和索引的一部分。
抓取过程详解：

      抓取是一个循环的过程：抓取工具从WebDB中生成了一个 fetchlist 集合；抽取工具根据fetchlist从网络上下载网页内容；工具程序根据抽取工具发现的新链接更新WebDB；然后再生成新的fetchlist；周而复始。这个抓取循环在nutch中经常指： generate/fetch/update 循环。
    一般来说同一域名下的 url 链接会被合成到同一个 fetchlist。这样做的考虑是：当同时使用多个工具抓取的时候，不会产生重复抓取的现象。Nutch 遵循 Robots Exclusion Protocol, 可以用robots.txt 定义保护私有网页数据不被抓去。
    上面这个抓取工具的组合是Nutch的最外层的，也可以直接使用更底层的工具，自己组合这些底层工具的执行顺序达到同样的结果。这是Nutch吸引人的地方。下面把上述过程分别详述一下，括号内就是底层工具的名字：
    1、创建一个新的WebDB (admin db -create)。
    2、把开始抓取的跟Url 放入WebDb (inject)。
    3、从WebDb的新 segment 中生成 fetchlist (generate)。
    4、根据 fetchlist 列表抓取网页的内容 (fetch)。
    5、根据抓取回来的网页链接url更新 WebDB (updatedb)。
    6、重复上面3-5个步骤直到到达指定的抓取层数。
    7、用计算出来的网页url权重 scores 更新 segments (updatesegs)。
    8、对抓取回来的网页建立索引(index)。
    9、在索引中消除重复的内容和重复的url (dedup)。
    10、合并多个索引到一个大索引，为搜索提供索引库(merge)。

*****************

Heritrix
开发语言：Java
http://crawler.archive.org/
Heritrix是一个开源，可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

简介

Heritrix与Nutch对比

和 Nutch。二者均为Java开源框架，Heritrix 是 SourceForge上的开源产品，Nutch为Apache的一个子项目，它们都称作网络爬虫/蜘蛛（ Web Crawler），它们实现的原理基本一致：深度遍历网站的资源，将这些资源抓取到本地，使用的方法都是分析网站每一个有效的URI，并提交Http请求，从而获得相应结果，生成本地文件及相应的日志信息等。

Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒，不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整，允许弹性的定义要获取的URL。

Nutch和Heritrix的差异：

Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌

Nutch 可以修剪内容，或者对内容格式进行转换。

Nutch 保存内容为数据库优化格式便于以后索引；刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。

Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。

Nutch 的定制能力不够强，不过现在已经有了一定改进。Heritrix 可控制的参数更多。

Heritrix提供的功能没有nutch多，有点整站下载的味道。既没有索引又没有解析，甚至对于重复爬取URL都处理不是很好。

Heritrix的功能强大但是配置起来却有点麻烦。

*********************

三者的比较
一、从功能方面来说，Heritrix与Larbin的功能类似。都是一个纯粹的网络爬虫，提供网站的镜像下载。而Nutch是一个网络搜索引擎框架，爬取网页只是其功能的一部分。

二、从分布式处理来说，Nutch支持分布式处理，而另外两个好像尚且还没有支持。

三、从爬取的网页存储方式来说，Heritrix和 Larbin都是将爬取下来的内容保存为原始类型的内容。而Nutch是将内容保存到其特定格式的segment中去。

四，对于爬取下来的内容的处理来说，Heritrix和 Larbin都是将爬取下来的内容不经处理直接保存为原始内容。而Nutch对文本进行了包括链接分析、正文提取、建立索引（Lucene索引）等处理。

五，从爬取的效率来说，Larbin效率较高，因为其是使用c++实现的并且功能单一。

crawler	开发语言	功能单一	支持分布式爬取	效率	镜像保存
Nutch	Java	×	√	低	×
Larbin	C++	√	×	高	√
Heritrix	Java	√	×	中	√

-----------------------------------------------------------

其它一些开源爬虫汇总：

WebSPHINX
WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成：爬虫工作平台和WebSPHINX类包。
http://www.cs.cmu.edu/~rcm/websphinx/

WebLech
WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。
http://weblech.sourceforge.net/
Arale
Arale主要为个人使用而设计，而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。
http://web.tiscali.it/_flat/arale.jsp.html

J-Spider
J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查，分析网站的结构(可创建一个网站地图),下载整个Web站点，你还可以写一个JSpider插件来扩展你所需要的功能。
http://j-spider.sourceforge.net/

spindle
spindle 是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。
http://www.bitmechanic.com/projects/spindle/

Arachnid
Arachnid: 是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。
http://arachnid.sourceforge.net/

LARM
LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件，数据库表格建立索引的方法和为Web站点建索引的爬虫。
http://larm.sourceforge.net/

JoBo
JoBo 是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如：自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如：通过网页的URL，大小，MIME类型等)来限制下载。
http://www.matuschek.net/software/jobo/index.html

snoics-reptile
snoics -reptile是用纯Java开发的，用来进行网站镜像抓取的工具，可以使用配制文件中提供的URL入口，把这个网站所有的能用浏览器通过GET的方式获取到的资源全部抓取到本地，包括网页和各种类型的文件，如：图片、flash、mp3、zip、rar、exe等文件。可以将整个网站完整地下传至硬盘内，并能保持原有的网站结构精确不变。只需要把抓取下来的网站放到web服务器(如：Apache)中，就可以实现完整的网站镜像。
http://www.blogjava.net/snoics

Web-Harvest
Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。
http://web-harvest.sourceforge.net

spiderpy
spiderpy是一个基于Python编码的一个开源web爬虫工具，允许用户收集文件和搜索网站，并有一个可配置的界面。
http://pyspider.sourceforge.net/

The Spider Web Network Xoops Mod Team
pider Web Network Xoops Mod是一个Xoops下的模块，完全由PHP语言实现。
http://www.tswn.com/

算法篇1：二分查找呀呀猴算法算法经验分享 java 其他 python
数组篇算法一：二分查找详解零、问题描述给定一个n个元素有序的（升序）整型数组nums和一个目标值target，编写一个函数搜索nums中的target。若目标值存在返回下标，否则返回-1。示例：输入：nums=[-1,0,3,5,9,12],target=9输出：4一、算法适用条件有序性：数组必须按升序或降序排列（通常假设升序）。唯一性（非必须）：若数组有重复元素，需明确查找目标（如第一个/最后一
Python自动化运维实战，怎么构建分布式质量监控平台好知识传播者 Python实例开发实战运维 python 自动化分布式质量监控平台 linux
注意：本文的下载教程，与以下文章的思路有相同点，也有不同点，最终目标只是让读者从多维度去熟练掌握本知识点。下载教程：Python自动化运维项目开发实战_构建分布式质量监控平台_编程案例解析实例课程教程.pdf一、引言随着企业业务的不断扩展和复杂化，系统运维面临着越来越多的挑战。传统的运维方式已经无法满足现代企业的需求，因此，自动化运维成为了企业提升运维效率、保障系统稳定性的重要手段。在自动化运维中
吲哚菁绿标记牛血清白蛋白|ICG-BSA 星贝爱科吲哚菁绿标记牛血清白蛋白 ICG-BSA
吲哚菁绿标记牛血清白蛋白（ICG-BSA）是一种将吲哚菁绿（ICG）与牛血清白蛋白（BSA）结合形成的复合物，具有以下特点和应用：特点高荧光亮度：ICG具有较高的荧光亮度，使得ICG-BSA在荧光成像和检测中具有较高的信噪比和灵敏度。良好的生物相容性：ICG-BSA在生物体内具有良好的生物相容性，对细胞和组织无毒副作用，适用于生物医学研究和生物技术应用。稳定性好：ICG-BSA复合物在水溶液中稳定
HTML中 video标签样式铺满全屏小华0000 css 前端
video标签默认不是铺满的，即使手动设置宽高100%也不会生效，所以当需要video铺满div时，需要加上一个css样式关键是这个“object-fit:fill”，这样就可以解决了！object-fit属性指定元素的内容应该如何去适应指定容器的高度与宽度。object-fit一般用于img和video标签，一般可以对这些元素进行保留原始比例的剪切、缩放或者直接进行拉伸等。fill:默认，不保证
vue3中子组件调用父组件事件小华0000 vue.js javascript 前端
在Vue3中，子组件调用父组件的事件（或方法）的方式与Vue2类似，但Vue3引入了CompositionAPI，这可能会改变你组织代码的方式。不过，基本的通信机制——通过自定义事件($emit)通知父组件——仍然保持不变。以下是如何在Vue3中使用OptionsAPI和CompositionAPI的示例：使用OptionsAPI父组件(ParentComponent.vue)父组件importC
js的includes函数小华0000 javascript 前端开发语言
在JavaScript中，includes()是一个数组（Array）和字符串（String）对象的方法，用于确定一个数组是否包含一个特定的值，或者一个字符串是否包含一个特定的子串。如果找到该值或子串，则返回true；否则返回false。数组中的includes()对于数组，includes()方法用于判断一个数组是否包含一个指定的值，根据情况，如果需要，可以指定开始搜索的位置。语法：arr.in
探秘 C++：从基础语法到复杂项目实践的全攻略（一）小周不想卷艾思科蓝学术会议投稿 java 开发语言
目录C++是什么搭建开发环境常见的IDE介绍安装步骤与简单配置创建和运行C++项目基础语法入门变量与数据类型运算符与表达式控制结构C++是什么C++是一种强大的编程语言，它的历史可以追溯到20世纪70年代末。当时，计算机科学家比雅尼・斯特劳斯特鲁普（BjarneStroustrup）在贝尔实验室工作，他希望扩展C语言以支持面向对象编程（OOP），最初的工作被称为“CwithClasses”，这是C
考研高数（洛必达法则的使用条件）蓝桉802 考研
洛必达法则的使用条件主要包括以下几点：1.导函数存在且连续。这是使用洛必达法则的基本要求，只有在满足这一条件下，我们才能对分子和分母同时求导。2.洛必达仅适用于求解后极限存在的情形。如果在使用洛必达法则后得到的极限不存在，那么原极限可能存在也可能不存在，此时需要采用其他方法进行判断或计算。3.洛必达只能正用不能逆用。也就是说，我们只能由分子分母同时求导以后获得的极限来推断原极限的值，而不能反过来
运输层和应用层之间的接口和端口有什么关系蓝桉802 计算机网络考研
运输层和应用层之间的接口是通过端口实现的。‌运输层使用端口号作为应用层与运输层之间的接口，确保不同应用进程之间的数据传输和通信。运输层的主要功能包括复用和分用。复用是指多个应用层的进程可以共享同一个运输层的连接，而分用则是将运输层收到的数据正确地分发到正确的应用层进程。这些功能的实现都依赖于端口号‌。端口号的作用是为了解决不同操作系统中使用不同格式的进程标识符的问题。由于进程的创建和撤销是动态的，
当x趋于零时，零乘以无穷的极限等于多少蓝桉802 考研
当x趋于零时，零乘以无穷的极限是未定义。‌在数学中，0乘以无穷大（0×∞）是一个未定义的表达式，因为它涉及到两个相互矛盾的概念：0乘以任何有限数都等于0，而无穷大乘以任何非零数都应该是无穷大。因此，我们不能确定0乘以无穷大应该是0还是无穷大，所以它被认为是未定义的‌。为了更好地理解这个问题，我们可以考虑一个极限的例子。假设我们有两个函数f(x)和g(x)，其中f(x)趋于0，而g(x)趋于无穷大。
分布式服务发现与注册中心 Consul 要加油呀中间件 java-consul consul java
分布式服务发现与注册中心Consulgithub地址：https://github.com/consul/consul基础概念什么是注册中心随着微服务理论发展的成熟，越来越多互联网公司采用微服务架构来支持业务发展。各个微服务之间都需要通过注册中心来实现自动化的注册和发现。注册中心主要有三种角色：服务提供者（RPCServer）：在启动时，向Registry注册自身服务，并向Registry定期发送
深入Android HandlerThread 使用及其源码完全解析 ThreadLocalForrest android java ui
本篇我们将来给大家介绍HandlerThread这个类，以前我们在使用线程执行一个耗时任务时总会new一个Thread的线程去跑，当任务执行完后，线程就会自动被销毁掉，如果又由新的任务，我们又得新建线程.....我们假设这样的一个情景，我们通过listview去加载图文列表，当我们往下滑动时，这时需要不断去请求网络资源，也就是需要不断开线程去加载网络资源，如果每次都new一个Thread，这显然是
python析构_【python 类的析构】盐选科普 python析构
简介很多面向对象的语言都提供了new关键字，通过new可以创建类的实例。Python的方式更加简单，一旦定义了一个类，直接使用函数操作符，即可创建类的实例。本文主要结合一些实际的例子，介绍了Python类的构造，初始化和析构的原理。类的构造与初始化Python涉及类的构造与初始化，有两个重要的方法：__new__()和__init__()和方法。前者完成实例对象的创建，后者完成对创建的实例对象的初
分布式系统架构设计原理与实战：理解分布式系统的基本概念 AI天才研究院计算大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍在当今的互联网时代，数据量的爆炸性增长和业务的快速发展，使得单一的计算机系统已经无法满足我们的需求。为了解决这个问题，分布式系统应运而生。分布式系统是一种能在多台计算机（也称为节点）上运行，并通过网络进行通信和协调的系统。它能够提供高可用性、高可靠性、高扩展性和高性能等特性，因此在云计算、大数据、微服务等领域得到了广泛的应用。然而，设计和实现一个分布式系统并不是一件容易的事情。它涉及到
RabbitMQ实战：构建可靠的异步消息系统 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
RabbitMQ实战：构建可靠的异步消息系统1.背景介绍1.1异步消息系统的重要性在现代软件系统中,各个组件和服务之间通常需要进行大量的通信和数据交换。同步通信会导致系统耦合度高,可扩展性差。异步消息系统应运而生,通过将消息发送者和接收者解耦,提高了系统的灵活性、可靠性和性能。1.2RabbitMQ的优势RabbitMQ是一个开源的消息队列系统,基于AMQP(AdvancedMessageQueu
python爬虫爬取图片 kanguhong python 爬虫开发语言
"""爬取目标：https://pic.netbian.com/彼岸图首页地址：https://pic.netbian.com/4kmeinv/第N页：https://pic.netbian.com/4kmeinv/index_N.htmlhttps://pic.netbian.com/uploads/allimg/240709/194631-1720525591a682.jpg仅供学习，不可用于
通过vLLM部署LLM模型到生产环境中 MichaelIp 人工智能实验室大语言模型人工智能 python AIGC 自然语言处理语言模型 prompt llama
文章目录1使用vLLM部署模型2部署过程2.1准备GPU环境2.2安装vLLM依赖项3使用vLLM部署模型并启动服务3.1部署开源模型3.2部署微调模型4测试服务是否正常运行5评估服务性能1使用vLLM部署模型本地部署模型主要包含下载模型、编写模型加载代码和发布为支持API访问的应用服务这三个步骤。这个过程通常伴随较高的人工部署成本，vLLM可以用来简化这一流程。它是一个专为大模型推理设计的开源框
阿里巴巴在线图床HTML源码 tupaopao123 程序源码网站源码 AEIN 墨渊AE博客建站源码网络技术
介绍：阿里巴巴在线图片上传源码纯单页模板，CSS全部外链化，加快访问速度转载请注明出处AE博客|墨渊»阿里巴巴在线图床HTML源码网盘下载地址：http://kekewl.org/1CUeRcKpHXj图片：
领域模型介绍阿湯哥架构
领域模型介绍领域模型（DomainModel）是软件系统中用于抽象和表达业务逻辑的核心结构，它将复杂的业务问题转化为代码中的对象、规则和交互关系，帮助开发者以业务语言构建系统。领域模型的核心目标是高内聚、低耦合，通过清晰的边界（BoundedContext）隔离不同业务模块，确保代码与业务需求高度一致。领域模型的核心元素及经典案例我们以电商系统的订单处理流程为例，说明领域模型的核心元素如何协作。1
Python 布尔类型深度剖析：与其他数据类型的对比及应用 tekin Python 编程秘籍库 python 开发语言 Python 布尔类型深度剖析数据类型的对比及应用
Python布尔类型深度剖析：与其他数据类型的对比及应用本文将深入探讨Python中的布尔类型，详细介绍布尔类型的定义、特性、运算规则以及使用场景。同时，将布尔类型与数字类型、字符串类型、列表等其他常见数据类型进行全面对比，帮助读者清晰地理解它们之间的差异和联系。此外，还会对相关联的知识点进行拓展深化，让读者能够更加灵活地运用布尔类型进行Python编程。文章目录Python布尔类型深度剖析：与其
对象存储 Mini＇ miss python java c#php c++
对象存储（CloudObjectStorage，COS）是腾讯云提供的一种存储海量文件的分布式存储服务，具有高扩展性、低成本、可靠安全等优点。通过控制台、API、SDK和工具等多样化方式，用户可简单、快速地接入COS，进行多格式文件的上传、下载和管理，实现海量数据存储和管理。产品概述本页目录：对象存储（CloudObjectStorage，COS）是腾讯云提供的一种存储海量文件的分布式存储服务，用
Web开发架构--常见web后端框架介绍（python、java）土豆尼尼酱前端架构 python
文章目录※Web开发介绍一、什么是Web框架？1.1核心流程1.2Web框架功能1.3Web框架的作用二、Python中的Web框架1.Django2.Flask3.FastAPI三、Java中的Web框架1.SpringBoot2.SpringMVC3.Struts24.PlayFramework四、Python与JavaWeb框架对比五、如何选择Web框架？※Web开发介绍Web开发流程需求分
MFC联合Halcon之窗口图片显示逆风路途 MFC 视觉
MFC联合Halcon之窗口图片显示具体的方案是：使用一个PictureControl控件，调用Halcon中的OpenWindow函数，将其参数中的父窗口设为PictureControl的句柄，就可以在控件内显示我们的照片了，同时要注意缩放一下图片以适应控件大小。MFC程序还是新建一个对话框程序，然后添加一个按钮和一个PictureControl控件，控件的ID默认为IDC_STATIC。正如上
基于Pandas库封装Excel工具类忆想不到的晖 python pandas github excel 工具类
引言Excel是一种广泛使用的电子表格软件，它提供了大量的数据处理和计算功能，被广泛应用于数据分析和报告中。在Python中，我们可以使用pandas库来读写和处理Excel文件。但是，为了更方便和快速地操作Excel文件，我们可以封装一个Excel工具类，提供常用的读写操作方法，以提高开发效率。本文将介绍如何使用Python封装Excel操作工具类，并提供相应的例子说明。1、列表转Excel文件
音频进阶学习十六——LTI系统的差分方程与频域分析一（频率响应）山河君 #语音信号处理学习信号处理音视频
文章目录前言一、差分方程的有理式1.差分方程的有理分式2.因果系统和ROC3.稳定性与ROC二、频率响应1.定义2.幅频响应3.相频响应4.群延迟总结前言本篇文章会先复习Z变换的有理分式，这是之前文章中提过的内容，这里会将差分方程和有理分式进行结合来看。主要是通过有理分式进行对于冲激响应的表达，以及根据导函数对于频率响应的介绍。本文会对Z变换的频率响应中的幅频响应、相频响应以及群延迟的表达式进行推
使用Java和Zookeeper实现分布式协调与服务发现微赚淘客系统@聚娃科技分布式 java-zookeeper java
使用Java和Zookeeper实现分布式协调与服务发现大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天我们将深入探讨如何利用Java和Zookeeper实现高效的分布式协调与服务发现功能。一、Zookeeper简介Zookeeper是一个分布式协调服务，主要用于解决分布式系统中的一致性问题，如配置管理、命名服务、分布式锁等。它提供了高可用、高性能、严格顺序访问等
「热」Java 面试八股文之虚拟机篇 java晴天过后 java 面试经验分享
Java虚拟机篇简述JVM内存模型线程私有的运行时数据区:程序计数器、Java虚拟机栈、本地方法栈。线程共享的运行时数据区：Java堆、方法区。简述程序计数器程序计数器表示当前线程所执行的字节码的行号指示器。程序计数器不会产生StackOverflowError和OutOfMemoryError。简述虚拟机栈Java虚拟机栈用来描述Java方法执行的内存模型。线程创建时就会分配一个栈空间，线程结束
鸿蒙OH源码分析——分布式软总线：trans_service模块(2)/会话管理之新会话彭家大少嵌入式硬件 openHarmony 鸿蒙南向 harmonyos 分布式 OpenHarmony 嵌入式开发软总线 c语言
往期学习笔录：鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~鸿蒙应用开发与鸿蒙系统开发哪个更有前景？嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？记录一场鸿蒙开发岗位面试经历~持续更新中……一、概述trans_service模块基于系统内核提供的socket通信，向authmanager模块提供设备认证通道管理和设备认证数据的
前端学习资料集合 mdnbnb 前端
针对前端的学习，不同阶段采用的方式是不一样的。本文把前端的学习分为入门、实战、进阶三个阶段。下面分开来说一、入门阶段入门阶段的目标是学会前端的基本语法和知识，能够解决一些简单的问题。这个阶段不建议看书学习，效率太慢。这个阶段不追求知识广度，只要求能够快速上手就行。建议直接找一些介绍前端的基础知识的视频课程来看。推荐一个比较经典的课程。前端基础班就业班实战项目全套课程聊聊前端开发的基础知识4小时带你
分布式服务监控点滴~ 分布式
目录分布式服务监控CAT（CentralApplicationTracking）监控对象和指标分布式服务监控分布式服务监控在保障分布式系统稳定运行中至关重要，通过各类监控组件对关键指标进行监测，能及时发现并解决问题。下面将从监控组件、其优缺点、监控指标及其作用展开介绍。监控组件Prometheus：一个开源的系统监控和报警工具包。它采用拉取式采集数据，支持多种数据采集方式，如直接采集应用程序暴露的
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

开源爬虫Labin，Nutch，Heritrix介绍和对比

开源爬虫Labin，Nutch，Heritrix介绍和对比

你可能感兴趣的:(开源爬虫Labin，Nutch，Heritrix介绍和对比)