【Heritrix基础教程之3】Heritrix的基本架构

Heritrix网络爬虫与Tomcat服务器部署指南 Rubix-Kai
本文还有配套的精品资源，点击获取简介：Heritrix是一款功能强大的开源网络爬虫工具，由互联网档案馆开发，适用于大规模网页抓取。本文将指导读者如何下载、安装Heritrix，并在Tomcat服务器上进行部署和运行。内容包括Heritrix的基本概念、下载与安装步骤、集成到Eclipse的过程、配置Heritrix、构建与运行、部署到Tomcat以及如何访问Heritrix的Web界面。此外，还包
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
Berkeley DB JE版 jason成都数据库
一、BerkeleyDB的介绍（1）BerkeleyDB是一个嵌入式数据库，它适合于管理海量的、简单的数据。如Google使用其来保存账户信息，Heritrix用其来保存froniter.（2）key/value是BerkeleyDB用来管理数据的基础，每个key/value对代表一条记录。（3）BerkeleyDB在底层实现采用B树，可以看成能够存储大量数据的HashMap。（4）它是Oracl
Heritrix开源爬虫配置1.14.4和3.1 青峰祭坛 heritrix 爬虫开源 Heritrix
参考自：开源爬虫:Heritrix1.14.4安装/使用http://blog.sina.com.cn/s/blog_5f54f0be0101hcy8.html开源爬虫:Heritrix3.1Windows上安装/使用http://blog.sina.com.cn/s/blog_5f54f0be0101hcyt.htmlHeritrix是一个由java开发的、开源的网络爬虫，用户可以使用它来从网上
heritrix mysql_Heritrix使用小结有书 heritrix mysql
1.Heritrix简介Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为，另外，它还有一个命令行工具来供用户选择调用。Heritrix是由互联网档案馆和北欧国家图书馆联合规范化编写于2003年初。第一次正式发布是在2004年1月，并不断的被互联网档案馆和其他感兴趣的第三方改
Java爬虫技术框架之Heritrix框架详解
Heritrix是一个由Java开发的开源Web爬虫系统，用来获取完整的、精确的站点内容的深度复制，具有强大的可扩展性，运行开发者任意选择或扩展各个组件，实现特定的抓取逻辑。一、Heritrix介绍Heritrix采用了模块化的设计，用户可以在运行时选择要用的模块。它由核心类（coreclasses）和插件模块（pluggablemodules）构成。核心类可以配置，但不能被覆盖，插件模块可以由第
Heritrix Crawler vs. Nutch Crawler Fenng 爬虫数据库
在邮件列表中看到有人问Heritrix爬虫与Nutch爬虫的不同。搜索了一下，该项目的领导者是GordonMohr，Heritrix主要用在http://www.archive.org。基本定义描述：HeritrixistheInternetArchive’sopen-source,extensible,web-scale,archival-qualitywebcrawlerproject.没想到
Nutch、heritrix、crawler4j优缺点 jiao732 Crawlers
Nutch:主页：https://nutch.apache.org/index.htmlApacheNutch是一个高度可扩展的和可伸缩的开源网页爬虫软件项目。源于ApacheLuceneTM,项目多样化，目前由两个代码库组成，即：1.Nutch1.x：一个非常成熟的爬虫产品。1.x版本支持细粒度的配置，依赖于一个很好的分布式处理的ApacheHadoop数据结构。2.Nutch2.x：一个新兴的
关于heritrix安装配置时出现"必须限制口令文件读取访问权限"的解决方法 jiangfullll
最近开始写一个RSS聚合程序，需要爬虫支持，于是就整来heritrix，没想到，这东西还挺拽，费了老衲好几个小时来安装配置这个heritrix。最后经过不懈努力，终于起来了，具体步骤如下：你如果在网上找相关配置，大多数都是讲先修改conf/properties文件的用户名和密码以及修改jmxremote.password.template，然后将其改名复制到heritrix根目录下，接着就让你无辜
Heritrix的Modules界面不能改变选择项的问题 weixin_30455067
具体的原因分析见“Heritrix的Modules界面不能改变选择项的问题”原因：找相关的Options文件是在Modules相对路径下的，而Modules目录是在conf目录下。Classpath没有找到需要的文件目录。解决方法：在Eclipse里面设置conf为Classpath(在Eclipse的RunDialog中，Classpath标签Table，选中UserEntries，然后右边会有
heritrix 3.2.0 -- 环境搭建大齐zy 爬虫
heritrix作为一个比较经典的开源爬虫，写这篇文章目的是因为，3.X之后的heritrix的介绍以及配置的文章比较少了。heritrix3.x以后使用maven2配置jar包引用，但是总是有好多包没法从maven库下载。所以，这里讲的环境搭建直接使用了编译好的工程来做，heritrix-3.2.0-dist.tar.gz以及源码压缩包heritrix-3.2.0-src.tar.gz具体方法如
【Heritrix基础教程之2】Heritrix基本内容介绍 weixin_30487701
1、版本说明（1）最新版本：3.3.0（2）最新release版本：3.2.0（3）重要历史版本：1.14.43.1.0及之前的版本：http://sourceforge.net/projects/archive-crawler/files/3.2.0及之后的版本：http://archive.org/由于国情需要，后者无法访问，因此本blog研究的是1.14.4版本。2、官方材料source：h
我的Heritrix学习之路（一） wan353694124 Heritrix
在Windows平台下，先把Heritrix启动起来详细步骤如下：1、老规矩，开源的东西，先下载，亲测地址：http://nchc.dl.sourceforge.net/project/archive-crawler/archive-crawler%20%28heritrix%201.x%29/1.14.4/heritrix-1.14.4.zip2、将下载的heritrix-1.14.4.zip解
Heritrix的使用入门 systemuser Hadoop
10.3扩展和定制Heritrix在前面两节中，向读者介绍了Heritrix的启动、创建任务、抓取网页、组件结构。但是，读者应该也可以明显的看出，如果不用Heritrix抓取和分析网页的行为进行一定的控制，它是无法达到要求的。对Heritrix的行为进行控制，是要建立在对其架构充分了解的基础之上的，因此，本节的内容完全是基于上一节中所讨论的基础。10.3.1向Heritrix中添加自己的Extra
heritrix学习总结蓝翔招生办网络爬虫
1下载和解压从[url]http://crawler.archive.org/[/url]下载解压到本地E:\heritrix-1.14.32配置环境变量HERITRIX_HOME=E:\heritrix-1.14.3path后追加;%HERITRIX_HOME%\bin3配置heritrix拷贝E:\heritrix-1.14.3\conf\jmxremote.password.template
Heritrix3.1.0的使用 jiang617325814 java开源包
1.在cmd下面进入Heritrix的bin目录下输入heritrix-aadmin:admin，弹出新窗口，新窗口中运行heritrix2.浏览中输入https://localhost:8443/得到界面如下第一个输入框中写入任意Job名称，如s第二个输入框如果不写则默认存储在bin目录下的jobs文件夹下3.点击create后：4.点击"s"任务：crawler-beans.cxml是配置本次
Heritrix3.0 的安装，使用 jazwoo 搜索引擎
1、下载heritrix3.0或heritrix3.1，解压。运行cmd，进入到bin目录下（如笔者的目录：cdD:\heritrix-3.1.0\bin）。运行命令：heritrix-aadmin:admin，这里冒号前面admin是用户名，后面是密码，这样将会在另一个新建的窗口中运行heritrix程序。在浏览器地址栏输入https://localhost:8443，注意这里是https，端口
Heritrix iteye_14258 网络爬虫
Heritrix项目介绍Heritrix工程始于2003年初，IA的目的是开发一个特殊的爬虫，对网上的资源进行归档，建立网络数字图书馆。在过去的6年里，IA已经建立了400TB的数据。IA期望他们的crawler包含以下几种：宽带爬虫：能够以更高的带宽去站点爬。主题爬虫：集中于被选择的问题。持续爬虫：不仅仅爬更当前的网页还负责爬日后更新的网页。实验爬虫：对爬虫技术进行实验，以决定该爬什么，以及对不
Heritrix3.0教程使用入门(三) 配置文件crawler-beans.cxml介绍 iteye_1364 Heritrix
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-4.html可以说crawler-beans.cxml可以主导整个Heritrix的抓取.不同于Heritrix1.x版本的order.xml是,crawler-beans.cxml采用Spring来管理.里面的配置都是一个个bean.所以无论从配置上,耦合上,动态控制上,Heritr
Heritrix3.0教程使用入门(一) 下载安装与运行 iteye_1364 Heritrix
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-1.htmlHeritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.1.下载,下载地址:http://sour
Heritrix3.0教程使用教程(三) CrawlJob控制台界面(一) 大概介绍 iteye_1364 Heritrix
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-5.html我觉得Heritrix很直观的一点就是有控制台,但以前我忽略了这个功能,直接代码启动Heritrix,然后放在Tomcat里.后期才慢慢发现一个UI界面的价值.可以很方便的获知抓取情况,甚至完全在千里之外控制它的抓取.其实慢慢的发现很多开源框架都会有一个UI界面.我觉得这也
【Heritrix基础教程之1】在Eclipse中配置Heritrix apple01010105
一、新建项目并将Heritrix源码导入１、下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包，并解压，以后分别简称SRC包和ZIP包；２、在Eclipse下新建Java项目，取名Heritrix.1.14.4；３、复制SRC包下面src/java文件夹下org和st两个文件夹到项目中的src包下；４、复制SRC包下src下conf文件夹到项目根目
【Heritrix基础教程之3】Heritrix的基本架构 apple01010105 运维 java 测试
Heritrix可分为四大模块：1、控制器CrawlController2、待处理的uri列表Frontier3、线程池ToeThread4、各个步骤的处理器（1）Pre-fetchprocessingchain：主要处理DNS-lookup,robots.txt,认证，抓取范围检查等。（2）FetchProcessingchain:抓取处理器。对于每个协议，均有一个类作支持，如FetchHTTP
Heritrix3.0教程使用入门(二) 开始抓取沐枫L Heritrix3
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-2.html上一篇博客介绍了,Heritrix3.0的下载,安装以及启动,可以通过UI去配置,和控制抓取任务.这一篇博将讲述,如何在Heritrix上创建抓取任务(CrawlJob)并运行.首先创建抓取,本可以通过WEB界面来创建,但有时会出现一些莫名奇妙的问题,我这里通过手工创建的方
Heritrix3.0教程使用入门(一) 下载安装与运行沐枫L Heritrix3 jobs 任务浏览器 cmd ie web
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-1.htmlHeritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.1.下载,下载地址:http://sour
爬虫初探（一）crawler4j的robots weixin_34123613
2019独角兽企业重金招聘Python工程师标准>>>最近刚刚开始研究爬虫，身为小白的我不知道应该从何处下手，网上查了查，发现主要的开源java爬虫有nutchapache/nutch·GitHub，Heritrixinternetarchive/heritrix3·GitHub和Crawler4jyasserg/crawler4j·GitHub，还有WebCollectorCrawlScript
Lucene+Heritrix 开发搜索引擎 iteye_4245 搜索引擎 lucene 互联网
摘要:根据搜索引擎原理，Heritrix从互联网上抓取网页,Lucene建立索引数据库,在索引数据库中搜索排序.阅读全文jwebee2007-05-2420:09发表评论
Heritrix源码分析(二) 配置文件order.xml介绍 nizaina_0 Heritrix
本博客属原创文章,欢迎转载！转载请务必注明出处:http://guoyunsky.iteye.com/blog/613412本博客已迁移到本人独立博客:http://www.yun5u.com/order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知道Heritrix竟然有如此灵活的运用,
Web爬虫Heritrix的安装和配置 Rayping 爬虫爬虫人工智能
Web爬虫Heritrix的安装和配置2010-10-2720:00:01|分类：Web搜索|字号订阅1、将得到的heritrix-1.14.4.zip压缩包直接解压缩到某一目录，我选择的是F:\Heritrix。2、然后，将F:\Heritrix目录中的heritrix-1.14.4.jar文件解压缩，把profiles\default下的两个文件order.xml和seeds.txt复制到F:
开源爬虫: Heritrix 3.1 Windows 上安装/使用 xiaomin_____ java
目前Heritrix的最新版本是3.1.0（2011-10-21发布）http://blog.sina.com.cn/s/blog_5f54f0be0101hcy8.html讲了1.14.4版本的安装和使用http://blog.sina.com.cn/s/blog_5f54f0be0101hcyd.html讲了如何扩展1.14.4版本其中的模块本文讲如何安装和使用Heritrix最新的3.1.0
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

【Heritrix基础教程之3】Heritrix的基本架构

4. Overview of the crawler

4.1. The CrawlController

4.2. The Frontier

4.3. ToeThreads

4.4. Processors

4.4.1. Pre-fetch processing chain

4.4.2. Fetch processing chain

4.4.3. Extractor processing chain

4.4.4. Write/index processing chain

4.4.5. Post-processing chain

你可能感兴趣的:(Heritrix)