Heritrix 3.1.0 源码解析（五）

我们从上文的CrawlController对象可以看到，爬虫任务是通过ToePool类建立线程ToeThread的线程池的

我们在了解采集线程池的相关类之前，先有必要了解一下CrawlController类，因为我们的爬虫操作指令最终是通过调用CrawlController对象的方法的

CrawlController类的成员和方法都是直接与采集任务相关的，好比控制中心

// ApplicationContextAware implementation, for eventing

    AbstractApplicationContext appCtx;

    public void setApplicationContext(ApplicationContext applicationContext) throws BeansException {

        this.appCtx = (AbstractApplicationContext)applicationContext;

    }

    

    CrawlMetadata metadata;

    public CrawlMetadata getMetadata() {

        return metadata;

    }

    @Autowired

    public void setMetadata(CrawlMetadata provider) {

        this.metadata = provider;

    }

    

    protected ServerCache serverCache;

    public ServerCache getServerCache() {

        return this.serverCache;

    }

    @Autowired

    public void setServerCache(ServerCache serverCache) {

        this.serverCache = serverCache;

    }



    /**

     * The frontier to use for the crawl.

     */

    protected Frontier frontier;

    public Frontier getFrontier() {

        return this.frontier;

    }

    @Autowired

    public void setFrontier(Frontier frontier) {

        this.frontier = frontier;

    }



    /**

     * Scratch directory for temporary overflow-to-disk

     */

    protected ConfigPath scratchDir = 

        new ConfigPath("scratch subdirectory","scratch");

    public ConfigPath getScratchDir() {

        return scratchDir;

    }

    public void setScratchDir(ConfigPath scratchDir) {

        this.scratchDir = scratchDir;

    }



    /**

     * Statistics tracking modules.  Any number of specialized statistics 

     * trackers that monitor a crawl and write logs, reports and/or provide 

     * information to the user interface.

     */

    protected StatisticsTracker statisticsTracker;

    public StatisticsTracker getStatisticsTracker() {

        return this.statisticsTracker;

    }

    @Autowired

    public void setStatisticsTracker(StatisticsTracker statisticsTracker) {

        this.statisticsTracker = statisticsTracker;

    }



    protected SeedModule seeds;

    public SeedModule getSeeds() {

        return this.seeds;

    }

    @Autowired

    public void setSeeds(SeedModule seeds) {

        this.seeds = seeds;

    }

    

    /**

     * Fetch chain

     */

    protected FetchChain fetchChain;

    public FetchChain getFetchChain() {

        return this.fetchChain;

    }

    @Autowired

    public void setFetchChain(FetchChain fetchChain) {

        this.fetchChain = fetchChain;

    }

    

    /**

     * Disposition chain

     */

    protected DispositionChain dispositionChain;

    public DispositionChain getDispositionChain() {

        return this.dispositionChain;

    }

    @Autowired

    public void setDispositionChain(DispositionChain dispositionChain) {

        this.dispositionChain = dispositionChain;

    }

    

    /**

     * Candidate chain

     */

    protected CandidateChain candidateChain;

    public CandidateChain getCandidateChain() {

        return this.candidateChain;

    }

    @Autowired

    public void setCandidateChain(CandidateChain candidateChain) {

        this.candidateChain = candidateChain;

    }

上述成员变量都是很重要的，包括spring容器对象、CrawlMetadata元数据、ServerCache服务缓存、Frontier对象、SeedModule种子模块、statisticsTracker统计跟踪、以及后面的处理器链FetchChain DispositionChain CandidateChain等，其他的没有贴出来的基本上与采集任务配置相关的参数，如线程数量等

它的初始化方法设置初始状态

public void start() {

        // cache AlertThreadGroup for later ToePool launch

        AlertThreadGroup atg = AlertThreadGroup.current();

        if(atg!=null) {

            alertThreadGroup = atg;

        }

        

        if(isRunning) {

            return; 

        }

       

        sExit = CrawlStatus.FINISHED_ABNORMAL;



        // force creation of DNS Cache now -- avoids CacheCleaner in toe-threads group

        // also cap size at 1 (we never wanta cached value; 0 is non-operative)

        Lookup.getDefaultCache(DClass.IN).setMaxEntries(1);

        

        reserveMemory = new LinkedList<char[]>();

        for(int i = 0; i < RESERVE_BLOCKS; i++) {

            reserveMemory.add(new char[RESERVE_BLOCK_SIZE]);

        }

        isRunning = true; 

    }

ToePool类继承自ThreadGroup线程组类，它的成员变量如下

public static int DEFAULT_TOE_PRIORITY = Thread.NORM_PRIORITY - 1;

    

    protected CrawlController controller;

    protected int nextSerialNumber = 1;

    protected int targetSize = 0;

我们再回头看上文中提到的CrawlController对象里面初始化ToePool方法

 protected void setupToePool() {

        toePool = new ToePool(alertThreadGroup,this);

        // TODO: make # of toes self-optimizing

        toePool.setSize(getMaxToeThreads());

        toePool.waitForAll();

    }

传入线程组（这里作为父线程组）和CrawlController对象

ToeThread类的构造函数如下

 /**

     * Constructor. Creates a pool of ToeThreads. 

     *

     * @param c A reference to the CrawlController for the current crawl.

     */

    public ToePool(AlertThreadGroup atg, CrawlController c) {

        super(atg, "ToeThreads");        

        this.controller = c;

        setDaemon(true);

    }

设置父线程组对象和初始化CrawlController对象

void setSize(int newsize)方法设置线程池大小，并启动指定数量线程

/**

     * Change the number of ToeThreads.

     *

     * @param newsize The new number of ToeThreads.

     */

    public void setSize(int newsize)

    {

        targetSize = newsize;

        int difference = newsize - getToeCount(); 

        if (difference > 0) {

            // must create threads

            for(int i = 1; i <= difference; i++) {

                startNewThread();

            }

        } else {

            // must retire extra threads

            int retainedToes = targetSize; 

            Thread[] toes = this.getToes();

            for (int i = 0; i < toes.length ; i++) {

                if(!(toes[i] instanceof ToeThread)) {

                    continue;

                }

                retainedToes--;

                if (retainedToes>=0) {

                    continue; // this toe is spared

                }

                // otherwise:

                ToeThread tt = (ToeThread)toes[i];

                tt.retire();

            }

        }

    }

关键在这个方法startNewThread();

private synchronized void startNewThread() {

        ToeThread newThread = new ToeThread(this, nextSerialNumber++);

        newThread.setPriority(DEFAULT_TOE_PRIORITY);

        newThread.start();

    }

这里新建线程并将当前线程组ToePool对象作为参数传入并调用其启动方法

ToeThread类继承自Thread类，其成员变量如下：

public enum Step {

        NASCENT, ABOUT_TO_GET_URI, FINISHED, 

        ABOUT_TO_BEGIN_PROCESSOR, HANDLING_RUNTIME_EXCEPTION, 

        ABOUT_TO_RETURN_URI, FINISHING_PROCESS

    }



    private static Logger logger =

        Logger.getLogger("org.archive.crawler.framework.ToeThread");



    private CrawlController controller;

    private int serialNumber;

    

    /**

     * Each ToeThead has an instance of HttpRecord that gets used

     * over and over by each request.

     * 

     * @see org.archive.util.RecorderMarker

     */

    private Recorder httpRecorder = null;



    // activity monitoring, debugging, and problem detection

    private Step step = Step.NASCENT;

    private long atStepSince;

    private String currentProcessorName = "";

    

    private String coreName;

    private CrawlURI currentCuri;

    private long lastStartTime;

    private long lastFinishTime;



    

    // default priority; may not be meaningful in recent JVMs

    private static final int DEFAULT_PRIORITY = Thread.NORM_PRIORITY-2;

    

    // indicator that a thread is now surplus based on current desired

    // count; it should wrap up cleanly

    private volatile boolean shouldRetire = false;

我们再查看ToeThread类的构造函数

/**

     * Create a ToeThread

     * 

     * @param g ToeThreadGroup

     * @param sn serial number

     */

    public ToeThread(ToePool g, int sn) {

        // TODO: add crawl name?

        super(g,"ToeThread #" + sn);

        coreName="ToeThread #" + sn + ": ";

        controller = g.getController();

        serialNumber = sn;

        setPriority(DEFAULT_PRIORITY);

        int outBufferSize = controller.getRecorderOutBufferBytes();

        int inBufferSize = controller.getRecorderInBufferBytes();

        httpRecorder = new Recorder(controller.getScratchDir().getFile(),

            "tt" + sn + "http", outBufferSize, inBufferSize);

        lastFinishTime = System.currentTimeMillis();

    }

设置线程组对象、线程序号、初始化CrawlController controller对象等

当启动线程时，ToeThread线程对象的void run()方法如下

/** (non-Javadoc)

     * @see java.lang.Thread#run()

     */

    public void run() {

        String name = controller.getMetadata().getJobName();

        logger.fine(getName()+" started for order '"+name+"'");

        Recorder.setHttpRecorder(httpRecorder); 

        

        try {

            while ( true ) {

                ArchiveUtils.continueCheck();

                

                setStep(Step.ABOUT_TO_GET_URI, null);



                CrawlURI curi = controller.getFrontier().next();

                

                

                synchronized(this) {

                    ArchiveUtils.continueCheck();

                    setCurrentCuri(curi);

                    currentCuri.setThreadNumber(this.serialNumber);

                    lastStartTime = System.currentTimeMillis();

                    currentCuri.setRecorder(httpRecorder);

                }

                

                try {

                    KeyedProperties.loadOverridesFrom(curi);

                    

                    //System.out.println("FetchChain:"+controller.getFetchChain().getClass().getName());

                    

                    

                    controller.getFetchChain().process(curi,this);

                    //System.out.println("Frontier:"+controller.getFrontier().getClass().getName());

                    controller.getFrontier().beginDisposition(curi);

                    

                    //System.out.println("DispositionChain:"+controller.getDispositionChain().getClass().getName());

                    controller.getDispositionChain().process(curi,this);

  

                } catch (RuntimeExceptionWrapper e) {

                    // Workaround to get cause from BDB

                    if(e.getCause() == null) {

                        e.initCause(e.getCause());

                    }

                    recoverableProblem(e);

                } catch (AssertionError ae) {

                    // This risks leaving crawl in fatally inconsistent state, 

                    // but is often reasonable for per-Processor assertion problems 

                    recoverableProblem(ae);

                } catch (RuntimeException e) {

                    recoverableProblem(e);

                } catch (InterruptedException e) {

                    if(currentCuri!=null) {

                        recoverableProblem(e);

                        Thread.interrupted(); // clear interrupt status

                    } else {

                        throw e;

                    }

                } catch (StackOverflowError err) {

                    recoverableProblem(err);

                } catch (Error err) {

                    // OutOfMemory and any others

                    seriousError(err); 

                } finally {

                    httpRecorder.endReplays();

                    KeyedProperties.clearOverridesFrom(curi); 

                }

                

                setStep(Step.ABOUT_TO_RETURN_URI, null);

                ArchiveUtils.continueCheck();



                synchronized(this) {

                    controller.getFrontier().finished(currentCuri);

                    controller.getFrontier().endDisposition();

                    setCurrentCuri(null);

                }

                curi = null;

                

                setStep(Step.FINISHING_PROCESS, null);

                lastFinishTime = System.currentTimeMillis();

                if(shouldRetire) {

                    break; // from while(true)

                }

            }

        } catch (InterruptedException e) {

            if(currentCuri!=null){

                logger.log(Level.SEVERE,"Interrupt leaving unfinished CrawlURI "+getName()+" - job may hang",e);

            }

            // thread interrupted, ok to end

            logger.log(Level.FINE,this.getName()+ " ended with Interruption");

        } catch (Exception e) {

            // everything else (including interruption)

            logger.log(Level.SEVERE,"Fatal exception in "+getName(),e);

        } catch (OutOfMemoryError err) {

            seriousError(err);

        } finally {

            controller.getFrontier().endDisposition();



        }



        setCurrentCuri(null);

        // Do cleanup so that objects can be GC.

        this.httpRecorder.closeRecorders();

        this.httpRecorder = null;



        logger.fine(getName()+" finished for order '"+name+"'");

        setStep(Step.FINISHED, null);

        controller = null;

    }

ToePool类的void waitForAll()方法如下

public void waitForAll() {

        while (true) try {

            if (isAllAlive(getToes())) {

                return;

            }

            Thread.sleep(1000);

        } catch (InterruptedException e) {

            throw new IllegalStateException(e);

        }

    }

是否存在活动线程

private static boolean isAllAlive(Thread[] threads) {

        for (Thread t: threads) {

            if ((t != null) && (!t.isAlive())) {

                return false;

            }

        }

        return true;

    }

当CrawlController对象启动线程时，调用BdbFrontier对象的void unpause()方法，在BdbFrontier类的父类的父类AbstractFrontier类里面

org.archive.crawler.frontier.BdbFrontier

org.archive.crawler.frontier.AbstractFrontier

public void unpause() {

        requestState(State.RUN);

    }

设置BdbFrontier对象的状态volatile State targetState = State.PAUSE;

下文我们再来分析BdbFrontier对象的相关状态和方法

---------------------------------------------------------------------------

本系列Heritrix 3.1.0 源码解析系本人原创

转载请注明出处博客园刺猬的温驯

本文链接 http://www.cnblogs.com/chenying99/archive/2013/04/18/3027672.html

Heritrix网络爬虫与Tomcat服务器部署指南 Rubix-Kai
本文还有配套的精品资源，点击获取简介：Heritrix是一款功能强大的开源网络爬虫工具，由互联网档案馆开发，适用于大规模网页抓取。本文将指导读者如何下载、安装Heritrix，并在Tomcat服务器上进行部署和运行。内容包括Heritrix的基本概念、下载与安装步骤、集成到Eclipse的过程、配置Heritrix、构建与运行、部署到Tomcat以及如何访问Heritrix的Web界面。此外，还包
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
Berkeley DB JE版 jason成都数据库
一、BerkeleyDB的介绍（1）BerkeleyDB是一个嵌入式数据库，它适合于管理海量的、简单的数据。如Google使用其来保存账户信息，Heritrix用其来保存froniter.（2）key/value是BerkeleyDB用来管理数据的基础，每个key/value对代表一条记录。（3）BerkeleyDB在底层实现采用B树，可以看成能够存储大量数据的HashMap。（4）它是Oracl
Heritrix开源爬虫配置1.14.4和3.1 青峰祭坛 heritrix 爬虫开源 Heritrix
参考自：开源爬虫:Heritrix1.14.4安装/使用http://blog.sina.com.cn/s/blog_5f54f0be0101hcy8.html开源爬虫:Heritrix3.1Windows上安装/使用http://blog.sina.com.cn/s/blog_5f54f0be0101hcyt.htmlHeritrix是一个由java开发的、开源的网络爬虫，用户可以使用它来从网上
heritrix mysql_Heritrix使用小结有书 heritrix mysql
1.Heritrix简介Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为，另外，它还有一个命令行工具来供用户选择调用。Heritrix是由互联网档案馆和北欧国家图书馆联合规范化编写于2003年初。第一次正式发布是在2004年1月，并不断的被互联网档案馆和其他感兴趣的第三方改
Java爬虫技术框架之Heritrix框架详解
Heritrix是一个由Java开发的开源Web爬虫系统，用来获取完整的、精确的站点内容的深度复制，具有强大的可扩展性，运行开发者任意选择或扩展各个组件，实现特定的抓取逻辑。一、Heritrix介绍Heritrix采用了模块化的设计，用户可以在运行时选择要用的模块。它由核心类（coreclasses）和插件模块（pluggablemodules）构成。核心类可以配置，但不能被覆盖，插件模块可以由第
Heritrix Crawler vs. Nutch Crawler Fenng 爬虫数据库
在邮件列表中看到有人问Heritrix爬虫与Nutch爬虫的不同。搜索了一下，该项目的领导者是GordonMohr，Heritrix主要用在http://www.archive.org。基本定义描述：HeritrixistheInternetArchive’sopen-source,extensible,web-scale,archival-qualitywebcrawlerproject.没想到
Nutch、heritrix、crawler4j优缺点 jiao732 Crawlers
Nutch:主页：https://nutch.apache.org/index.htmlApacheNutch是一个高度可扩展的和可伸缩的开源网页爬虫软件项目。源于ApacheLuceneTM,项目多样化，目前由两个代码库组成，即：1.Nutch1.x：一个非常成熟的爬虫产品。1.x版本支持细粒度的配置，依赖于一个很好的分布式处理的ApacheHadoop数据结构。2.Nutch2.x：一个新兴的
关于heritrix安装配置时出现"必须限制口令文件读取访问权限"的解决方法 jiangfullll
最近开始写一个RSS聚合程序，需要爬虫支持，于是就整来heritrix，没想到，这东西还挺拽，费了老衲好几个小时来安装配置这个heritrix。最后经过不懈努力，终于起来了，具体步骤如下：你如果在网上找相关配置，大多数都是讲先修改conf/properties文件的用户名和密码以及修改jmxremote.password.template，然后将其改名复制到heritrix根目录下，接着就让你无辜
Heritrix的Modules界面不能改变选择项的问题 weixin_30455067
具体的原因分析见“Heritrix的Modules界面不能改变选择项的问题”原因：找相关的Options文件是在Modules相对路径下的，而Modules目录是在conf目录下。Classpath没有找到需要的文件目录。解决方法：在Eclipse里面设置conf为Classpath(在Eclipse的RunDialog中，Classpath标签Table，选中UserEntries，然后右边会有
heritrix 3.2.0 -- 环境搭建大齐zy 爬虫
heritrix作为一个比较经典的开源爬虫，写这篇文章目的是因为，3.X之后的heritrix的介绍以及配置的文章比较少了。heritrix3.x以后使用maven2配置jar包引用，但是总是有好多包没法从maven库下载。所以，这里讲的环境搭建直接使用了编译好的工程来做，heritrix-3.2.0-dist.tar.gz以及源码压缩包heritrix-3.2.0-src.tar.gz具体方法如
【Heritrix基础教程之2】Heritrix基本内容介绍 weixin_30487701
1、版本说明（1）最新版本：3.3.0（2）最新release版本：3.2.0（3）重要历史版本：1.14.43.1.0及之前的版本：http://sourceforge.net/projects/archive-crawler/files/3.2.0及之后的版本：http://archive.org/由于国情需要，后者无法访问，因此本blog研究的是1.14.4版本。2、官方材料source：h
我的Heritrix学习之路（一） wan353694124 Heritrix
在Windows平台下，先把Heritrix启动起来详细步骤如下：1、老规矩，开源的东西，先下载，亲测地址：http://nchc.dl.sourceforge.net/project/archive-crawler/archive-crawler%20%28heritrix%201.x%29/1.14.4/heritrix-1.14.4.zip2、将下载的heritrix-1.14.4.zip解
Heritrix的使用入门 systemuser Hadoop
10.3扩展和定制Heritrix在前面两节中，向读者介绍了Heritrix的启动、创建任务、抓取网页、组件结构。但是，读者应该也可以明显的看出，如果不用Heritrix抓取和分析网页的行为进行一定的控制，它是无法达到要求的。对Heritrix的行为进行控制，是要建立在对其架构充分了解的基础之上的，因此，本节的内容完全是基于上一节中所讨论的基础。10.3.1向Heritrix中添加自己的Extra
heritrix学习总结蓝翔招生办网络爬虫
1下载和解压从[url]http://crawler.archive.org/[/url]下载解压到本地E:\heritrix-1.14.32配置环境变量HERITRIX_HOME=E:\heritrix-1.14.3path后追加;%HERITRIX_HOME%\bin3配置heritrix拷贝E:\heritrix-1.14.3\conf\jmxremote.password.template
Heritrix3.1.0的使用 jiang617325814 java开源包
1.在cmd下面进入Heritrix的bin目录下输入heritrix-aadmin:admin，弹出新窗口，新窗口中运行heritrix2.浏览中输入https://localhost:8443/得到界面如下第一个输入框中写入任意Job名称，如s第二个输入框如果不写则默认存储在bin目录下的jobs文件夹下3.点击create后：4.点击"s"任务：crawler-beans.cxml是配置本次
Heritrix3.0 的安装，使用 jazwoo 搜索引擎
1、下载heritrix3.0或heritrix3.1，解压。运行cmd，进入到bin目录下（如笔者的目录：cdD:\heritrix-3.1.0\bin）。运行命令：heritrix-aadmin:admin，这里冒号前面admin是用户名，后面是密码，这样将会在另一个新建的窗口中运行heritrix程序。在浏览器地址栏输入https://localhost:8443，注意这里是https，端口
Heritrix iteye_14258 网络爬虫
Heritrix项目介绍Heritrix工程始于2003年初，IA的目的是开发一个特殊的爬虫，对网上的资源进行归档，建立网络数字图书馆。在过去的6年里，IA已经建立了400TB的数据。IA期望他们的crawler包含以下几种：宽带爬虫：能够以更高的带宽去站点爬。主题爬虫：集中于被选择的问题。持续爬虫：不仅仅爬更当前的网页还负责爬日后更新的网页。实验爬虫：对爬虫技术进行实验，以决定该爬什么，以及对不
Heritrix3.0教程使用入门(三) 配置文件crawler-beans.cxml介绍 iteye_1364 Heritrix
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-4.html可以说crawler-beans.cxml可以主导整个Heritrix的抓取.不同于Heritrix1.x版本的order.xml是,crawler-beans.cxml采用Spring来管理.里面的配置都是一个个bean.所以无论从配置上,耦合上,动态控制上,Heritr
Heritrix3.0教程使用入门(一) 下载安装与运行 iteye_1364 Heritrix
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-1.htmlHeritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.1.下载,下载地址:http://sour
Heritrix3.0教程使用教程(三) CrawlJob控制台界面(一) 大概介绍 iteye_1364 Heritrix
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-5.html我觉得Heritrix很直观的一点就是有控制台,但以前我忽略了这个功能,直接代码启动Heritrix,然后放在Tomcat里.后期才慢慢发现一个UI界面的价值.可以很方便的获知抓取情况,甚至完全在千里之外控制它的抓取.其实慢慢的发现很多开源框架都会有一个UI界面.我觉得这也
【Heritrix基础教程之1】在Eclipse中配置Heritrix apple01010105
一、新建项目并将Heritrix源码导入１、下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包，并解压，以后分别简称SRC包和ZIP包；２、在Eclipse下新建Java项目，取名Heritrix.1.14.4；３、复制SRC包下面src/java文件夹下org和st两个文件夹到项目中的src包下；４、复制SRC包下src下conf文件夹到项目根目
【Heritrix基础教程之3】Heritrix的基本架构 apple01010105 运维 java 测试
Heritrix可分为四大模块：1、控制器CrawlController2、待处理的uri列表Frontier3、线程池ToeThread4、各个步骤的处理器（1）Pre-fetchprocessingchain：主要处理DNS-lookup,robots.txt,认证，抓取范围检查等。（2）FetchProcessingchain:抓取处理器。对于每个协议，均有一个类作支持，如FetchHTTP
Heritrix3.0教程使用入门(二) 开始抓取沐枫L Heritrix3
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-2.html上一篇博客介绍了,Heritrix3.0的下载,安装以及启动,可以通过UI去配置,和控制抓取任务.这一篇博将讲述,如何在Heritrix上创建抓取任务(CrawlJob)并运行.首先创建抓取,本可以通过WEB界面来创建,但有时会出现一些莫名奇妙的问题,我这里通过手工创建的方
Heritrix3.0教程使用入门(一) 下载安装与运行沐枫L Heritrix3 jobs 任务浏览器 cmd ie web
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-1.htmlHeritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.1.下载,下载地址:http://sour
爬虫初探（一）crawler4j的robots weixin_34123613
2019独角兽企业重金招聘Python工程师标准>>>最近刚刚开始研究爬虫，身为小白的我不知道应该从何处下手，网上查了查，发现主要的开源java爬虫有nutchapache/nutch·GitHub，Heritrixinternetarchive/heritrix3·GitHub和Crawler4jyasserg/crawler4j·GitHub，还有WebCollectorCrawlScript
Lucene+Heritrix 开发搜索引擎 iteye_4245 搜索引擎 lucene 互联网
摘要:根据搜索引擎原理，Heritrix从互联网上抓取网页,Lucene建立索引数据库,在索引数据库中搜索排序.阅读全文jwebee2007-05-2420:09发表评论
Heritrix源码分析(二) 配置文件order.xml介绍 nizaina_0 Heritrix
本博客属原创文章,欢迎转载！转载请务必注明出处:http://guoyunsky.iteye.com/blog/613412本博客已迁移到本人独立博客:http://www.yun5u.com/order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知道Heritrix竟然有如此灵活的运用,
Web爬虫Heritrix的安装和配置 Rayping 爬虫爬虫人工智能
Web爬虫Heritrix的安装和配置2010-10-2720:00:01|分类：Web搜索|字号订阅1、将得到的heritrix-1.14.4.zip压缩包直接解压缩到某一目录，我选择的是F:\Heritrix。2、然后，将F:\Heritrix目录中的heritrix-1.14.4.jar文件解压缩，把profiles\default下的两个文件order.xml和seeds.txt复制到F:
开源爬虫: Heritrix 3.1 Windows 上安装/使用 xiaomin_____ java
目前Heritrix的最新版本是3.1.0（2011-10-21发布）http://blog.sina.com.cn/s/blog_5f54f0be0101hcy8.html讲了1.14.4版本的安装和使用http://blog.sina.com.cn/s/blog_5f54f0be0101hcyd.html讲了如何扩展1.14.4版本其中的模块本文讲如何安装和使用Heritrix最新的3.1.0
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

Heritrix 3.1.0 源码解析（五）

你可能感兴趣的:(Heritrix)