Heritrix 3.1.0 源码解析（三十五）

本文接下来先分析CandidatesProcessor处理器，我们称之为候选处理器，该处理器的功能是对网页抽取的外链进行过滤，通过过滤的链接则添加到Frontier边界部件的BdbWorkQueue工作队列；CandidatesProcessor处理器对CrawlURI candidate对象的过滤功能是通过CandidateChain处理器链处理的，该处理器链包括两大处理器，分别为org.archive.crawler.prefetch.CandidateScoper处理器与org.archive.crawler.prefetch.FrontierPreparer处理器

CandidatesProcessor处理器的处理方法如下：

 /* (non-Javadoc)

     * @see org.archive.modules.Processor#innerProcess(org.archive.modules.CrawlURI)

     */

    @Override

    protected void innerProcess(final CrawlURI curi) throws InterruptedException {

        // Handle any prerequisites when S_DEFERRED for prereqs

        //处理先决条件

        if (curi.hasPrerequisiteUri() && curi.getFetchStatus() == S_DEFERRED) {

            CrawlURI prereq = curi.getPrerequisiteUri();

            prereq.setFullVia(curi); 

            sheetOverlaysManager.applyOverlaysTo(prereq);

            try {

                KeyedProperties.clearOverridesFrom(curi); 

                KeyedProperties.loadOverridesFrom(prereq);

                //Candidate处理器链

                getCandidateChain().process(prereq, null);

                

                if(prereq.getFetchStatus()>=0) {

                    //System.out.println("prereq:"+prereq.toString());

                    frontier.schedule(prereq);

                } else {

                    curi.setFetchStatus(S_PREREQUISITE_UNSCHEDULABLE_FAILURE);

                }

            } finally {

                KeyedProperties.clearOverridesFrom(prereq); 

                KeyedProperties.loadOverridesFrom(curi);

            }

            return;

        }



        // Don't consider candidate links of error pages

        //通常为先决条件

        if (curi.getFetchStatus() < 200 || curi.getFetchStatus() >= 400) {

            curi.getOutLinks().clear();

            return;

        }

        //遍历外链

        for (Link wref: curi.getOutLinks()) {

            

            CrawlURI candidate;

            try {

                //根据外链构造CrawlURI对象

                candidate = curi.createCrawlURI(curi.getBaseURI(),wref);

                // at least for duration of candidatechain, offer

                // access to full CrawlURI of via

                candidate.setFullVia(curi); 

            } catch (URIException e) {

                loggerModule.logUriError(e, curi.getUURI(), 

                        wref.getDestination().toString());

                continue;

            }



            sheetOverlaysManager.applyOverlaysTo(candidate);

            try {

                KeyedProperties.clearOverridesFrom(curi); 

                KeyedProperties.loadOverridesFrom(candidate);

                //从种子CrawlURI curi跳转过来的CrawlURI candidate设置为种子

                if(getSeedsRedirectNewSeeds() && curi.isSeed() 

                        && wref.getHopType() == Hop.REFER

                        && candidate.getHopCount() < SEEDS_REDIRECT_NEW_SEEDS_MAX_HOPS) {

                    candidate.setSeed(true);                     

                }

                getCandidateChain().process(candidate, null); 

                if(candidate.getFetchStatus()>=0) {

                    //seed

                    if(checkForSeedPromotion(candidate)) {

                        /*

                         * We want to guarantee crawling of seed version of

                         * CrawlURI even if same url has already been enqueued,

                         * see https://webarchive.jira.com/browse/HER-1891

                         */

                        candidate.setForceFetch(true);

                        //System.out.println("candidate addSeed:"+candidate.toString());

                        getSeeds().addSeed(candidate);

                    } else {

                        //System.out.println("candidate:"+candidate.toString());

                        frontier.schedule(candidate);

                    }

                    //候选链接记录

                    curi.getOutCandidates().add(candidate);

                }

                

            } finally {

                KeyedProperties.clearOverridesFrom(candidate); 

                KeyedProperties.loadOverridesFrom(curi);

            }

        }

        curi.getOutLinks().clear();

    }

我在代码里面已经加了注释，该方法首先是判断当前CrawlURI curi对象是否存在先决条件，如果存在，则将先决条件进入CandidateChain处理器链，如果符合条件（prereq.getFetchStatus()>=0），则将该先决条件添加到Frontier边界部件的BdbWorkQueue工作队列

后面部分是遍历CrawlURI curi对象的外链，根据当前CrawlURI curi对象和外链链接构建CrawlURI candidate对象，然后同样进入CandidateChain处理器链，通过过滤的CrawlURI candidate对象同样添加到Frontier边界部件的BdbWorkQueue工作队列，最后清空外链

CrawlURI candidate对象是怎么创建的，调用当前CrawlURI curi对象的CrawlURI createCrawlURI(UURI baseUURI, Link link)方法

 /**

     * Utility method for creation of CandidateURIs found extracting

     * links from this CrawlURI.

     * @param baseUURI BaseUURI for <code>link</code>.

     * @param link Link to wrap CandidateURI in.

     * @return New candidateURI wrapper around <code>link</code>.

     * @throws URIException

     */

    public CrawlURI createCrawlURI(UURI baseUURI, Link link)

    throws URIException {

        UURI u = (link.getDestination() instanceof UURI)?

            (UURI)link.getDestination():

            UURIFactory.getInstance(baseUURI,

                link.getDestination().toString());

        CrawlURI newCaURI = new CrawlURI(u, 

                extendHopsPath(getPathFromSeed(),link.getHopType().getHopChar()),

                getUURI(), link.getContext());

        newCaURI.inheritFrom(this);

        return newCaURI;

    }

新的CrawlURI candidate对象的String pathFromSeed属性是由其父级CrawlURI curi对象的String pathFromSeed属性和当前链接的Hop hop属性构建出来的

/**

     * Extend a 'hopsPath' (pathFromSeed string of single-character hop-type symbols),

     * keeping the number of displayed hop-types under MAX_HOPS_DISPLAYED. For longer

     * hops paths, precede the string with a integer and '+', then the displayed 

     * hops. 

     * 

     * @param pathFromSeed

     * @param hopChar

     * @return

     */

    public static String extendHopsPath(String pathFromSeed, char hopChar) {

        if(pathFromSeed.length()<MAX_HOPS_DISPLAYED) {

            return pathFromSeed + hopChar;

        }

        int plusIndex = pathFromSeed.indexOf('+');

        int prevOverflow = (plusIndex<0) ? 0 : Integer.parseInt(pathFromSeed.substring(0,plusIndex));

        return (prevOverflow+1)+"+"+pathFromSeed.substring(plusIndex+2)+hopChar; 

    }

里面的boolean checkForSeedPromotion(CrawlURI curi)方法检查CrawlURI curi对象是否seed种子（从种子URL跳转的）

/**

     * Check if the URI needs special 'discovered seed' treatment.

     * 

     * @param curi

     */

    protected boolean checkForSeedPromotion(CrawlURI curi) {

        if (curi.isSeed() && curi.getVia() != null

                && curi.flattenVia().length() > 0) {

            // The only way a seed can have a non-empty via is if it is the

            // result of a seed redirect. Returning true here schedules it 

            // via the seeds module, so it may affect scope and be logged 

            // as 'discovered' seed.

            //

            // This is a feature. This is handling for case where a seed

            // gets immediately redirected to another page. What we're doing is

            // treating the immediate redirect target as a seed.

            

            // And it needs rapid scheduling.

            //设置调度等级

            if (curi.getSchedulingDirective() == SchedulingConstants.NORMAL) {

                curi.setSchedulingDirective(SchedulingConstants.MEDIUM);

            }

            return true; 

        }

        return false;

    }

CandidateChain处理器链的第一个处理器为CandidateScoper，该处理器继承自Scoper类，对当前CrawlURI caUri对象的范围判断是通过调用DecideRule scope成员的DecideResult decisionFor(CrawlURI uri)方法返回的结果进项判断的，代码比较简单（关于DecideRule类，我在前面的文章已经有过分析，里面是通过迭代调用DecideRule类型集合的成员的方法，这里不再重复）

/**

     * Schedule the given {@link CrawlURI CrawlURI} with the Frontier.

     * @param caUri The CrawlURI to be scheduled.

     * @return true if CrawlURI was accepted by crawl scope, false

     * otherwise.

     */

    protected boolean isInScope(CrawlURI caUri) {

        boolean result = false;

        //System.out.println(this.getClass().getName()+":"+"scope name:"+scope.getClass().getName());

        DecideResult dr = scope.decisionFor(caUri);

        if (dr == DecideResult.ACCEPT) {

            result = true;

            if (fileLogger != null) {

                fileLogger.info("ACCEPT " + caUri); 

            }

        } else {

            outOfScope(caUri);

        }

        return result;

    }

CandidateChain处理器链的第二个处理器为FrontierPreparer，该处理器的功能为当前CrawlURI uri对象在进入边界部件Frontier之前设置相关策略（该处理器前面文章已解析，这里不再重复）

/**

     * Apply all configured policies to CrawlURI

     * 

     * @param curi CrawlURI

     */

    public void prepare(CrawlURI curi) {

        

        // set schedulingDirective

        curi.setSchedulingDirective(getSchedulingDirective(curi));

            

        // set canonicalized version

        curi.setCanonicalString(canonicalize(curi));

        

        // set queue key

        curi.setClassKey(getClassKey(curi));

        

        // set cost

        curi.setHolderCost(getCost(curi));

        

        // set URI precedence

        getUriPrecedencePolicy().uriScheduled(curi);





    }

接下来要分析的处理器为DispositionProcessor，我们可以称之为后置处理器，其主要功能为更新服务器信息和设置队列延迟时间

 @Override

    protected void innerProcess(CrawlURI puri) {

        CrawlURI curi = (CrawlURI)puri;

        

        // Tally per-server, per-host, per-frontier-class running totals

        CrawlServer server = serverCache.getServerFor(curi.getUURI());



        String scheme = curi.getUURI().getScheme().toLowerCase();

        if (scheme.equals("http") || scheme.equals("https") &&

                server != null) {

            // Update connection problems counter

            if(curi.getFetchStatus() == S_CONNECT_FAILED || curi.getFetchStatus() == S_CONNECT_LOST ) {

                server.incrementConsecutiveConnectionErrors();

            } else if (curi.getFetchStatus() > 0){

                server.resetConsecutiveConnectionErrors();

            }



            // Update robots info

            try {

                if ("/robots.txt".equals(curi.getUURI().getPath()) && curi.getFetchStatus() != S_DEFERRED) {

                    // shortcut retries  w/ DEEMED when ignore-all

                    if (metadata.getRobotsPolicy() instanceof IgnoreRobotsPolicy) {

                        if(curi.getFetchStatus() < 0 && curi.getFetchStatus()!=S_DEFERRED) {

                            // prevent the rest of the usual retries

                            curi.setFetchStatus(S_DEEMED_NOT_FOUND);

                        }

                    }

                    

                    // Update server with robots info

                    // NOTE: in some cases the curi's status can be changed here

                    server.updateRobots(curi);

                }

            }

            catch (URIException e) {

                logger.severe("Failed get path on " + curi.getUURI());

            }

        }

        

        // set politeness delay

        curi.setPolitenessDelay(politenessDelayFor(curi));

        

        // consider operator-set force-retire

        if (getForceRetire()) {

            curi.setForceRetire(true);

        }

        

        // TODO: set other disposition decisions

        // success, failure, retry(retry-delay)

    }

计算队列延迟时间的方法如下

/**

     * Update any scheduling structures with the new information in this

     * CrawlURI. Chiefly means make necessary arrangements for no other URIs at

     * the same host to be visited within the appropriate politeness window.

     * 

     * @param curi

     *            The CrawlURI

     * @return millisecond politeness delay

     */

    protected long politenessDelayFor(CrawlURI curi) {

        long durationToWait = 0;

        Map<String,Object> cdata = curi.getData();

        if (cdata.containsKey(A_FETCH_BEGAN_TIME)

                && cdata.containsKey(A_FETCH_COMPLETED_TIME)) {



            long completeTime = curi.getFetchCompletedTime();

            long durationTaken = (completeTime - curi.getFetchBeginTime());

            durationToWait = (long)(getDelayFactor() * durationTaken);



            long minDelay = getMinDelayMs();

            if (minDelay > durationToWait) {

                // wait at least the minimum

                durationToWait = minDelay;

            }



            long maxDelay = getMaxDelayMs();

            if (durationToWait > maxDelay) {

                // wait no more than the maximum

                durationToWait = maxDelay;

            }

            

            long respectThreshold = getRespectCrawlDelayUpToSeconds() * 1000;

            if (durationToWait<respectThreshold) {

                // may need to extend wait

                CrawlServer s = getServerCache().getServerFor(curi.getUURI());

                String ua = curi.getUserAgent();

                if (ua == null) {

                    ua = metadata.getUserAgent();

                }

                Robotstxt rep = s.getRobotstxt();

                if (rep != null) {

                    long crawlDelay = (long)(1000 * rep.getDirectivesFor(ua).getCrawlDelay());

                    crawlDelay = 

                        (crawlDelay > respectThreshold) 

                            ? respectThreshold 

                            : crawlDelay;

                    if (crawlDelay > durationToWait) {

                        // wait at least the directive crawl-delay

                        durationToWait = crawlDelay;

                    }

                }

            }

            

            long now = System.currentTimeMillis();

            int maxBandwidthKB = getMaxPerHostBandwidthUsageKbSec();

            if (maxBandwidthKB > 0) {

                // Enforce bandwidth limit

                ServerCache cache = this.getServerCache();

                CrawlHost host = cache.getHostFor(curi.getUURI());

                long minDurationToWait = host.getEarliestNextURIEmitTime()

                        - now;

                float maxBandwidth = maxBandwidthKB * 1.024F; // kilo factor

                long processedBytes = curi.getContentSize();

                host

                        .setEarliestNextURIEmitTime((long)(processedBytes / maxBandwidth)

                                + now);



                if (minDurationToWait > durationToWait) {

                    durationToWait = minDurationToWait;

                }

            }

        }

        return durationToWait;

    }

如果我们需要更改队列延迟时间，可以在配置文件crawler-beans.cxml里面设置相关参数

---------------------------------------------------------------------------

本系列Heritrix 3.1.0 源码解析系本人原创

转载请注明出处博客园刺猬的温驯

本文链接 http://www.cnblogs.com/chenying99/archive/2013/05/07/3065205.html

Heritrix网络爬虫与Tomcat服务器部署指南 Rubix-Kai
本文还有配套的精品资源，点击获取简介：Heritrix是一款功能强大的开源网络爬虫工具，由互联网档案馆开发，适用于大规模网页抓取。本文将指导读者如何下载、安装Heritrix，并在Tomcat服务器上进行部署和运行。内容包括Heritrix的基本概念、下载与安装步骤、集成到Eclipse的过程、配置Heritrix、构建与运行、部署到Tomcat以及如何访问Heritrix的Web界面。此外，还包
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
Berkeley DB JE版 jason成都数据库
一、BerkeleyDB的介绍（1）BerkeleyDB是一个嵌入式数据库，它适合于管理海量的、简单的数据。如Google使用其来保存账户信息，Heritrix用其来保存froniter.（2）key/value是BerkeleyDB用来管理数据的基础，每个key/value对代表一条记录。（3）BerkeleyDB在底层实现采用B树，可以看成能够存储大量数据的HashMap。（4）它是Oracl
Heritrix开源爬虫配置1.14.4和3.1 青峰祭坛 heritrix 爬虫开源 Heritrix
参考自：开源爬虫:Heritrix1.14.4安装/使用http://blog.sina.com.cn/s/blog_5f54f0be0101hcy8.html开源爬虫:Heritrix3.1Windows上安装/使用http://blog.sina.com.cn/s/blog_5f54f0be0101hcyt.htmlHeritrix是一个由java开发的、开源的网络爬虫，用户可以使用它来从网上
heritrix mysql_Heritrix使用小结有书 heritrix mysql
1.Heritrix简介Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为，另外，它还有一个命令行工具来供用户选择调用。Heritrix是由互联网档案馆和北欧国家图书馆联合规范化编写于2003年初。第一次正式发布是在2004年1月，并不断的被互联网档案馆和其他感兴趣的第三方改
Java爬虫技术框架之Heritrix框架详解
Heritrix是一个由Java开发的开源Web爬虫系统，用来获取完整的、精确的站点内容的深度复制，具有强大的可扩展性，运行开发者任意选择或扩展各个组件，实现特定的抓取逻辑。一、Heritrix介绍Heritrix采用了模块化的设计，用户可以在运行时选择要用的模块。它由核心类（coreclasses）和插件模块（pluggablemodules）构成。核心类可以配置，但不能被覆盖，插件模块可以由第
Heritrix Crawler vs. Nutch Crawler Fenng 爬虫数据库
在邮件列表中看到有人问Heritrix爬虫与Nutch爬虫的不同。搜索了一下，该项目的领导者是GordonMohr，Heritrix主要用在http://www.archive.org。基本定义描述：HeritrixistheInternetArchive’sopen-source,extensible,web-scale,archival-qualitywebcrawlerproject.没想到
Nutch、heritrix、crawler4j优缺点 jiao732 Crawlers
Nutch:主页：https://nutch.apache.org/index.htmlApacheNutch是一个高度可扩展的和可伸缩的开源网页爬虫软件项目。源于ApacheLuceneTM,项目多样化，目前由两个代码库组成，即：1.Nutch1.x：一个非常成熟的爬虫产品。1.x版本支持细粒度的配置，依赖于一个很好的分布式处理的ApacheHadoop数据结构。2.Nutch2.x：一个新兴的
关于heritrix安装配置时出现"必须限制口令文件读取访问权限"的解决方法 jiangfullll
最近开始写一个RSS聚合程序，需要爬虫支持，于是就整来heritrix，没想到，这东西还挺拽，费了老衲好几个小时来安装配置这个heritrix。最后经过不懈努力，终于起来了，具体步骤如下：你如果在网上找相关配置，大多数都是讲先修改conf/properties文件的用户名和密码以及修改jmxremote.password.template，然后将其改名复制到heritrix根目录下，接着就让你无辜
Heritrix的Modules界面不能改变选择项的问题 weixin_30455067
具体的原因分析见“Heritrix的Modules界面不能改变选择项的问题”原因：找相关的Options文件是在Modules相对路径下的，而Modules目录是在conf目录下。Classpath没有找到需要的文件目录。解决方法：在Eclipse里面设置conf为Classpath(在Eclipse的RunDialog中，Classpath标签Table，选中UserEntries，然后右边会有
heritrix 3.2.0 -- 环境搭建大齐zy 爬虫
heritrix作为一个比较经典的开源爬虫，写这篇文章目的是因为，3.X之后的heritrix的介绍以及配置的文章比较少了。heritrix3.x以后使用maven2配置jar包引用，但是总是有好多包没法从maven库下载。所以，这里讲的环境搭建直接使用了编译好的工程来做，heritrix-3.2.0-dist.tar.gz以及源码压缩包heritrix-3.2.0-src.tar.gz具体方法如
【Heritrix基础教程之2】Heritrix基本内容介绍 weixin_30487701
1、版本说明（1）最新版本：3.3.0（2）最新release版本：3.2.0（3）重要历史版本：1.14.43.1.0及之前的版本：http://sourceforge.net/projects/archive-crawler/files/3.2.0及之后的版本：http://archive.org/由于国情需要，后者无法访问，因此本blog研究的是1.14.4版本。2、官方材料source：h
我的Heritrix学习之路（一） wan353694124 Heritrix
在Windows平台下，先把Heritrix启动起来详细步骤如下：1、老规矩，开源的东西，先下载，亲测地址：http://nchc.dl.sourceforge.net/project/archive-crawler/archive-crawler%20%28heritrix%201.x%29/1.14.4/heritrix-1.14.4.zip2、将下载的heritrix-1.14.4.zip解
Heritrix的使用入门 systemuser Hadoop
10.3扩展和定制Heritrix在前面两节中，向读者介绍了Heritrix的启动、创建任务、抓取网页、组件结构。但是，读者应该也可以明显的看出，如果不用Heritrix抓取和分析网页的行为进行一定的控制，它是无法达到要求的。对Heritrix的行为进行控制，是要建立在对其架构充分了解的基础之上的，因此，本节的内容完全是基于上一节中所讨论的基础。10.3.1向Heritrix中添加自己的Extra
heritrix学习总结蓝翔招生办网络爬虫
1下载和解压从[url]http://crawler.archive.org/[/url]下载解压到本地E:\heritrix-1.14.32配置环境变量HERITRIX_HOME=E:\heritrix-1.14.3path后追加;%HERITRIX_HOME%\bin3配置heritrix拷贝E:\heritrix-1.14.3\conf\jmxremote.password.template
Heritrix3.1.0的使用 jiang617325814 java开源包
1.在cmd下面进入Heritrix的bin目录下输入heritrix-aadmin:admin，弹出新窗口，新窗口中运行heritrix2.浏览中输入https://localhost:8443/得到界面如下第一个输入框中写入任意Job名称，如s第二个输入框如果不写则默认存储在bin目录下的jobs文件夹下3.点击create后：4.点击"s"任务：crawler-beans.cxml是配置本次
Heritrix3.0 的安装，使用 jazwoo 搜索引擎
1、下载heritrix3.0或heritrix3.1，解压。运行cmd，进入到bin目录下（如笔者的目录：cdD:\heritrix-3.1.0\bin）。运行命令：heritrix-aadmin:admin，这里冒号前面admin是用户名，后面是密码，这样将会在另一个新建的窗口中运行heritrix程序。在浏览器地址栏输入https://localhost:8443，注意这里是https，端口
Heritrix iteye_14258 网络爬虫
Heritrix项目介绍Heritrix工程始于2003年初，IA的目的是开发一个特殊的爬虫，对网上的资源进行归档，建立网络数字图书馆。在过去的6年里，IA已经建立了400TB的数据。IA期望他们的crawler包含以下几种：宽带爬虫：能够以更高的带宽去站点爬。主题爬虫：集中于被选择的问题。持续爬虫：不仅仅爬更当前的网页还负责爬日后更新的网页。实验爬虫：对爬虫技术进行实验，以决定该爬什么，以及对不
Heritrix3.0教程使用入门(三) 配置文件crawler-beans.cxml介绍 iteye_1364 Heritrix
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-4.html可以说crawler-beans.cxml可以主导整个Heritrix的抓取.不同于Heritrix1.x版本的order.xml是,crawler-beans.cxml采用Spring来管理.里面的配置都是一个个bean.所以无论从配置上,耦合上,动态控制上,Heritr
Heritrix3.0教程使用入门(一) 下载安装与运行 iteye_1364 Heritrix
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-1.htmlHeritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.1.下载,下载地址:http://sour
Heritrix3.0教程使用教程(三) CrawlJob控制台界面(一) 大概介绍 iteye_1364 Heritrix
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-5.html我觉得Heritrix很直观的一点就是有控制台,但以前我忽略了这个功能,直接代码启动Heritrix,然后放在Tomcat里.后期才慢慢发现一个UI界面的价值.可以很方便的获知抓取情况,甚至完全在千里之外控制它的抓取.其实慢慢的发现很多开源框架都会有一个UI界面.我觉得这也
【Heritrix基础教程之1】在Eclipse中配置Heritrix apple01010105
一、新建项目并将Heritrix源码导入１、下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包，并解压，以后分别简称SRC包和ZIP包；２、在Eclipse下新建Java项目，取名Heritrix.1.14.4；３、复制SRC包下面src/java文件夹下org和st两个文件夹到项目中的src包下；４、复制SRC包下src下conf文件夹到项目根目
【Heritrix基础教程之3】Heritrix的基本架构 apple01010105 运维 java 测试
Heritrix可分为四大模块：1、控制器CrawlController2、待处理的uri列表Frontier3、线程池ToeThread4、各个步骤的处理器（1）Pre-fetchprocessingchain：主要处理DNS-lookup,robots.txt,认证，抓取范围检查等。（2）FetchProcessingchain:抓取处理器。对于每个协议，均有一个类作支持，如FetchHTTP
Heritrix3.0教程使用入门(二) 开始抓取沐枫L Heritrix3
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-2.html上一篇博客介绍了,Heritrix3.0的下载,安装以及启动,可以通过UI去配置,和控制抓取任务.这一篇博将讲述,如何在Heritrix上创建抓取任务(CrawlJob)并运行.首先创建抓取,本可以通过WEB界面来创建,但有时会出现一些莫名奇妙的问题,我这里通过手工创建的方
Heritrix3.0教程使用入门(一) 下载安装与运行沐枫L Heritrix3 jobs 任务浏览器 cmd ie web
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-1.htmlHeritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.1.下载,下载地址:http://sour
爬虫初探（一）crawler4j的robots weixin_34123613
2019独角兽企业重金招聘Python工程师标准>>>最近刚刚开始研究爬虫，身为小白的我不知道应该从何处下手，网上查了查，发现主要的开源java爬虫有nutchapache/nutch·GitHub，Heritrixinternetarchive/heritrix3·GitHub和Crawler4jyasserg/crawler4j·GitHub，还有WebCollectorCrawlScript
Lucene+Heritrix 开发搜索引擎 iteye_4245 搜索引擎 lucene 互联网
摘要:根据搜索引擎原理，Heritrix从互联网上抓取网页,Lucene建立索引数据库,在索引数据库中搜索排序.阅读全文jwebee2007-05-2420:09发表评论
Heritrix源码分析(二) 配置文件order.xml介绍 nizaina_0 Heritrix
本博客属原创文章,欢迎转载！转载请务必注明出处:http://guoyunsky.iteye.com/blog/613412本博客已迁移到本人独立博客:http://www.yun5u.com/order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知道Heritrix竟然有如此灵活的运用,
Web爬虫Heritrix的安装和配置 Rayping 爬虫爬虫人工智能
Web爬虫Heritrix的安装和配置2010-10-2720:00:01|分类：Web搜索|字号订阅1、将得到的heritrix-1.14.4.zip压缩包直接解压缩到某一目录，我选择的是F:\Heritrix。2、然后，将F:\Heritrix目录中的heritrix-1.14.4.jar文件解压缩，把profiles\default下的两个文件order.xml和seeds.txt复制到F:
开源爬虫: Heritrix 3.1 Windows 上安装/使用 xiaomin_____ java
目前Heritrix的最新版本是3.1.0（2011-10-21发布）http://blog.sina.com.cn/s/blog_5f54f0be0101hcy8.html讲了1.14.4版本的安装和使用http://blog.sina.com.cn/s/blog_5f54f0be0101hcyd.html讲了如何扩展1.14.4版本其中的模块本文讲如何安装和使用Heritrix最新的3.1.0
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

Heritrix 3.1.0 源码解析（三十五）

你可能感兴趣的:(Heritrix)