lsh2366254

Heritrix配置及扩展

二、Heritrix功能概要
Heritrix做为一个爬虫框架，它抽像并实现了一组爬虫的基础组件，不同类型的使用者可以替换不同的组件来实现期望的功能，如最大利用带去镜像站点、集中搜索特定主题、对已爬过的网页持续更新等，甚至可以加入不同的协议。

1．Heritrix的主要组件
概括的说，herittrix有三大组件：
范围组件（Scope）：范围组件是一组DecideRule对象按指定先后顺序组装起来的决策链，边界组件通过它来决定将哪些/个URI放入爬取调度队列；
边界组件（Frontier）：边界组件通过范围组件或一组范围组件跟踪哪些URI将被爬取收集，以及将已经爬取的URI页面内的外链（outlinks）再次放入爬取调度队列，并将已经爬取过的URI剔除。
爬取组件(FetchChain)：爬取组件是从网络上获取资源的关键组件，它包含了若干Processor对象，获取URI内容、分析外链，并将结果传给边界组件，实现递归爬取。

除了上述三大组件以外，Heritrix还有WEB管理、统计信息收集、定时备份、性能配置管理、增量更新等组件或小组件。

2．Heritrix的主要执行流程
上文说过，heritrix爬取过程是一个递归过程，整个过程主要有以下同个步骤：
从待爬取队列中获取一个URI
爬取URI内容
分析URI外链、归档URI内容
分析URI的外链，将符合范围组件定义通过边界组件签定的URI重新加入队列
标记已经处理过的URI

3．Heritrix的任务配置
创建Heritrix爬取任务后，主导任务爬取过程的是一个叫crawler-beans.cxml的配置文件，它实际上的一个Spring管理bean的配置文件。下面是这个配置文件中一些bean的简要说明：

范围
在Heritrix中，范围（scope）可以由一组接近40个可配置的DecideRule组成决策链，以下所列是Heritrix的默认最小配置中的scope
org.archive.modules.deciderules.RejectDecideRule
ban掉所有,默认REJECT

org.archive.modules.deciderules.surt.SurtPrefixedDecideRule
通过Host白名单,决策由decision设定，默认ACCEPT

org.archive.modules.deciderules.TooManyHopsDecideRule
ban掉跃点大于指定值,默认REJECT

org.archive.modules.deciderules.TransclusionDecideRule
通过所有嵌入链接（嵌入深度小于设定），,默认ACCEPT

org.archive.modules.deciderules.surt.SurtPrefixedDecideRule
通过Host，指定黑,决策由decision设定，默认REJECT

org.archive.modules.deciderules.MatchesFilePatternDecideRule
通过资源名，指定黑/白名单,决策由decision设定

org.archive.modules.deciderules.PathologicalPathDecideRule
ban掉路径重复超过阈值的，如http://www.sina.com.cn/2/2/2/some.html

org.archive.modules.deciderules.TooManyPathSegmentsDecideRule
ban掉路径深度超过阈值的，如http://www.sina.com.cn/1/2/3/4/5/some.html

org.archive.modules.deciderules.PrerequisiteAcceptDecideRule
通过所有有先决条件的url，比如种子或种子的重定向,dns

org.archive.modules.deciderules.SchemeNotInSetDecideRule
ban掉不支持的协议

以上所列DecideRules只是Hertitrix提供的一小部分，但它已足以支持很多常见的爬取工作了。要注意的是，合的Reject和accept顺序是整个决策链正常工作的保证。再则，如果要爬取指定主题的页面，关键是对对应的DecideRules配置更详细的规则。

边界
org.archive.crawler.frontier.BdbFrontier
维护一个爬取任务的内部状态，包括：
总共发现了有多少URI
多少URI正在爬
已经爬了多少URI
URI的爬取先后顺序

org.archive.crawler.postprocessor.CandidatesProcessor
分析URI外链，将通过范围的URI再次加入到队列中。

org.archive.crawler.prefetch.CandidateScoper
通过前面的scope，判断一个抓取页面内的链接是否加入调度队列

org.archive.crawler.prefetch.FrontierPreparer
设置调度优先级，规范url，计算cost
FrontierPreparer有一个关键配置项preferenceDepthHops，它控制着爬取任务过程中，是采取深度优先，还是广度优先，默认-1是广度优先，0是深度优先，大于零的值，是从种子过来的第几层URI优先。
为避免个人理解错误，原文如下：

/**
     * Number of hops (of any sort) from a seed up to which a URI has higher
     * priority scheduling than any remaining seed. For example, if set to 1
     * items one hop (link, embed, redirect, etc.) away from a seed will be
     * scheduled with HIGH priority. If set to -1, no preferencing will occur,
     * and a breadth-first search with seeds processed before discovered links
     * will proceed. If set to zero, a purely depth-first search will proceed,
     * with all discovered links processed before remaining seeds. Seed
     * redirects are treated as one hop from a seed.
     */
org.archive.crawler.postprocessor.DispositionProcessor
更新server的robot信息，设置URL的调度时机

爬取链

org.archive.crawler.prefetch.Preselector
预先处理URL看其是否要继续处理,通过这个可以过滤一部分或者全部URL

org.archive.crawler.prefetch.PreconditionEnforcer
先处理一些先要处理的URL条件,这里主要是该URL的DNS解析
1 先查看该URL是否有先决条件URL要处理,如果有的话先将该URL的先决   条件URL放入调度器，而该URL将跳过PreconditionEnforcer处理器
2 如果以上该URL没有先决条件URL要处理,则运行以下环节:
    i)先验证该URL的schema,如果不是http或者https则退出该处理器
    ii)如果以上验证该shema是http或者https，则先验证该URL是否可以通   过爬虫协议，如果没有通过爬虫协议则退出本处理器，反之则验证该   URL自身是否是先决条件以及是否通过登录凭证，如果该URL自身不    是先决条件URL并且没有通过登录凭证则也退出本处理器

org.archive.modules.fetcher.FetchDNS
1 首先获取该URL的DNS名字，然后通过DNS名字从缓存中获取CrawlHost
2 验证该URL的DNS名字是否通过第四代IP命名，如果不通过则退出本处理器
3 如果以上通过，则开始获取DNS数据，同时记录开始获取以及成功获取时间，最后将DNS数据保存在本地文件(scratch文件)以及更新该URL状态以及该URL的CrawlHost的IP、时间等数据

org.archive.modules.fetcher.FetchHTTP
1 获取HTTP数据的前提是,该URL的schema为http或者https以及该URL 所属的DNS数据已经获取，如果两者不具备则跳出本处理器
2 如果以上通过，则统计这个处理器处理的URL个数，以及开始获取HTTP 内容

org.archive.modules.extractor.ExtractorHTTP
org.archive.modules.extractor.ExtractorHTML
org.archive.modules.extractor.ExtractorCSS
org.archive.modules.extractor.ExtractorJS
org.archive.modules.extractor.ExtractorSWF
这里主要是通过正则表达式从网页文本内容中抽取出URL,主要是 ExtractorHTML类
在URL抽取过程中，会用到LinksScoper 链接接范围验证处理器，主要验证该URL抽取出来的链接是否在范围
    1) 先验证该URL是否有先决条件URL要先处理,有的话先验证该先决条件URL是否在范围同时退出该处理器
    2）如果以上没有先决条件URL要先处理，则获取该URL抽取到的链接，然后循环验证每个链接是否在范围，不在范围则过滤掉

org.archive.modules.writer.WARCWriterProcessor
主要将从FetchHttp里获取的网页内容写入本机，以WARC格式
org.archive.modules.writer.MirrorWriterProcessor
主要将从FetchHttp里获取的网页内容写入本机，以原网站镜像方式

org.archive.modules.DispositionChain
分析URI信息，回传结果到边界组件，通过调度处理器,将URL放入调度中心,以便接下来可以抓取
1 先验证该URL是否有先决条件URL要先处理,有的话则将该先决条件URL 放入调度中心,同时退出该处理器
2 如果以上该URL没有先决条件URL要处理,则获取该URL抽取到的所有链接,循环将他们放入调度中心,以便下次可以抓取

4．Heritrix生死
上文讲了三大组件各自的功能和配置要点，要让Heritrix的抓取任务正确的跑起来，就需要Heritrix的管理中枢出场了。CrawlController可以说是Heritrix的大脑,在Heritrix中拥有无上的权利！借助它可以控制Heritrix的启动、暂停、停止,也定时进行数据统计、数据汇报和文件管理。
Controller作为上述组件的协调者，很多组件之间的互相访问都是通过Controller完成的。

org.archive.crawler.framework.CrawlLimitEnforcer
通过监听StatisticsTracker发出的StatSnapshotEvent事件，判断当前抓取任务的是否达到全局终止限制，并停止抓取任务的运行。

org.archive.crawler.framework.CheckpointService
可以设置抓取过程的备份还原点，通过更改<property name="checkpointIntervalMinutes" value="-1"/>设置定时备份间隔。

避免故障恢复后的重复抓取，可通过Frontier的recoveryLogEnabled=true，从日志文件"frontier.recover.gz"导入已抓取列表。

三、对Heritrix的扩展
Heritrix作为一个完善的web抓取框架，全站dump功能已经很完善，对于有害项目的应用，我们还要扩展/增强以下的功能：
1．增量更新

CrawlURI有一字段rescheduleTime用来指示Frontier该URI会再次被抓取的延时时间，Frontier在调度此URI的时候，会将有延时的URI放入StoredSortedMap<Long, CrawlURI> futureUris中，当从工作线程尝试从Frontier获取下一抓取URI时，达到定时时间的URI会被再次放入工作队列。

org.archive.crawler.postprocessor.ReschedulingProcessor对象可以配置在DispositionChain后，用以指示URI增量更新的延时时间。
但是更多的，ReschedulingProcessor只是我们实现增量更新的示例性代码，更多的增量更新逻辑，需要根据业务需要开发支持更多复杂规则的组件。

2．垂直抓取
从Heritrix的三大组件、抓取处理我们都已经看得出，Heritrix已经为支持垂直抓取做了很大努力。
对于复杂的垂直抓取规则，可以从scope的DecideRule和DispositionChain的Processor入手，Heritrix提供的DecideRule基本上都直接通过正则或变量表达式判断一个CrawlURI是否符合条件，组合条件的DecideRule需要定制。
对于明显的需要在某种页面终止深度抓取的要求，需要在DispositionChain上设置定制的Processor，适时的跳出递归处理链。

四、附注
1．Heritirx的基本运行参数
运行脚本heritrix -a admin:admin
访问https://localhost:8443，用户名跟密码就是以上输入的admin:admin

2．队列分配策略



Heritrix默认是将CrawlURI的Host作为该URI的队列名称，就是同一域名下的URI在同一个队列内，虽然这样做可以统一所有该域下的规则，但是由于一个队列同时只能在一个线程内活动，就会造成同一域名下的URI是串行抓取的。

HostnameQueueAssignmentPolicy

IPQueueAssignmentPolicy

AssignmentLevelSurtQueueAssignmentPolicy

3．种子的加载方式
直接载入
<bean id="seeds" class="org.archive.modules.seeds.TextSeedModule">
     <property name="textSource">
          <bean class="org.archive.spring.ConfigString">
               <property name="value">
                    <value>

                    </value>
               </property>
          </bean>
     </property>
     
     
</bean>

通过seeds.txt载入
<bean id="seeds" class="org.archive.modules.seeds.TextSeedModule">
<property name="textSource">
   <bean class="org.archive.spring.ConfigFile">
    <property name="path" value="seeds.txt" />
   </bean>
</property>
<property name='sourceTagSeeds' value='false'/>
<property name='blockAwaitingSeedLines' value='-1'/>
</bean>

通过ActionDirectory动态载入(注意是动态,你随时可以载入)
<bean class="org.archive.crawler.framework.ActionDirectory">
<property name="actionDir" value="action" />
<property name="initialDelaySeconds" value="10" />
<property name="delaySeconds" value="30" />
</bean>

实现SeedModule接口，完全自定义

4．在Prefetcher中取消robots.txt的限制
在Heritrix中，对robots.txt文件的处理是处于PreconditionEnforcer这个Processor中的。PreconditionEnforcer是一个Prefetcher，当处理时，总是需要考虑一下当前这个链接是否有什么先决条件要先被满足的，而对robots.txt的访问则正好是其中之一。在PreconditionEnforcer中，有一个private类型的方法，方法为：
private boolean considerRobotsPreconditions(CrawlURI curi)
该方法的含义为：在进行对参数所表示的链接的抓取前，看一下是否存在一个由robots.txt所决定的先决条件。很显然，如果对每个链接都有这样的处理。那么，很有可能导致整个抓取任务的失败。因此，需要对它进行调整。这个方法返回true时的含义为需要考虑robots.txt文件，返回false时则表示不需要考虑robots.txt文件，可以继续将链接传递给后面的处理器。所以，最简单的修改办法就是将这个方法整个注释掉，只留下一个false的返回值。

（十一）XML 文件解析以及工具实现(详解) HB0o0 Java基础 Java 工具类 xml java 开发语言
XML文件解析详解以及工具实现文章目录XML文件解析详解以及工具实现前言解析XML文档XML解析器与W3CXML的层次结构XML解析工具化工具化分析本地块与静态本地块”静“与”动“的分析抽象化XML解析类前言个人博客：XML——可扩展标记语言解析XML文档在编程的学习过程中，我们更注重用程序实现对XML的处理。事实上通过编程,我们既可以生成、修改、添加、删除XML文档及其数据内容，也可以通过编程实
公司自建电商系统对接Ariba PunchOut ----踩坑之路 bjshanxi2017
AribaNetwork是ariba公司开发的供应商采购平台。punchout功能对接数据传输基于cxml。主要是实现接口登录、购物车信息返回到airba系统，以及等订单功能。开发手册中有相应的技术接口要求及格式，主要是实现相应的接口格式。近期呢我们公司也正在准备将我们的电商系统通过punchout功能与Ariba进行对接，接下来我分享一下在运行过程中的踩坑之路：系统上线运行一段时间后，发现通过S
xml(1)------可扩展标记语言概念1 It_Zhang0Yang xml
xml(1)----eXtensiableMarkupLanguage(可扩展标记语言)xml这种文档格式,它与语言无关,与平台无关,与操作无关,在所有的环境下,都可以识别xml格式xml也称为:元语言(用于描述其他语法格式的一种语言)xml的作用:1、描述语法格式2、在不同的语言、不同的系统、不同的程序中传递数据3、它可以在程序中存储数据xml的语法标准是由一个联盟定制的:w3cxml文档中一些
axis1的手动配置 zjkilly Axis2
Axis简介1.什么是SOAPSOAP是一个基于XML的用于应用程序之间通信数据编码的传输协议。最初由微软和UserlandSoftware提出，随着不断地完善和改进，SOAP很快被业界广泛应用，目前完全发布版本是1.1。在其发展过程中，W3CXML标准工作小组积极促成SOAP成为一个真正的开放标准。在写作此文档之时，SOAP1.2草案已经发布，1.2对1.1中相对混乱的部分做了改进。SOAP被广
Heritrix3.1.0的使用 jiang617325814 java开源包
1.在cmd下面进入Heritrix的bin目录下输入heritrix-aadmin:admin，弹出新窗口，新窗口中运行heritrix2.浏览中输入https://localhost:8443/得到界面如下第一个输入框中写入任意Job名称，如s第二个输入框如果不写则默认存储在bin目录下的jobs文件夹下3.点击create后：4.点击"s"任务：crawler-beans.cxml是配置本次
Heritrix3.0教程使用入门(三) 配置文件crawler-beans.cxml介绍 iteye_1364 Heritrix
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-4.html可以说crawler-beans.cxml可以主导整个Heritrix的抓取.不同于Heritrix1.x版本的order.xml是,crawler-beans.cxml采用Spring来管理.里面的配置都是一个个bean.所以无论从配置上,耦合上,动态控制上,Heritr
爬虫初探（一）crawler4j的robots weixin_34123613
2019独角兽企业重金招聘Python工程师标准>>>最近刚刚开始研究爬虫，身为小白的我不知道应该从何处下手，网上查了查，发现主要的开源java爬虫有nutchapache/nutch·GitHub，Heritrixinternetarchive/heritrix3·GitHub和Crawler4jyasserg/crawler4j·GitHub，还有WebCollectorCrawlScript
CXML，XML 解析工具类（xml 转换bean,bean 转换xml）么么哒-one java-xml cxml jaxb xml java
这是小篇前段时间对第三方平台对接时，别人采用了CXML格式进行对接，当时用了Xsteam,XmlMapper都不能将xml字符串解析成javabean,故给大家写下此篇，里面还有一个坑，就是JAXB默认不解析xml字符串中的，以下是代码：/***cxml解析工具类**@ClassName:CxmlUtils*@authorruyu.tan*@date2018年8月17日上午9:24:03*@ver
网络爬虫heritrix 3.1 在Windows上的搭建与使用方法说明 hechenghai Java
本文中使用的heritrix是3.1.0版本的，下载地址是http://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/需要下载两个文件夹heritrix-3.1.0-dist.zip和heritrix-3.1.0-src.zip首先用eclipse建立工程Heritrix将heritrix-3.1.0-dist.zip
如何使用 XPath 表达式查询 XML web_gus xml
如何使用XPath表达式查询XML此示例阐释如何使用提供给XPathNavigator类的W3CXML路径语言(XPath)表达式查询XPathDocument。XPathNavigator类仅用于对文档进行只读XPath查询，而对于可扩展样式表语言转换(XSLT)处理，则由XslTransform类实现。对于XSLT，不需要创建XPathNavigator。注意：XPath是W3C的通用查询语言
inkscape 详解 Molly_Yuan unbuntu
什么是Inkscape？Inkscape是一款开放源代码的矢量图像编辑器，类似AdobeIllustrator、CorelDraw、Freehand或者XaraX。不同的是Inkscape使用ScalableVectorGraphics(SVG)——一种开放的基于W3CXML的标准，作为默认的文档格式。什么是矢量图？相对于诸如Photoshop或者Gimp这样的光栅(位图)图像编辑器，Inksca
SVG基本形状及样式设置 weixin_34245169
前面的话图形分为位图和矢量图。位图是基于颜色的描述，是由像素点组成的图像；而矢量图是基于数学矢量的描述，是由几何图元组成的图像，与分辨率无关。可缩放矢量图形，即SVG，是W3CXML的分支语言之一，用于标记可缩放的矢量图形。本文将详细介绍SVG基本形状及样式设置概述SVG是XML语言的一种形式，有点类似XHTML，它可以用来绘制矢量图形，可以通过定义必要的线和形状来创建一个图形，也可以修改已有的位
Eclipse中各种常用文件的注释与取消注释的快捷键 ispotu eclipse
Java文件：注释和取消注释的快捷键都是：CTRL+/或Shift+Ctrl+CJS文件：注释和取消注释的快捷键都是：CTRL+/或Shift+Ctrl+Cxml文件：注释：选中要注销的代码CTRL+SHIFT+/或选中代码按Shift+Ctrl+C取消注释：CTRL+SHIFT+\或Shift+Ctrl+Cjsp文件：html部分：注释：选中要注销的代码CTRL+SHIFT+/或（不需选中代码）
Qt读写xml格式字符串疯子Crazy Json_xml格式数据
转自：https://blog.csdn.net/lovebird_27/article/details/50205995Xml简介W3CXML教程XML是ExtensibleMarkupLanguage的缩写，即可扩展标记语言。它是一种用来创建的标记的标记语言。使用XML标记语言可以做到数据或数据结构在任何编程语言环境下的共享。XML被设计用来传输和存储数据。HTML被设计用来显示数据。XML解
WebMagic学习(一)之Hello world 枫晴maple
Java爬虫项目简介大型的：Nutchapache/nutch·GitHubapache下的开源爬虫程序，功能丰富，文档完整。有数据抓取解析以及存储的模块。适合做搜索引擎，分布式爬虫是其中一个功能。Heritrixinternetarchive/heritrix3·GitHub比较成熟的爬虫。经历过很多次更新，使用的人比较多，功能齐全，文档完整，网上的资料也多。有自己的web管理控制台，包含了一个
推荐几个github上优秀的java爬虫项目 LyonGo Github上优秀的项目
1.nutch地址：apache/nutch·GitHubapache下的开源爬虫程序，功能丰富，文档完整。有数据抓取解析以及存储的模块。2.Heritrix地址：internetarchive/heritrix3·GitHub很早就有了，经历过很多次更新，使用的人比较多，功能齐全，文档完整，网上的资料也多。有自己的web管理控制台，包含了一个HTTP服务器。操作者可以通过选择Crawler命令来
SQL Server利用XML找字符串相同部分五维思考 DataBase
DECLARE@aNVARCHAR(100)='01,02,04,05,07';DECLARE@bNVARCHAR(100)='01,03,04,05,06';WITH a1 AS(SELECT CONVERT(XML,''+REPLACE(@a,',','') +'')cxml ), aAS(SELECT v.value('.','varchar
Java爬虫框架调研 dejing6575 爬虫 java 数据库
Python中大的爬虫框架有scrapy（风格类似django），pyspider（国产python爬虫框架）。除了Python，Java中也有许多爬虫框架。nutchapache下的开源爬虫程序，功能丰富，文档完整，有数据抓取解析以及存储的模块。它的特点是规模大。heritrix比较成熟地址：internetarchive/heritrix3·GitHub很早就有了，经历过很多次更新，使用的人比
JSTL读取xml中文乱码解决 wallimn xml
阅读更多使用JSTL的xml标签，分析显示xml文件，遇到中文乱码问题。xml文件使用utf-8、jsp使用utf-8、html字符集设置为utf-8，按说应该不出现乱码。仔细分析，问题出现在c:import语句，为该语句指定正确的字符集，就不会出现乱码了。读取内容：test.cxml的内容如下：隔壁老王的博客，wallimnhttp://wallimn.iteye.com这是一段中文信息。
JSTL读取xml中文乱码解决 wallimn xml
阅读更多使用JSTL的xml标签，分析显示xml文件，遇到中文乱码问题。xml文件使用utf-8、jsp使用utf-8、html字符集设置为utf-8，按说应该不出现乱码。仔细分析，问题出现在c:import语句，为该语句指定正确的字符集，就不会出现乱码了。读取内容：test.cxml的内容如下：隔壁老王的博客，wallimnhttp://wallimn.iteye.com这是一段中文信息。
爬虫初探（一）crawler4j的robots lvzhongjian
最近刚刚开始研究爬虫，身为小白的我不知道应该从何处下手，网上查了查，发现主要的开源java爬虫有nutch apache/nutch·GitHub，Heritrix internetarchive/heritrix3·GitHub和Crawler4j yasserg/crawler4j·GitHub，还有WebCollectorCrawlScript/WebCollector·Gi
Heritrix3.3.0源码阅读 URI过滤规则 l294265421 源码 Heritrix 网络爬虫
在Heritrix3.3.0源码阅读crawler-beans.cxml中URI过滤规则的配置中，我们看到了Heritrix3.3.0配置的用于决定URI是否被接受的类。而本文的目的是，通过阅读源码，了解（1）一个URI处理类是怎样工作的（2）一系列URI处理类是如何配合工作的。首先，我们来解决第一个问题。（一）所有URI处理类都必须继承DecideRule抽象类：packageorg.archi
Eclipse 快捷键 eclipse
xml文件里怎么注释呢xml中 ctrl + shift + cxml中格式化Ctrl + A 在Ctrl + I elipse 中关闭breadcrumb 在导航工具栏里有个小图标（妹的浪费我时间）还有nivigator显示bin文件夹下的class字节码文件（nivagator右边的关于水平布局还是垂直布局里面有个文件过滤选项） Eclipse 中删除光标到行尾或行首
XML操作的再次封装，制作简化XML文件操作步骤的控件。文件操作
最近发现操作XML比较多，并且操作方式都差不多，也就是读、编、删的问题，所以对XML操作再次封装，做了一个ControllerXML.cs.dll，这样一来下次引入DLL，就可以省略去很多麻烦的问题，整体来讲还比较有用，但XML文档结构比较固定，耦合度还是比较高，不利于扩展，不过我对XML的大部分操作也没有那么复杂，暂且就这样吧：类名： CXML.ControllerXML 成员方法：pu
SQL2005对XML的处理 sql2005
1、记录到XML变量 declare @cxml xml set @cxml=(select * from zd_storeP for XML RAW('store'),ROOT('stores')) select @cxml 2、XML到记录集方法一：用OPENXML 90000条记录速度测试,22s,16s,16s declare
SQL2005对XML的处理 sql2005
1、记录到XML变量 declare @cxml xml set @cxml=(select * from zd_storeP for XML RAW('store'),ROOT('stores')) select @cxml 2、XML到记录集方法一：用OPENXML 90000条记录速度测试,22s,16s,16s declare
SQL2005的XML学习笔记 sql2005
lyfaraway笔记之 -------SQL2005对XML的处理 1、记录到XML变量 declare @cxml xml set @cxml=(select * from zd_storeP for XML RAW('store'),ROOT('stores')) select @cxml 2、XML到记录集方法一：用OPENXML
Heritrix3.3.0源码阅读 crawler-beans.cxml中URI过滤规则的配置 l294265421 源码 Heritrix 网络爬虫
--> --> --> --> --> --> --> --> -->
Heritrix 3.1.0 源码解析（二十五） Heritrix
Heritrix 3.1.0 源码解析（二十三）中我们分析了Heritrix3.1.0系统是怎样扩展HttpClient组件的HttpConnection连接对象和相应的管理接口HttpConnectionManager HttpConnection连接对象里面创建了SOCKET连接，但是还没用向输出流写数据，也没有从输入流读数据，这里面HttpClient组件是怎么实现的，Heritrix3
Heritrix 3.1.0 源码解析（二） Heritrix
上文Heritrix 3.1.0 源码解析（一）实际上是讲述Heritrix3.1.0在eclipse中的环境搭建，还属于对Heritrix3.1.0 源码解析的热身阶段，本文接着分析Heritrix 3.1.0的任务配置，Heritrix3.1.0版本与原来的Heritrix1.14.4版本很大的不同是任务配置文件从order.xml文件转到了crawler-beans.cxml文件，而cra
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

Heritrix配置及扩展

你可能感兴趣的:(Heritrix3,cxml)