jazywoo123

Heritrix1.14源码分析（2）配置文件order.xml介绍

order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知道Heritrix竟然有如此灵活的运用,如可以控制抓取速度,可以优化电脑性能,可以在某一次的抓取上继续抓取.当然整个order.xml里我也没有全部掌握,只知道大部分配置的作用,希望大家指点改正以及补充,谢谢！

<meta></meta> 代表着该抓取JOB的元素,相当于Html的meta

     Xml代码   
     
   
 <meta>  
    <name>myheritrix</name>                    <!-- Heritrix抓取JOB的名字,由用户输入,用来区分不同的抓取JOB,Heritrix没有默认值 -->  
    <description>my heritrix</description>  <!-- Heritrix抓取JOB的描述,由用户输入,用来描述该抓取JOB,Heritrix没有默认值-->  
    <operator>Admin</operator>                 <!--Heritrix抓取JOB的操作者,由用户输入,Heritrix没有默认值  -->  
    <organization></organization>               <!--Heritrix抓取JOB的操作者所属组织,由用户输入,Heritrix没有默认值,可以为空 -->  
    <audience></audience>                          <!--Heritrix抓取JOB的用户或客户,由用户输入,Heritrix没有默认值,可以为空 -->  
    <date>20090520051654</date>             <!--提交该Heritrix抓取JOB的时间,由系统生成 -->  

     Xml代码   
     
 </meta>

2.<controller></controller> 跟抓取有关的所有参数,由于内容较多,并且Heritrix也已将他们分成不同模块，所以这里我也将他们拆分来说明.

     Xml代码   
     
   
  <controller>  
     <string name="settings-directory">settings</string> <!-- Heritrix的顶级目录 -->  
     <string name="disk-path"></string><!-- order.xml所在目录,单个Heritrix实例的目录 -->  
     <string name="logs-path">logs</string><!-- 用于保存Heritrix的日志文件,可以是绝对路径,也可以是相对路径,相对路径是相对于disk-path-->  
     <string name="checkpoints-path">checkpoints</string><!-- 用于保存checkpoints(定点备份)文件的目录, 可以是绝对路径,也可以是相对路径,相对路径是相对于disk-path-->  
     <string name="state-path">state</string> <!-- 用于保存crawler-state文件的目录,,可以是绝对路径,也可以是相对路径,相对路径是相对于disk-path -->  
     <string name="scratch-path">scratch</string>  <!-- 用于保存网页内容临时文件的目录,,可以是绝对路径,也可以是相对路径,相对路径是相对于disk-path-->  
     <long name="max-bytes-download">0</long>   <!-- 最大下载字节数，当下载字节超出该值爬虫将停止下载。如果该值为0则表示没有限制-->  
     <long name="max-document-download">0</long>  <!-- 最大文档下载数，当下载文档超出该值时爬虫将停止下载。如果该值为0则表示没有限制-->  
     <long name="max-time-sec">0</long> <!-- 最大时间抓取(秒),如果抓取时间超过该值，则爬虫将停止抓取。如果该值为0则表示没有限制-->  
     <integer name="max-toe-threads">30</integer>  <!-- 最大线程数用于同时处理多个URI-->  
     <integer name="recorder-out-buffer-bytes">4096</integer> <!-- 每一个线程的输出缓冲区大小,也就是在内存里存放多大的字节数才写入到文件中-->  
     <integer name="recorder-in-buffer-bytes">65536</integer> <!-- 每一个线程的输入缓冲区大小,也就是在内存里存放多大的字节数才写入到文件中-->  
     <integer name="bdb-cache-percent">0</integer> <!--分配给DBB缓存堆的百分比,默认为0则表示没有其他要求(通常BDB是需要60%或者是最大值) -->  
 <newObject name="scope" class="org.archive.crawler.deciderules.DecidingScope"> <!-- 抓取范围，构造CrawlScope,等下拆分来说明-->  
 </newObject>  
 <map name="http-headers"> <!-- HTTP协议，当处理爬虫HTPTP协议时需要构造,等下拆分说明-->  
 </map>  
  <newObject name="robots-honoring-policy" class="org.archive.crawler.datamodel.RobotsHonoringPolicy"> <!--Robots.txt协议控制,等下拆分来说明 -->  
 </newObject>  
  <newObject name="frontier" class="org.archive.crawler.frontier.BdbFrontier"> <!-- Frontier 调度器,等下拆分来说明-- >  
 </newObject>  
 <map name="uri-canonicalization-rules"> <!-- URL规范化规则，URL规范化规则有序列表，规则适用于从上至下列出的顺序,等下拆分来说明-->  
 </map>  
 <map name="pre-fetch-processors"> <!--预先处理链，在抓取前需要从网络获取或配置相关参数,等下拆分来说明 -->  
 </map>  
 <map name="fetch-processors">  <!-- 获取链,等下拆分来说明 -->  
 </map>  
 <map name="extract-processors"> <!-- 抽取链,等下拆分来说明 -->  
 </map>  
 <map name="write-processors"> <!--写链,等下拆分来说明 -->  
 </map>  
 <map name="post-processors"> <!-- 请求链：清理URI和在URI范围内填充新的URI ,等下拆分来说明-->  
 </map>  
 <map name="loggers"> <!-- 统计跟踪链.统计跟踪模块，指定用于监视抓取和写日志，以及报告和提供信息给用户接口,等下拆分来说明-->  
 </map>  
 <newObject name="credential-store" class="org.archive.crawler.datamodel.CredentialStore"> <!--凭证存储,如登陆凭证,等下拆分来说明 -->  
  </newObject>  
  </controller>  

3.接下来拆分每个组件的配置文件一一进行说明，最后对Heritrix主要的配置也就是我们可以影响抓取的配置进行说明。

3.1：抓取范围<newObject name="scope" class="org.archive.crawler.deciderules.DecidingScope">

     Xml代码   
     
   
 <newObject name="scope" class="org.archive.crawler.deciderules.DecidingScope"><!-- 抓取范围，构造CrawlScope-->  
       <boolean name="enabled">false</boolean> <!-- 是否运行这个组件 -->  
       <string name="seedsfile">seeds.txt</string> <!--种子文件名-->  
       <boolean name="reread-seeds-on-config">true</boolean> <!-- 是否每一个配置发生变法都要引发重新读取原始种子文件 -->  
       <newObject name="decide-rules" class="org.archive.crawler.deciderules.DecideRuleSequence"> <!--抓取范围限定的规则,由于自己一直做的是垂直抓取,没有使用以及研究它 -->  
         <map name="rules"><!-- 不同的规则-->  
           <newObject name="rejectByDefault" class="org.archive.crawler.deciderules.RejectDecideRule"> <!-- -->  
           </newObject>  
           <newObject name="acceptIfSurtPrefixed" class="org.archive.crawler.deciderules.SurtPrefixedDecideRule"><!-- -->  
             <string name="decision">ACCEPT</string> <!-- -->  
             <string name="surts-source-file"></string> <!--用于推断SURT前缀的文件,文件里的任何文件将转换为所提供的SURT前缀,显示在行里的SURT前缀都会通过+开始 -->  
             <boolean name="seeds-as-surt-prefixes">true</boolean> <!--种子文件是否也应当解析成SURT前缀 -->  
             <string name="surts-dump-file"></string> <!--保存SURT前缀的文件，用于实际调试SURTS时 -->  
             <boolean name="also-check-via">false</boolean><!--是否也检查该CrawlURI中的via -->  
             <boolean name="rebuild-on-reconfig">true</boolean><!-- 当配置文件更改后,是否也跟着更改-->  
           </newObject>  
           <newObject name="rejectIfTooManyHops" class="org.archive.crawler.deciderules.TooManyHopsDecideRule"><!-- -->  
             <integer name="max-hops">20</integer><!--最大跃点数,也就是抓取深度 -->  
           </newObject>  
           <newObject name="acceptIfTranscluded" class="org.archive.crawler.deciderules.TransclusionDecideRule"><!-- -->  
             <integer name="max-trans-hops">3</integer><!--除去链接L，PathFromSeed的最大长度 -->  
             <integer name="max-speculative-hops">1</integer><!--抽取的链接X，可能是链接L或者嵌入式E，在JS里的最大个数，通过pathFromSeed判断 -->  
           </newObject>  
           <newObject name="rejectIfPathological" class="org.archive.crawler.deciderules.PathologicalPathDecideRule"><!-- -->  
             <integer name="max-repetitions">2</integer><!--一个URL相同目录段名最大重复次数，超过该值返回REJECT，如http://www.baidu.com/a/a/a/index.html ,其中/a出现三次，超过了2次，所以返回REJECT(拒绝)-->  
           </newObject>  
           <newObject name="rejectIfTooManyPathSegs" class="org.archive.crawler.deciderules.TooManyPathSegmentsDecideRule"><!-- -->  
             <integer name="max-path-depth">20</integer><!--URL中段的次数是否超过该值，超过返回REJET，段表示http://www.baidu.com/a/b,其中a和b表示一个段 -->  
           </newObject>  
           <newObject name="acceptIfPrerequisite" class="org.archive.crawler.deciderules.PrerequisiteAcceptDecideRule"><!-- -->  
           </newObject>  
         </map>  
       </newObject>  
     </newObject>  

3.2： HTTP协议<map name="http-headers">

     Xml代码   
     
   
 <map name="http-headers"><!-- HTTP协议，当处理爬虫HTPTP协议时需要构造 -->  
       <string name="user-agent">Mozilla/5.0 (compatible; heritrix/1.14.3 +http://127.0.0.1)</string><!-- 用户代理，这个值字段必须包含有效的URL，如此才可以用爬虫访问个人或者组织的网站 -->  
       <string name="from">guoyunsky@hotmail.com</string><!--联系人信息,该字段必须包含有效的email，来代表使用本爬虫的个人或组织 -->  
     </map>  

3.3：爬虫协议 <newObject name="robots-honoring-policy" class="org.archive.crawler.datamodel.RobotsHonoringPolicy">

     Xml代码   
     
   
 <newObject name="robots-honoring-policy" class="org.archive.crawler.datamodel.RobotsHonoringPolicy"><!--Robots.txt协议控制 -->  
       <string name="type">classic</string>         <!-- 爬虫协议类型，有classic,ignore,custom,most-favored,most-favored-set 5种类型 -->  
       <boolean name="masquerade">false</boolean>   <!-- 我们应当在当爬虫遵循所有它声明的规则时伪装另一个代理，唯一相关的类型是：most-favored和most-favored-set-->  
       <text name="custom-robots"></text>  <!-- 如果type是custom，则机器人自定义-->  
       <stringList name="user-agents"> <!-- 如果type是most-favored-set，代替的user-agents，这里列表多个 -->  
       </stringList>  
     </newObject>  

3.4：Frontier 调度器<newObject name="frontier" class="org.archive.crawler.frontier.BdbFrontier">

     Xml代码   
     
   
 <newObject name="frontier" class="org.archive.crawler.frontier.BdbFrontier"><!-- Frontier 调度器-->  
       <float name="delay-factor">4.0</float><!-- 从同一个服务器(host)获取需要等待的间隔时间,可以预防无节制的抓取一个网站.通常是用该值去乘以上一个url的抓取时间来表示为下一个url需要等待的时间 -->  
       <integer name="max-delay-ms">20000</integer><!-- 最大的等待时间,单位毫秒 -->  
       <integer name="min-delay-ms">2000</integer><!--  最小等待时间,单位毫秒-->  
       <integer name="respect-crawl-delay-up-to-secs">300</integer><!--当读取robots.txt时推迟抓取的时间，单位毫秒 -->  
       <integer name="max-retries">30</integer><!-- 已经尝试失败的URI的重新尝试次数,很多人在跑Heritrix的时候，发现只跑了30个URL就停止了,其实是一个URL都没成功，它这里重试了30次 -->  
       <long name="retry-delay-seconds">900</long><!--默认多长时间我们重新去抓取一个检索失败的URI -->  
       <integer name="preference-embed-hops">1</integer><!--嵌入或者重定向URI调度等级，例如，该值为1(默认也为1)，调度时将比普通的link等级高.如果设置为0，则和link一样 -->  
       <integer name="total-bandwidth-usage-KB-sec">0</integer><!--爬虫所允许的最大宽带平均数，实际的读取速度是不受此影响的，当爬虫使用的宽带接近极限时，它会阻碍新的URI去处理，0表示没有限制 -->  
       <integer name="max-per-host-bandwidth-usage-KB-sec">0</integer><!--爬虫允许的每个域名所使用的最大宽带数，实际的读取速度不会受此影响，当爬虫使用的宽带接近极限时，它会阻碍新的URI去处理，0表示没有限制 -->  
       <string name="queue-assignment-policy">org.archive.crawler.frontier.HostnameQueueAssignmentPolicy</string><!--定义如何去分配URI到各个队列,这个类是相同的host的url就属于同一个队列 -->  
       <string name="force-queue-assignment"></string><!--强制URI的队列名字， -->  
       <boolean name="pause-at-start">false</boolean><!-- 在URI被尝试前，当爬虫启动后是否暂停？这个操作可以在爬虫工作前核实或调整爬虫。默认为false -->  
       <boolean name="pause-at-finish">false</boolean><!-- 当爬虫结束时是否暂停，而不是立刻停止工作.这个操作可以在爬虫状态还是可用时，有机会去显示爬虫结果,并有可能去增加URI和调整setting，默认为false-->  
       <boolean name="source-tag-seeds">false</boolean><!-- 是否去标记通过种子抓取的uri作为种子的遗传，用source值代替.-->  
       <boolean name="recovery-log-enabled">true</boolean><!--设置为false表示禁用恢复日志写操作，为true时候表示你用checkpoint去恢复crawl销毁的数据 -->  
       <boolean name="hold-queues">true</boolean><!--当队列数量未达到时，是否不让其运行，达到了才运行。是否要去持久化一个创建的每个域名一个的URI工作队列直到他们需要一直繁忙(开始工作)。如果为false(默认值)，队列会在任何时间提供URI去抓取。如果为true，则队列一开始(还有收集的url)会处于不在活动中的状态,只有在Frontier需要另外一个队列使得所有线程繁忙的时候才会让一个新的队列出于活动状态. -->  
       <integer name="balance-replenish-amount">3000</integer><!--补充一定的数量去使得队列平衡，更大的数目则意味着更多的URI将在它们处于等待队列停用之前将被尝试 -->  
       <integer name="error-penalty-amount">100</integer><!-- 当队列中的一个URI处理失败时,需要另外处罚的数量.加速失活或问题队列，反应迟钝的网站完全退休。，默认为100-->  
       <long name="queue-total-budget">-1</long><!--单个队列所允许的活动的开支，队列超出部分将被重试或者不再抓取，默认为-1，则表示没有这个限制 -->  
       <string name="cost-policy">org.archive.crawler.frontier.ZeroCostAssignmentPolicy</string><!-- 用于计算每个URI成本，默认为UnitCostAssignmentPolicy则认为每个URI的成本为1-->  
       <long name="snooze-deactivate-ms">300000</long><!--任何snooze延迟都会影响队列不活动，允许其他队列有机会进入活动状态，通常设置为比在成功获取时暂停时间长，比连接失败短，默认为5分钟 -->  
       <integer name="target-ready-backlog">50</integer><!--准备积压队列的目标大小，这里多个队列将会进入准备状态即使线程不再等待.只有hold-queues为true才有效，默认为50 -->  
       <string name="uri-included-structure">org.archive.crawler.util.BdbUriUniqFilter</string><!-- -->  
       <boolean name="dump-pending-at-close">false</boolean><!-- -->  
     </newObject>  

3.5：URL规范化规则，主要用来规范化每个URL，用Heritrix默认的就好了，这里不做说明了，其实也是通过各种规则

3.6：预先处理链组件: <map name="pre-fetch-processors">

     Xml代码   
     
   
 <map name="pre-fetch-processors"> <!--预先处理链，在抓取前需要从网络获取或配置相关参数 -->  
       <newObject name="Preselector" class="org.archive.crawler.prefetch.Preselector"><!--该组件使用的类 -->  
         <boolean name="enabled">true</boolean><!--是否启用该组件 -->  
         <newObject name="Preselector#decide-rules" class="org.archive.crawler.deciderules.DecideRuleSequence"><!-- 该组件的规则,可以忽略不符合规则的URL不处理-->  
           <map name="rules"><!-- 该组件的规则-->  
           </map>  
         </newObject>  
         <boolean name="override-logger">false</boolean><!-- 如果启用则覆盖这个类的默认日志器，默认日志器将日志打印在控制台.覆盖的日志器将把所有日志发送到在日志目录下的以本类命名的日志文件中。在heritrix.properties中设置好日志等级和日志格式，这个属性在重启后知获取一次. -->  
         <boolean name="recheck-scope">true</boolean><!--是否需要在这一步重新检索Crawl Scope -->  
         <boolean name="block-all">false</boolean><!--指定所有的URIS(通常是由host给定)在这一步阻止 -->  
         <string name="block-by-regexp"></string><!-- 指定允许所有在这里匹配这个正则表达式的则阻止-->  
         <string name="allow-by-regexp"></string><!-- 指定允许在这里所有匹配正则表达式的则允许,会对每个url都进行判断-->  
       </newObject>  
       <newObject name="Preprocessor" class="org.archive.crawler.prefetch.PreconditionEnforcer"><!-- -->  
         <boolean name="enabled">true</boolean><!-- -->  
         <newObject name="Preprocessor#decide-rules" class="org.archive.crawler.deciderules.DecideRuleSequence"><!-- -->  
           <map name="rules"><!-- -->  
           </map>  
         </newObject>  
         <integer name="ip-validity-duration-seconds">86400</integer><!--DNS有效的最低时间间隔(单位为秒)，如果记录的DNS TTL较大，那将被用来代替，设置为0则表示永久有效 -->  
         <integer name="robot-validity-duration-seconds">86400</integer><!--提取robots.txt信息有效时间(单位为秒)，如果该设置为0则robots.txt信息永不过期 -->  
         <boolean name="calculate-robots-only">false</boolean><!--是否只计算一个URI的robots状态,没有任何实际应用的除外.如果该值为true，排除的url只将记录在crawl.log,但仍将抓取，默认为false(false的话，排除的url是不应该被抓取的)-->  
       </newObject>  
     </map>  

3.7：获取组件:<map name="fetch-processors">

     Xml代码   
     
   
 <map name="fetch-processors">  <!-- 获取链 -->  
      <newObject name="DNS" class="org.archive.crawler.fetcher.FetchDNS"><!--获取DNS使用的类 -->  
        <boolean name="enabled">true</boolean><!-- 是否启用该组件 -->  
        <newObject name="DNS#decide-rules" class="org.archive.crawler.deciderules.DecideRuleSequence"><!--规则，用于忽略不符合规则的URL -->  
          <map name="rules">  
          </map>  
        </newObject>  
        <boolean name="accept-non-dns-resolves">false</boolean><!-- -->  
        <boolean name="digest-content">true</boolean><!-- 是否执行文摘(将DNS类容通过以下算法转换为指纹值,用于区别不同的DNS) -->  
        <string name="digest-algorithm">sha1</string><!-- 用什么算法转换指纹-->  
      </newObject>  
      <newObject name="HTTP" class="org.archive.crawler.fetcher.FetchHTTP"><!--获得HTTP使用的类 -->  
        <boolean name="enabled">true</boolean><!-- 是否启用该组件-->  
        <newObject name="HTTP#decide-rules" class="org.archive.crawler.deciderules.DecideRuleSequence"><!-- 规则，用于忽略不符合规则的URL -->  
          <map name="rules"><!-- -->  
          </map>  
        </newObject>  
        <newObject name="midfetch-decide-rules" class="org.archive.crawler.deciderules.DecideRuleSequence"><!-- 适用于中间抓取规则，在我们开始去下载网页前相应header.如果最后决定拒绝，在所有内容读取之前停止抓取-->  
          <map name="rules">  
          </map>  
        </newObject>  
        <integer name="timeout-seconds">1200</integer><!--如果抓取在规定时间内(秒)没有完成，即使它还正在处理中，也是放弃。设置为0则没有这个限制，但这里不推荐设置为0，因为线程会一直等到抓取结束 -->  
        <integer name="sotimeout-ms">20000</integer><!--如果一个Socket在规定时间内(毫秒)没有反应，则将放弃连接或者读取。这里不一定是在抓取期间立即放弃，会尝试重新连接和重新读取直到这个设置的时间到了.设置为0则没这个限制，但这里不推荐，因为Socket会无限期处理 -->  
        <integer name="fetch-bandwidth">0</integer><!--从一个服务器抓取数据最大速度(KB/秒),0表示没有限制 -->  
        <long name="max-length-bytes">0</long><!-- 最大抓取长度，超过这个长度将被截取，0表示没有限制-->  
        <boolean name="ignore-cookies">false</boolean><!--是否禁用cookie处理 -->  
        <boolean name="use-bdb-for-cookies">true</boolean><!-- 是否在BDB中保存Cookie-->  
        <string name="load-cookies-from-file"></string><!-- 预先载入cookie的来源文件路径-->  
        <string name="save-cookies-to-file"></string><!-- 当抓取结束，保存cookie的文件-->  
        <string name="trust-level">open</string><!--SSL证书信任等级，等级范围包括open(默认值，信任所有证书，包括过期，自签名，还有那些我们没有CA的)、loose(只信任自签名的证书)、normal(所有不包括自签名的证书)、strict(最严格的，证书必须有效并且DN必须匹配服务器名) -->  
        <stringList name="accept-headers"><!--在每个请求里接受完整的Header，如：Accept-Language: en -->  
        </stringList>  
        <string name="http-proxy-host"></string><!-- 代理IP设置，如果需要只能设置一个，配置这里可以使用代理IP去抓取-->  
        <string name="http-proxy-port"></string><!-- 代理端口设置，如果需要只能设置一个-->  
        <string name="default-encoding">GB2312</string><!--文件编码，如果没有在Http Header指定，将采用默认的ISO-8859-1 -->  
        <boolean name="digest-content">true</boolean><!-- 是否去执行一个正在运行中的要重试context-bodies的digest hash-->  
        <string name="digest-algorithm">sha1</string><!-- 去执行正在运行中的要重试context-bodies的digest hash的算法，如MS5,SHA1-->  
        <boolean name="send-if-modified-since">true</boolean><!--是否发送'If-Modified-Since' header，如果上次的Last-Modified抓取历史消息在URI历史中有效-->  
        <boolean name="send-if-none-match">true</boolean><!--是否发送'If-Node-Match' header，如果上次的Etag抓取历史信息在URI历史中有效 -->  
        <boolean name="send-connection-close">true</boolean><!-- 每次请求是否发送'Connection: close' header-->  
        <boolean name="send-referer">true</boolean><!--每次请求是否发送'Referer' header，'Referer' header包含crawler来自哪里，在目前发现的URI页面里。'Referer'通常记录在远程服务器上，可以协助网站管理员去找出爬虫抓取了哪些特定的区域。 -->  
        <boolean name="send-range">false</boolean><!--是否发送'Range' header当文档尺寸最大下载字节数限制。要有礼貌的道HTTP服务器并且发送'Range' header，说明你只是对前n个字节感兴趣。如果文档尺寸最大下载字节数大于0，在'206 Partial Content'相应状态里发送'Range' header，这样比只是截断超出下载字节数要好，不过很少的情况下发送'Range'，将会得到'416 Request Range Not Satisfiable'回应 -->  
        <string name="http-bind-address"></string><!--连接时使用本地IP地址和域名(绑定socket)，当没有指定时使用本地默认的地址 -->  
      </newObject>  
    </map>  

3.8：抽取组件<map name="extract-processors">

     Xml代码   
     
   
 <map name="extract-processors"> <!-- 抽取链 -->  
      <newObject name="ExtractorHTTP" class="org.archive.crawler.extractor.ExtractorHTTP"><!-- 抽取HTTP-->  
        <boolean name="enabled">true</boolean><!-- 是否启用该组件 -->  
        <newObject name="ExtractorHTTP#decide-rules" class="org.archive.crawler.deciderules.DecideRuleSequence"><!-- 规则，用于忽略不符合规则的URL -->  
          <map name="rules"><!-- -->  
          </map>  
        </newObject>  
      </newObject>  
      <newObject name="ExtractorHTML" class="org.archive.crawler.extractor.ExtractorHTML"><!-- 抽取HTML，主要的抽取类 -->  
        <boolean name="enabled">true</boolean><!-- 是否启用该组件 -->  
        <newObject name="ExtractorHTML#decide-rules" class="org.archive.crawler.deciderules.DecideRuleSequence"><!--  规则，用于忽略不符合规则的URL -->  
          <map name="rules"><!-- -->  
          </map>  
        </newObject>  
        <boolean name="extract-javascript">true</boolean><!-- 是否在Javascript里找链接，默认为true -->  
        <boolean name="treat-frames-as-embed-links">true</boolean><!-- 如果以上值为true,FRAME/IFRAME被当做嵌入式链接(像图片，hop-type是E)，否则就把他们当做导航链接，默认为true -->  
        <boolean name="ignore-form-action-urls">true</boolean><!-- 如果为true,uri中再HTML FORM中出现的Action属性将被忽略，默认为false -->  
        <boolean name="extract-only-form-gets">true</boolean><!--  如果为true，则uri中HTML FORM中只抽取Method为get的URL，Method为post的将被忽略-->  
        <boolean name="extract-value-attributes">true</boolean><!--如果为true，则抽取那些像链接的字符串，这种操作可能会抽取到有效的和无效的链接，默认为true-->  
        <boolean name="ignore-unexpected-html">true</boolean><!--  如果为true，则那种特殊格式的URL，比如图片将不会被扫描，默认为true -->  
      </newObject>  
    </map>  

3.9：写组件<map name="write-processors">

     Xml代码   
     
   
 <map name="write-processors"> <!--写链 -->  
       <newObject name="Archiver" class="com.steel.heritrix.extend.MyWriterMirror"><!--这里我是用的自己的写链-->  
         <boolean name="enabled">true</boolean><!-- 是否启用该组件 -->  
         <newObject name="Archiver#decide-rules" class="org.archive.crawler.deciderules.DecideRuleSequence"><!--规则，用于忽略不符合规则的URL -->  
           <map name="rules"><!-- -->  
           </map>  
         </newObject>  
         <boolean name="case-sensitive">true</boolean> <!--true表示操作系统区分大小写 -->  
         <stringList name="character-map" /> <!--这是一个键值对组，用value代替key.-->  
         <stringList name="content-type-map" /> <!--这是一个键值对组,用value代替key -->  
         <string name="directory-file">index.html</string> <!-- 如果给定的URL不是明确的HTML，则从这个URL去获取-->  
         <string name="dot-begin">%2E</string> <!--如果一个段以.开头，则用这个值替换它。 -->  
         <string name="dot-end">.</string> <!--如果一个目录以.结尾，则用这个值替换它.所有的操作系统出了Windows,.是建议使用的.但Windws,%%2E才是建议的 -->  
         <stringList name="host-map" /> <!--这是一个键值对组,如果一个host名字里匹配该key，则用value值替换它。当一个host使用多个name时这个可以保持一致性，如：[12.34.56.78 www42.foo.com] -->  
         <boolean name="host-directory">true</boolean> <!--是否创建在url在host命名中的子目录.如www.baidu.com创建www.baidu.com这个目录，而www.baidu.com/zhidao,则在www.baidu.com目录后面再创建知道这个子目录 -->  
         <string name="path">mirror</string> <!-- 用于下载html文件的头目录-->  
         <integer name="max-path-length">1023</integer> <!--文件系统路径最大长度 -->  
         <integer name="max-segment-length">255</integer> <!-- 文件系统路径中段路径的最大长度-->  
         <boolean name="port-directory">false</boolean> <!--在url中是否创建一个以port命名的子目录 -->  
         <boolean name="suffix-at-end">true</boolean> <!--如果为true，则后缀放在url中查询段的后面.如果为false则放在前面 -->  
         <string name="too-long-directory">LONG</string> <!--如果url中目录都超过或者接近超过文件系统最大长度，超过部分它们都将用这个代替. -->  
         <stringList name="underscore-set" /> <!--如果一个目录名在列表里忽略大小写，那么_将放在它前面.所有的文件系统除了Windows，这个是不需要的.Windows里需要注意的是：[com1 com2 com3 com4 com5 com6 com7 com8 com9 lpt1 lpt2 lpt3 lpt4 lpt5 lpt6 lpt7 lpt8 lpt9                                            con nul prn] -->  
       </newObject>  
     </map>  

3.10：请求链组件<map name="post-processors">里面可以配置自己的调度器

     Xml代码   
     
   
 <map name="post-processors"> <!-- 请求链：清理URI和在URI范围内填充新的URI -->  
       <newObject name="Updater" class="org.archive.crawler.postprocessor.CrawlStateUpdater"><!-- -->  
         <boolean name="enabled">true</boolean><!-- -->  
         <newObject name="Updater#decide-rules" class="org.archive.crawler.deciderules.DecideRuleSequence"><!-- -->  
           <map name="rules"><!-- -->  
           </map>  
         </newObject>  
       </newObject>  
       <newObject name="LinksScoper" class="org.archive.crawler.postprocessor.LinksScoper"><!-- -->  
         <boolean name="enabled">true</boolean><!-- -->  
         <newObject name="LinksScoper#decide-rules" class="org.archive.crawler.deciderules.DecideRuleSequence"><!-- -->  
           <map name="rules">  
           </map>  
         </newObject>  
         <boolean name="override-logger">false</boolean><!-- 如果启用则覆盖这个类的默认日志器，默认日志器将日志打印在控制台.覆盖的日志器将把所有日志发送到  
         在日志目录下的以本类命名的日志文件中。在heritrix.properties中设置好日志等级和日志格式，这个属性在重启后知获取一次. -->  
         <boolean name="seed-redirects-new-seed">true</boolean><!-- 如果为true,任何种子重定向的URL，同样当做一个种子对待 -->  
         <integer name="preference-depth-hops">-1</integer><!-- 种子重定向url hop等级设置.-->  
         <newObject name="scope-rejected-url-rules" class="org.archive.crawler.deciderules.DecideRuleSequence"><!-- -->  
           <map name="rules">  
           </map>  
         </newObject>  
       </newObject>  
       <newObject name="Scheduler" class="com.steel.heritrix.extend.MyFrontierScheduler"><!-- 我自己的调度器 -->  
         <boolean name="enabled">true</boolean><!-- -->  
         <newObject name="Scheduler#decide-rules" class="org.archive.crawler.deciderules.DecideRuleSequence"><!-- -->  
           <map name="rules"><!-- -->  
           </map>  
         </newObject>  
       </newObject>  
     </map>  

3.11：统计跟踪链组件<map name="loggers">

     Xml代码   
     
   
 <map name="loggers"> <!-- 统计跟踪链.统计跟踪模块，指定用于监视抓取和写日志，以及报告和提供信息给用户接口-->  
       <newObject name="crawl-statistics" class="org.archive.crawler.admin.StatisticsTracker"><!--统计类 -->  
         <integer name="interval-seconds">20</integer><!--写日志消息的时间间隔(秒) -->  
       </newObject>  
     </map>  

你可能感兴趣的:(Heritrix1.14源码分析（2）配置文件order.xml介绍)

Java8使用stream实现list中对象属性的合并（去重并求和） yellowatumn JAVA linq java c#
前言需要对一个List中的对象进行唯一值属性去重，属性求和，对象假设为BillsNums，有id、nums、sums三个属性，其中id表示唯一值，需要nums与sums进行求和，并最后保持一份。例如说：(“s1”,1,1)，(“s1”,2,3)，(“s2”,4,4)，求和并去重的话，就是(“s1”,3,4)，(“s2”,4,4)对象与属性123456789101112131415161718192
非阻塞 IO 和异步 IO yellowatumn JAVA 网络 java 服务器
本文将介绍非阻塞IO和异步IO，也就是大家耳熟能详的NIO和AIO。很多初学者可能分不清楚异步和非阻塞的区别，只是在各种场合能听到异步非阻塞这个词。本文会先介绍并演示阻塞模式，然后引入非阻塞模式来对阻塞模式进行优化，最后再介绍JDK7引入的异步IO，由于网上关于异步IO的介绍相对较少，所以这部分内容我会介绍得具体一些。希望看完本文，读者可以对非阻塞IO和异步IO的迷雾看得更清晰些，或者为初学者解开
windows又一激活方式——TSforge windows
近日，技术团队MASSGRAVE公开宣布攻破微软SPP系统，并命名该漏洞为TSforge。MASSGRAVE团队宣称可激活自Windows7以来的所有Windows版本（包括Vista后续系统）及Office2013后的全系列产品（含附加组件），且支持离线激活本来windows激活方式就已经够多了的，现在又多出了一种，现在让我想想该用哪一种呢（坏笑）MASSGRAVE团队还公开了破解细节，感兴趣的
YashanDB事务管理数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%A6%82%E5%BF%B5%...事务结构YashanDB事务由一条或多条SQL语句（DML或DDL）以及一条特殊的SETTRANSACTION语句组成。事务可以分为如下两类：一条或多条DML语句的组合，一起构成对数据库的原子修改一条DDL语句以从账户A给账户
linux监控指定进程
在Linux系统中，监控指定进程是系统管理中常见的任务，尤其在需要追踪进程的性能表现、资源消耗或者故障排查时。可以使用多种工具和命令来完成这一任务，其中ps、top、htop是最常用的。下面将详细介绍如何使用这些工具来监控进程，并对每个步骤进行详细解释。1.获取进程ID（PID）首先，监控进程需要获取该进程的进程ID（PID）。PID是Linux系统中每个进程的唯一标识符。要获取指定进程的PID，
Node.js 中 fs 模块文件操作的应用教程猿小白klp node node.js 前端后端学习 css
Node.js是一个基于ChromeV8引擎的JavaScript运行环境，它可以让JavaScript代码在服务器端运行。在Node.js中，fs模块是用来处理文件系统操作的模块。通过fs模块，我们可以进行文件的读取、写入、删除等操作。本教程将介绍如何在Node.js中运用fs模块进行文件操作。1.安装Node.js首先，确保你的计算机上已经安装了Node.js。你可以从Node.js官网下载安
前言——25机械考研复试专业面试问题汇总机械复试超全流程攻略机械复试看这一个专栏就够用了！机械复试调剂英语自我介绍口语专业面试常见问题总结机械保研面试一个 00 后的码农 25机械专业面试问题汇总考研机械复试面试面试问题机械设计调剂保研
一、开篇寄语：在准备考研复试的关键时期，许多学弟学妹们往往会寻求各种资料来辅助复习，市面上也因此涌现了大量的“考研复试全流程全攻略”。然而，这些攻略往往存在以下问题：1、内容不完整性遗漏关键信息：许多攻略在描述考研复试流程时，未能全面覆盖所有关键环节，导致考生可能忽视某些重要的准备事项。浅尝辄止：即便某些攻略提到了复试的各个环节，但在具体细节和应对策略上往往一带而过，缺乏深度和实用性。2、缺乏深入
什么是 SurfaceView？其使用场景及示例有哪些？晚夜微雨问海棠呀信息可视化
SurfaceView核心解析1.基本概念定义：SurfaceView是Android中一种特殊的视图组件，提供独立于主UI线程的绘图表面（Surface），允许在子线程中进行高性能图形渲染。关键特性：双缓冲机制：减少绘制时的屏幕闪烁。独立Surface：与主窗口分离的绘图层，支持更灵活的刷新控制。低延迟渲染：适用于高频刷新场景（如游戏、视频）。2.核心优势（对比普通View）特性SurfaceV
Zabbix6.0使用自带模板(Docker by Zabbix agent 2)监控Docker 神奇的海马体 #4-Zabbix监控系统 docker zabbix java
注意：Zabbix6.0使用DockerbyZabbixagent2模板可直接监控Docker，步骤如下：1、修改docker.sock路径地址vim/etc/zabbix/zabbix_agent2.d/plugins.d/docker.confPlugins.Docker.Endpoint=unix:///var/run/docker.sock2、赋权chmod-R777/var/run/do
二进制部署ETCD单机版神奇的海马体 #ETCD etcd 数据库
文章目录一、签发etcd证书二、搭建etcd单机版三、测试ETCD服务一、签发etcd证书注意：在操作签发证书操作时一定要检查服务器时间、时区是否一致，会导致证书不可用！！1、创建etcd目录mkdir/etc/etcd/{ssl,data}-p2、安装签发证书工具wgethttps://pkg.cfssl.org/R1.2/cfssl_linux-amd64wgethttps://pkg.cfs
【Kafka】Kafka高性能解读解决方案工程师 kafka 分布式
Kafka的高性能源于其分布式架构设计、高效数据存储和优化算法。以下是Kafka高性能的核心原理及其实现细节：1.分布式架构设计1.1分区（Partitioning）并行处理：将Topic划分为多个Partition，每个Partition独立存储和处理数据，支持水平扩展。负载均衡：Producer和Consumer可以并行读写不同Partition，充分利用集群资源。1.2副本机制（Replic
独立开发者灵感日报：简化您生活的 IT 聊天机器人前端后花园前端热门开源项目生活机器人百度人工智能自动化 AI编程
独立开发者产品日刊，每日汇集ProductHunt热榜产品介绍，⚡️1句Slogan榨干产品灵魂，⚡️3秒get全球独立开发者的爆款灵感。关注小前，每日捕获全球产品灵感。这是日刊第28篇文章。FleetAICopilotSlogan：简化您生活的IT聊天机器人标签：人工智能·机器人·科技为什么值得推荐：FleetAICopilot是您新的AI驱动的IT助手，可简化设备管理并转换日常IT任务。它通过
计算机专业知识【子网掩码计算全解析：从小白到网络达人】一勺菠萝丶计算机专业知识网络服务器运维
在网络世界里，子网掩码是一个非常重要的概念，它就像是一把神奇的钥匙，帮助我们对网络进行合理的划分和管理。今天，我们就通过具体的例子，详细讲解如何根据子网数量和主机数量的要求来计算合适的子网掩码，让小白用户也能轻松理解。一、基础知识：C类网络默认子网掩码在IP地址分类体系中，C类网络是我们常见的一种网络类型。C类网络的默认子网掩码是255.255.255.0。那这个十进制的数字是怎么和二进制对应的呢
使用DeepSeek实现自动化编程：接口的补全与优化 Quz DeepSeek deepseek qt 人工智能 c++
目录简述1.通过写注释来实现接口补全1.1示例：编写接口注释1.2DeepSeek自动补全1.3验证结果（可行）2.通过注释优化代码2.1提示词2.2优化之前2.3DeepSeek优化后2.4代码解释2.5验证（差强人意）2.6进一步优化2.7优化方案（分优先级实现）2.7.1分批次更新+事件循环释放2.7.2定时器合并更新请求3.总结简述在软件开发的过程中，自动化编程可以显著提高开发效率、减少重
航电系统智能诊断深度实战：从硬件集成到DO-178C认证全流程解析（附工业级代码） Coderabo DeepSeek R1模型企业级应用航电系统智能诊断
航电系统智能故障诊断全栈技术解析——基于深度学习的工业级实现指南一、航电系统故障诊断技术体系1.1典型故障模式与特征classAvionicFault:FAULT_TYPES={101:'总线通信故障',102:'传感器漂移',
S32DS设置新人码农 tools S32DS
目录自定义模版修改默认文件注释自定义模版Window->Perferences；General->Keys，搜索template,找到C/C++ContentAssit添加自己的快捷键；C/C++->Editor->Templates，S32DS提供了部分模版，可以添加自己的模版；应用并保存设置后，回到编辑区，输入自定义模版名称，按快捷键即可自动添加自定义模版；修改默认文件注释Window->Pe
K8S下redis哨兵集群使用secret隐藏configmap内明文密码方案详解磐基Stack专业服务团队 Kubernetes kubernetes redis bootstrap
#作者：朱雷文章目录一、背景环境及方案说明1.1、环境说明1.2、方案一：使用配置文件设置密码1.3、方案二：使用args的命令行传参设置密码二、redissecretconfigmapdeployment参考2.1创建secret-redis.yaml参考2.2修改configmap配置参考2.2.1哨兵节点修改（每个节点都修改）2.2.2主从节点配置修改2.2.3使用命令行参数指定密码（本小节
Elasticsearch常用的查询条件凌涑数据库搜索引擎
目录1.MatchQuery2.TermQuery3.RangeQuery4.BoolQuery5.ExistsQuery6.PrefixQuery7.WildcardQuery8.RegexpQuery9.TermsQuery10.NestedQuery11.GeoDistanceQuery12.ScriptQuery13.FuzzyQuery14.IdsQuery15.MoreLikeThis
mysql多表联查并修改小布布的不 mysql 多表联查修改
参考此篇文章https://blog.csdn.net/joyous/article/details/53898972
LeetCode第43题_字符串相乘 @蓝莓果粒茶算法 leetcode linux 算法数据结构 c#unity 游戏程序
LeetCode第43题：字符串相乘题目描述给定两个以字符串形式表示的非负整数num1和num2，返回num1和num2的乘积，它们的乘积也表示为字符串形式。注意：不能使用任何内置的BigInteger库或直接将输入转换为整数。难度中等题目链接点击在LeetCode中查看题目示例示例1：输入：num1=“2”,num2=“3”输出：“6”示例2：输入：num1=“123”,num2=“456”输出
2023版idea ssh 远程linux docker 报错： Only key-pair ssh auth type is supported for docker connections. 小布布的不 idea docker intellij-idea ssh linux docker
2023版ideassh远程linuxdocker报错：Cannotconnect:java.lang.llegalArgumentException:Onlykey-pairsshauthtypeissupportedfordockerconnections.环境：idea2023.3.2centos7安装docker报错截图：正确操作步骤：idea选择连接方式ssh点“+”号依次填入信息，点击
Nginx 配置Kibana和Elasticsearch转发和认证「已注销」大数据与人工智能 nginx linux elasticsearch kibana
前言默认的，kibana地址端口为5601，elasticsearch地址端口为9200，有时候不希望展示端口信息。这个时候可以使用nginx完成转发。配置Kibana首先需要修改kibana的配置文件kibana.yml添加如下信息server.basePath:"/kibana"注意：空格然后添加locationlocation/kibana/{auth_basic"kibana";auth_
数据库面试（基础） modric9248 数据库数据库面试 sql
面试题一：用自己的话说一下什么是三范式？为什么要遵循三范式？实际开发中一定要严格遵循三范式吗？为什么？三范式是关系型数据库中的一种规范，包括第一范式、第二范式和第三范式：假设我们有一个学生选课表，包含以下字段：学号、姓名、课程名称、教师姓名。这个表可能如下：学号姓名课程名称教师姓名001张三数学李老师001张三英语王老师002李四数学李老师002李四英语王老师第一范式（1NF）：每一列都是不可分割
http+nginx 铁锅与大鹅 http nginx 网络协议
HTTP协议：超文本传输协议，HyperTexttransferprotocol（发明者：蒂姆.伯纳斯.李）1.超文本包含超链接(link)和各种多媒体元素的文本，这些超文本文件彼此相连，形成网状（web），因此又被称为网页（webpage）,这些链接使用URL表示，文本格式一般为HTML或HTM2.HTTP协议版本：HTTP0.9HTTP1.0HTTP1.1当前最流行，更多的请求方法，更精细的缓
前端面试题】—53道常见NodeJS基础面试题（附答案）秋の本名前端 node.js 前端
Node.js是一个不错的选择，它是基于JavaScript语法的一套服务器端（后端）语言。想要在企业中做得更好，开发者需要更多地了解它，并掌握它的有关用法。1、你了解Node.js吗？Node.js是一个基于Chromev8引擎的服务器端JavaScript运行环境；Node.js是一个事件驱动、非阻塞式I/O的模型，轻量而又高效；Node.js的包管理器npm是全球最大的开源库生态系统。2、N
前端大文件上传爱学习的前端er 前端
1.开场概述“大文件上传是前端开发中常见的需求，但由于文件体积较大，直接上传可能会遇到网络不稳定、服务器限制等问题。因此，通常需要采用分片上传、断点续传、并发控制等技术来优化上传体验”2.核心实现方案“我通常会采用以下方案来实现大文件上传：文件分片：将大文件切割成固定大小的块（例如1MB或5MB），通过Blob.slice()方法实现。分片上传：通过FormData将每个分片上传到服务器，使用ax
猎板讲堂：无刷电机调速控制的挑战与解决方案 lboyj 51单片机 PCB 嵌入式硬件
无刷电机调速控制是电机控制领域的基本要求，涉及到多种控制方式，包括电位器调速、PWM调速和分段速度调速。本文结合作者近20年的电机驱动开发经验，分享在高速无刷电机无级调速中遇到的问题和心得。电位器调速的问题与解决方案使用电位器调速时，调速精度受限于AD转换精度，最高为24.4RPM。硬件上的地线干扰等会引起AD输入的误差，导致转速控制不理想，尤其在高速电机上表现为不均匀的噪音。解决方案：通过在AD
S32DS 调用脚本实现Post-build处理斯蒂芬杜 S32DS S32DS 脚本找不到文件
作者：StephenDu免责声明：本文为个人学习笔记及总结，仅代表个人观点，尽可能保证内容准确性。所有文字均是自己码出来的，所有图片均为自己勾画（除部分来源于原始标准）。复制/转发请注明来源/作者。欢迎添加微信交流学习。文章目录1.前言2.方案2.1方案一2.2方案二2.3方案三本文是否适合你看？如果你有以下疑问，可以继续浏览：如何在S32DS里面调用自己的脚本？S32DS如何生成*.hex，*.
Neo4j父子节点向量检索：平衡精确嵌入和上下文保留的高效方案 jaioyfpo neo4j python
Neo4j父子节点向量检索：平衡精确嵌入和上下文保留的高效方案引言在自然语言处理和信息检索领域，如何在保持上下文的同时实现精确的文本嵌入一直是一个挑战。本文将介绍一种基于Neo4j图数据库的创新解决方案，通过父子节点结构和向量索引，实现了精确嵌入和上下文保留的平衡。这种方法不仅提高了检索的准确性，还保持了文本的语义完整性。主要内容1.方案概述该方案的核心思想是将文档分割成较大的"父"块和较小的"子
介绍 TensorFlow 的基本概念和使用场景。 AC使者 github sqlite 开发语言自然语言处理
TensorFlow是一个由Google开发的开源机器学习框架，旨在让开发者能够构建和训练各种深度学习模型。以下是TensorFlow的基本概念和使用场景：张量（Tensor）：在TensorFlow中，数据以张量的形式表示，可以理解为多维数组。张量是TensorFlow的基本数据单位，常用于存储训练数据和模型的参数。计算图（ComputationalGraph）：TensorFlow使用计算图来
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

Heritrix1.14源码分析（2） 配置文件order.xml介绍

你可能感兴趣的:(Heritrix1.14源码分析（2） 配置文件order.xml介绍)

Heritrix1.14源码分析（2）配置文件order.xml介绍

你可能感兴趣的:(Heritrix1.14源码分析（2）配置文件order.xml介绍)