heritrix3源码分析(outbound 和inbound)

Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
Berkeley DB JE版 jason成都数据库
一、BerkeleyDB的介绍（1）BerkeleyDB是一个嵌入式数据库，它适合于管理海量的、简单的数据。如Google使用其来保存账户信息，Heritrix用其来保存froniter.（2）key/value是BerkeleyDB用来管理数据的基础，每个key/value对代表一条记录。（3）BerkeleyDB在底层实现采用B树，可以看成能够存储大量数据的HashMap。（4）它是Oracl
Heritrix开源爬虫配置1.14.4和3.1 青峰祭坛 heritrix 爬虫开源 Heritrix
参考自：开源爬虫:Heritrix1.14.4安装/使用http://blog.sina.com.cn/s/blog_5f54f0be0101hcy8.html开源爬虫:Heritrix3.1Windows上安装/使用http://blog.sina.com.cn/s/blog_5f54f0be0101hcyt.htmlHeritrix是一个由java开发的、开源的网络爬虫，用户可以使用它来从网上
heritrix mysql_Heritrix使用小结有书 heritrix mysql
1.Heritrix简介Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为，另外，它还有一个命令行工具来供用户选择调用。Heritrix是由互联网档案馆和北欧国家图书馆联合规范化编写于2003年初。第一次正式发布是在2004年1月，并不断的被互联网档案馆和其他感兴趣的第三方改
Java爬虫技术框架之Heritrix框架详解
Heritrix是一个由Java开发的开源Web爬虫系统，用来获取完整的、精确的站点内容的深度复制，具有强大的可扩展性，运行开发者任意选择或扩展各个组件，实现特定的抓取逻辑。一、Heritrix介绍Heritrix采用了模块化的设计，用户可以在运行时选择要用的模块。它由核心类（coreclasses）和插件模块（pluggablemodules）构成。核心类可以配置，但不能被覆盖，插件模块可以由第
Heritrix Crawler vs. Nutch Crawler Fenng 爬虫数据库
在邮件列表中看到有人问Heritrix爬虫与Nutch爬虫的不同。搜索了一下，该项目的领导者是GordonMohr，Heritrix主要用在http://www.archive.org。基本定义描述：HeritrixistheInternetArchive’sopen-source,extensible,web-scale,archival-qualitywebcrawlerproject.没想到
Nutch、heritrix、crawler4j优缺点 jiao732 Crawlers
Nutch:主页：https://nutch.apache.org/index.htmlApacheNutch是一个高度可扩展的和可伸缩的开源网页爬虫软件项目。源于ApacheLuceneTM,项目多样化，目前由两个代码库组成，即：1.Nutch1.x：一个非常成熟的爬虫产品。1.x版本支持细粒度的配置，依赖于一个很好的分布式处理的ApacheHadoop数据结构。2.Nutch2.x：一个新兴的
关于heritrix安装配置时出现"必须限制口令文件读取访问权限"的解决方法 jiangfullll
最近开始写一个RSS聚合程序，需要爬虫支持，于是就整来heritrix，没想到，这东西还挺拽，费了老衲好几个小时来安装配置这个heritrix。最后经过不懈努力，终于起来了，具体步骤如下：你如果在网上找相关配置，大多数都是讲先修改conf/properties文件的用户名和密码以及修改jmxremote.password.template，然后将其改名复制到heritrix根目录下，接着就让你无辜
Heritrix的Modules界面不能改变选择项的问题 weixin_30455067
具体的原因分析见“Heritrix的Modules界面不能改变选择项的问题”原因：找相关的Options文件是在Modules相对路径下的，而Modules目录是在conf目录下。Classpath没有找到需要的文件目录。解决方法：在Eclipse里面设置conf为Classpath(在Eclipse的RunDialog中，Classpath标签Table，选中UserEntries，然后右边会有
heritrix 3.2.0 -- 环境搭建大齐zy 爬虫
heritrix作为一个比较经典的开源爬虫，写这篇文章目的是因为，3.X之后的heritrix的介绍以及配置的文章比较少了。heritrix3.x以后使用maven2配置jar包引用，但是总是有好多包没法从maven库下载。所以，这里讲的环境搭建直接使用了编译好的工程来做，heritrix-3.2.0-dist.tar.gz以及源码压缩包heritrix-3.2.0-src.tar.gz具体方法如
【Heritrix基础教程之2】Heritrix基本内容介绍 weixin_30487701
1、版本说明（1）最新版本：3.3.0（2）最新release版本：3.2.0（3）重要历史版本：1.14.43.1.0及之前的版本：http://sourceforge.net/projects/archive-crawler/files/3.2.0及之后的版本：http://archive.org/由于国情需要，后者无法访问，因此本blog研究的是1.14.4版本。2、官方材料source：h
我的Heritrix学习之路（一） wan353694124 Heritrix
在Windows平台下，先把Heritrix启动起来详细步骤如下：1、老规矩，开源的东西，先下载，亲测地址：http://nchc.dl.sourceforge.net/project/archive-crawler/archive-crawler%20%28heritrix%201.x%29/1.14.4/heritrix-1.14.4.zip2、将下载的heritrix-1.14.4.zip解
Heritrix的使用入门 systemuser Hadoop
10.3扩展和定制Heritrix在前面两节中，向读者介绍了Heritrix的启动、创建任务、抓取网页、组件结构。但是，读者应该也可以明显的看出，如果不用Heritrix抓取和分析网页的行为进行一定的控制，它是无法达到要求的。对Heritrix的行为进行控制，是要建立在对其架构充分了解的基础之上的，因此，本节的内容完全是基于上一节中所讨论的基础。10.3.1向Heritrix中添加自己的Extra
heritrix学习总结蓝翔招生办网络爬虫
1下载和解压从[url]http://crawler.archive.org/[/url]下载解压到本地E:\heritrix-1.14.32配置环境变量HERITRIX_HOME=E:\heritrix-1.14.3path后追加;%HERITRIX_HOME%\bin3配置heritrix拷贝E:\heritrix-1.14.3\conf\jmxremote.password.template
Heritrix3.1.0的使用 jiang617325814 java开源包
1.在cmd下面进入Heritrix的bin目录下输入heritrix-aadmin:admin，弹出新窗口，新窗口中运行heritrix2.浏览中输入https://localhost:8443/得到界面如下第一个输入框中写入任意Job名称，如s第二个输入框如果不写则默认存储在bin目录下的jobs文件夹下3.点击create后：4.点击"s"任务：crawler-beans.cxml是配置本次
Heritrix3.0 的安装，使用 jazwoo 搜索引擎
1、下载heritrix3.0或heritrix3.1，解压。运行cmd，进入到bin目录下（如笔者的目录：cdD:\heritrix-3.1.0\bin）。运行命令：heritrix-aadmin:admin，这里冒号前面admin是用户名，后面是密码，这样将会在另一个新建的窗口中运行heritrix程序。在浏览器地址栏输入https://localhost:8443，注意这里是https，端口
Heritrix iteye_14258 网络爬虫
Heritrix项目介绍Heritrix工程始于2003年初，IA的目的是开发一个特殊的爬虫，对网上的资源进行归档，建立网络数字图书馆。在过去的6年里，IA已经建立了400TB的数据。IA期望他们的crawler包含以下几种：宽带爬虫：能够以更高的带宽去站点爬。主题爬虫：集中于被选择的问题。持续爬虫：不仅仅爬更当前的网页还负责爬日后更新的网页。实验爬虫：对爬虫技术进行实验，以决定该爬什么，以及对不
Heritrix3.0教程使用入门(三) 配置文件crawler-beans.cxml介绍 iteye_1364 Heritrix
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-4.html可以说crawler-beans.cxml可以主导整个Heritrix的抓取.不同于Heritrix1.x版本的order.xml是,crawler-beans.cxml采用Spring来管理.里面的配置都是一个个bean.所以无论从配置上,耦合上,动态控制上,Heritr
Heritrix3.0教程使用入门(一) 下载安装与运行 iteye_1364 Heritrix
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-1.htmlHeritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.1.下载,下载地址:http://sour
Heritrix3.0教程使用教程(三) CrawlJob控制台界面(一) 大概介绍 iteye_1364 Heritrix
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-5.html我觉得Heritrix很直观的一点就是有控制台,但以前我忽略了这个功能,直接代码启动Heritrix,然后放在Tomcat里.后期才慢慢发现一个UI界面的价值.可以很方便的获知抓取情况,甚至完全在千里之外控制它的抓取.其实慢慢的发现很多开源框架都会有一个UI界面.我觉得这也
【Heritrix基础教程之1】在Eclipse中配置Heritrix apple01010105
一、新建项目并将Heritrix源码导入１、下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包，并解压，以后分别简称SRC包和ZIP包；２、在Eclipse下新建Java项目，取名Heritrix.1.14.4；３、复制SRC包下面src/java文件夹下org和st两个文件夹到项目中的src包下；４、复制SRC包下src下conf文件夹到项目根目
【Heritrix基础教程之3】Heritrix的基本架构 apple01010105 运维 java 测试
Heritrix可分为四大模块：1、控制器CrawlController2、待处理的uri列表Frontier3、线程池ToeThread4、各个步骤的处理器（1）Pre-fetchprocessingchain：主要处理DNS-lookup,robots.txt,认证，抓取范围检查等。（2）FetchProcessingchain:抓取处理器。对于每个协议，均有一个类作支持，如FetchHTTP
Heritrix3.0教程使用入门(二) 开始抓取沐枫L Heritrix3
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-2.html上一篇博客介绍了,Heritrix3.0的下载,安装以及启动,可以通过UI去配置,和控制抓取任务.这一篇博将讲述,如何在Heritrix上创建抓取任务(CrawlJob)并运行.首先创建抓取,本可以通过WEB界面来创建,但有时会出现一些莫名奇妙的问题,我这里通过手工创建的方
Heritrix3.0教程使用入门(一) 下载安装与运行沐枫L Heritrix3 jobs 任务浏览器 cmd ie web
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-1.htmlHeritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.1.下载,下载地址:http://sour
爬虫初探（一）crawler4j的robots weixin_34123613
2019独角兽企业重金招聘Python工程师标准>>>最近刚刚开始研究爬虫，身为小白的我不知道应该从何处下手，网上查了查，发现主要的开源java爬虫有nutchapache/nutch·GitHub，Heritrixinternetarchive/heritrix3·GitHub和Crawler4jyasserg/crawler4j·GitHub，还有WebCollectorCrawlScript
Lucene+Heritrix 开发搜索引擎 iteye_4245 搜索引擎 lucene 互联网
摘要:根据搜索引擎原理，Heritrix从互联网上抓取网页,Lucene建立索引数据库,在索引数据库中搜索排序.阅读全文jwebee2007-05-2420:09发表评论
Heritrix源码分析(二) 配置文件order.xml介绍 nizaina_0 Heritrix
本博客属原创文章,欢迎转载！转载请务必注明出处:http://guoyunsky.iteye.com/blog/613412本博客已迁移到本人独立博客:http://www.yun5u.com/order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知道Heritrix竟然有如此灵活的运用,
Web爬虫Heritrix的安装和配置 Rayping 爬虫爬虫人工智能
Web爬虫Heritrix的安装和配置2010-10-2720:00:01|分类：Web搜索|字号订阅1、将得到的heritrix-1.14.4.zip压缩包直接解压缩到某一目录，我选择的是F:\Heritrix。2、然后，将F:\Heritrix目录中的heritrix-1.14.4.jar文件解压缩，把profiles\default下的两个文件order.xml和seeds.txt复制到F:
开源爬虫: Heritrix 3.1 Windows 上安装/使用 xiaomin_____ java
目前Heritrix的最新版本是3.1.0（2011-10-21发布）http://blog.sina.com.cn/s/blog_5f54f0be0101hcy8.html讲了1.14.4版本的安装和使用http://blog.sina.com.cn/s/blog_5f54f0be0101hcyd.html讲了如何扩展1.14.4版本其中的模块本文讲如何安装和使用Heritrix最新的3.1.0
Heritrix安装与运行 s030702614 网络爬虫
一、Heritrix直接安装1、下载heritrix-1.14.4.zip、heritrix-1.14.4-src.zip，将得到的heritrix-1.14.4.zip压缩包直接解压缩到某一目录。如：F:\Heritrix2、然后，将F:\Heritrix目录中的heritrix-1.14.4.jar文件解压缩，把profiles\default下的两个文件order.xml和seeds.txt
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

heritrix3源码分析(outbound 和inbound)

你可能感兴趣的:(Heritrix)