E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
heritrix
heritrix
使用经验
阅读更多1:createbasedonexistingjob会把order.xml这个文件copy进去,对于在setting中没有可更改的选项会和existingJob一样。2:对于上次说的那个seedreport中抛出的那个domain...异常(种子下载异常)过一段时间种子也许可以继续下载下来。3:如果把800多个种子一股脑的放到种子列表中的话会出现一系列我不明白的异常,而且有很多网页没有爬下
fffddgx
·
2009-04-30 16:00
XML
heritrix
使用经验
1:create based on existing job 会把order.xml这个文件copy进去,对于在setting中没有可更改的选项会和existing Job 一样。 2:对于上次说的那个 seed report 中抛出的那个domain...异常(种子下载异常)过一段时间种子也许可以继续下载下来。 3:如果把800多个种子一股脑的放到种子列表中的话会
fffddgx
·
2009-04-30 16:00
xml
Heritrix
与 Nutch 的区别
在邮件列表中看到有人问
Heritrix
爬虫与Nutch爬虫的不同。搜索了一下,该项目的领导者是GordonMohr,
Heritrix
主要用在http://www.archive.org。
ouy_vip
·
2009-04-30 11:00
html
.net
Web
启动
heritrix
(1)解压下载的
heritrix
-1.14.2.zip的压缩包,如将其放在E:\datasource\
heritrix
-1.14.2.
nhy520
·
2009-04-29 09:00
工作
浏览器
Security
<开发自己的搜索引擎-lucene2.0+
Heritrix
>
最近放弃了这本书。而选择这本书。理由有两个。1.它采用的lucene的包是2.0。2.毕竟是中国人写的。是针对中文的。
rorriM
·
2009-04-29 07:00
搜索引擎
Lucene
heritrix
多线程探索
阅读更多上午说的那个方法经过试验是不起作用的。按照上面说的配置后开始抓取网页,发现还是单线程在ACTIVE,查看了order.xml发现还是HostNamesQueueAssignmentPolicy。(后来我才知道原来是因为我是用baseoneexistingjob创建JOB的,这样对于setting中没有提供设定的属性会继承下来,由于QUEUEASSIGNMENTPOLICY这个属性在sett
fffddgx
·
2009-04-28 21:00
多线程
QQ
算法
Go
XML
heritrix
多线程探索
上午说的那个方法经过试验是不起作用的。 按照上面说的配置后开始抓取网页,发现还是单线程在ACTIVE,查看了order.xml发现还是HostNamesQueueAssignmentPolicy。(后来我才知道原来是因为我是用base one existing job创建JOB的,这样对于setting中没有提供设定的属性会继承下来,由于QUEUEASSIGNMENTPOLICY这个属性在set
fffddgx
·
2009-04-28 21:00
多线程
算法
xml
qq
Go
heritrix
扩展,多线程抓取网页
由于下载速度太慢,打算重载QueueAssignmentPolicy这个类,并重写它的getClassKey()这个方法,网上的代码有: public String getClassKey(CrawlController controller, CandidateURI cauri) { String uri = cauri.getUURI().toString();
fffddgx
·
2009-04-28 15:00
多线程
heritrix
扩展,多线程抓取网页
阅读更多由于下载速度太慢,打算重载QueueAssignmentPolicy这个类,并重写它的getClassKey()这个方法,网上的代码有:publicStringgetClassKey(CrawlControllercontroller,CandidateURIcauri){Stringuri=cauri.getUURI().toString();longhash=ELFHash(uri);
fffddgx
·
2009-04-28 15:00
多线程
heritrix
种子选取,与扩展抓取
阅读更多搜索引擎首先要用爬虫把网页爬下来,我用
Heritrix
,选择
Heritrix
的主要原因是因为手头有一本《
Heritrix
+lucene构建自己的搜索引擎》书,资料多一点困难就少一点吧。
fffddgx
·
2009-04-26 22:00
JSP
Java
搜索引擎
lucene
多线程
heritrix
种子选取,与扩展抓取
搜索引擎首先要用爬虫把网页爬下来,我用
Heritrix
,选择
Heritrix
的主要原因是因为手头有一本《
Heritrix
+lucene构建自己的搜索引擎》书,资料多一点困难就少一点吧。
fffddgx
·
2009-04-26 22:00
java
多线程
jsp
搜索引擎
Lucene
heritrix
种子选取,与扩展抓取
阅读更多搜索引擎首先要用爬虫把网页爬下来,我用
Heritrix
,选择
Heritrix
的主要原因是因为手头有一本《
Heritrix
+lucene构建自己的搜索引擎》书,资料多一点困难就少一点吧。
fffddgx
·
2009-04-26 22:00
JSP
Java
搜索引擎
lucene
多线程
heritrix
学习总结
1 下载 和 解压 从 http://crawler.archive.org/下载解压到本地 E:\
heritrix
-1.14.3 2 配置环境变量
HERITRIX
_HOME=E:\
heritrix
minzaipiao
·
2009-04-15 11:00
tomcat
浏览器
css
网络协议
Lucene
myeclipse7.0配置
heritrix
-1.14.3开发环境
在Eclipse/MyEclipse下启动
Heritrix
需要运行org.archive.crawler.Hetrix这个类,这个类有两种运行的模式:开发模式和非开发模式,程序中是通过在VMarguments
lsb_48
·
2009-04-13 15:48
MyEclipse
职场
Heritrix
环境
休闲
myeclipse7.0配置
heritrix
-1.14.3开发环境
在Eclipse/MyEclipse下启动
Heritrix
需要运行org.archive.crawler.Hetrix这个类,这个类有两种运行的模式:开发模式和非开发模式,程序中是通过在VMarguments
lsb_48
·
2009-04-13 15:48
职场
环境
休闲
垂直搜索
Eclipse下配置
heritrix
一、需求文件
heritrix
-1.41.3-src.zip
heritrix
-1.14.3.zip 在http://sourceforge.net/project/showfiles.php
sunhj000java
·
2009-04-09 16:00
eclipse
PHP
.net
深入学习
Heritrix
---解析Frontier(链接工厂)
关键字:heritrixfrontierFrontier是
Heritrix
最核心的组成部分之一,也是最复杂的组成部分.它主要功能是为处理链接的线程提供URL,并负责链接处理完成后的一些后续调度操作.并且为了提高效率
Eric_2007
·
2009-04-06 16:29
java
html
crawler
Heritrix
休闲
深入学习
Heritrix
---解析处理器(Processor)
关键字:heritrixprocessor本节解析与处理器有关的内容.与处理器有关的主要在以下几个类:Processor(处理器类),ProcessorChain(处理器类),ProcessorChainList(处理器链列表).它们之间的关系如下:下面将解析该图.(1)Processor代表一个处理器. Codepackage org.archive.crawler.framework;publ
Eric_2007
·
2009-04-06 16:24
java
html
crawler
Heritrix
休闲
深入学习
Heritrix
---解析CrawlController
关键字:heritrixcrawlcontroller当我们以WebUI方式使用
Heritrix
时,点击任务开始(start)按钮时,
Heritrix
就开始了它的爬取工作.但它的内部执行流程是怎样的呢?
Eric_2007
·
2009-04-06 16:19
java
html
crawler
Heritrix
休闲
深入学习
heritrix
---体系结构(Overview of the crawler)
(一)
heritrix
的体系结构图: (二)架构分析CrawlController(下载控制器)整个下载过程的总的控制者,整个抓取工作的起点,决定整个抓取任务的开始和结束
Eric_2007
·
2009-04-06 16:07
java
html
职场
Heritrix
休闲
Heritrix
配置
1)下载
heritrix
-1.14.3-src.zip 2)解压,并在eclipse3.2中配置
heritrix
工程 3)jdk1.5及以上,compliance level 1.5及以上 4)文件配置如下
yeniu040209
·
2009-03-28 18:00
搜索引擎
Lucene
Lucene及其
heritrix
学习计划
现在网络的发达,信息的泛滥,对于在这浩瀚的信息海洋中如何精确的搜取自己想要的信息内容,对于现代网络人来说是很重要的。 目前随着垂直搜索的热门,所以有了自己想学习搜索引擎知识的冲动。 2007年就买了lucene的一本书,至今都没有很好的坐下来好好的研究研究。浪费了那65块钱。自己一直都没什么计划和目标,活着是恍惚的。趁着这个时候有这种学习的冲劲,那么就赶快行动起来,让自己多一项生存的技能也
yeniu040209
·
2009-03-28 12:00
搜索引擎
Lucene
在eclipse中设置
heritrix
2的运行环境
在eclipse中设置
heritrix
2的运行环境 基本上根据
heritrix
的文档就可以设置好,不过中间会很有些坎坷。把坎坷记录下来备忘。希望对遇见同样问题的人有所帮助。
approximation
·
2009-03-19 14:00
eclipse
jdk
maven
SVN
IE
Heritrix
2出现NullPointerException的原因和解决方式
Heritrix
2在Settings Sheets时出现java.lang.NullPointerException错的原因和解决方式
approximation
·
2009-03-16 11:00
jsp
浏览器
IE
配置管理
几个Java网络爬虫开源项目
Heritrix
设计成严格按照robots.txt文件的排除指示和METArobots标签。WebSPHINXWeb
际宇凡星
·
2009-03-08 11:00
java
资料备案
几个Java网络爬虫开源项目
Heritrix
Heritrix
是一个开源,可扩展的web爬虫项目。
Heritrix
设计成严格按照robots.txt文件的排除指示和METArobots标签。WebSPHIN
lidh04
·
2009-03-08 11:00
java
Web
正则表达式
Lucene
工具
网络爬虫
lucene2.0+
heritrix
示例补充
lucene2.0+
heritrix
示例补充由于lucene2.0+
heritrix
一书示例用的网站(http://mobile.pconline.com.cn/,http://mobile.163.com
willpower88
·
2009-02-09 15:00
深入学习
Heritrix
---解析Frontier(链接工厂)
Frontier是
Heritrix
最核心的组成部分之一,也是最复杂的组成部分.它主要功能是为处理链接的线程提供URL,并负责链接处理完成后的一些后续调度操作.并且为了提高效率,它在内部使用了BerkeleyDB
pengranxiang
·
2009-02-06 11:00
数据结构
UP
深入学习
Heritrix
---解析处理器(Processor)
本节解析与处理器有关的内容.与处理器有关的主要在以下几个类:Processor(处理器类),ProcessorChain(处理器类),ProcessorChainList(处理器链列表).它们之间的关系如下:下面将解析该图.(1)Processor代表一个处理器. Codepackage org.archive.crawler.framework;public class Processor ex
pengranxiang
·
2009-02-06 10:00
.net
Blog
深入学习
Heritrix
---解析CrawlController
当我们以WebUI方式使用
Heritrix
时,点击任务开始(start)按钮时,
Heritrix
就开始了它的爬取工作.但它的内部执行流程是怎样的呢?别急,下面将慢慢道来.
pengranxiang
·
2009-02-06 10:00
thread
多线程
工作
搜索引擎
Lucene
深入学习
heritrix
---体系结构(Overview of the crawler)
Heritrix
采用了模块化的设计,它由一些核心类(coreclasses)和可插件模块(pluggablemodules)构成。核心类可以配置,但不能被覆盖,插件模块可以被由第三方模块取代。
pengranxiang
·
2009-02-06 10:00
多线程
数据结构
Web
.net
Blog
Heritrix
使用中出现You must set the User-Agent错误处理
如果配置一个任务后,启动控制台窗口中出现异常 +0000 严重 org.archive.crawler.framework.CrawlController initialize On crawl: Dev You must set the User-Agent and From HTTP header values to acceptable strings. User-Agent: [sof
xiaoxin
·
2009-01-19 15:00
.net
浏览器
IE
heritrix
1.4.2安装
1、下载
heritrix
-1.14.2-src.zip和
heritrix
-1.14.2.zip两个压缩包,并解压,以后分别简称SRC
gcgmh
·
2009-01-06 16:00
eclipse
浏览器
Heritrix
2.0.2配置问题
大家都在看
Heritrix
和luncene的书结果网上清一色都是1x的,今天偶然在官网上搜到2了听说该了些东西。。。。
kangojian
·
2008-12-28 00:00
jspider
网络蜘蛛(机器人)Nutch,
Heritrix
,jspider都尝试着用了一下(娱乐水平的)呵呵,下面我说一些很低级(因为压根儿,我也没仔细看)的比较: 1.Nutch是Lucene
cfan_haifeng
·
2008-12-21 11:25
Nutch
Heritrix
网络蜘蛛
网络机器人
jspider
关于 编程启动
Heritrix
最近项目要用到
Heritrix
需要集成到我们的工程中,编程启动....
12616383
·
2008-12-09 15:00
tomcat
编程
UI
xml
qq
Heritrix
修改文件名
有时候用
Heritrix
爬取信息的时候,在遇到有?号的情况下,因为在windows平台下,文件名不支持?符号,所以
Heritrix
在保存时,把?
lzj0470
·
2008-12-09 11:00
windows
Heritrix
的架构
10.2
Heritrix
的架构 在上一节中,详细介绍了
Heritrix
的使用入门。读者通过上一节的介绍,应该已经能够使用
Heritrix
来进行简单的网页抓取了。
12616383
·
2008-12-02 16:00
多线程
数据结构
应用服务器
算法
配置管理
配置
heritrix
,使用网络爬虫
10.1
Heritrix
的使用入门要想学会使用
Heritrix
,当然首先得能把它运行起来。然而,运行
Heritrix
并非一件容易的事,需要进行很多配置。
legend9999
·
2008-11-27 16:00
eclipse
多线程
tomcat
虚拟机
网络协议
Lucene/
Heritrix
/Nutch Site
Lucene/
Heritrix
/NutchSite(LuceneSide)
Heritrix
&Nutchhttp://crawler.archive.org/ http://crawler.archive.org
Oo ' Smiling on Java ' oO
·
2008-09-16 17:00
完成了对于
heritrix
的初步研究
----------------------------------20080728--------------------------------------------------- 完成了对于
heritrix
banditjava
·
2008-09-11 15:00
maven
网站与网络爬虫(Spider或Robot)
使用
Heritrix
(Version:1.12.1)做了一个测试,原来并不是任何网站都可以被网络爬虫抓取到,其实本来就应该是这样,如果一些恶意爬虫没有规则地对网站进行抓取,势必增加网站的负荷。
Mark-Han
·
2008-08-25 13:00
网络爬虫
百度
google
html
搜索引擎
任务
Heritrix
爬虫与Nutch 爬虫
在邮件列表中看到有人问
Heritrix
爬虫与Nutch爬虫的不同。搜索了一下,该项目的领导者是GordonMohr,
Heritrix
主要用在http://www.archive.org。
bjxagu
·
2008-08-10 10:00
Web
Heritrix
爬虫与Nutch 爬虫
在邮件列表中看到有人问
Heritrix
爬虫与Nutch爬虫的不同。搜索了一下,该项目的领导者是GordonMohr,
Heritrix
主要用在http://www.archive.org。
bjxagu
·
2008-08-10 10:00
Web
Heritrix
Heritrix
项目介绍
Heritrix
工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。
bjxagu
·
2008-08-10 10:00
应用服务器
linux
算法
网络应用
网络协议
Heritrix
Heritrix
项目介绍
Heritrix
工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。
bjxagu
·
2008-08-10 10:00
应用服务器
linux
算法
网络应用
网络协议
罗列各种spider
HeritrixHeritrixistheInternetArchive′sopen-source,extensible,web-scale,archival-qualitywebcrawlerproject.
Heritrix
caoxu1987728
·
2008-08-01 22:00
All
Spiders
heritrix
爬取动态网页
刚接手
heritrix
,试了一试,抓取文件很顺利,可是却发现了一个问题。
richiewlq
·
2008-07-31 16:00
jsp
windows
Heritrix
在Windows下的安装,运行
1安装1.1首要条件使用WindowsXP/2003均可。必须有JAVA环境,请自行安装J2SEjre/jdk。我使用的版本是JAVASE1.6.0_02。1.2下载HeritrixHeritrix的主页:http://crawler.archive.org/下载页面:http://crawler.archive.org/downloads.html,在此页面中选择SourceforgeDownl
womendu
·
2008-07-30 09:00
tomcat
windows
脚本
XP
百度
Heritrix
在Windows下的安装,运行
1安装1.1首要条件使用WindowsXP/2003均可。必须有JAVA环境,请自行安装J2SEjre/jdk。我使用的版本是JAVASE1.6.0_02。1.2下载HeritrixHeritrix的主页:http://crawler.archive.org/下载页面:http://crawler.archive.org/downloads.html,在此页面中选择SourceforgeDownl
ihuashao
·
2008-07-30 09:00
tomcat
windows
百度
脚本
XP
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他