E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Nutch1.0
nutch1.0
在windows环境下的安装与使用
步骤:1、下载资源2、安装过程3、抓取过程4、部署过程5、检测过程进入正题:1、下载资源:cygwin:http://cygwin.com/install.html,setup.exenutch-0.9:http://115.com/file/behqez1a(太难找了)nutch-1.0:http://115.com/file/anq4fh8tnutch-1.2:http://115.com/f
spring123tt
·
2020-08-21 10:05
搜索引擎
集成Nutch和Solr
今年早些时候发布的
Nutch1.0
包含了"开盒即用"的原装的(outofthebox)Solr集成。虽然有各种不同的方法
lin_zyang
·
2020-08-20 04:17
软件经济
Lucene
Solr
Web
数据挖掘
搜索引擎研究
solr
basic
avi
apache
存储
components
Nutch1.0
源码分析-----抓取部分
简单的分析了nutch抓取过程,涉及到的mapredue等内容在这不做讨论,时间仓促,很多地方写得不具体,以后有时间再慢慢修改,工作需要又得马上分析nutch相关配置文件,分析整理后会发布上来。转载请注明出处1.1抓取目录分析一共生成5个文件夹,分别是:lcrawldb目录存放下载的URL,以及下载的日期,用来页面更新检查时间.llinkdb目录存放URL的互联关系,是下载完成后分析得到的.lse
ninjuli
·
2020-06-24 17:54
nutch
nutch1.0
各种命令
局域网抓取bin/nutchcrawlurls-dir20090519-depth1-topN50-threads2>&nutch.log互联网抓取命令(注:1.0版本的命令和以前版本有许多不一样)1.读取urls目录下的站点添加到crawldb里bin/nutchinject20090519/crawldburls2.创建一个segments,存放到20090519目录下bin/nutchgen
ninjuli
·
2020-06-24 17:54
nutch
windows下
nutch1.0
环境搭建及测试
先申明,此文非全部原创,结合网上资料加上自己测试环境记录的内容,做个记录加深自己的印象。1.安装jdk并设置环境Jdk版本为1.6,在这里用了最简单环境设置,如果你设置不成功请参照网上教程,再此不过多说明.配置PATH环境变量;D:/soft/Java/jdk1.6.0_13/bin配置CLASSPATH环境变量,;配置NUTCH_JAVA_HOME为D:/soft/Java/jdk1.6.0_1
ninjuli
·
2020-06-24 17:51
nutch
Nutch1.0
Ui启动在tomcat中的配置
<!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } A:link { so-language: zxx } --> 1 、下载 nutch-1.0.tar.gz. http://apache.etoak.com/lucene/nutch/ 2 、解压缩 nutch-1.0.tar.gz, 放在自己熟悉的目录
·
2015-10-30 13:25
tomcat
linux
nutch1.0
安装配置
1,下载
nutch1.0
下载地址:http://archive.apache.org/dist/nutch/,下载这个文件nutch-1.0.tar.gz 2,上传到服务器上传位置:/home/www/
stranger2008
·
2013-03-26 13:00
linux
集成Nutch和Solr
今年早些时候发布的
Nutch1.0
包含了"开盒即用"的原装的(outofthebox)Solr集成。虽然有各种不同的方法
eryk86
·
2013-01-09 10:00
Nutch 1.0配置与运行
这次下载了
Nutch1.0
,貌似和之前版本在配置上有轻微的变化。由于Nutch基于Hadoop项目,肯定需要满足Hadoop运行
zhaogezhuoyuezhao
·
2012-03-10 11:00
自己动手搭建搜索引擎
Nutch1.0
配置笔记 一、简介 Nutch是一个开源的Web搜索引擎。 主要分为两个部分:爬虫crawler和查询searcher,两者之间的接口是索引。
liming004
·
2011-11-27 02:09
搜索引擎
搜索
职场
休闲
自己动手搭建搜索引擎
nutch 搜索流程 2-distributed search
图中虚线表示采用localfs情况,即每台机器放自己的index,segmenets(注意它也也是可以分布式) references:
nutch1.0
分布查询
leibnitz
·
2011-07-20 13:00
hadoop
Lucene
Nutch 源码分析
7ed51400cb7edf07728b659b.html LinkDb分析 http://hi.baidu.com/bupo_jung/blog/item/561fcc240a866a3ed40742da.html
Nutch1.0
jiutao_tang
·
2011-06-06 16:00
c
关于
nutch1.0
二次开发需要更改的东西
二次开发的时候,需要重点对Nutch的界面及界面显示数据进行适当的调整。目前据我了解到的要修改的地方有以下几点:1。搜索页面页头页尾log修改、选项卡乱码显示问题。2。显示查询结果行 添加查询用时3。查询结果摘要长度修改,默认只有20个字符。4。网页快照乱码修改,以及后面的(评分详解)(anchors)(morefromnews.qq.com)菜单项修改。5。showallhits修改6。分页功
nutch_520
·
2011-02-25 00:00
String
搜索引擎
服务器
url
Class
文档
关于
nutch1.0
二次开发需要更改的东西
二次开发的时候,需要重点对Nutch的界面及界面显示数据进行适当的调整。 目前据我了解到的要修改的地方有以下几点: 1。搜索页面页头页尾log修改、选项卡乱码显示问题。 2。显示查询结果行 添加查询用时 3。查询结果摘要长度修改,默认只有20个字符。 4。网页快照乱码修改,以及后面的(评分详解) (anchors) (more from news.qq.com)菜单项修改。 5。sho
mr_lonely_hp
·
2011-02-25 00:00
apache
jsp
bean
qq
搜索引擎
Nutch1.0
或者Nutch1.1如何导入MyEclipse与Eclipse?
Nutch1.0
或者Nutch1.1如何导入MyEclipse与Eclipse?
hpjianhua
·
2011-01-21 09:00
apache
eclipse
hadoop
MyEclipse
cvs
Nutch1
nutch搏斗之一问题描述: 在用
nutch1.0
做generate包括5亿url的crawldb时,它默认按照64M分块,分成777个maptask,在运行的后期出现 CouldnotfindtaskTracker
rongrong0206
·
2010-12-20 23:00
java
String
null
url
360
任务
Nutch1.0
的配置与运行
Nutch1.0
的配置与运行 配置软件: 1、 Java jdk-1.6 1.1 下载安装 from: http://www.sun.com 安装目录:C:\Java\jdk1.6.0_03
a280606790
·
2010-11-09 09:00
apache
C++
c
C#
Lucene
Nutch1.0
的配置与运行
Nutch1.0
的配置与运行 配置软件: 1、 Java jdk-1.6 1.1 下载安装 from: http://www.sun.com 安装目录:C:\Java\jdk1.6.0_03
a280606790
·
2010-11-08 11:00
apache
C++
c
C#
Lucene
Nutch 1.0配置与运行
这次下载了
Nutch1.0
,貌似和之前版本在配置上有轻微的变化。
shirdrn
·
2010-10-05 01:00
hadoop
linux
url
存储
generator
2010
为Nutch 1.0添加JE中文分词
为
Nutch1.0
添加JE中文分词文章来源网络属于java分类电脑编程网整理20091223简介:这是为
Nutch1.0
添加JE中文分词的详细页面,介绍了和java,有关的知识,加入收藏请按键盘ctrl
zhblue
·
2010-09-15 16:00
nutch中插件机制引起的内存问题
由于
Nutch1.0
中,使用的插件机制,对每个插件是以conf为key缓存在ObjectCache中,其使用的是WeakHashMap
pengymly
·
2010-08-11 17:00
jdk
sun
为Nutch 1.0添加JE中文分词
为
Nutch1.0
添加JE中文分词文章来源网络属于java分类电脑编程网整理20091223简介:这是为
Nutch1.0
添加JE中文分词的详细页面,介绍了和java,有关的知识,加入收藏请按键盘ctrl
zhblue
·
2010-07-12 19:00
java
ant
import
工具
include
tokenize
集成Nutch和Solr
今年早些时候发布的
Nutch1.0
包含了"开盒即用"的原装的(outofthebox)Solr集成。虽然有各种不同的方法
eryk
·
2010-07-06 16:00
apache
json
xml
Solr
Lucene
Nutch1.0
crawl分析(转)
源自:http://jlife.javaeye.com/blog/478315关键字:nutch-1.0中,org.apache.nutch.crawl.crawl类中提供了一个入口主函数main,通过接收 ================================================================ Crawler和Searcher两部分被尽是分开,其主要目的是
kfanning
·
2010-06-22 11:00
Nutch1.0
crawl分析(转)
源自:http://jlife.javaeye.com/blog/478315关键字:nutch-1.0中,org.apache.nutch.crawl.crawl类中提供了一个入口主函数main,通过接收 ================================================================ Crawler和Searcher两部分被尽是分开,其主要目的是
kfanning
·
2010-06-22 11:00
mapreduce
数据库
Lucene
url
存储
generator
Nutch1.0
crawl分析(转)
源自:http://jlife.javaeye.com/blog/478315关键字:nutch-1.0中,org.apache.nutch.crawl.crawl类中提供了一个入口主函数main,通过接收 ================================================================ Crawler和Searcher两部分被尽是分开,其主要目的是
kfanning
·
2010-06-22 11:00
Nutch1.0
日志分析(转)
Hadoop集群创建文件[nutch@gc01vm13/]$cd./home/nutch/nutchinstall/nutch-1.0/[
[email protected]
]$bin/hadoopfs-lsFound1itemsdrwxr-xr-x -nutchsupergroup 02010-06-0920:10/user/nutch/zklin[nutch@g
kfanning
·
2010-06-22 09:00
在Eclipse下配置
nutch1.0
及1.1
:首先从http://apache.etoak.com/lucene/nutch/ 下载最新的nutch.在这里我使用的是nutch1.0.:在eclipse中新建立一个JavaProject.名字自己定义(Nutch).选择"Createprojectfromexistingsource",指向自己nutch-1.0的目录.:点击下一步,切换到"Libraries"选择"AddClassFold
kfanning
·
2010-06-21 11:00
xp下配置
nutch1.0
在xp下配置运行
nutch1.0
必要的前提环境: 1、 从sun官网下载JDK1.6并安装,配置系统环境变量JAVA_HOME=”JDK的安装路径” 2、 从http:/
jerry.chen
·
2010-05-24 17:00
apache
tomcat
xml
XP
Lucene
nutch1.0
cygwin eclipse问题
执行时报: crawl started in: crawled rootUrlDir = url.txt threads = 10 depth = 3 topN = 50 Injector: starting Injector: crawlDb: crawled/crawldb Injector: urlDir: url.txt Injector: Converting injected url
anyeeye
·
2010-05-10 15:00
java
apache
eclipse
hadoop
Security
nutch1.0
cygwin eclipse问题
阅读更多执行时报:crawlstartedin:crawledrootUrlDir=url.txtthreads=10depth=3topN=50Injector:startingInjector:crawlDb:crawled/crawldbInjector:urlDir:url.txtInjector:Convertinginjectedurlstocrawldbentries.Excepti
anyeeye
·
2010-05-10 15:00
Eclipse
Hadoop
Java
Apache
Security
nutch分布式搭建
如何在eclipse中跑nutch :http://jiajun.iteye.com/blog/612023 这里没有翻译,不过应该能看懂 那么如何分布式搭建
nutch1.0
呢?
iammonster
·
2010-04-06 17:00
apache
tomcat
hadoop
lighttpd
XSL
nutch分布式搭建
如何在eclipse中跑nutch :http://jiajun.iteye.com/blog/612023 这里没有翻译,不过应该能看懂 那么如何分布式搭建
nutch1.0
呢?
iammonster
·
2010-04-06 17:00
apache
tomcat
hadoop
lighttpd
XSL
(2)
Nutch1.0
浅析
关于
Nutch1.0
导入Eclipse http://www.iteye.com/topic/525839 给了详细具体的说明 1
Nutch1.0
抓取类
zhouxianglh
·
2010-03-29 12:00
java
apache
eclipse
xml
(2)
Nutch1.0
浅析
关于
Nutch1.0
导入Eclipse http://www.iteye.com/topic/525839 给了详细具体的说明 1
Nutch1.0
抓取类
zhouxianglh
·
2010-03-29 12:00
java
apache
eclipse
xml
(1)
nutch1.0
安装
1
nutch1.0
的配置 环境准备: 1.1.
zhouxianglh
·
2010-03-29 11:00
tomcat
xml
C#
Lucene
XSL
(1)
nutch1.0
安装
1
nutch1.0
的配置 环境准备: 1.1.
zhouxianglh
·
2010-03-29 11:00
tomcat
xml
C#
Lucene
XSL
nutch-1.0中文分词
如何跟换
nutch1.0
中文分词,我在网上基本把所有的办法都是试了一遍但是没有一个是可行的,真是怀疑这些人是纯转载别人的文章还是自己确实有试过, 这里把步骤详细给大家说一下下边是别人的文章,但是其中跟真实的情况有出入
zha_zi
·
2010-03-26 16:00
apache
Web
ant
Lucene
Solr
Nutch1.0
在eclipse中运行问题之解决
今天按照前面几篇文章所述之操作解决了程序中的报错,但是在调试运行过程中会出现如果错误.本问题主要针对windows操作系统. 问题一: 现贴出: 2010-03-25 21:42:33,937 WARN fs.FileSystem (FileSystem.java:<init>(1440)) - uri=file:/// javax.security.auth.
yanglingstu
·
2010-03-25 21:00
java
apache
eclipse
hadoop
Security
Nutch1.0
导入eclipse错误解决
Nutch1.0
导入eclipse工程后,一般的工程都会有两个错误,nutch的official 1.0 release版本中,这两个问题因为licensing issues没有修复。
yanglingstu
·
2010-03-25 16:00
apache
eclipse
Nutch1.0
中Index的过程
Index阶段就一个Map/Reduce任务,其作用主要是负责为导入的所有的segment建索引,先看一下其主调用函数Indexer.index()函数。 代码: public void index(Path luceneDir, Path crawlDb, Path linkDb, List<Path> segments) throws IOException {
yanglingstu
·
2010-03-23 20:00
cache
Lucene
Redhat Linux Enterprise 5.4下
Nutch1.0
的配置
从昨天下午到今天上午,共花了一天的时间,终于把偶的Nutch运行成功了。 记录下这个过程。 1.从官网上分别下载jdk1.6.0,apache-tomcat-6.0.24,nutch1.0. 2.安装jdk1.6.0包,直接运行即可。 3.解压缩tomcat,用tar -xvf apache-tomcat-6.0.24.tar.gz 4.解压缩nutch,同3. 5.添加环境变量 其
085567
·
2010-03-19 19:00
java
apache
tomcat
linux
redhat
Redhat Linux Enterprise 5.4下
Nutch1.0
的配置
从昨天下午到今天上午,共花了一天的时间,终于把偶的Nutch运行成功了。 记录下这个过程。 1.从官网上分别下载jdk1.6.0,apache-tomcat-6.0.24,nutch1.0. 2.安装jdk1.6.0包,直接运行即可。 3.解压缩tomcat,用tar -xvf apache-tomcat-6.0.24.tar.gz 4.解压缩nutch,同3. 5.添加环境变量 其
daisy8564
·
2010-02-05 14:00
java
apache
tomcat
linux
redhat
调用nutch,把nutch加入到自己的B/S应用中
1.改造代码 试用了
nutch1.0
一段时间,想改造到自己的全文检索程序中,nutch本身只是带有linux下运行的脚本,其实这些脚本是是为nutch在linux下运行设置类库,和调用哪些类用的
xiaoxin
·
2010-01-05 14:00
apache
tomcat
linux
jsp
全文检索
nutch1.0
在eclipse下的成功编译要注意事项
阅读更多有以下要点要注意:1、在WINDOWS的环境变量中要正确指定JDK目录2、build.xml编译报错,Nutch\nutch-0.9\build.xml:61:Specifyatleastonesource--afileorresourcecollection.将下面几行的前几行(从61行开始直到下面的前一行为止)直接删除就OK了,3、把Nuthc-1.0目录下的所有文件复制到nutch目
deepfuture
·
2009-12-23 20:00
Eclipse
Hadoop
lucene
OO
EXT
nutch1.0
在eclipse下的成功编译要注意事项
有以下要点要注意: 1、在WINDOWS的环境变量中要正确指定JDK目录 2、build.xml编译报错, Nutch\nutch-0.9\build.xml:61: Specify at least one source--a file or resource collection. 将下面几行的前几行(从61行开始直到下面的<copy todir="${conf.dir
deepfuture
·
2009-12-23 20:00
eclipse
hadoop
ext
Lucene
OO
nutch1.0
在eclipse下的成功编译要注意事项
阅读更多有以下要点要注意:1、在WINDOWS的环境变量中要正确指定JDK目录2、build.xml编译报错,Nutch\nutch-0.9\build.xml:61:Specifyatleastonesource--afileorresourcecollection.将下面几行的前几行(从61行开始直到下面的前一行为止)直接删除就OK了,3、把Nuthc-1.0目录下的所有文件复制到nutch目
deepfuture
·
2009-12-23 20:00
Eclipse
Hadoop
lucene
OO
EXT
nutch1.0
在eclipse下的成功编译要注意事项
有以下要点要注意: 1、在WINDOWS的环境变量中要正确指定JDK目录 2、build.xml编译报错, Nutch\nutch-0.9\build.xml:61: Specify at least one source--a file or resource collection. 将下面几行的前几行(从61行开始直到下面的<copy todir="${conf.dir
deepfuture
·
2009-12-23 20:00
eclipse
hadoop
ext
Lucene
OO
为Nutch 1.0添加JE中文分词
阅读更多先下载
Nutch1.0
的源文件:svncohttp://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0.
deepfuture
·
2009-12-23 19:00
Ant
Java
Apache
lucene
SVN
为Nutch 1.0添加JE中文分词
阅读更多先下载
Nutch1.0
的源文件:svncohttp://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0.
deepfuture
·
2009-12-23 19:00
Ant
Java
Apache
lucene
SVN
上一页
1
2
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他