E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
nutch
nutch
0.9在Windows下的安装
原文地址http://www.cnblogs.com/phinecos/archive/2007/11/20/965835.html 一、环境: 1.操作系统:windowsXp,windows2000+ 2.java1.6,设置JAVA_H
·
2015-11-01 15:09
windows
nutch
0.9在Windows下的安装
nbsp; 2.java1.6,设置JAVA_HOME到环境变量 3.cygwin,当然这个不是必需的,只是
nutch
·
2015-11-01 13:03
windows
目前网络上开源的网络爬虫以及一些简介和比较
目前网络上有不少开源的网络爬虫可供我们使用,爬虫里面做的最好的肯定是google ,不过google公布的蜘蛛是很早的一个版本,下面是几种开源的网络爬虫的简单对比表: 下面我们再对
Nutch
、Larbin
·
2015-11-01 10:28
网络爬虫
Hadoop学习笔记一 简要介绍
Nutch
是一个应用程序,是一个以Lucene为基础实现的搜索引擎应用,Lucene为
Nutch
提供了文本搜索和索引的API,
Nutch
不光有搜索的功能,还有数据抓取的功能。
·
2015-11-01 10:05
hadoop
windows平台下在eclipse中配置
Nutch
1.2并调试
本文由守望者MS转载并整理 注:全文分两部分,第一部分为英文配置方案,第二部分为中文配置方案。推荐按照英文的步骤去做,中文的少了cygwin的步骤,在以后的操作中会出现 一点问题,解决方案会在另一篇文章中贴出来。 第一部分 This is a work in progress. If you find errors or would like to improve this pa
·
2015-11-01 10:21
eclipse
《Hadoop开发者》第二期
. - 1 - 2、
Nutch
+ Hadoop 构建商用分布式搜索引擎的问题探究 ....... - 5 -3、支持自定义爬虫的
Nutch
segment 文件存储接口改写...
·
2015-11-01 10:19
hadoop
Hadoop是什么
Hadoop原来是Apache Lucene下的一个子项目,它最初是从
Nutch
项目中分离出来的专门负责分布式存储以及分布式运算的项目。
·
2015-10-31 17:34
hadoop
nutch
fetcher.server.delay
1 配置因素 <property> <name>fetcher.server.delay</name> <value>0.0</value> <description>The number of seconds the fetcher will delay between &n
·
2015-10-31 17:46
server
nutch
源代码阅读心得
http://www.javaeye.com/topic/570440 主要类分析:一、 org.apache.
nutch
.crawl.Injector: 1,注入
·
2015-10-31 16:25
Nutch
Run
Nutch
In Eclipse on Linux and Windows
nutch
version 1.0
Run
Nutch
In Eclipse on Linux and Windows
nutch
version 1.0 关键字: http://wiki.apache.org/
nutch
/run
nutch
ineclipse1.0
·
2015-10-31 16:24
eclipse
Hadoop下各技术应用场景
对于网页采集,前端可以采用
Nutch
,全文检索采用lucense,而实际数据存储最好是入库到Hbase数据库。
·
2015-10-31 15:58
hadoop
nutch
异常集锦
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357) at org.apache.
nutch
.parse.ParseSegment.parse
·
2015-10-31 12:45
Nutch
备份
htmlcleaner.sourceforge.net/ http://blog.csdn.net/amuseme_lu/article/details/6724734
nutch
1.3
·
2015-10-31 12:32
备份
nutch
导入ecl
Classpath.我是这样做的: 选中所建的
Nutch
·
2015-10-31 12:32
Nutch
linux 启动
nutch
[root@localhost
nutch
]# export JAVA_HOME=/usr/java/jdk1.7.0 [root@localhost
nutch
]# bin/
nutch
crawl
·
2015-10-31 12:31
linux
nutch
从网页中提取字段并索引_HtmlParseFilter
package org.apache.
nutch
.htmlfilter.my; import java.util.regex.*; import org.apache.commons.logging.Log
·
2015-10-31 12:27
filter
nutch
2.1 关于batchId的个人看法
但是在fetch过程之中,fetch首先获得的是根据String batchId = (String)args.get(
Nutch
.ARG_BATCH); 然后在之下直接
·
2015-10-31 11:23
Nutch
Hadoop学习笔记(1)
Doug Cutting Lucene(索引引擎)---
Nutch
(搜索Data抓取)---Hadoop 1997:Lucene 2003:GFS 2004:NDFS\MapReduce
·
2015-10-31 11:05
hadoop
Nutch
中纠结我的classpath
Nutch
中纠结我的classpath 文章分类:互联网 最近在改写
nutch
的过程中遇到了多个classpath方面的问题,一时间暴露了我java基本功的缺乏,同时也暴露出了依赖eclipse所造成的恶果
·
2015-10-31 11:45
classpath
nutch
工程源码导入Eclipse过程
测试环境
Nutch
release 0.9 Eclipse 3.3 - aka Europa Java 1.6 开始之前 Setting up
Nutch
to run into
·
2015-10-31 11:46
eclipse
nutch
源代码--html的头信息解析
主要是meta、base、标签的信息 /** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional informa
·
2015-10-31 11:38
Nutch
nutch
二次开发
/*深度控制*/ 深度控制:
nutch
是广域网的深度遍历,我们需要的是垂直采集(即只采集某一个栏目),举例,索引页总计20页,如果只有下一页,则深度为20,如果是1 2 3 4 5……20则深度为2即可
·
2015-10-31 11:27
Nutch
nutch
getOutLinks 外链的处理
转载自: http://blog.csdn.net/witsmakemen/article/details/8067530 通过跟踪发现,Fetcher获得网页解析链接没有问题,获得了网页中所有的链接,然后在output()函数中通过FetcherOutputFormat类输出(包含在ParseResult中)。 但是在更新数据库的CrawlDb的update()函数中,发现并没有获得所
·
2015-10-31 11:27
Nutch
nutch
-1.7-二次开发-Content中增加编码
1 识别
nutch
-1.7的编码,完成 以前1.2是在 org.apache.
nutch
.parse.html.HtmlParser EncodingDetector
·
2015-10-31 11:27
content
nutch
1.7 修改代码后如何编译发布,并集群采集攻略
nutch
1.3之后,分布式的可执行文件与单机可执行文件进行了分离接上篇,
nutch
1.7 导入 eclipse本篇所要解决的问题:
nutch
下载下来经过简单的配置即可进行采集,但有时候我们需要修改
·
2015-10-31 11:27
Nutch
nutch
采集效率问题
http://hi.baidu.com/jacklin/item/a8fbccf479f6a1d042c36a7c再附一篇:http://blog.csdn.net/laigood/article/details/6233561 fetcher.threads.per.host<property> <name>fetcher.threads.per.queu
·
2015-10-31 11:27
Nutch
nutch
设置抓取间隔策略
http://caols.diandian.com/post/2012-06-05/40028026285http://blog.csdn.net/witsmakemen/article/details/7799546 这个是相关的代码的分析 昨天看错了,实际上对于爬取成功的url,在update()阶段,程序会将url的FetchTime+FetchInterval作为
·
2015-10-31 11:27
Nutch
Nutch
安装文档
安装Cygwin 首先,我们去 http://www-inst.eecs.berkeley.edu/~instcd/iso/下载到Cygwin软件的ISO文件,用Daemon软件将其设为虚拟光驱后,双击其中的Setup文件,出现程序安装的向导界面(如图1所示)。  
·
2015-10-31 10:22
Nutch
failed with: java.lang.NullPointerException
failed with: java.lang.NullPointerException 需要在
nutch
的配置文件 'conf/
nutch
-site.xml'.
·
2015-10-31 10:56
java.io.IOException: Cannot run program "bash": error=12, Cannot allocate memory
java.io.IOException: Cannot run program "bash": error=12, Cannot allocate memory 云服务器运行
nutch
·
2015-10-31 10:56
exception
nutch
生产者队列的大小如何控制 threadcount * 50
如果topN 设置为1000万 ,不会这1000万都放到QueueFeeder(内存)中,而是从文件系统中(hdfs)中迭代不断填充QueueFeeder。队列中默认存放 threadcount * 50 。 这个类的作用是从文件系统读文件填充队列。/** * This class feeds the queues with input items, and re-fills the
·
2015-10-31 10:55
thread
nutch
采集到的数据与实际不符
现象,这个网站我总计能抽取将近500个URL,但实际只抽取了100条解析:
nutch
默认从一个页面解析出的链接,只取前 100 个。
·
2015-10-31 10:55
Nutch
nutch
http file 截断问题
原因是
nutch
对http下载的内容的长度进行了限制。解决方案:这里将这个属性扩大10倍。
·
2015-10-31 10:55
Nutch
nutch
2.2.1
http://blog.csdn.net/leave00608/article/details/17442163 https://svn.apache.org/repos/asf/
nutch
/tags
·
2015-10-31 10:55
Nutch
异常: http://www.ly.com/news/visa.html: java.io.IOException: unzipBestEffort returned null
nutch
运行时异常: http://www.ly.com/news/visa.html: java.io.IOException: unzipBestEffort returned null 参考
·
2015-10-31 10:55
exception
nutch
采集效率--设置采集间隔
fetcher.max.crawl.delay 默认是30秒,这里改为 5秒修改
nutch
-default.xml<property> <name>fetcher.max.crawl.delay
·
2015-10-31 10:55
Nutch
nutch
索引
nutch
开发环境搭建
nutch
-1.3导入eclipse
nutch
-1.7导入eclipse
·
2015-10-31 10:54
Nutch
nutch
很多url unfetched的原因
bin/hadoop jar apache-
nutch
-1.7.job org.apache.
nutch
.crawl.CrawlDbReader crawl/crawldb -stats -sort
·
2015-10-31 10:54
Nutch
配置
nutch
出现的的错误的解决方法
执行查询时候出现这个错误HTTP Status 500 ---------------------------------------------------------------------------------type Exception reportmessagedescription The server encountered an internal error () that pr
·
2015-10-31 09:08
Nutch
[How to] Make custom search with
Nutch
(v 1.0)?
http://puretech.paawak.com/2009/04/29/how-to-make-custom-search-with-
nutch
v-10/ What is
Nutch
?
·
2015-10-31 09:08
search
Nutch
-0.9加入ICTCLAS 支持中文分词等
安装 svn , 从 apache 中下载这最新版本,(http://svn.apache.org/repos/asf/lucene/
nutch
/branches/branch-0.9/ )这样可以用ant
·
2015-10-31 09:08
Nutch
nutch
插件开发
Plugin插件机制为
Nutch
提供了很强大的扩展性,曾经看到一篇文章《不选择使用Lucene的6大原因》,其中就提到lucene的API不够开放。
·
2015-10-31 09:08
Nutch
HowToMakeCustomSearch
http://wiki.apache.org/
nutch
/HowToMakeCustomSearch?
·
2015-10-31 09:08
search
全文索引之
nutch
与hadoop
原文:http://blog.csdn.net/chaofanwei/article/details/39476535 全文索引-lucene,solr,
nutch
,hadoop之lucene 全文索引
·
2015-10-31 09:02
hadoop
13 款开源的全文搜索引擎
add by zhj:
Nutch
是一个开源的web搜索引擎,呵呵,它跟商业搜索引擎如Google,百度的技术差不多,原来自己一不小心就进入了商业搜索引擎的领域,之前还以为商业搜索引擎离自己非常遥远呢
·
2015-10-31 09:01
搜索引擎
Nutch
Tutorial原文翻译
最近需要学习
Nutch
,要搭建在Windows下平台并且需要对
Nutch
再次开发,方向是垂直搜索。
·
2015-10-31 09:09
Nutch
继续用博客
上一篇博文讲的是
nutch
,结果最近让其折磨不轻。最初去找资料学习
nutch
,hadoop的时候,发现一本书也找不到。
·
2015-10-31 09:09
博客
Hadoop日记Day1---Hadoop介绍
作者:Doug Cutting;Lucene,
Nutch
。 受Google三篇论文的启发 2.
·
2015-10-31 08:29
hadoop
windows平台下在Cygwin中运行
Nutch
1。2的抓取命令提示JAVA_HOME not set解决方案
本人由守望者MS原创 问题分析: 最近在研究
Nutch
+hadoop。
·
2015-10-31 08:22
JAVA_HOME
初学
Nutch
之简介与安装
1、
Nutch
简介
Nutch
是一个由Java实 现的,开放源代码(open-source)的web搜索引擎。
·
2015-10-31 08:50
Nutch
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他