E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Nutch中文教程
Nutch
插件
以urlmeta为例:在
NUTCH
_HOME/src/plugin/urlmeta下使用命令:ls-R查看目录结构build.xml ivy.xml plugin.xml src .
Kadima
·
2015-11-02 00:00
Ext官方
中文教程
列表
入门: Tutorial:EXT简介 extjs.com/learn/Tutorial:Introduction_to_Ext_2.0_(Chinese) Tutorial:Ext 2简述 extjs.com/learn/Ext_2_Overview_(Chinese) Tutorial:EXT新手建议 extjs.com/learn/Tutoria
·
2015-11-01 15:24
ext
Building
Nutch
: Open Source Search
id=988408 Building
Nutch
: Open Source Search MIKE CAFARELLA AND DOUG CUTTING,
NUTCH
·
2015-11-01 15:15
open source
nutch
0.9在Windows下的安装
原文地址http://www.cnblogs.com/phinecos/archive/2007/11/20/965835.html 一、环境: 1.操作系统:windowsXp,windows2000+ 2.java1.6,设置JAVA_H
·
2015-11-01 15:09
windows
nutch
0.9在Windows下的安装
nbsp; 2.java1.6,设置JAVA_HOME到环境变量 3.cygwin,当然这个不是必需的,只是
nutch
·
2015-11-01 13:03
windows
.NET基础示例系列之十七:VML绘制中国地图
同时对VML图形进行缩放,变换位置也变得异常容易.对于VML的基本概念,网上有若干个版本的
中文教程
,大家可以去看看,写得比较详细.这里只讲几个简单的常用到的概念: 1.坐标 VML元素通过CoordSize
·
2015-11-01 12:39
.net
目前网络上开源的网络爬虫以及一些简介和比较
目前网络上有不少开源的网络爬虫可供我们使用,爬虫里面做的最好的肯定是google ,不过google公布的蜘蛛是很早的一个版本,下面是几种开源的网络爬虫的简单对比表: 下面我们再对
Nutch
、Larbin
·
2015-11-01 10:28
网络爬虫
Visual MODFLOW4.1中文版学习资料
自从写了篇关于Visual ModFlow中文版4.1的博文以来,不少人前来索要软件及
中文教程
。现将多年收集的相关
中文教程
上传于此,以供大家学习之用。
·
2015-11-01 10:28
vi
Hadoop学习笔记一 简要介绍
Nutch
是一个应用程序,是一个以Lucene为基础实现的搜索引擎应用,Lucene为
Nutch
提供了文本搜索和索引的API,
Nutch
不光有搜索的功能,还有数据抓取的功能。
·
2015-11-01 10:05
hadoop
windows平台下在eclipse中配置
Nutch
1.2并调试
本文由守望者MS转载并整理 注:全文分两部分,第一部分为英文配置方案,第二部分为中文配置方案。推荐按照英文的步骤去做,中文的少了cygwin的步骤,在以后的操作中会出现 一点问题,解决方案会在另一篇文章中贴出来。 第一部分 This is a work in progress. If you find errors or would like to improve this pa
·
2015-11-01 10:21
eclipse
《Hadoop开发者》第二期
. - 1 - 2、
Nutch
+ Hadoop 构建商用分布式搜索引擎的问题探究 ....... - 5 -3、支持自定义爬虫的
Nutch
segment 文件存储接口改写...
·
2015-11-01 10:19
hadoop
good website
0 https://lunchtimemeet.com/ 1 HTML5 的Web SQL Databases-本地数据库
中文教程
http://xiebiji.com/2010/10/web-sql-databases
·
2015-10-31 19:44
Web
Hadoop是什么
Hadoop原来是Apache Lucene下的一个子项目,它最初是从
Nutch
项目中分离出来的专门负责分布式存储以及分布式运算的项目。
·
2015-10-31 17:34
hadoop
nutch
fetcher.server.delay
1 配置因素 <property> <name>fetcher.server.delay</name> <value>0.0</value> <description>The number of seconds the fetcher will delay between &n
·
2015-10-31 17:46
server
FckEditor配置手册
中文教程
详细说明
性能 首先,FCKEDITOR的性能是非常好的,用户只需很少的时间就可以载入 FCKEDITOR所需文件.对于其他在线编辑器来说,这几乎是个很难解决的难题,因为在开启编辑器时需要装载太多的文件.比如CUTEEDITOR,虽 然功能比FCKEDITOR还要强大,可是,它本身也够庞大了,至于FREETEXTBOX等,其易用性与FCKEDITOR相比,尚有差距,可以 说,FCKEDITOR是一个别具匠心
·
2015-10-31 17:09
fckeditor
nutch
源代码阅读心得
http://www.javaeye.com/topic/570440 主要类分析:一、 org.apache.
nutch
.crawl.Injector: 1,注入
·
2015-10-31 16:25
Nutch
Run
Nutch
In Eclipse on Linux and Windows
nutch
version 1.0
Run
Nutch
In Eclipse on Linux and Windows
nutch
version 1.0 关键字: http://wiki.apache.org/
nutch
/run
nutch
ineclipse1.0
·
2015-10-31 16:24
eclipse
Hadoop下各技术应用场景
对于网页采集,前端可以采用
Nutch
,全文检索采用lucense,而实际数据存储最好是入库到Hbase数据库。
·
2015-10-31 15:58
hadoop
Swift
中文教程
(三)--流程控制
Swift用if和switch编写条件控制语句,用for-in,for,while和do-while编写循环。条件控制语句和循环语句中,小括号是可选的,但花括号包住这个循环体是必须的: 1 let individualScores = [75, 43, 103, 87, 12] 2 var teamScore = 0 3 for score in individualScores
·
2015-10-31 12:57
swift
nutch
异常集锦
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357) at org.apache.
nutch
.parse.ParseSegment.parse
·
2015-10-31 12:45
Nutch
备份
htmlcleaner.sourceforge.net/ http://blog.csdn.net/amuseme_lu/article/details/6724734
nutch
1.3
·
2015-10-31 12:32
备份
nutch
导入ecl
Classpath.我是这样做的: 选中所建的
Nutch
·
2015-10-31 12:32
Nutch
linux 启动
nutch
[root@localhost
nutch
]# export JAVA_HOME=/usr/java/jdk1.7.0 [root@localhost
nutch
]# bin/
nutch
crawl
·
2015-10-31 12:31
linux
nutch
从网页中提取字段并索引_HtmlParseFilter
package org.apache.
nutch
.htmlfilter.my; import java.util.regex.*; import org.apache.commons.logging.Log
·
2015-10-31 12:27
filter
ArcGIS_系列
中文教程
下载
&
·
2015-10-31 12:03
arcgis
WebGL
中文教程
p=42 WebGL
中文教程
Lesson 0 从零开始 Lesson 1 三角与方块的故事 Lesson 2 添加颜色 Lesson 3 动起来!
·
2015-10-31 12:11
WebGL
Spring AOP
中文教程
发表于: Sat May 15, 2004 1:07 pm 发表主题: Spring AOP
中文教程
这是在网上发现的一篇关于Spring AOP编程的教程
·
2015-10-31 12:48
spring aop
nutch
2.1 关于batchId的个人看法
但是在fetch过程之中,fetch首先获得的是根据String batchId = (String)args.get(
Nutch
.ARG_BATCH); 然后在之下直接
·
2015-10-31 11:23
Nutch
Hadoop学习笔记(1)
Doug Cutting Lucene(索引引擎)---
Nutch
(搜索Data抓取)---Hadoop 1997:Lucene 2003:GFS 2004:NDFS\MapReduce
·
2015-10-31 11:05
hadoop
Nutch
中纠结我的classpath
Nutch
中纠结我的classpath 文章分类:互联网 最近在改写
nutch
的过程中遇到了多个classpath方面的问题,一时间暴露了我java基本功的缺乏,同时也暴露出了依赖eclipse所造成的恶果
·
2015-10-31 11:45
classpath
Expression Blend 知识锦分享
上回发布《Asp.Net知识锦分享》受到许多读者的喜欢,而我最近在研究Expression Blend,也整理了一些文章,其中有MVP范晓超(jv9)的经典教程《Expression Blend实例
中文教程
系列文章汇总
·
2015-10-31 11:04
express
nutch
工程源码导入Eclipse过程
测试环境
Nutch
release 0.9 Eclipse 3.3 - aka Europa Java 1.6 开始之前 Setting up
Nutch
to run into
·
2015-10-31 11:46
eclipse
.NET基础示例系列之十七:VML绘制中国地图
同时对VML图形进行缩放,变换位置也变得异常容易.对于VML的基本概念,网上有若干个版本的
中文教程
,大家可以去看看,写得比较详细.这里只讲几个简单的常用到的概念: 1.坐标 VML元素通过CoordSize
·
2015-10-31 11:04
.net
Oracle 10g 官方中文安装帮助文档以及Oracle官方
中文教程
文档下载
Oracle 10g 官方中文安装帮助文档下载:http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Ora
·
2015-10-31 11:55
oracle
nutch
源代码--html的头信息解析
主要是meta、base、标签的信息 /** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional informa
·
2015-10-31 11:38
Nutch
nutch
二次开发
/*深度控制*/ 深度控制:
nutch
是广域网的深度遍历,我们需要的是垂直采集(即只采集某一个栏目),举例,索引页总计20页,如果只有下一页,则深度为20,如果是1 2 3 4 5……20则深度为2即可
·
2015-10-31 11:27
Nutch
nutch
getOutLinks 外链的处理
转载自: http://blog.csdn.net/witsmakemen/article/details/8067530 通过跟踪发现,Fetcher获得网页解析链接没有问题,获得了网页中所有的链接,然后在output()函数中通过FetcherOutputFormat类输出(包含在ParseResult中)。 但是在更新数据库的CrawlDb的update()函数中,发现并没有获得所
·
2015-10-31 11:27
Nutch
nutch
-1.7-二次开发-Content中增加编码
1 识别
nutch
-1.7的编码,完成 以前1.2是在 org.apache.
nutch
.parse.html.HtmlParser EncodingDetector
·
2015-10-31 11:27
content
nutch
1.7 修改代码后如何编译发布,并集群采集攻略
nutch
1.3之后,分布式的可执行文件与单机可执行文件进行了分离接上篇,
nutch
1.7 导入 eclipse本篇所要解决的问题:
nutch
下载下来经过简单的配置即可进行采集,但有时候我们需要修改
·
2015-10-31 11:27
Nutch
nutch
采集效率问题
http://hi.baidu.com/jacklin/item/a8fbccf479f6a1d042c36a7c再附一篇:http://blog.csdn.net/laigood/article/details/6233561 fetcher.threads.per.host<property> <name>fetcher.threads.per.queu
·
2015-10-31 11:27
Nutch
nutch
设置抓取间隔策略
http://caols.diandian.com/post/2012-06-05/40028026285http://blog.csdn.net/witsmakemen/article/details/7799546 这个是相关的代码的分析 昨天看错了,实际上对于爬取成功的url,在update()阶段,程序会将url的FetchTime+FetchInterval作为
·
2015-10-31 11:27
Nutch
ArcGIS_系列
中文教程
转自:http://www.cnblogs.com/gispeng/archive/2008/04/15/1154212.html ArcGIS_系列
中文教程
 
·
2015-10-31 10:32
arcgis
Nutch
安装文档
安装Cygwin 首先,我们去 http://www-inst.eecs.berkeley.edu/~instcd/iso/下载到Cygwin软件的ISO文件,用Daemon软件将其设为虚拟光驱后,双击其中的Setup文件,出现程序安装的向导界面(如图1所示)。  
·
2015-10-31 10:22
Nutch
failed with: java.lang.NullPointerException
failed with: java.lang.NullPointerException 需要在
nutch
的配置文件 'conf/
nutch
-site.xml'.
·
2015-10-31 10:56
java.io.IOException: Cannot run program "bash": error=12, Cannot allocate memory
java.io.IOException: Cannot run program "bash": error=12, Cannot allocate memory 云服务器运行
nutch
·
2015-10-31 10:56
exception
nutch
生产者队列的大小如何控制 threadcount * 50
如果topN 设置为1000万 ,不会这1000万都放到QueueFeeder(内存)中,而是从文件系统中(hdfs)中迭代不断填充QueueFeeder。队列中默认存放 threadcount * 50 。 这个类的作用是从文件系统读文件填充队列。/** * This class feeds the queues with input items, and re-fills the
·
2015-10-31 10:55
thread
nutch
采集到的数据与实际不符
现象,这个网站我总计能抽取将近500个URL,但实际只抽取了100条解析:
nutch
默认从一个页面解析出的链接,只取前 100 个。
·
2015-10-31 10:55
Nutch
nutch
http file 截断问题
原因是
nutch
对http下载的内容的长度进行了限制。解决方案:这里将这个属性扩大10倍。
·
2015-10-31 10:55
Nutch
nutch
2.2.1
http://blog.csdn.net/leave00608/article/details/17442163 https://svn.apache.org/repos/asf/
nutch
/tags
·
2015-10-31 10:55
Nutch
异常: http://www.ly.com/news/visa.html: java.io.IOException: unzipBestEffort returned null
nutch
运行时异常: http://www.ly.com/news/visa.html: java.io.IOException: unzipBestEffort returned null 参考
·
2015-10-31 10:55
exception
上一页
39
40
41
42
43
44
45
46
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他