E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
nutch
nutch
源码分析---7
nutch
源码分析—solrindex本章开始分析
nutch
源码的最后一步,即通过“bin/
nutch
solrindexhttp://localhost:8983/solrcrawl/crawldb/-
二侠
·
2016-08-30 08:48
nutch-1.12源码分析
nutch
源码分析---4
nutch
源码分析—parse“bin/
nutch
parsecrawl/segments/*”这条命令最终会调用org.apache.
nutch
.parse.ParseSegment的main函数。
二侠
·
2016-08-24 18:28
nutch-1.12源码分析
nutch
源码分析---3
nutch
源码分析—fetch根据上一章的分析,“bin/
nutch
fetchcrawl/segments/*”这条命令最终会调用org.apache.
nutch
.fetcher.Fetcher的main
二侠
·
2016-08-22 09:17
nutch-1.12源码分析
nutch
2.3.1在ubuntu14.04下的配置及编译过程
nutch
简介:目前
nutch
主要有1.x版本和2.x版本,两个的主要区别在于它们的底层数据库的存储形式不一样,1.x版本是基于hadoop架构的,底层存储使用的是HDFS(Hadoop式分布式存储),
Horizon_wing
·
2016-08-16 14:06
java
搜索引擎
使用VirtualBox安装Ubuntu系统搭建hadoop环境
Hadoop起源于开源的网络搜索引擎Apache
Nutch
,它是Lucene项目的一部分。在搭建Hadoop环境的前提下我们需要了解一些Linux命令。
江南小小生
·
2016-07-25 15:26
java开发
nutch
工作流程简介
先用一幅图来形容
nutch
的工作流程:先对上图做一个简单说明,图中标的数字为
nutch
工作的顺序。
Horizon_wing
·
2016-07-19 21:37
java
搜索引擎
nutch
安装部署 以
nutch
2.3.1 为例
阅读更多[/size][size=medium]最近在研究
nutch
在Ubuntu系统上安装部署
nutch
,
nutch
安装步骤如下:1、先安装ANT(ant下载安装包就不写了百度一大把)//解压antsudotar-zxvf
tt9576
·
2016-07-18 14:00
ant
mongodb
java
nutch
ubuntu
nutch
安装部署 以
nutch
2.3.1 为例
阅读更多[/size][size=medium]最近在研究
nutch
在Ubuntu系统上安装部署
nutch
,
nutch
安装步骤如下:1、先安装ANT(ant下载安装包就不写了百度一大把)//解压antsudotar-zxvf
tt9576
·
2016-07-18 14:00
ant
mongodb
java
nutch
ubuntu
HDFS中的关键概念(一)
HDFS在最开始是作为Apache
Nutch
搜索引擎项目的基础架构而开发的。HDFS是ApacheHadoopCore项目的一部分。数据块(block)HDFS中的文件被分割成几个block,每个
sinat_31726559
·
2016-07-05 23:00
Mac上搭建
nutch
-1.8+solr
Mac上搭建
nutch
-1.8+solrhttp://www.ithao123.cn/content-840476.html
qianjiangbing
·
2016-06-27 16:00
[
Nutch
]
Nutch
2.3+Hadoop+HBase+Solr在Ubuntu环境搭建
上一篇博文介绍了在Windows10系统下用Cygwin搭建
Nutch
开发环境,本文将介绍在Ubuntu下
Nutch
2.3的开发环境的搭建。
kandy_ye
·
2016-06-19 12:54
nutch
hadoop
hbase
solr
ubuntu
Nutch
Nutch深入学习
Solr5.0配置中文分词包
1,进入Solr的安装目录,我这里是:/root/
nutch
/solr-5.0.0 把contrib/analysis-extras/lucene-libs/lucene-analyzers-smartcn
ido
·
2016-06-17 19:00
[
Nutch
]问题解决:Exception in thread "main" java.io.IOException: Job failed
1.问题描述在运行
Nutch
的时候会出现如下异常:Exceptioninthread“main”java.io.IOException:Jobfailed!
kandy_ye
·
2016-06-16 16:06
Nutch
Nutch深入学习
[
Nutch
]hadoop启用回收站
目前hadoop在默认情况下是没有启用回收站的,如果文件被删除是没有办法恢复的,所以我们需求启用回收站,以便于恢复已经删除的文件。1.用hadoop创建一个文件夹使用如下的命令在hadoop的文件系统里面创建一个文件夹urls:hadoopfs-mkdirurls用如下命令进行查看:hadoopfs-ls如下:在web里面也可以查看到:2.删掉文件使用如下命令进行删除:hadoopfs-rmrur
Kandy_Ye
·
2016-05-28 17:00
hadoop
回收站
Nutch
文件系统
[
Nutch
]hadoop启用回收站
目前hadoop在默认情况下是没有启用回收站的,如果文件被删除是没有办法恢复的,所以我们需求启用回收站,以便于恢复已经删除的文件。1.用hadoop创建一个文件夹使用如下的命令在hadoop的文件系统里面创建一个文件夹urls:hadoopfs-mkdirurls用如下命令进行查看:hadoopfs-ls如下:在web里面也可以查看到:2.删掉文件使用如下命令进行删除:hadoopfs-rmrur
Kandy_Ye
·
2016-05-28 17:00
hadoop
回收站
Nutch
文件系统
[
Nutch
]hadoop完全分布式模式负载设置
在上一篇博文有介绍hadoop的完全分布式模式的配置,但是没有对负载进行均衡设置,本篇博文就来说明将NameNode,SecondaryNameNode,JobTracker分别指定到三台主机上。1.指定SecondaryNameNode为host21.1配置masters使用如下命令:vimconf/masters将之前的host1修改为host2,然后使用如下的命令复制到host2和host3
Kandy_Ye
·
2016-05-28 16:00
hadoop
负载均衡
分布式
Nutch
[
Nutch
]hadoop完全分布式模式负载设置
在上一篇博文有介绍hadoop的完全分布式模式的配置,但是没有对负载进行均衡设置,本篇博文就来说明将NameNode,SecondaryNameNode,JobTracker分别指定到三台主机上。1.指定SecondaryNameNode为host21.1配置masters使用如下命令:vimconf/masters将之前的host1修改为host2,然后使用如下的命令复制到host2和host3
Kandy_Ye
·
2016-05-28 16:00
hadoop
负载均衡
分布式
Nutch
[
Nutch
]Hadoop多机完全分布式模式hadoop配置
1.下载hadoop使用如下命令:wgethttp://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz使用如下命令解压:tar-zxvfhadoop-1.2.1.tar.gz2.配置hadoop将hadoop的bin目录加入到配置文件中,使用如下命令:vim.bashrc添加如下行:exportPATH
Kandy_Ye
·
2016-05-28 15:00
hadoop
分布式
Nutch
多机完全分布式
[
Nutch
]Hadoop多机完全分布式模式hadoop配置
1.下载hadoop使用如下命令:wgethttp://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz使用如下命令解压:tar-zxvfhadoop-1.2.1.tar.gz2.配置hadoop将hadoop的bin目录加入到配置文件中,使用如下命令:vim.bashrc添加如下行:exportPATH
Kandy_Ye
·
2016-05-28 15:00
hadoop
分布式
Nutch
多机完全分布式
[
Nutch
]Hadoop多机完全分布式模式主机配置
在上一篇博文中我们有介绍hadoop的单机伪分布式模式的使用,那么现在我们就来看下多机完全分布式模式。1.多主机配置1.1对多台机器进行主机名设置用root账户使用如下命令:vim/etc/hostname分别对三台机器设置为:host1、host2、host31.2配置主机映射用root账户使用如下命令:vim/etc/hosts分别配置三台机器:host1:host2:host3:2.配置ss
Kandy_Ye
·
2016-05-28 14:00
hadoop
分布式
Nutch
主机配置
[
Nutch
]Hadoop多机完全分布式模式主机配置
在上一篇博文中我们有介绍hadoop的单机伪分布式模式的使用,那么现在我们就来看下多机完全分布式模式。1.多主机配置1.1对多台机器进行主机名设置用root账户使用如下命令:vim/etc/hostname分别对三台机器设置为:host1、host2、host31.2配置主机映射用root账户使用如下命令:vim/etc/hosts分别配置三台机器:host1:host2:host3:2.配置ss
Kandy_Ye
·
2016-05-28 14:00
hadoop
分布式
Nutch
主机配置
[
Nutch
]Hadoop单机伪分布式模式的使用(deploy)
在上一篇博文我们对
Nutch
进行了hadoop的配置,那么本文就对
nutch
的deploy模式的使用进行说明。
Kandy_Ye
·
2016-05-22 10:00
hadoop
分布式
Nutch
deploy
[
Nutch
]Hadoop单机伪分布模式的配置
在之前的博文中,我们一直在使用
Nutch
的local模式,那么
Nutch
的Deploy模式该怎么使用呢?首先我们来配置hadoop,为使用
Nutch
的deploy模式做准备。
Kandy_Ye
·
2016-05-22 10:00
hadoop
Nutch
deploy模式
单机伪分布
local模式
Solr在Tomcat上的搭建
nutch
和solr原来都是lucene下的子项目。但后来
nutch
独立成为独立项目。
·
2016-05-21 09:00
tomcat
Solr
安卓图表引擎AChartEngine(一) - 简介
(面积图;分区图,对比图)scatterchart( 散点图)timechart(时间图;进度表)barchart(条形图;柱状图)piechart( 饼图)bubblechart(气泡图)dough
nutch
art
sinat_29581293
·
2016-05-15 16:00
[hadoop]HDFS(Hadoop分布式文件系统)(一)
MapReduce、BigTableHadoop主要由HDFS(HadoopDistributedFileSystemHadoop分布式文件系统)、MapReduce和HBase组成Hadoop的初衷是为了解决
Nutch
alex_bean
·
2016-05-12 14:24
Big
DATA
初识Hadoop学习记录
Hadoop历史 雏形开始于2002年的Apache的
Nutch
,
Nutch
是一
hj7jay
·
2016-05-12 09:00
hadoop
基础
教程
[
Nutch
]指定LUKE的分词器
在上一篇博文我们有介绍给Solr配置中文分词器mmseg4j,那么我们在LUKE工具中如何配置对应的中文分词器进行查看呢?本篇博文将详细进行解释。1.下载中文分词器由于我们使用的luke是4.0版本的,只能使用mmseg4j的1.9.1版本,因为1.8.5的mmseg4j版本与4.0版本的luke有冲突,请点击下载1.9.1版本的mmseg4j-1.9.1.2.luke设置mmseg4j2.1加压
Kandy_Ye
·
2016-05-08 13:00
Solr
Nutch
分词器
luke
mmseg4j
[
Nutch
]指定LUKE的分词器
在上一篇博文我们有介绍给Solr配置中文分词器mmseg4j,那么我们在LUKE工具中如何配置对应的中文分词器进行查看呢?本篇博文将详细进行解释。1.下载中文分词器由于我们使用的luke是4.0版本的,只能使用mmseg4j的1.9.1版本,因为1.8.5的mmseg4j版本与4.0版本的luke有冲突,请点击下载1.9.1版本的mmseg4j-1.9.1.2.luke设置mmseg4j2.1加压
Kandy_Ye
·
2016-05-08 13:00
Solr
Nutch
分词器
luke
mmseg4j
[
Nutch
]Solr配置自定义的中文分词器mmseg4j
上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用mmseg4j中文分词器。1.下载mmseg4j点击mmseg4j-1.8.5.zip,进入下载页面。2.解压mmseg4j-1.8.5.zip将下载的mmseg4j-1.8.5.zip文件放到workspace目录下面,在workspace目录使用如下命令解压到
Kandy_Ye
·
2016-05-07 19:00
索引
Nutch
Solr
mmseg4j
luke
[
Nutch
]Solr配置自定义的中文分词器mmseg4j
上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用mmseg4j中文分词器。1.下载mmseg4j点击mmseg4j-1.8.5.zip,进入下载页面。2.解压mmseg4j-1.8.5.zip将下载的mmseg4j-1.8.5.zip文件放到workspace目录下面,在workspace目录使用如下命令解压到
Kandy_Ye
·
2016-05-07 19:00
索引
Nutch
Solr
mmseg4j
luke
[
Nutch
]使用LUKE查看Solr的索引文件内容
上一篇博文有介绍使用Solr的命令solrindex建立索引并提交到Solr服务器,那么我们怎么样查看solrindex命令产生的索引内容呢?这就要使用本篇博文要分享的工具LUKE,通过LUKE工具,我们可以很清楚的看到通过solrindex命令产生的索引内容。1.下载LUKE工具点击lukeall-4.0.0-ALPHA.jar,进入下载页面进行下载。2.启动LUKE下载之后在windows系统
kandy_ye
·
2016-05-07 17:09
Nutch
Nutch深入学习
[
Nutch
]使用LUKE查看Solr的索引文件内容
上一篇博文有介绍使用Solr的命令solrindex建立索引并提交到Solr服务器,那么我们怎么样查看solrindex命令产生的索引内容呢?这就要使用本篇博文要分享的工具LUKE,通过LUKE工具,我们可以很清楚的看到通过solrindex命令产生的索引内容。1.下载LUKE工具点击lukeall-4.0.0-ALPHA.jar,进入下载页面进行下载。2.启动LUKE下载之后在windows系统
Kandy_Ye
·
2016-05-07 17:00
索引
Nutch
Solr
luke
[
Nutch
]使用LUKE查看Solr的索引文件内容
上一篇博文有介绍使用Solr的命令solrindex建立索引并提交到Solr服务器,那么我们怎么样查看solrindex命令产生的索引内容呢?这就要使用本篇博文要分享的工具LUKE,通过LUKE工具,我们可以很清楚的看到通过solrindex命令产生的索引内容。1.下载LUKE工具点击lukeall-4.0.0-ALPHA.jar,进入下载页面进行下载。2.启动LUKE下载之后在windows系统
Kandy_Ye
·
2016-05-07 17:00
索引
Solr
Nutch
luke
[
Nutch
]Solr命令的使用
执行命令:bin/
nutch
solrindexhttp://192.168.238.128:8983/solrdata/cr
Kandy_Ye
·
2016-05-02 19:00
Solr
Nutch
solrindex
[
Nutch
]Apache Solr的安装和配置
1.获取ApacheSolr使用如下的命令:wgethttp://archive.apache.org/dist/lucene/solr/3.6.2/apache-solr-3.6.2.tgz2.解压使用如下命令:tar-zxvfapache-solr-3.6.2.tgz3.Solr的内容查看目录下面的内容:很重要的就是example目录,我们来看下有哪些文件:从里面就可以看到solr目录了。4.
kandy_ye
·
2016-05-02 17:49
Nutch
Nutch深入学习
[
Nutch
]Apache Solr的安装和配置
1.获取ApacheSolr使用如下的命令:wgethttp://archive.apache.org/dist/lucene/solr/3.6.2/apache-solr-3.6.2.tgz2.解压使用如下命令:tar-zxvfapache-solr-3.6.2.tgz3.Solr的内容查看目录下面的内容:很重要的就是example目录,我们来看下有哪些文件:从里面就可以看到solr目录了。4.
Kandy_Ye
·
2016-05-02 17:00
apache
Solr
Nutch
solr配置
solr安装
[
Nutch
]
Nutch
重要命令使用说明
之前几篇博文对nucth抓取周期的几个命令做了说明,本篇博文将对
nutch
抓取周期以外的几个重要的命令的使用进行详细的说明。1.mergesegs合并多个segment为一个segment。
kandy_ye
·
2016-05-02 13:47
Nutch
Nutch深入学习
[
Nutch
]
Nutch
重要命令使用说明
之前几篇博文对nucth抓取周期的几个命令做了说明,本篇博文将对
nutch
抓取周期以外的几个重要的命令的使用进行详细的说明。1.mergesegs合并多个segment为一个segment。
Kandy_Ye
·
2016-05-02 13:00
Nutch
重要命令
nutch命令行
[
Nutch
]抓取周期单步执行过程详解
在前一篇博文中有对
nutch
爬虫的抓取周期做一个说明,主要分为5步:1.inject—>2.generate—>3.fetch—>4.parse—>5.update架构图如下:本次我们就对
nutch
爬虫的一个抓取周期中的每一步进行详细的说明
Kandy_Ye
·
2016-04-30 16:00
爬虫
Nutch
单步执行
抓取周期
[
Nutch
]查看
Nutch
生成目录下的具体内容
在上一篇博文里面对
nutch
爬虫在抓取数据的时候产生的目录进行的说明,那么这写目录文件里面的内容如何才能查看呢?本篇博文将详细为你介绍查看具体内容的方法。
Kandy_Ye
·
2016-04-24 15:00
爬虫
Nutch
readdb
readseg
readlinkdb
[
Nutch
]查看
Nutch
生成目录下的具体内容
在上一篇博文里面对
nutch
爬虫在抓取数据的时候产生的目录进行的说明,那么这写目录文件里面的内容如何才能查看呢?本篇博文将详细为你介绍查看具体内容的方法。
Kandy_Ye
·
2016-04-24 15:00
爬虫
Nutch
readdb
readseg
readlinkdb
[
Nutch
]
Nutch
抓取过程中生成的目录内容分析
在上一篇博文中有和大家介绍了
nutch
爬虫抓取数据的整个过程,爬虫一般会抓取到很多的内容,那么这些内容都存放到什么地方了呢?
Kandy_Ye
·
2016-04-24 13:00
爬虫
Nutch
nutch目录结构
[
Nutch
]
Nutch
抓取过程中生成的目录内容分析
在上一篇博文中有和大家介绍了
nutch
爬虫抓取数据的整个过程,爬虫一般会抓取到很多的内容,那么这些内容都存放到什么地方了呢?
Kandy_Ye
·
2016-04-24 13:00
爬虫
Nutch
nutch目录结构
[
Nutch
]
Nutch
抓取过程分析
上一篇文章有说明
nutch
的按照和编译过程,本篇日志主要讲解
nutch
抓取的过程。
kandy_ye
·
2016-04-24 12:55
Nutch
Nutch深入学习
[
Nutch
]
Nutch
抓取过程分析
上一篇文章有说明
nutch
的按照和编译过程,本篇日志主要讲解
nutch
抓取的过程。
Kandy_Ye
·
2016-04-24 12:00
爬虫
Nutch
nutch抓取过程
[
Nutch
]
Nutch
抓取过程分析
上一篇文章有说明
nutch
的按照和编译过程,本篇日志主要讲解
nutch
抓取的过程。
Kandy_Ye
·
2016-04-24 12:00
爬虫
Nutch
nutch抓取过程
hadoop基础题
blog.csdn.net/pelick/article/details/8299482//Hadoop基础DougCutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是A.HadoopB.
Nutch
C
justdoithai
·
2016-04-23 20:00
hadoop
spark
hdfs
Nutch
Nutch
搜索引擎(第1期)_
Nutch
简介及安装http://www.cnblogs.com/xia520pi/p/3615554.html
明星程序员之魔者侠情
·
2016-04-10 18:00
Nutch
爬虫引擎使用分析
Nutch
2.X主要执行流程:1)InjectorJob:从文件中得到一批种子网页,把它们放到抓取数据库中去2)GeneratorJob:从抓取数据库中产生要抓取的页面放到抓取队列中去3)FetcherJob
fjssharpsword
·
2016-04-08 17:53
Big
data
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他