saiyaren

nutch 总结原创-胡志广

1. 网页快照乱码解决方法

修改nutch\cached.jsp,

将content = new String(bean.getContent(details))

修改为content = new String(bean.getContent(details),"utf-8")

在画红框的地方加上UTF-8即可

以下内容参考：http://blog.csdn.net/xiaomage_cn/archive/2010/07/13/5731112.aspx进行总结

如果改为UTF-8后如果为gb2312、gbk等页面将会出现乱码

然后还有一些文章是对Metadata修改parseDate的contentmeta来实现获取正确的编码方式，这个思路是非常正确的，但是还是有一点问题，仍然会存在一些gb2312的页面出现乱码，下面对网页快照乱码进行最终的一个简单的解决办法：

修改cache.jsp如下：

上面画红框的是修改后的内容

蓝框是原始内容

ParseData ParseData = bean.getParseData(details);

String content = null;
String contentType = ParseData.getMeta(Metadata.CONTENT_TYPE);
if (contentType.startsWith("text/html")) {
    // FIXME : it's better to emit the original 'byte' sequence
    // with 'charset' set to the value of 'CharEncoding',
    // but I don't know how to emit 'byte sequence' in JSP.
    // out.getOutputStream().write(bean.getContent(details)) may work,
    // but I'm not sure.
    String encoding = ParseData.getMeta("CharEncodingForConversion");
    if (encoding != null) {
      try {
        content = new String(bean.getContent(details), encoding);
      }
      catch (UnsupportedEncodingException e) {
        // fallback to windows-1252
        content = new String(bean.getContent(details), "windows-1252");
      }
    }
    else
      content = new String(bean.getContent(details),"GBK");
}

2. 网页快照图片、链接等内容不对[h1]

修改nutch\cached.jsp,

将这里的url改成域名

下面是修改好的代码:

//通过url截取url域名

String urlnew = details.getValue("url");

int httplen = urlnew.indexOf(':')+3;

String b=urlnew.substring(httplen);

int domainlen=b.indexOf("/");

String domain=urlnew.substring(0,domainlen+httplen);

只需要将上面的代码替换为下面的代码即可

3. nutch网页快照无法查看

点击搜索到的网页快照后，报如下错误

Display of this content was administratively prohibited by the webmaster.
You may visit the original page instead:
http://forum.laopdr.gov.la/forums/list.page.

是因为在页面中有：

这2行代码

去掉后就可以了

4. Nutch抓取动态页面

在nutch/conf/crawl-urlfilter.txt中，修改

将

-[?*!@=] //表示过滤包含指定字符的URL

修改为：

-[~]

或者注释掉

#-[?*!@=]

5. Nutch 爬取动态内容去重复

比如index.jsp是入口页：

<br>

<br>

<br>

<br>

其中11.jsp中，针对id参数：

String id=request.getParameter("id");

if(id.equals("1")){

out.println("1111111111111");

}

当id为1时，11.jsp是一种内容

当id为其他值时，11.jsp是一种内容

所以11.jsp只有上述2种内容

当爬取时，会将index.jsp中的5个链接全部爬取

但是其中id为2-5的内容是一样的，所以只取2的（排序后的结果）

所以在爬取后只有id=1和id=2的2种动态页面结果

所以nutch在生成索引时就只生成id=1的和id=2的这2个文档（document），

把其他（3-5）的重复的就给去掉，不生成文档

6. 改变摘要长度

在nutch的web项目的/classes/nutch-site.xml中，加入如下内容：

<name>searcher.summary.length</name>

<value>50</value>//默认为20

The total number of terms to display in a hit summary.

</description>

</property>

加入内容后，重启tomcat，我们在浏览器中搜索信息，会发现摘要的内容变长了。

红色框位置标注的就是摘要内容

7. 将本地urls复制到hadoop中出现错误解决方法

当执行下列语句报如下错误时：

[nutch@jdodrc bin]$ ./hadoop dfs -copyFromLocal /home/nutch/nutch-1.2/urls urls

copyFromLocal: java.io.IOException: File /user/nutch/urls/jdodrc could only be replicated to 0 nodes, instead of 1

报如上错误可知道node节点那里是0，是配置上出现了问题

那么我们下面用jps查一下进程状态：

首先查看namenode:

[nutch@jdodrc bin]$ jps

8758 NameNode

13554 Jps

9401 SecondaryNameNode

8984 JobTracker

这说明namenode是正确的，没有问题

下面我们看datanode

[nutch@jdodrc conf]$ jps

21898 Jps

这里只有一个，说明没有启动起来

然后我仔细检查了一下问题，发现是我只配置了namenode的内容，而没有配置datanode的内容

所以把namenode节点的文件copy到datanode中重新启动则正常了，那么具体有哪些文件呢？

$NUTCH_HOME/bin/ hadoop-env.sh

$NUTCH_HOME /conf/ core-site.xml

$NUTCH_HOME /conf/ hdfs-site.xml

$NUTCH_HOME /conf/ mapred-site.xml

$NUTCH_HOME /conf/ masters

$NUTCH_HOME /conf/ slaves

将namenode节点中的这些配置好的内容copy到datanode节点就ok了

那么我们首先把hadoop的filesystem清空，重新配置一遍

[nutch@jdodrc ~]$ cd filesystem/

[nutch@jdodrc filesystem]$ dir

hadooptmp name

[nutch@jdodrc filesystem]$ rm -rf *

[nutch@jdodrc filesystem]$ dir

[nutch@jdodrc filesystem]$ cd ..

[nutch@jdodrc ~]$ cd nutch-1.2/

[nutch@jdodrc nutch-1.2]$ cd bin

[nutch@jdodrc bin]$ ./hadoop namenode –format //首先格式化

[nutch@jdodrc bin]$ ./start-all.sh //启动所有机器，下面是启动的信息

starting namenode, logging to /home/nutch/nutch-1.2/bin/../logs/hadoop-nutch-namenode-jdodrc.out

hadoop2: starting datanode, logging to /home/nutch/nutch-1.2/bin/../logs/hadoop-nutch-datanode-jdodrc.out

hadoop1: starting secondarynamenode, logging to /home/nutch/nutch-1.2/bin/../logs/hadoop-nutch-secondarynamenode-jdodrc.out

starting jobtracker, logging to /home/nutch/nutch-1.2/bin/../logs/hadoop-nutch-jobtracker-jdodrc.out

hadoop2: starting tasktracker, logging to /home/nutch/nutch-1.2/bin/../logs/hadoop-nutch-tasktracker-jdodrc.out

[nutch@jdodrc bin]$ jps //查看进程

14854 SecondaryNameNode

14933 JobTracker

15034 Jps

14671 NameNode

[nutch@jdodrc bin]$ ./hadoop dfs -copyFromLocal /home/nutch/nutch-1.2/urls urls [h2]

[nutch@jdodrc bin]$ ./nutch crawl urls -dir data -depth 3 -topN 10 //爬行

crawl started in: data

rootUrlDir = urls

threads = 10

depth = 3

indexer=lucene

topN = 10

…………………….

8. 用luke 查询hdfs的索引

打开luke后，我们点击plugins插件这里，然后点击Hadoop Plugin，也就是左侧的那个标签，

打开后我们在hdfs的地址处输入你的hdfs的具体地址：

hdfs://192.168.10.10:9000/user/nutch/data/index

这个地址一定要注意，一定要是索引的具体地址，少一层也不行

比如我们hdfs的地址为hdfs://192.168.10.10:9000

然后hdfs下的索引地址是user/nutch/data/index，我们就必须去详细到index这个路径下，否则会找不到索引，这点一定要注意

9. namenode ID冲突导致HDFS不能启动

当你已经格式化一次namenode后，然后再重新格式化一次，然后你会发现会出现namenodeId冲突这个错误。

我们首先通过hadoop的控制台看一下我们的活动节点状态：

http://namenode Ip:50070

在livenode会有1个活动的节点

当错误时，下面是没有活动节点的：

看live nodes是0

然后，我们去datanode的日志里面日分析一下，日志在logs里面，日志名称为：hadoop-nutch-datanode-hadoop2.log

hadoop-nutch-datanode-（hadoop2是主机名称）

在日志中发现了这么一个错误：

2011-06-14 21:43:02,972 ERROR datanode.DataNode - java.io.IOException: Incompatible namespaceIDs in /home/nutch/filesystem/data: namenode namespaceID = 634109186; datanode namespaceID = 1464037194

at org.apache.hadoop.hdfs.server.datanode.DataStorage.doTransition(DataStorage.java:233)

at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:148)

at org.apache.hadoop.hdfs.server.datanode.DataNode.startDataNode(DataNode.java:298)

at org.apache.hadoop.hdfs.server.datanode.DataNode.<init>(DataNode.java:216)

at org.apache.hadoop.hdfs.server.datanode.DataNode.makeInstance(DataNode.java:1283)

at org.apache.hadoop.hdfs.server.datanode.DataNode.instantiateDataNode(DataNode.java:1238)

at org.apache.hadoop.hdfs.server.datanode.DataNode.createDataNode(DataNode.java:1246)

at org.apache.hadoop.hdfs.server.datanode.DataNode.main(DataNode.java:1368)

我们可以看到

namenode namespaceID = 634109186; datanode namespaceID = 1464037194

这里告诉我们namenode 的namespaceId和我们的datanode 的namesapceId不一致，

Datanode namespaceId是旧的，而namenode namesapceID是新格式化的，所以我们需要去修改一下版本号

找到<dfs.data.dir>/current/VERSION

dfs.data.dir 这个配置在hdfs-site.xml里面，这个是我的current路径

/home/nutch/filesystem/name/current

然后我把打开VERSION文件

#Tue Jun 14 21:38:02 CST 2011

namespaceID=634109186

cTime=0

storageType=NAME_NODE

layoutVersion=-18

然后我们把namespaceId修改为datanode的namespaceId 1464037194 就好了

修改之前需要停止hadoop服务，修改之后不要在重新格式化namenode ，否则namespaceId又会重新生成，我们直接start-all.sh开始节点就ok了

10. Hadoop 报copyFromLocal : No route to host 解决方法

当报这个错误的时候 no route to host ，只要关闭各个节点的防火墙即可

system-config-firewall

11. Hadoop dfs 命令

Hadoop dfs 这个命令后面加参数就是对于HDFS的操作，和linux操作系统的命令很类似，例如：
Hadoop dfs –ls 就是查看/usr/root目录下的内容，默认如果不填路径这就是当前用户路径
Hadoop dfs –rmr xxx就是删除目录，还有很多命令看看就很容易上手
Hadoop dfsadmin –report 这个命令可以全局的查看DataNode的情况。
Hadoop job 后面增加参数是对于当前运行的Job的操作，例如list,kill等
Hadoop balancer就是前面提到的均衡磁盘负载的命令。

12. Hadoop 报Unrecognized option: -dfs错误解决方法

Unrecognized option: -dfs

Could not create the Java virtual machine.

在网上找了找，没有发现解决方法，后来仔细一看，原来是自己的后面的参数输入错了，应该是dfs，没有-，所以无法识别-dfs，低级错误啊，大家一定要注意。

13. 网络原因造成nutch无法抓取报错的解决方法

fetch of http://www.sina.com.cn/ failed with: java.net.UnknownHostException:

2011-07-11 00:13:06,836 INFO api.RobotRulesParser - Couldn't get robots.txt for http://guba.eastmoney.com/look,huangjin,9614962.html: java.net.UnknownHostException: guba.eastmoney.com

2011-07-11 00:13:06,837 ERROR http.Http - java.net.UnknownHostException: guba.eastmoney.com

如果发现上面的错误后，我们查一下我们爬下来的内容

[nutch@nutch10 bin]$ ./nutch readdb data/crawldb -stats

CrawlDb statistics start: data/crawldb

Statistics for CrawlDb: data/crawldb

TOTAL urls: 1

retry 1: 1

min score: 1.0

avg score: 1.0

max score: 1.0

status 1 (db_unfetched): 1

我们如果爬取了很多url，但是所有都失败了

那么我尝试ping www.baidu.com（外网）

一般来说报了上面的问题都是网络的问题，如果ping 不通，我们调整一下网络，然后就ping通后就可以爬取了

14. Hadoop调整更大的jvm堆

在conf下找到mapred-site.xml文件，在文件中加入内容：

<name>mapred.child.java.opts</name>

</property>

Value这里是指最大的jvm内存大小 1024就是1g

当执行nutch 集群抓取时，报出了如下错误：

attempt_201107142322_0030_m_000000_2: Exception in thread "FetcherThread"

java.lang.OutOfMemoryError: Java heap space

Exception in thread "main" java.io.IOException: Job failed!

at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)

at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1107)

at org.apache.nutch.crawl.Crawl.main(Crawl.java:133)

java heap space就是堆内存空间不足了，而fetcher.java 的1107就是job提交操作，所以我们修改一下hadoop的堆内存大小就可以解决这个问题了

15. db.ignore.external.links

db.ignore.external.links 是否忽略外链

16. fetch中的一些名词解释

crawlDelay 间隔时间

minCrawlDelay 最小间隔时间

maxThreads 最大线程数

redirecting 重定向

17. nutch报的抓取错误

fetcher.Fetcher - fetch of http://t.qq.com/MR_JIANZHOU failed with: java.net.UnknownHostException: t.qq.com

fetcher.Fetcher - fetch of http://news.sohu.com/20050401/n224967814.shtml failed with: java.net.SocketTimeoutException: connect timed out

fetch of http://news.sohu.com/20070622/n250718750.shtml failed with: java.net.SocketTimeoutException: Read timed out

http.Http - java.net.UnknownHostException: hongwei6567.blog.sohu.com

fetch of http://fund.eastmoney.com/f10/jjgg_550004_1.html failed with: java.net.SocketTimeoutException: Read timed out

Error : DFS browser expects a distributed Filesystem

路径错误

18. eclipse下开发nutch 的注意事项

1. 定义一个“Default ouput folder” ，名称任意。注意不能选bin文件夹，因为如果选了bin文件夹做为Default output folder 编译时会清空该文件夹，bin下的其他文件会被删掉，导致其他问题。

2. 在“Add Class Folder” 中选择 conf 文件夹

3. 修改D:\nutch-1.2\conf下的nutch-default.xml的plugin.folders，默认为plugins，修改为

./src/plugin

<name>plugin.folders</name>

<value>./src/plugin</value>

<description>Directories where nutch plugins are located. Each

element may be a relative or absolute path. If absolute, it is used

as is. If relative, it is searched for on the classpath.</description>

</property>

19. eclipse下nutch启动报错解决方法

当启动时，报了如下错误时：

crawl started in: /usr/file/nutch

rootUrlDir = urls

threads = 10

depth = 2

indexer=lucene

topN = 10

Injector: starting at 2011-09-28 11:49:29

Injector: crawlDb: /usr/file/nutch/crawldb

Injector: urlDir: urls

Injector: Converting injected urls to crawl db entries.

Exception in thread "main" java.io.IOException: Job failed!

at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)

at org.apache.nutch.crawl.Injector.inject(Injector.java:217)

at org.apache.nutch.crawl.Crawl.main(Crawl.java:124)

请检查nutch-default.xml的plugin.folders是否修改为./src/plugin，默认为plugins，

修改后启动正常

20. linux 下运行可执行的jar

java -jar xxxx.jar

21. hadoop安全模式

我今天在删除hdsf文件内容时，报了如下错误：

rmr: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot delete /user/nutch/urls. Name node is in safe mode.

那么如何解决这个问题呢？离开安全模式

bin/hadoop dfsadmin -safemode leave

执行上面的程序后，会提示：

Safe mode is OFF

这样就是安全模式已经关闭，也就是离开了安全模式，那么则可以对HDFS内容进行删除了。

那么什么情况会进去安全模式（safe mode）呢？

NameNode在启动的时候首先进入安全模式，如果datanode丢失的block达到一定的比例（1-dfs.safemode.threshold.pct），则系统会一直处于安全模式状态即只读状态。
dfs.safemode.threshold.pct（缺省值0.999f）表示HDFS启动的时候，如果DataNode上报的block个数达到了元数据记录的block个数的0.999倍才可以离开安全模式，否则一直是这种只读模式。如果设为1则HDFS永远是处于SafeMode。
下面这行摘录自NameNode启动时的日志（block上报比例1达到了阀值0.9990）

用户对于安全模式的操作方法如下：

用户可以通过dfsadmin -safemode value   来操作安全模式，参数value的说明如下：
enter - 进入安全模式
leave - 强制NameNode离开安全模式
get -   返回安全模式是否开启的信息
wait - 等待，一直到安全模式结束。

22. 配置crawl-urlfilter.txt错误的解决方法

当运行爬取时,在控制台报了如下错误：

Injector: Converting injected urls to crawl db entries.

Exception in thread "main" java.io.IOException: Job failed!

at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)

at org.apache.nutch.crawl.Injector.inject(Injector.java:217)

at org.apache.nutch.crawl.Crawl.main(Crawl.java:124)

然后在日志中报了如下错误：

2011-12-21 17:31:16,882 ERROR api.RegexURLFilterBase - Invalid first character: http://www.baidu.com/

2011-12-21 17:31:16,884 WARN mapred.LocalJobRunner - job_local_0001

java.lang.RuntimeException: Error in configuring object

at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:93)

at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:64)

at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:117)

at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:354)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:307)

at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:177)

Caused by: java.lang.reflect.InvocationTargetException

at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)

at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)

at java.lang.reflect.Method.invoke(Method.java:597)

at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:88)

... 5 more

这是因为我在配置crawl-filter.txt的抓取策略配置失败了

#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

http://www.baidu.com/

我们可以注意到上面的抓取策略的配置，少了+^(这个是增加策略)，我们修改为如下的内容：

#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

+^http://([a-z0-9]*\.)*baidu.com/

这样配置后就解决了

23. Nutch1.3/1.4启动报错Job failed!解决方法

24. Injector: Converting injected urls to crawl db entries.

25. Exception in thread "main" java.io.IOException: Job failed!

26. at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)

27. at org.apache.nutch.crawl.Injector.inject(Injector.java:217)

28. at org.apache.nutch.crawl.Crawl.run(Crawl.java:126)

29. at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)

30. at org.apache.nutch.crawl.Crawl.main(Crawl.java:54)

解决方法如下，因为是没有加入插件，所以才报了如上错误：

在nutch-defult.xml中，查找plugin.folders

修改内容为：

./src/plugin

plugin主要是和src下的plugin对应

<name>plugin.folders</name>

<value>./src/plugin</value>

<description>Directories where nutch plugins are located. Each

element may be a relative or absolute path. If absolute, it is used

as is. If relative, it is searched for on the classpath.</description>

</property>

31. Nutch1.3/1.4爬取报 No URLs to fetch - check your seed list and URL filters问题解决方法

当配置好了策略文件和入口文件时：

regex-urlfilter.txt策略文件

入口文件是放在urls里面的

然后配置http.agent.name这个属性的value值

<name>http.agent.name</name>

<value>jdodrc</value>

<description>HTTP 'User-Agent' request header. MUST NOT be empty -

please set this to a single word uniquely related to your organization.

NOTE: You should also check other related properties:

http.robots.agents

http.agent.description

http.agent.url

http.agent.email

http.agent.version

and set their values appropriately.

</description>

</property>

Value不可以为空，否则会报出

No URLs to fetch - check your seed list and URL filters

而且这个必须是在nutch-defult.xml中配置，不能在nutch-site.xml中配置（这里和1.2以前不一样），只有配置在nutch-defult.xml中才可以生效。

还需要修改regex-urlfilter.tx文件中

# skip URLs containing certain characters as probable queries, etc.

#-[?*!@=]

-[~]

支持动态爬取

32. Solr报org.apache.solr.common.SolrException: ERROR:unknown field 'content' 解决方法

当运行nutch1.4时，建立索引报了如下错误：

org.apache.solr.common.SolrException: ERROR:unknown field 'content' ，是因为没有配置content项，那么我们需要在schema.xml文件中配置上：

即可，那么我们在哪里配置呢？

在我们配置solr的solr/home路径下的conf中，找到schema.xml配置上

下面举个例子：

我们配置solr时，配置了

该项

那么我们要需要配置schema.xml就在：

D:/file/apache-solr-3.4.0/example/solr/conf/下

schema.xml文件如果是用nutch1.3以上爬取的话，可以在nutch下的conf目录下的schema.xml文件直接copy过去

然后我们配置好后，生成的索引在

D:/file/apache-solr-3.4.0/example/solr/data/index下

33. 配置solr的tomcat6环境

我们首先下载solr

http://www.apache.org/dyn/closer.cgi/lucene/solr/

从上面的网址选择地址进行下载

下载后解压文件

然后我们在tomcat下的conf目录下

创建Catalina\localhost目录（如果存在就不用创建）

然后我们创建solr.xml文件

在里面加入如下语句：

<!--

-->

</Context>

doBase是放solr的web文件的位置

Environment中是solr的索引位置和配置文件等位置

如果需要控制访问权限则可以配置：

如果不是来自配置的IP则被拦截会显示403

34. Luke 与lucene的版本问题

如果在使用luke查看索引时，报出了如下错误：

Unknown format version: -11

那么则是luke的lucene版本低于了索引的lucene版本，所以需要更新luke，luke的下载地址：

http://code.google.com/p/luke/downloads/list

35. solr3.4添加IK3.2.8中文分词

首先需要配置solr环境，查看33项

如果solr启动成功后，然后到solr/home下（在solr.xml中配置的）

<!--

-->

</Context>

找到conf目录，然后打开schema.xml

<fieldType name="text" class="solr.TextField"

positionIncrementGap="100">

<filter class="solr.StopFilterFactory"

ignoreCase="true" words="stopwords.txt"/>

<filter class="solr.WordDelimiterFilterFactory"

generateWordParts="1" generateNumberParts="1"

catenateWords="1" catenateNumbers="1" catenateAll="0"

splitOnCaseChange="1"/>

<filter class="solr.EnglishPorterFilterFactory"

protected="protwords.txt"/>

</analyzer>

</analyzer>

</fieldType>

上面标红位置就是添加的IK分词对于SOLR的支持类

这里配置好后，我们需要把IK分词的JAR包COPY到tomcat下的webapps/solr/WEB-INF/lib下（tomcat下webapps下的solr是从docBase中释放出来的）

添加好后，我们启动后就可以用中文分词了

如果需要自己定义词库的话，那么我们需要在solr/WEB-INF下创建一个classes文件夹，然后放入

这2个文件

IKAnalyzer.cfg.xml文件是添加字库文件的

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<comment>IK Analyzer 扩展配置</comment>

<entry key="ext_dict">/mydict.dic</entry>

<!--用户可以在这里配置自己的扩展停止词字典

<entry key="ext_stopwords">/ext_stopword.dic</entry>

-->

</properties>

如果有多个词库，那么这里如下配置，以逗号分开，依次类推:

<entry key="ext_dict">/mydict.dic, /mydict1.dic </entry>

mydict.dic是词库文件

谨记

mydict.dic和IKAnalyzer.cfg.xml在web项目下，必须放在WEB-INF/classes下面，否则系统会检查不到，而且词库文件和IKAnalyzer.cfg.xml最好在同一目录下

36. solr地址无法索引报错解决方法

当nutch 执行完抓取后，建立 solr索引时，报了如下错误：

java.io.IOException: Job failed!

SolrDeleteDuplicates: starting at 2012-01-06 14:00:33

SolrDeleteDuplicates: Solr url: e:\crawl\local\local1

java.net.MalformedURLException: unknown protocol: e

at java.net.URL.<init>(URL.java:574)

at java.net.URL.<init>(URL.java:464)

at java.net.URL.<init>(URL.java:413)

at org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.<init>(CommonsHttpSolrServer.java:156)

at org.apache.nutch.indexer.solr.SolrUtils.getCommonsHttpSolrServer(SolrUtils.java:53)

at org.apache.nutch.indexer.solr.SolrDeleteDuplicates$SolrInputFormat.getSplits(SolrDeleteDuplicates.java:190)

at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:810)

at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:781)

at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730)

at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1249)

at org.apache.nutch.indexer.solr.SolrDeleteDuplicates.dedup(SolrDeleteDuplicates.java:373)

at org.apache.nutch.indexer.solr.SolrDeleteDuplicates.dedup(SolrDeleteDuplicates.java:353)

at com.jdodrc.crawl.Crawl.run(Crawl.java:159)

at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)

at com.jdodrc.crawl.MutilCrawlThread.run(MutilCrawl.java:139)

at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:885)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:907)

at java.lang.Thread.run(Thread.java:619)

日志提示：

SolrDeleteDuplicates: Solr url: e:\crawl\local\local1

这里提示了solr url是e:\crawl\local\local1，是错误的，所以我们配置上正确的solr地址即可，如：

37. Cywin本地镜像下载

http://inst.eecs.berkeley.edu/~instcd/iso//cygwin-release-20061108.iso

38. solr 报404 missing core name in path解决方法

当打开solr/admin后，页面报了：

404 missing core name in path

我们查看一下tomcat启动日志

报了如下错误：

严重: java.lang.RuntimeException: Can't find resource 'solrconfig.xml' in classpath or 'D:/file/tomcat_solr/solr/./conf/', cwd=/usr/file/tomcat_solr/bin

找不到” solrconfig.xml”文件，但是我去找了，发现存在，那么我们就去

Tomcat 下/conf/Catalina/localhost/solr.xml中看一下solr/home的配置是否正确，

查看一下，这里的value内容不正确，改为正确的启动正常后可以访问；

[h1]这里不正确

[h2]拷贝本地url到hadoop中

你可能感兴趣的:(hadoop,爬虫,搜索,Nutch,lucence)

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
容易满足的小孩洒在心头的阳光
去年买的榨汁机没有用几次就坏了，前些时间答应娃儿给他买个，天天没事就问我，啥时候买，还自己淘宝上比较，加入购物车，这不前几天赶紧给他买了，省的每天叨叨在我耳边念叨着。今天终于到货了，因为他一直想和喝芒果汁，顺便买了芒果在家，放学回来兴奋的，赶紧要榨芒果汁，还特意搜索一下芒果汁的做法，我说他要是学习能有吃这般如此认真，我也就没有那么操心了。今晚喝到了芒果汁，他很开心，是阿，孩子就是这么容易满足，得到
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
2024.9.6 Python，华为笔试题总结，字符串格式化，字符串操作，广度优先搜索解决公司组织绩效互评问题，无向图 RaidenQ python 华为 leetcode 算法力扣广度优先无向图
1.字符串格式化name="Alice"age=30formatted_string="Name:{},Age:{}".format(name,age)print(formatted_string)或者name="Alice"age=30formatted_string=f"Name:{name},Age:{age}"print(formatted_string)2.网络健康检查第一行有两个整数m
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
《 C++ 修炼全景指南：九》打破编程瓶颈！掌握二叉搜索树的高效实现与技巧 Lenyiin C++修炼全景指南技术指南 c++算法 stl
摘要本文详细探讨了二叉搜索树（BinarySearchTree,BST）的核心概念和技术细节，包括插入、查找、删除、遍历等基本操作，并结合实际代码演示了如何实现这些功能。文章深入分析了二叉搜索树的性能优势及其时间复杂度，同时介绍了前驱、后继的查找方法等高级功能。通过自定义实现的二叉搜索树类，读者能够掌握其实际应用，此外，文章还建议进一步扩展为平衡树（如AVL树、红黑树）以优化极端情况下的性能退化。
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
Table列表复现框实现【勾选-搜索-再勾选】～四时春～ java 开发语言 elementui vue
Table列表复现框实现【勾选-搜索-再勾选】概要整体架构流程代码实现技术细节注意参考文献概要最近在开发时遇到一个问题，在进行表单渲染时，正常选中没有问题，单如果需要搜索选中时，一个是已选中的不会回填，二是在搜索的结果中进行选中，没有实现，经过排查，查找资料后实现。例如：整体架构流程具体的实现效果如下：代码实现{{scope.row.userName}}已选区{{userItem.userName
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
《 C++ 修炼全景指南：十》自平衡的艺术：深入了解 AVL 树的核心原理与实现 Lenyiin C++修炼全景指南技术指南 c++数据结构 stl
摘要本文深入探讨了AVL树（自平衡二叉搜索树）的概念、特点以及实现细节。我们首先介绍了AVL树的基本原理，并详细分析了其四种旋转操作，包括左旋、右旋、左右双旋和右左双旋，阐述了它们在保持树平衡中的重要作用。接着，本文从头到尾详细描述了AVL树的插入、删除和查找操作，配合完整的代码实现和详尽的注释，使读者能够全面理解这些操作的执行过程。此外，我们还提供了AVL树的遍历方法，包括中序、前序和后序遍历，
2024春节微信红包封面序列号大全一览帮忙赚赏金
2024微信红包封面序列号哪里领取红包封面领取微信搜索公众号：【艺间封面】千万红包封面等你领取2024微信红包封面免费序列号如何设置微信红包封面？1.打开微信，点击好友选择红包。2.单击红包封面。3.单击“添加红包封面”。4.输入接收序列号。来一波免费的微信红包封面序列号微信红包封面序列号红包封面领取微信搜索公众号：艺间封面千万红包封面等你领取微信红包封面序列号kGnkrbw5a7N微信红包封面序
天猫返利网哪个最好?天猫返利网站有哪些? 优惠券高省
关于哪个返利网站好用，今天汐儿给大家介绍以下十大网站，可以作为参考：1、高省网【高省APP】（邀请码：668666）全网佣金最高。手机应用商店搜索“高省”即可免费下载安装，填写高省邀请码：668666，直升2皇冠，享更高佣金及分红奖励。高省APP全网佣金最高，手机应用商店搜索“高省”即可下载，高省邀请码：668666，此码注册，直升2皇冠，佣金更高！送万元推广大礼包，教你如何1年做到百万团队。其实
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
HarmonyOS开发实战（ Beta5.0）搜索框热搜词自动切换让开，我要吃人了 OpenHarmony HarmonyOS 鸿蒙开发 harmonyos 华为鸿蒙移动开发鸿蒙系统前端开发语言
鸿蒙HarmonyOS开发往期必看：HarmonyOSNEXT应用开发性能实践总结最新版！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）介绍本示例介绍使用TextInput组件与Swiper组件实现搜索框内热搜词自动切换。效果图预览使用说明页面顶部搜索框内热搜词条自动切换，编辑搜索框时自动隐藏。实现思路使用TextInput实现搜索框TextInput({te
leetcode刷题day19|二叉树Part07（235. 二叉搜索树的最近公共祖先、701.二叉搜索树中的插入操作、450.删除二叉搜索树中的节点）小冉在学习 leetcode 算法数据结构
235.二叉搜索树的最近公共祖先思路：二叉搜索树首先考虑中序遍历。根据二叉搜索树的特性，如果p,q分别在中间节点的左右两边，该中间节点一定是最近公共祖先，如果在同一侧，则递归这一侧即可。递归三部曲：1、传入参数：根节点，p，q，返回节点。2、终止条件：因为p,q一定存在，所以不会遍历到树的最底层，因此可以不写终止条件3、递归逻辑：如果p,q均小于root的值，递归调用左子树；如果p,q均大于roo
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
高性能javascript--算法和流程控制海淀萌狗
-for,while和do-while性能相当-避免使用for-in循环，==除非遍历一个属性量未知的对象==es5:for-in遍历的对象便不局限于数组，还可以遍历对象。原因：for-in每次迭代操作会同时搜索实例或者原型属性，for-in循环的每次迭代都会产生更多开销，因此要比其他循环类型慢，一般速度为其他类型循环的1/7。因此，除非明确需要迭代一个属性数量未知的对象，否则应避免使用for-i
阿里巴巴商品搜索API返回值实战解析 weixin_43841111 api java 前端 javascript
在解析阿里巴巴中国站商品搜索API返回值并进行实战时，可以从以下几个方面入手：一、了解API返回值的结构基本信息返回值通常包含商品的标题、价格、库存、图片链接等基本信息。这些信息对于了解商品的概况非常重要。例如，商品标题可以让你快速了解商品的名称和特点，价格信息可以帮助你进行价格比较和成本核算。详细描述可能包括商品的详细描述、规格参数、使用方法等。这些信息对于深入了解商品的特性和功能非常有帮助。比
果冻宝盒官方app邀请码有哪些一览(附邀请码填写指南)省钱又开心！小小编007
果冻宝盒是一款备受瞩目的社交电商软件，其独特的邀请机制和丰富的奖励制度吸引了大量用户。在使用果冻宝盒的过程中，填写正确的邀请码是获取奖励的重要步骤之一。本文将为您详细介绍果冻宝盒官方app的邀请码有哪些，以及如何正确填写邀请码，帮助您更好地参与果冻宝盒的社交电商生态。果冻宝盒直升金牌总裁（最高返利）注册教程：1各大应用市场搜索【果冻宝盒】并下载安装2注册果冻宝盒，根据提示填写邀请码：2233773
2022-04-25 L是木子李呢
上门维修APP开发应具备哪些功能随着移动互联网的不断发展，上门维修在我们生活中已经是非常普遍的存在了，为了给用户更方便的找到上门维修的渠道，上门维修APP应运而生，那么上门维修APP开发应具备哪些功能呢？1、维修门店搜索为了更好地方便用户省时省力，上门维修APP会依据用户定位信息搜索线下实体店，促使用户更好的找到线下维修店面，省时又省力。2、维修服务分类包括管道洁具维修、强电弱电维修、木工维修、粉
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

nutch 总结 原创-胡志广

1. 网页快照乱码解决方法

2. 网页快照图片、链接等内容不对[h1]

3. nutch网页快照无法查看

4. Nutch抓取动态页面

5. Nutch 爬取动态内容去重复

6. 改变摘要长度

7. 将本地urls复制到hadoop中出现错误解决方法

8. 用luke 查询hdfs的索引

9. namenode ID冲突导致HDFS不能启动

10. Hadoop 报copyFromLocal : No route to host 解决方法

11. Hadoop dfs 命令

12. Hadoop 报Unrecognized option: -dfs错误解决方法

13. 网络原因造成nutch无法抓取报错的解决方法

14. Hadoop调整更大的jvm堆

15. db.ignore.external.links

16. fetch中的一些名词解释

17. nutch报的抓取错误

18. eclipse下开发nutch 的注意事项

19. eclipse下nutch启动报错解决方法

20. linux 下运行可执行的jar

21. hadoop安全模式

22. 配置crawl-urlfilter.txt错误的解决方法

23. Nutch1.3/1.4启动报错Job failed!解决方法

31. Nutch1.3/1.4爬取报 No URLs to fetch - check your seed list and URL filters问题解决方法

32. Solr报org.apache.solr.common.SolrException: ERROR:unknown field 'content' 解决方法

33. 配置solr的tomcat6环境

34. Luke 与lucene的版本问题

35. solr3.4添加IK3.2.8中文分词

36. solr地址无法索引报错解决方法

37. Cywin本地镜像下载

38. solr 报404 missing core name in path解决方法

你可能感兴趣的:(hadoop,爬虫,搜索,Nutch,lucence)

nutch 总结原创-胡志广