nutch搜索引擎的搭建以及配置

最近公司需要搭建一个搜索引擎,于是就发现了apache旗下的这个nutch,也看了不少的文章,就在本地搭建了一个进行测试,发现局域网抓取还是比较好的,但是在互联网抓取还是有点问题,像百度、谷歌这些站点的页面基本就抓不到上信息.

nutch搜索引擎的搭建以及配置

实验环境:

vmware 6.0

redhat 5.1

软件环境

apache-tomcat-6.0.29.tar.gz

nutch-1.0.tar.gz

jdk-6u21-linux-i586.bin

nutchg简介

Nutch的爬虫抓取网页有两种方式，一种方式是Intranet Crawling，针对的是企业内部网或少量网站，使用的是crawl命令；另一种方式是Whole-web crawling，针对的是整个互联网，使用inject、generate、fetch和updatedb等更底层的命令.本文档介绍Intranet Crawling的基本使用方法.

安装jdk

# cp jdk-6u21-linux-i586.bin /usr/java

# cd /usr/java

# chmod +x jdk-6u21-linux-i586.bin

# ./ jdk-6u21-linux-i586

# vi /etc/profile //添加如下的java环境变量

JAVA_HOME=/usr/java/jdk1.6.0_21

export JAVA_HOME

PATH=$JAVA_HOME/bin:$PATH

export PATH

CLASSPATH=$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:$CLASSPATH

export CLASSPATH

# source /etc/profile //让java环境变量立即生效

# java -version //测试java环境是否正常,返回版本信息,就表示jdk安装没有问题

安装tomcat

# tar zxvf apache-tomcat-6.0.29.tar.gz -C /usr/local

# cd /usr/local/

# mv apache-tomcat-6.0.29 tomcat

安装nutch

# tar zxvf nutch-1.0.tar.gz -C /usr/local

# cd /usr/local

# mv nutch-1.0 nutch

# cd nutch

设置Nutch的环境变量

增加NUTCH_JAVA_HOME变量，并将其值设为JDK的安装目录

NUTCH_JAVA_HOME=/usr/java/jdk1.6.0_21

export NUTCH_JAVA_HOME

Nutch抓取网站页面前的准备工作

在Nutch的安装目录中建立一个名为url.txt的文本文件,文件中写入要抓取网站的顶级网址，即要抓取的起始页.

这里写入国内比较有名的站点

编辑conf/crawl-urlfilter.txt文件，修改MY.DOMAIN.NAME部分:

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*com/

+^http://([a-z0-9]*\.)*cn/

+^http://([a-z0-9]*\.)*net/

解决搜索动态内容的问题

需要注意在conf下面的2个文件：regex-urlfilter.txt，crawl-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.

-[?*!@=]

这段意思是跳过在连接中存在? * ! @ = 的页面，因为默认是跳过所以,在动态页中存在?一般

按照默认的是不能抓取到的.可以在上面2个文件中都修改成：

# skip URLs containing certain characters as probable queries, etc.

# -[?*!@=] //前面加上注释.

另外增加允许的一行

# accept URLs containing certain characters as probable queries, etc.

+[?=&]

意思是抓取时候允许抓取连接中带 ? = & 这三个符号的连接

注意：两个文件都需要修改，因为NUTCH加载规则的顺序是crawl-urlfilter.txt->

regex-urlfilter.txt

编辑conf/nutch-site.xml文件,在configuration中间加入一下内容

<name>http.agent.name</name>

<value>sxit nutch agent</value>

</property>

<name>http.agent.version</name>

</property>

运行Crawl命令抓取网站内容

/usr/local/nutch/bin/nutch crawl /usr/local/nutch/url.txt -dir /usr/local/nutch/sxit -depth 3 -threads 4 >& /usr/loca/nutch/crawl.log

等待大约一段时间后,程序运行结束.会发现在nutch目录下被创建了一个名为sxit的文件夹,同时还生成一个名为crawl.log的日志文件.利用这一日志文件,我们可以分析可能遇到的任何错误.另外,在上述命令的参数中,dir指定抓取内容所存放的目录,depth表示以要抓取网站顶级网址为起点的爬行深度,threads指定并发的线程数.

使用Tomcat进行搜索测试

将nutch目录的nutch-1.0.war复制到tomcat\webapps下,这里需要启动下tomcat,然后就在webapps下面生成一个nutch-1.0的文件夹,打开 nutch-1.0\WEB-INF\classes下的nutch-site.xml文件,

//由于这里是最新的版本,原来这个配置文件的内容都删掉,添加如下的内容

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>

<nutch-conf>

<name>searcher.dir</name>

<value>/usr/local/nutch/sxit</value> //这里为刚才抓取内容所存放的目录

</property>

</nutch-conf>

启动Tomcat，打开浏览器在地址栏中输入：http://IP:8080,/nutch-1.0,就可以看到搜索页面了.、

在文本框中输入关键字,就可以进行搜索了.不过用户在使用时会发现，对于英文单词的搜索一切正常,而当要搜索中文词语时会出现乱码.其实这个问题是Tomcat设置的问题,解决办法是修改tomcat\conf下的server.xml文件，将其中的Connector部分改成如下形式即可：

<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75"

enableLookups="false" redirectPort="8443" acceptCount="100"

connectionTimeout="20000" disableUploadTimeout="true"

URIEncoding="UTF-8" useBodyEncodingForURI="true" />

nutch的分页功能

# cd /usr/local/apache-tomcat-6.0.29/ webapps/nutch-1.0

# vi search.jsp

查找int hitsPerSite 把=后面的值改成0,

然后在这个jsp文件的末尾增加如下的代码:

<tr>

<td>

if (start >= hitsPerPage) // more hits to show

{

<%} %>

</form>

int startnum=1;//页面中最前面的页码编号，我设定（满足）共10页，当页为第6页

if((int)(start/hitsPerPage)>=5)

startnum=(int)(start/hitsPerPage)-4;

for(int i=hitsPerPage*(startnum-1),j=0;i<=hits.getTotal()&&j<=10;)

{

<td>

</form>

</td>

i=i+10; //这里的10是分页显示页面数

j++;

}

<td>

if ((hits.totalIsExact() && end < hits.getTotal()) // more hits to show

|| (!hits.totalIsExact() && (hits.getLength() > start

+ hitsPerPage))) {

<input type="submit" value="<i18n:message key="next"/>">//下一页

</form>

<%} %>

</td>

</tr>

</table>

由于每次都要进行增量抓取,就搞了一个增量抓取的脚本,代码如下:

#!/bin/sh

depth=5

threads=5

RMARGS="-rf"

MVARGS="--verbose"

safe=yes

NUTCH_HOME=/usr/local/nutch

CATALINA_HOME=/usr/local/apache-tomcat-6.0.29

if [ -z "$NUTCH_HOME" ]

then

echo runbot: $0 could not find environment variable NUTCH_HOME

echo runbot: NUTCH_HOME=$NUTCH_HOME has been set by the script

else

echo runbot: $0 found environment variable NUTCH_HOME=$NUTCH_HOME

if [ -z "$CATALINA_HOME" ]

then

echo runbot: $0 could not find environment variable NUTCH_HOME

echo runbot: CATALINA_HOME=$CATALINA_HOME has been set by the script

else

echo runbot: $0 found environment variable CATALINA_HOME=$CATALINA_HOME

if [ -n "$topN" ]

then

topN="-topN $topN"

else

topN=""

steps=8

echo "----- Inject (Step 1 of $steps) -----"

$NUTCH_HOME/bin/nutch inject $NUTCH_HOME/sxit/crawldb $NUTCH_HOME/url.txt

echo "----- Generate, Fetch, Parse, Update (Step 2 o $steps) -----"

for((i=0; i <= $depth; i++))

echo "--- Beginning crawl at depth `expr $i + 1` of $depth ---"

$NUTCH_HOME/bin/nutch generate $NUTCH_HOME/sxit/crawldb $NUTCH_HOME/sxit/segments

if [ $? -ne 0 ]

then

echo "runbot: Stopping at depth $depth. No more URLs to fetcfh."

break

segment=`ls -d $NUTCH_HOME/sxit/segments/* | tail -1`

$NUTCH_HOME/bin/nutch fetch $segment -threads $threads

if [ $? -ne 0 ]

then

echo "runbot: fetch $segment at depth `expr $i + 1` failed."

echo "runbot: Deleting segment $segment."

rm $RMARGS $segment

continue

$NUTCH_HOME/bin/nutch updatedb $NUTCH_HOME/sxit/crawldb $segment

done

echo "----- Merge Segments (Step 3 of $steps) -----"

$NUTCH_HOME/bin/nutch mergesegs $NUTCH_HOME/sxit/MERGEDsegments $NUTCH_HOME/sxit/segments/*

mv $MVARGS $NUTCH_HOME/sxit/segments $NUTCH_HOME/sxit/BACKUPsegments

mkdir $NUTCH_HOME/sxit/segments

mv $MVARGS $NUTCH_HOME/sxit/MERGEDsegments/* $NUTCH_HOME/sxit/segments

rm $RMARGS $NUTCH_HOME/sxit/MERGEDsegments

echo "----- Invert Links (Step 4 of $steps) -----"

$NUTCH_HOME/bin/nutch invertlinks $NUTCH_HOME/sxit/linkdb $NUTCH_HOME/sxit/segments/*

echo "----- Index (Step 5 of $steps) -----"

$NUTCH_HOME/bin/nutch index $NUTCH_HOME/sxit/NEWindexes $NUTCH_HOME/sxit/crawldb $NUTCH_HOME/sxit/linkdb $NUTCH_HOME/sxit/segments/*

echo "----- Dedup (Step 6 of $steps) -----"

$NUTCH_HOME/bin/nutch dedup $NUTCH_HOME/sxit/NEWindexes

echo "----- Merge Indexes (Step 7 of $steps) -----"

$NUTCH_HOME/bin/nutch merge $NUTCH_HOME/sxit/NEWindex $NUTCH_HOME/sxit/NEWindexes

echo "----- Loading New Index (Step 8 of $steps) -----"

tom_pid=`ps aux |awk '/usr\/local\/apache-tomcat-6.0.29/ {print $2}'`

`kill -9 $tom_pid`

if [ "$safe" != "yes" ]

then

rm $RMARGS $NUTCH_HOME/sxit/NEWindexes

rm $RMARGS $NUTCH_HOME/sxit/index

else

mv $MVARGS $NUTCH_HOME/sxit/NEWindexes $NUTCH_HOME/sxit/indexes

mv $MVARGS $NUTCH_HOME/sxit/NEWindex $NUTCH_HOME/sxit/index

${CATALINA_HOME}/bin/startup.sh

echo "runbot: FINISHED: Crawl completed!"

echo ""

C++--模版进阶 Tanecious. C++c++
模版进阶1.非类型模版参数2.模板的特化2.1模板特化的概念2.2函数模版特化2.3类模版特化2.3.1全特化2.3.2偏特化2.3.2.1部分特化2.3.2.2参数进行进一步限制3.模版的分离编译3.1分离编译的概念3.2分离编译的详解4.模版总结1.非类型模版参数模板参数可分为类型形参和非类型形参。类型形参：出现在模板参数列表中，跟在class或typename关键字之后的参数类型名称。非类型
LeetCode 206. 反转链表 Tanecious. 刷题笔记 leetcode 链表算法
反转列表206.反转链表解法一解法二206.反转链表题目链接：206.反转链表-力扣（LeetCode）题目描述：给你单链表的头节点head，请你反转链表，并返回反转后的链表。解法一/***Definitionforsingly-linkedlist.*structListNode{*intval;*structListNode*next;*};*/typedefstructListNodeLis
【置顶】【GESP】C++ 认证学习资源汇总 CoderCodingNo GESP c++学习开发语言
其余详见：【置顶】【GESP】C++认证学习资源汇总|OneCoder【置顶】【GESP】C++认证学习资源汇总|OneCoder本置顶将汇总本站发布的GESP认证考试相关资源，并进行了分类整理，不定期更新。https://www.coderli.com/gesp-resource-summary/考纲解析一级（考纲）考点知识讲解考试级别（1）了解计算机的基本构成（CPU，内存，I/O设备等），了
【GESP】C++四级考试大纲知识点梳理, (6) 递推算法 CoderCodingNo c++算法开发语言
GESPC++四级官方考试大纲中，共有11条考点，本文针对第6条考点进行分析介绍。（6）掌握递推算法基本思想、递推关系式的推导以及递推问题求解。四级其他考点回顾：【GESP】C++四级考试大纲知识点梳理,(1)指针【GESP】C++四级考试大纲知识点梳理,(2)结构体和二维数组【GESP】C++四级考试大纲知识点梳理,(3)模块化和函数【GESP】C++四级考试大纲知识点梳理,(4)变量和作用域【
【GESP】C++四级练习 luogu-P2615 [NOIP 2015 提高组] 神奇的幻方 CoderCodingNo c++开发语言
GESPC++四级练习，多维数组练习，难度★★☆☆☆。题目题解详见：【GESP】C++四级练习luogu-P2615[NOIP2015提高组]神奇的幻方|OneCoder【GESP】C++四级练习luogu-P2615[NOIP2015提高组]神奇的幻方|OneCoderGESPC++四级练习，多维数组练习，难度★★☆☆☆。https://www.coderli.com/gesp-4-luogu-
【AI总结】Git vs GitHub vs GitLab：深度解析三者联系与核心区别荔枝吻 Java GitLab 人工智能 git github
目录1Git：版本控制的核心引擎1.1Git的核心架构与工作原理1.2Git的工作流程与区域划分1.3Git的核心能力2GitHubvsGitLab：云端双雄的差异化定位2.1核心定位与市场策略2.2技术架构深度对比2.2.1核心功能差异2.2.2AI能力演进路线（2025-2026）2.3工作流模型对比3三位一体的技术关系网3.1技术栈中的定位3.2互补与集成实践4如何选择：从场景出发的决策指南
Python面向对象编程：继承与多态三笠o.0 Python python 开发语言
1.继承概念：继承是面向对象编程的核心特性之一，它允许一个类（子类/派生类）继承另一个类（父类/基类）的属性和方法，从而建立类之间的父子关系。通过继承，子类可以复用父类的功能，同时还能扩展或修改父类的行为。语法：class子类名(父类名):#子类的代码块pass关键特性：单继承子类仅继承一个父类，形成简单的层级关系。总结：子类可以继承父类的属性和方法，就算子类自己没有，也可以使用父类的#1.继承#
坚石ET ARM加密狗复制模拟介绍加密狗复制模拟个人开发软件工程安全
ETARM加密狗是一种基于ARM处理器架构的硬件加密设备，主要用于软件保护、版权控制及授权管理。其核心原理是通过硬件芯片存储密钥或执行特定算法，与软件进行交互验证。复制此类加密狗涉及硬件逆向、固件提取及模拟技术。硬件分析与固件提取拆解物理加密狗获取芯片型号及电路设计是第一步。常见工具包括逻辑分析仪、示波器和编程器。通过编程器读取ARM芯片的Flash或EEPROM存储内容，获取固件二进制文件。部分
C++的特殊类
一、单例模式单例模式，是一种创建型设计模式，确保一个类只有一个实例，并提供一个全局访问点来获取该实例。要确保只有一个实例，关键就是要ban掉构造函数以及拷贝构造和赋值拷贝，防止出现更多实例。在ban掉构造函数以后，要如何创建出唯一的一个实例呢？只能从静态变量这个角度来想办法解决。从单例模式的应用场景入手，单例模式通常用来统一写入日志文件、对共享设备统一管理等。因此，有饿汉模式和懒汉模式两种角度的实
Python遇到SyntaxError报错怎么解决？ zhou525193851 python 开发语言
SyntaxError是Python里常见的错误，意味着代码里存在语法方面的问题，Python解释器无法对代码进行解析。下面介绍一些常见的SyntaxError错误原因以及对应的解决办法：1.括号、引号不匹配代码里的括号、引号等符号必须成对出现。若缺失或者多余，就会引发SyntaxError。错误示例：pythonprint('Hello,World!)这里单引号不匹配，会造成语法错误。解决办法：
疏锦行Python打卡 DAY 33 MLP神经网络的训练
importtorchtorch.cudaimporttorch#检查CUDA是否可用iftorch.cuda.is_available():print("CUDA可用！")#获取可用的CUDA设备数量device_count=torch.cuda.device_count()print(f"可用的CUDA设备数量:{device_count}")#获取当前使用的CUDA设备索引current_d
数学视频动画引擎Python库 -- Manim Voiceover 安装 Installation
文中内容仅限技术学习与代码实践参考，市场存在不确定性，技术分析需谨慎验证，不构成任何投资建议。ManimVoiceover是一个为Manim打造的专注于语音旁白的插件：直接在Python中添加语音旁白：无需使用视频编辑器，即可为Manim视频添加语音旁白。在渲染期间录制旁白：通过简单的命令行界面（参见RecorderService），可使用麦克风在渲染过程中录制语音旁白。使用AI生成旁白：利用多种
STM32外设应用全解析人工智能我来了 IT技术 stm32
STM32外设应用全解析STM32微控制器是一颗神奇的芯片，仿佛是嵌入式系统的瑞士军刀，集合了多种外设，为你的项目赋能。今天，我们将深入解析STM32的外设，看看它们如何为各种应用场景增添色彩。准备好了吗？让我们一起探讨吧！1.STM32外设概述1.1什么是STM32外设？你有没有想过，单片机其实就像一个机器人，而外设就是帮它实现各种功能的“工具人”？STM32单片机，基于ARMCortex-M3
蚁群算法原理与应用详解
本文还有配套的精品资源，点击获取简介：蚁群算法是一种基于蚂蚁寻找食物路径行为的优化算法，它能够有效解决包括旅行商问题、网络路由和多目标优化在内的复杂问题。该算法模拟蚂蚁释放信息素来找到最短路径的过程，通过模拟蚂蚁的行为，算法逐步优化选择路径。蚁群算法具有并行性和全局优化能力，但也面临早熟收敛和参数调整的挑战。它已成功应用于物流优化、通信网络、任务调度、机器学习、图像处理和生物医学等众多领域。1.蚁
Flink将数据流写入Kafka,Redis,ES,Mysql 浅唱战无双 flink mysql es redis kafka
Flink写入不同的数据源写入到Mysql写入到ES向Redis写入向kafka写入导入公共依赖org.slf4jslf4j-simple1.7.25compileorg.apache.flinkflink-java1.10.1org.apache.flinkflink-streaming-java_2.121.10.1写入到Mysql导入依赖mysqlmysql-connector-java5.
蚁群算法及蚂蚁系统的原理（js实现版） de_fault_ js 算法算法 javascript 图论启发式算法
蚁群算法及蚂蚁系统的原理（js实现版）蚁群算法旅行商问题蚁群系统代码实现蚁群算法蚁群算法是著名的启发式算法，常用于解决最短路径问题蚁群算法的来源蚁群算法来源于对蚂蚁寻找食物行为的观察，蚂蚁个体并不存在太高的智慧，但蚁群整体却可以通过信息素来找到通往食物的最短路径蚁群算法的原理假设从a点到b点存在2条路径，而第一条路径l短，第二条路径m长。刚开始时走l和m是随机的，但是由于l更短，所以重复频率也就更
python lambda函数计算三次幂_python lambda函数及三个常用的高阶函数
进行编程时，一般我们会给一个函数或者变量起一个名字，该名称是用于引用或寻址函数变量。但是有一个低调的函数，你不需要赋予它名字，因此该函数也叫匿名函数。该函数就是Python中的Lambda函数，下面就来为大家解析python—lambda函数，三个常用的高阶函数。为什么要使用PythonLambda函数？匿名函数可以在程序中任何需要的地方使用，但是这个函数只能使用一次，即一次性的。因此Python
MATLAB蚁群算法完整教程与代码实现 Emmamkq~~
本文还有配套的精品资源，点击获取简介：蚁群算法是一种模拟蚂蚁寻找食物路径行为的全局优化方法，具有强大的数值优化能力。本资源详细介绍了在MATLAB中实现蚁群算法的关键步骤，包括初始化、规则迭代、信息素更新和停止条件等，并通过实例代码展示了算法的实用应用。这为工程师和科研人员提供了一个学习和应用蚁群算法的平台，特别是在解决旅行商问题、网络路由、生产调度等优化问题方面。1.蚁群算法简介蚁群算法，灵感来
基于Java的蚁群算法深度解析与完整实现一枚码农404 算法 java 算法蚁群算法强化学习优化算法 java算法
基于Java的蚁群算法深度解析与完整实现本文深入剖析蚁群算法（ACO）的核心原理与实现细节，结合旅行商问题（TSP）场景，提供完整的Java代码实现及工程级优化方案。文章从蚂蚁觅食行为的信息素机制出发，详解路径选择概率模型、动态信息素更新策略及参数调优方法。通过面向对象设计构建蚁群算法核心类库，实现包括路径构建、轮盘赌选择、局部/全局信息素更新等关键算法模块，并给出参数动态调整、精英策略、并行化计
明远智睿RK3588：创新了高性能，让顾虑烟消云散 riveting 智能硬件 RK3506 人工智能 linux 安卓智能交通嵌入式开发
在科技浪潮的推动下，高性能开发已经成为众多行业发展的核心驱动力。从智能交通的车路协同，到医疗领域的影像诊断；从智能家居的智能控制，到工业互联网的智能制造，每一个领域都对模块的性能提出了极高的要求。然而，在实际开发过程中，开发者们常常会面临“担心模块性能不够用”的困扰，担心模块无法满足项目的复杂需求，影响项目的进度和质量。而明远智睿RK3588的出现，如同久旱后的甘霖，为高性能开发带来了新的希望，让
《明远智睿RK3506开发板：多核异构，赋能高可靠性工业应用新型形》 riveting 人工智能嵌入式硬件智能硬件 3506 LGA封装电力能源工业机器人
在工业4.0与物联网技术飞速发展的今天，嵌入式系统作为连接物理世界与数字世界的桥梁，其性能与可靠性直接关系到各类智能设备的运行效率与稳定性。明远智睿推出的RK3506开发板，凭借其独特的多核异构架构、卓越的能效比、丰富的外设资源以及强大的图形处理能力，正逐步成为电力、工业网关、HMI（人机界面）、商用显示器等领域高可靠性、高实时性应用场景的理想选择。多核异构，高效协同RK3506开发板采用了三核A
【Java 面试八股学习自用版】MYSQL优化-------定位慢查询以及分析
定位慢查询以及分析导致慢查询的一些原因聚合查询多表查询表数据量过大查询深度分页查询此时的表现为：页面加载过慢接口压测响应时间过长（1s以上）。定位方法（定位哪一条）方法一开源工具调试工具Arthas运维工具prometheusSkywalkingMySql自带慢日志需要在配置文件中开启设置开启以及时间阈值（ps2s）注意：一般在调试阶段开启注意一般结合自己项目说！！！！！分析慢SQL语句的原因聚合
Flink TiDB CDC 环境配置与验证
一、TiDB数据库核心配置1.启用TiCDC服务确保TiDB集群已部署TiCDC组件（版本需兼容FlinkCDC3.0.1），并启动同步服务：#示例：启动TiCDC捕获changefeedcdcclichangefeedcreate\--pd="localhost:2379"\--sink-uri="blackhole://"\--changefeed-id="flink-cdc-demo"2.验
Flink CDC支持Oracle RAC架构CDB+PDB模式的实时数据同步吗，可以上生产环境吗智海观潮 Flink flink cdc oracle flink 数据同步大数据
众所周知，FlinkCDC是一个流数据集成工具，支持多种数据源的实时数据同步，包括大家所熟知的MySQL，MongoDB等。原本是作为Flink的子项目运行，后来捐献给Apache基金会，底层实现比较依赖于Flink生态。具体到数据同步底层实现则相对比较依赖于Debezium。对于Oracle实时数据同步有需求的用户来说，经常会有疑问，比如FlinkCDC支持Oracle实时数据同步吗，可以应用到
Python实现蚁群算法闲人编程 python python 算法开发语言蚁群
目录蚁群算法的基本原理蚁群算法的步骤Python实现蚁群算法解决TSP问题解释举例说明蚁群算法（AntColonyOptimization,ACO）是一种基于自然界蚂蚁觅食行为的仿生算法，最早由MarcoDorigo在1992年提出。它是一种用于解决组合优化问题的概率算法，特别适用于解决旅行商问题（TSP）、路径规划等问题。蚁群算法的基本原理蚂蚁在寻找食物的过程中会在路径上留下信息素（pherom
Flink Oracle CDC 环境配置与验证
一、Oracle数据库核心配置详解1.启用归档日志（ArchivingLog）OracleCDC依赖归档日志获取增量变更数据，需按以下步骤启用：非CDB数据库配置：--以DBA身份连接数据库CONNECTsys/passwordASSYSDBA;--配置归档目标路径和大小ALTERSYSTEMSETdb_recovery_file_dest_size=10G;ALTERSYSTEMSETdb_re
DesktopOK v11.66 桌面图标管理软件中文绿色版
DesktopOK是一款免费的桌面图标布局管理软件，它可以帮助用户保存和恢复桌面图标的布局，让用户在不同分辨率下切换时能够方便地保持桌面图标的排列位置。软件功能1.保存和恢复桌面图标布局：用户可以保存当前的桌面图标布局，以便日后恢复到该布局。2.支持多屏显示：用户可以在多屏显示的环境下保存和恢复不同的桌面图标布局。3.自定义设置：用户可以根据自己的需求选择是否保存图标布局、快捷键等设置。4.便捷的
MySQL八股学习总览-from 小林coding c++终结者 mysql 学习数据库
MySQL八股学习总览-from小林codingMySql执行流程连接MySQL服务器查询缓存解析SQL执行SQL预处理器优化器执行器MySql执行流程连接MySQL服务器经过如下的命令,就可以与MySQL服务器建立起连接,三次握手mysql-h$ip-u$user-p服务端查询多少个客户端连接showprocesslistMySQL的连接是长连接,MySQL定义了空闲连接的最大空闲时长,由wai
【2025CVPR】SEC-Prompt：少样本增量学习中的语义互补提示模型详解清风AI 生成对抗网络人工智能神经网络 pcm 目标跟踪深度学习计算机视觉
目录一、研究背景：少样本增量学习的挑战二、SEC-Prompt核心原理1.自适应层次化查询（AdaptiveHierarchicalQuery）2.语义互补提示机制（1）判别性提示（D-Prompt）（2）非判别性提示（ND-Prompt）3.训练策略创新（1）判别性提示聚类损失（2）ND-Prompt数据增强三、模型架构图解四、关键创新点五、实验结果对比1.ImageNet-R结果2.CUB20
TMC2226-SA-富利威-步进驱动芯片 nuoxin114 单片机嵌入式硬件 fpga开发 dsp开发硬件工程
TMC2226-SA是一款超静音、不共振的两相步进电机驱动器IC。以下是其功能、运用场景及设计建议介绍：功能静音驱动：采用StealthChop2斩波器，可确保电机无噪音运行，实现最高效率和最佳电机扭矩，适合对噪音要求严格的场景。高动态运动控制：结合SpreadCycle高动态性能电机斩波控制技术，在高速运行时防抖动，能实现高动态运动，使电机运行更平稳。细分功能：支持脉冲/方向控制8、16、32、
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

nutch搜索引擎的搭建以及配置

nutch搜索引擎的搭建以及配置

实验环境:

软件环境

nutchg简介

安装jdk

安装tomcat

安装nutch

你可能感兴趣的:(nutch搜索引擎的搭建以及配置)