a280606790

Lucene/Solr开发经验

Lucene/Solr开发经验[转载]
转载：张驰有道 http://www.jinsehupan.com/blog/?p=25
多谢他的介绍。

1、开篇语
2、概述
3、渊源
4、初识Solr
5、Solr的安装
6、Solr分词顺序
7、Solr中文应用的一个实例
8、Solr的检索运算符

[开篇语]按照惯例应该写一篇技术文章了，这次结合Lucene/Solr来分享一下开发经验。

Lucene是一个使用Java语言写的全文检索开发包（API），利用它可以实现强大的检索功能，它的详细介绍大家可以去Google上搜索一下，本文重点放在Solr相关的讨论上。

[概述]目前国内研究Solr的人不多，而且大多是因为项目开发需要。Solr师承Lucene，为Apache基金会下的一个项目，具体的说它还是Lucene下的一个子项目。Solr出身豪门，而且具有自己的技术特点，填补了以往Lucene仅仅作为开发工具包的遗憾，它是一个完完整整地应用。换句话说，它是一个全文检索服务器，它开箱即用，让我们能立马体会到Lucene的强大功能，为Lucene产品化走出了一大步。

Solr分词原理演示界面

[渊源]最初，CNET Networks使用Lucene API来开发了一些应用，并在这个基础上产生了Solr的雏形，后来Apache Software Foundation在Lucene顶级项目的支持下得到了Solr，这已经是2006年1月份的事了。2006年1月17日，Solr正是加入Apache基金会的孵化项目，在整个项目孵化期间，Solr 稳步地积累各种特性并吸引了一个稳定的user群体、developer群体和Committer群体，并于1年之后的17日正式酝酿成熟，在这之前已经成功发布了1.1.0版。目前的稳定版本是1.2，Solr在9月份的2007Apache年会上大放异彩，在今年11月底将来到香港参加2007亚洲开源软件峰会，遗憾的是为什么不来北京:-(

[初识Solr]Solr服务器不同于普通的关系型数据库，不仅仅在于它核心本质的不同（面向结构化和非结构化数据的不同），很大的不同还在于它的体系架构上。Solr服务器一般情况下需要部署于应用服务器/Java容器上（如果是本机通信不涉及RPC可以不使用Java容器，如采用嵌入方式使用Solr），无法独立工作于JVM上。

Solr架构图
Solr服务器可以存储数据并通过索引对其进行快速高效检索。对外提供HTTP/XML和Json API接口，这使得它能够在多语言环境下集成，比如针对它的客户端的开发。Solr目前的客户端面向的有Java、PHP、Python、C#、Json和Ruby等，遗憾的是没有面向C/C++（这也是本人目前在研究的），研究音乐搜索分类的Brian Whitman曾在苹果平台上使用JNI技术在C代码中嵌入Solr实现检索，不过是一个Cocoa工程。有了这些客户端，使用者能很方便地将Solr集成到具体运用中。目前最完善的当属Java客户端Solrj，以及加入到Solr trunk，并将在1.3版本中正式发布。

如果不研究开发Solr，只是使用Solr，只需要关注Solr的以下几个方面：
1、Solr服务器的配置在solrconfig.xml中完成，包括对缓存，servlet的个性化配置等等，即系统全局的配置；
2、索引方法、索引域（字段）等等在schema.xml中完成，这个配置是针对Solr实例的；
3、索引数据文件默认放在Solr文档根目录下的data/index目录下，这个路径可以通过第1点配置，同时可以将这个目录下的文件进行复制粘贴，即可完成索引的复用；
4、建立索引的时间相当长，我采用按词无字典索引方式对2G110万条中文记录进行索引，花了将近2个半小时的时间（当然这个时间和很多因素有关，有兴趣的话大家可以留言和我讨论），相对而言，在linux下建索引时间要比windows下快很多，可以使用commit操作使新增索引生效，同时注意索引的优化，索引优化也是很费资源和时间的，但是优化索引也是提高检索速度的重要方法，因此需要好好权衡这一点；
5、安装完后的Solr目录下有这么几个文件夹：bin文件夹里主要是用于建立镜像和完成远程同步的脚本；conf文件夹下主要是1、2点中提到的配置文件；admin文件夹下是的主要是提供web管理界面的文件；
6、目前Solr1.2不具备安全性设计，没有用户组及权限设置，在进行具体应用时需要注意安全，目前最有效的方法是通过应用服务器上的授权实现。
本文永久链接：http://www.jinsehupan.com/blog/?p=25

[Solr的安装]Solr发行版中已经有一个使用Jetty为servlet容器的小例子，可以使用这个例子来体验，那正在在自己想部署的平台和应用服务器上该怎么一个步骤呢？

要开始使用 Solr，需安装以下软件：
1、Java 1.5 或更高版本；
2、Ant 1.6.x 或更高版本（用于编译管理Solr工程，个人推荐，当然可以使用eclipse）；
3、Web 浏览器，用来查看管理页面（官方建议使用Firefox，但实际没有发现和IE有什么差别）；
4、servlet 容器，如Tomcat 5.5（不建议使用6版本）。本文以Tomcat 在 8080 端口上运行为例。如果运行的是其他 servlet 容器或在其他的端口上运行，则可能要修改代码中的URL才能访问示例应用程序和 Solr。

下面开始安装配置：

1、使用Ant编译工程或下载示例应用程序，将Solr WAR 文件复制到 servlet 容器的webapps目录中；
2、得到Solr文件夹，以备随后将其复制到当前目录，可以使用ant build得到，也可以在下载的压缩包中找到，以它为模板以备之后的修改；
3、可以通过以下三种方式之一设置 Solr 的主位置：
设置 java 系统属性 solr.solr.home （没错，就是 solr.solr.home，一般在嵌入式集成中用得多）；
配置 java:comp/env/solr/home 的一个 JNDI 查找指向 solr 目录，建立/tomcat55/conf/Catalina/localhost/solr.xml文件，注意这个xml文件名将是Solr实例名称，2中的当前目录被指定为下面中的f:/solrhome，文件内容如下：

<context docBase="f:/solr.war" debug="0" crossContext="true" >
<environment name="solr/home" type="java.lang.String" value="f:/solrhome" override="true" />
</context>
在包含 solr 目录的目录中启动 servlet 容器（默认的 Solr 主目录是当前工作目录下的 solr）；
4、最后一点就是如果有CJK（中日韩文字）应用，出现乱码问题，采用如下方法解决（其实已经不算是solr配置问题，而是应用服务器配置问题），修改Tomcat的conf/server.xml文件中对于端口（本文为8080）的连接器统一资源编码为UTF-8，因为Solr1.2内核支持UTF-8编码：

<server ...>
<service ...>
<connector ... URIEncoding="UTF-8"/>
...
</service>
</server>
[Solr分词顺序]Solr建立索引和对关键词进行查询都得对字串进行分词，在向索引库中添加全文检索类型的索引的时候，Solr会首先用空格进行分词，然后把分词结果依次使用指定的过滤器进行过滤，最后剩下的结果才会加入到索引库中以备查询。分词的顺序如下：
索引
1：空格whitespaceTokenize
2：过滤词StopFilter
3：拆字WordDelimiterFilter
4：小写过滤LowerCaseFilter
5：英文相近词EnglishPorterFilter
6：去除重复词RemoveDuplicatesTokenFilter
查询
1：查询相近词
2：过滤词
3：拆字
4：小写过滤
5：英文相近词
6：去除重复词
以上是针对英文，中文的除了空格，其他都类似

[Solr中文应用的一个实例]
1、首先配置schema.xml，这个相当于数据表配置文件，它定义了加入索引的数据的数据类型的。1.2版本的schema.xml主要包括types、fields和其他的一些缺省设置。

A、首先需要在types结点内定义一个FieldType子结点，包括name,class,positionIncrementGap等等一些参数，name就是这个FieldType的名称，class指向org.apache.solr.analysis包里面对应的class名称，用来定义这个类型的行为。在FieldType定义的时候最重要的就是定义这个类型的数据在建立索引和进行查询的时候要使用的分析器analyzer,包括分词和过滤。在例子中text这个FieldType在定义的时候，在index的analyzer中使用solr.WhitespaceTokenizerFactory这个分词包，就是空格分词，然后使用solr.StopFilterFactory，solr.WordDelimiterFilterFactory，solr.LowerCaseFilterFactory，solr.EnglishPorterFilterFactory，solr.RemoveDuplicatesTokenFilterFactory这几个过滤器。在向索引库中添加text类型的索引的时候，Solr会首先用空格进行分词，然后把分词结果依次使用指定的过滤器进行过滤，最后剩下的结果才会加入到索引库中以备查询。Solr的analysis包并没有带支持中文的包，在这里我们采用lucene里的语言包（在下载后的solr压缩包内，lib目录下有一个lucene-analyzers-2.2.0.jar包，里面含有中文处理的cn和cjk类），有cn和cjk两个类可以支持中文。我们采用cjk类，并在schema.xml中加入如下配置：

<fieldtype name="text_cjk" class="solr.TextField">
<analyzer class="org.apache.lucene.analysis.cjk.CJKAnalyzer"/>
</fieldtype>
支持类型定义完成了。

B、接下来的工作就是在fields结点内定义具体的字段（类似数据库中的字段），就是filed，filed定义包括name,type（为之前定义过的各种FieldType）,indexed（是否被索引）,stored（是否被储存），multiValued（是否有多个值）等等。例如定义如下：

<field name="记录号" type="slong" indexed="true" stored="true" required="true" />
   <field name="文件名" type="string" indexed="true" stored="true" />
   <field name="日期" type="date" indexed="true" stored="true" />
   <field name="版次" type="string" indexed="true" stored="true" multiValued="true"/>
   <field name="栏目" type="string" indexed="true" stored="true" multiValued="true"/>
   <field name="标题" type="text_cjk" indexed="true" stored="true" multiValued="true"/>
   <field name="作者" type="text_cjk" indexed="true" stored="true" multiValued="true"/>
   <field name="正文" type="text_cjk" indexed="true" stored="true" multiValued="true"/>
   <field name="标记" type="text_cjk" indexed="true" stored="true" multiValued="true"/>
field的定义相当重要，有几个技巧需注意一下，对可能存在多值得字段尽量设置multiValued属性为true，避免建索引是抛出错误；如果不需要存储相应字段值，尽量将stored属性设为false。

C、建议建立了一个拷贝字段，将所有的全文字段复制到一个字段中，以便进行统一的检索：

<field name="text_com" type="text_cjk" indexed="true" stored="false" multiValued="true"/>
并在拷贝字段结点处完成拷贝设置：

<copyfield source="标题" dest="text_com"/>
<copyfield source="正文" dest="text_com"/>
D、除此之外，还可以定义动态字段，所谓动态字段就是不用指定具体的名称，只要定义字段名称的规则，例如定义一个dynamicField，name为*_i，定义它的type为text，那么在使用这个字段的时候，任何以_i结尾的字段都被认为是符合这个定义的，例如name_i，gender_i，school_i等。

2、配置solrconfig.xml，用来配置Solr的一些系统属性，比较重要的一个就是可以通过更改其中的dataDir属性来指定索引文件的存放位置，对于有大数据量的情况下还要进行自动commit操作配置，以下设置为当内存索引量达到20W条时自动进行往磁盘写操作，以免堆溢出，这也是解决单个入库xml文件最好不要超过30M的有效方法：

<autocommit>
<maxdocs>200000</maxdocs>
</autocommit>
3、配置好这些后，需要重新启动Solr服务器使配置生效，然后向其中添加数据。

4、添加数据是通过向服务器的update Servlet POST xml格式的数据来实现的，xml结构是这样的add中间有很多个doc，每个doc中有很多个field。添加到索引库中的每条记录都必须指定唯一的数字id来唯一标识这条索引。建立好xml文件（例如solr.xml）之后，在exampledocs目录下执行：java -jar post.jar solr.xml来添加索引数据。对于post的jar包，如果重新配置了应用服务器，如使用了comcat，端口改为8080，实例名称改为solrx了需要重新生成相应的post.jar包进行操作。

另附ronghao实现中文分词的案例供大家参考：

对全文检索而言，中文分词非常的重要，这里采用了qieqie庖丁分词（非常不错：））。集成非常的容易，我下载的是2.0.4-alpha2版本，其中它支持最多切分和按最大切分。创建自己的一个中文TokenizerFactory继承自solr的BaseTokenizerFactory。

* Created by IntelliJ IDEA.

* User: ronghao

* Date: 2007-11-3

* Time: 14:40:59

* 中文切词对庖丁切词的封装

public class ChineseTokenizerFactory extends BaseTokenizerFactory {

/**

* 最多切分默认模式

public static final String MOST_WORDS_MODE = “most-words”;

/**

* 按最大切分

public static final String MAX_WORD_LENGTH_MODE = “max-word-length”;

private String mode = null;

public void setMode(String mode) {

if (mode==null||MOST_WORDS_MODE.equalsIgnoreCase(mode)

|| “default”.equalsIgnoreCase(mode)) {

this.mode=MOST_WORDS_MODE;

} else if (MAX_WORD_LENGTH_MODE.equalsIgnoreCase(mode)) {

this.mode=MAX_WORD_LENGTH_MODE;

}

else {

throw new IllegalArgumentException(”不合法的分析器Mode参数设置:” + mode);

}

@Override

public void init(Map args) {

super.init(args);

setMode(args.get(”mode”));

}

public TokenStream create(Reader input) {

return new PaodingTokenizer(input, PaodingMaker.make(),

createTokenCollector());

}

private TokenCollector createTokenCollector() {

if( MOST_WORDS_MODE.equals(mode))

return new MostWordsTokenCollector();

if( MAX_WORD_LENGTH_MODE.equals(mode))

return new MaxWordLengthTokenCollector();

throw new Error(”never happened”);

}

在schema.xml的字段text配置里加入该分词器。

1. <fieldtype name="text" class="solr.TextField" positionIncrementGap="100">

3. <analyzer type="index">

5. <tokenizer class="com.ronghao.fulltextsearch.analyzer.ChineseTokenizerFactory" mode="most-words"/>

8. <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>

10. <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0"/>

11.

12. <filter class="solr.LowerCaseFilterFactory"/>

13.

14.

15. <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>

16.

17. </analyzer>

18.

19. <analyzer type="query">

20.

21. <tokenizer class="com.ronghao.fulltextsearch.analyzer.ChineseTokenizerFactory" mode="most-words"/>

22.

23. <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>

24.

25. <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>

26.

27. <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0"/>

28.

29. <filter class="solr.LowerCaseFilterFactory"/>

30.

31. <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>

32.

33. </analyzer>

34.

35. </fieldtype>

完成后重启tomcat，即可在http://localhost:8080/solr/admin/analysis.jsp

体验到庖丁的中文分词。注意要将paoding-analysis.jar复制到solr的lib下，注意修改jar包里字典的home。

[Solr的检索运算符]
“:” 指定字段查指定值，如返回所有值*:*2
“?”2表示单个任意字符的通配
“*” 表示多个任意字符的通配（不能在检索的项开始使用*或者?符号）2
“~”2表示模糊检索，如检索拼写类似于”roam”的项这样写：roam~将找到形如foam和roams的单词；roam~0.8，检索返回相似度在0.8以上的记录。
2邻近检索，如检索相隔10个单词的”apache”和”jakarta”，”jakarta apache”~10
“^”2控制相关度检索，如检索jakarta apache，同时希望去让”jakarta”的相关度更加好，那么在其后加上”^”符号和增量值，即jakarta^4 apache
布尔操作符AND、||2
布尔操作符OR、2&&
布尔操作符NOT、!、-2（排除操作符不能单独与项使用构成查询）
“+” 存在操作符，要求符号”+”后的项必须在文档相应的域中存在2
( ) 用于构成子查询2
2 [] 包含范围检索，如检索某时间段记录，包含头尾，date:[200707 TO 200710]
{}2不包含范围检索，如检索某时间段记录，不包含头尾
date:{200707 TO 200710}
" 转义操作符，特殊字符包括+ -2 && || ! ( ) { } [ ] ^ ” ~ * ? : "

Nginx从入门到实践(三) 听你讲故事啊
动静分离动静分离是将网站静态资源（JavaScript，CSS，img等文件）与后台应用分开部署，提高用户访问静态代码的速度，降低对后台应用访问。动静分离的一种做法是将静态资源部署在nginx上，后台项目部署到应用服务器上，根据一定规则静态资源的请求全部请求nginx服务器，达到动静分离的目标。rewrite规则Rewrite规则常见正则表达式Rewrite主要的功能就是实现URL的重写，Ngin
【Linux 从基础到进阶】Puppet配置管理工具使用爱技术的小伙子 Linux从基础到进阶 linux puppet 运维
Puppet配置管理工具使用Puppet是一种开源的配置管理工具，广泛用于自动化管理和配置服务器。它通过声明式的语言定义系统状态，能够跨多台服务器实现一致性配置。Puppet对运维团队来说，是一种强大的工具，能够有效管理服务器配置并简化操作复杂性。本文将详细介绍Puppet的核心概念、安装步骤、以及如何在CentOS和Ubuntu系统上进行配置和管理。1.Puppet的核心概念在使用Puppet之
微服务治理：Nacos, Zookeeper, consul, etcd, Eureka等 5 个常用微服务注册工具对比 surfirst 架构微服务 zookeeper consul
当然！下面是Nacos、Zookeeper、Consul、etcd和Eureka这五个常用的注册中心的详细对比：Nacos：Nacos是由HashiCorp开发的高度可扩展和可靠的服务发现、配置管理和服务网格解决方案。它的架构基于一组服务器代理形成的共识组和与服务器交互的许多客户端代理。主要特点包括：服务发现：服务在Nacos中注册，客户端可以通过DNS或HTTPAPI发现服务及其位置。健康检查：
javaweb基于ssm框架学生信息管理(成绩)系统设计与实现 ancen_73bd
开发平台、开发工具、应用服务器的介绍开发平台：Windows开发工具：idea+mySql应用服务器：ApacheTomcat8.0学生成绩管理系统主要用于学校学生成绩信息管理，能实现学生、老师、院系、班级、课程的增删改查操作，同时学生能进行选课和退课操作，老师能对学生的成绩录入和修改操作。系统流程图功能结构图部分截图免费源码获得：扫码关注微信公众号：ancenok，然后回复：013
【大型网站技术实践】初级篇：借助LVS+Keepalived实现负载均衡爱代码也爱生活 linux运维系统架构 Keepalived lvs
一、负载均衡：必不可少的基础手段1.1找更多的牛来拉车吧当前大多数的互联网系统都使用了服务器集群技术，集群即将相同服务部署在多台服务器上构成一个集群整体对外提供服务，这些集群可以是Web应用服务器集群，也可以是数据库服务器集群，还可以是分布式缓存服务器集群等等。古人有云：当一头牛拉不动车的时候，不要去寻找一头更强壮的牛，而是用两头牛来拉车。在实际应用中，在Web服务器集群之前总会有一台负载均衡服务
深入解析C++单例模式：从基础到线程安全的高效实现 shuai_258 c++全套攻略 c++c++多线程开发语言 c++qt
引言在C++开发中，单例模式（SingletonPattern）是一种常见且重要的设计模式。它确保类的实例在整个程序生命周期中唯一，并提供一个全局访问点。这在日志管理、配置管理等场景中尤为常见。本篇博客将带你深入了解单例模式的实现原理，并介绍如何在多线程环境下实现线程安全的单例模式。什么是单例模式？单例模式是一种设计模式，其核心思想是确保某个类只能有一个实例，并提供一个全局的访问点。其应用场景包括
知乎获2000赞的Java 多线程超详细总结笔记，看这一篇彻底搞懂线程池 Java老猿 Java 多线程面试 java 程序人生阿里巴巴
一、多线程有什么用？一个可能在很多人看来很扯淡的一个问题：我会用多线程就好了，还管它有什么用？在我看来，这个回答更扯淡。所谓"知其然知其所以然"，“会用"只是"知其然”，“为什么用"才是"知其所以然”，只有达到"知其然知其所以然"的程度才可以说是把一个知识点运用自如。OK，下面说说我对这个问题的看法：（1）发挥多核CPU的优势随着工业的进步，现在的笔记本、台式机乃至商用的应用服务器至少也都是双核的
springboot自动装配和统一配置分析 DEARM LINER spring boot java 后端
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言spring项目搭建1、idea创建maven项目，pom文件引入springboot依赖2、创建启动类1、自动装配1.1、@SpringBootApplication1.2、SpringApplication.run()2、统一配置管理1、SpringApplication.run()，找到相关的配置文件，加入解析到到e
阿里云产品2023年特卖，数十款云产品1元起阿里云最新优惠和活动汇总
阿里云推出2023年云产品特卖活动，此活动汇聚阿里云热门云产品，1元起体验阿里云安全、稳定、领先的云服务！账号完成实名认证还送满减优惠券，助您低成本轻松上云！下面是活动详细内容。活动中心图.png活动直达：1、点此进入阿里云2023年云上特卖活动2、点此进入阿里云官网领券平台一、云服务器产品特卖面向个人/企业新用户的新购优惠（以下优惠只可享受1台1次，不可叠加享受）：1.购买轻量应用服务器指定配置
Nacos的应用 chen_xiayu java
Nacos是一个开源的分布式服务发现和配置管理平台，可以帮助开发人员和运维人员更好地管理微服务和云原生应用。本文将详细介绍Nacos的应用，包括其主要功能、使用场景和具体步骤。一、主要功能1.服务发现和注册Nacos能够实现服务注册和发现，使得各个服务的调用方可以方便地找到并调用服务提供方。当服务提供方上线时，Nacos会自动地将其注册到服务注册中心。当服务调用方需要调用服务提供方时，只需向Nac
【C++开发中XML 文件的妙用】勾魂凉皮 c++xml 开发语言
在C++中，XML（可扩展标记语言）文件通常用于存储配置数据、应用程序设置、数据交换格式等。由于其结构化和可读性强的特点，XML文件在配置管理、序列化、跨平台数据交换以及软件国际化等方面有着广泛的应用。XML文件的妙用配置管理：XML文件经常被用来存储应用程序的配置。可以动态读取XML文件来配置应用程序的行为，而无需重新编译代码。数据交换格式：XML是跨平台、跨语言的数据交换格式。许多网络协议和数
面试Spring Cloud 问了我35个问题，全部分享出来！套马杆的程序员
❝对于目前来说，微服务已经是程序员必会的技能之一了。SpringCloud作为一个优质的微服务框架，已经被很多公司使用。以下小编给大家整理35道SpringCloud的知识点，或者说是面试题都不冲突。后续还会继续更新⛽️❞1.什么是SpringCloud?SpringCloud为开发人员提供了工具，以快速构建分布式系统中的一些常见模式（例如，配置管理，服务发现，断路器，智能路由，微代理，控制总线，
90、k8s之secret+configMap ly1435678619 kubernetes linux 容器
一、secret配置管理配置管理：加密配置：保存密码，token，其他敏感信息的k8s资源应用配置：我们需要定制化的给应用进行配置，我们需要把定制好的配置文件同步到pod当中容器1.1、加密配置：secret：[root@master01~]#kubectlgetsecrets##查看加密配置[root@master01~]#kubectlgetsecrets-nkube-system##查看加密
某金融企业生产环境下信创数据库运维管理规范罗伯特之技术屋 VIP专栏数据库金融运维
数据是企业的生命线，企业为了保障数据库的稳定运行和数据的安全，设计一套数据库运维管理规范非常关键。信创浪潮来临后，在金融业中，IT技术部门更应尽快熟悉掌握信创数据库的管理技术，并形成规范化的数据库运维管理体系。信创数据库的运维管理，更需做好规划配置管理、监控管理、容灾备份管理、安全管理，并形成规范。合理的运维管理规范不仅能够提高信创数据库的管理效率和运行性能，还能够提高信创数据库的稳定性，保障数据
信创那些事儿——Spring Boot中集成东方通中间件（TongWeb）北欧人写代码 tomcat 安全
在SpringBoot中集成东方通中间件（如TongWeb作为Servlet容器）通常涉及几个步骤，但需要注意的是，TongWeb本身是一个独立的JavaEE应用服务器，而不是像Tomcat那样可以直接嵌入到SpringBoot应用中的中间件。因此，集成通常意味着将SpringBoot应用打包为WAR文件并部署到TongWeb服务器上。以下是在SpringBoot中集成东方通中间件（以TongWe
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
使用Ansible实现高效服务器配置管理的最佳实践范范0825 ansible 服务器运维
使用Ansible实现高效服务器配置管理的最佳实践在现代IT运维中，服务器的配置管理是一个关键环节。传统的手动配置方法不仅耗时耗力，而且容易出错，特别是在规模庞大的服务器集群中，配置的一致性难以保证。Ansible作为一款无代理的自动化运维工具，通过其易用性和灵活性，提供了一种高效的服务器配置管理解决方案。本指南将从基础到高级应用，详细介绍使用Ansible实现高效服务器配置管理的最佳实践。目录什
【脚手架第一篇章】介绍一下若依微服务版框架蜗牛 | ICU 脚手架专栏微服务架构云原生
若依框架（RuoYi）是一个广泛使用的开源框架，它提供了多种版本以满足不同开发需求。以下是关于若依框架微服务版（RuoYi-Cloud）的详细介绍：一、概述RuoYi-Cloud是基于SpringCloud和SpringBoot的分布式微服务架构平台，专为构建大型分布式系统提供完整的解决方案。它集成了众多微服务特性，如服务发现、配置管理、负载均衡等，适合需要高可扩展性和高可用性的企业级应用。二、技
Ansible Tower与AWX：构建可视化的运维自动化解决方案勤劳兔码农运维 ansible 自动化
AnsibleTower与AWX：构建可视化的运维自动化解决方案引言随着企业数字化转型的深入，运维自动化逐渐成为IT管理的重要组成部分。Ansible作为一种简单、灵活且功能强大的自动化工具，广泛应用于配置管理、应用部署和任务自动化中。然而，在大规模、复杂的企业环境中，单纯使用Ansible命令行来管理和执行任务，难以满足对自动化流程的可视化、可审计和权限管理等高级需求。为了解决这些问题，RedH
Java Web安全与Spring Config对象实战福建低调
本文还有配套的精品资源，点击获取简介：本课程深入探讨JavaWeb开发中的安全实践，包括认证与授权、输入验证、CSRF和XSS防护以及SQL注入防御等关键安全措施。同时，介绍SpringSecurity框架的应用，以及Config对象在Spring配置管理中的作用，包括依赖注入和外部化配置。课程还包括实战演练，通过设置安全环境和安全漏洞模拟，帮助开发者提升应用的安全性和故障排查能力。1.Web安全
2024年最值得买的7款阿里云服务器推荐，价格便宜又好用阿里云最新优惠和活动汇总
随着云计算技术的日益成熟，越来越多的企业和个人开始选择云服务器作为自己的IT基础设施。在众多云服务提供商中，阿里云是很多个人和企业用户的首选云服务商。2024年，阿里云又推出了几款性价比超高的云服务器，不仅价格便宜，而且性能卓越，非常适合个人和普通企业用户购买。下面，就让我们一起来看看这7款值得入手的阿里云服务器吧！一、轻量应用服务器——入门之选，性价比超高对于初学者和小型应用来说，轻量应用服务器
大型网站核心架构要素贾欣晓架构架构
文章目录1性能1.1性能优化1.2性能度量2可用性2.1可用性指标2.2可用性目标2.3可用性方案2.4可用性度量3伸缩性3.1伸缩性度量3.2伸缩性方案3.2.1应用服务器集群3.2.2缓存服务器集群3.2.3关系数据库集群3.2.4NoSQL数据库产品4扩展性4.1扩展性度量4.2扩展性方案4.2.1事件驱动架构4.2.2分布式服务5安全性5.1安全性度量6小结关于什么是架构，一种比较通俗的说
【学习笔记】无人机系统（UAS）的连接、识别和跟踪（十一）-无人机A2X功能和特性瑶光守护者 5G-A 无人机学习笔记无人机 3GPP 5G
目录引言6.2高级功能和特性6.2.1A2X通信的授权和配置6.2.2A2X通信6.2.3A2X应用服务器发现6.2.4A2X通信的QoS处理6.2.5A2X服务订阅6.2.6标识符6.2.7EPSA2X与5GSA2X之间的互操作性6.2.8A2X使用的MBS服务描述引言3GPPTS23.256技术规范，主要定义了3GPP系统对无人机（UAV）的连接性、身份识别、跟踪及A2X（Aircraft-t
万字详解PHP+Sphinx中文亿级数据全文检索实战（实测亿级数据0.1秒搜索耗时）小松聊PHP进阶 MySQL PHP 全文检索 php sphinx mysql sql 数据库服务器
Sphinx查询性能非常厉害，亿级数据下输入关键字，大部分能在0.01~0.1秒，少部分再5秒之内查出数据。Sphinx官方文档：http://sphinxsearch.com/docs/sphinx3.html极简概括：由C++编写的高性能全文搜索引擎的开源组件，C/S架构，跨平台（支持Linux、Windows、MacOS），支持分布式部署，并可直接适配MySQL。解决问题：因为MySQL的l
【保姆级】阿里云服务器frp内网穿透教程第四维度4 关于我买了台阿里云服务器 Linux 学习笔记其他随笔服务器阿里云 linux
背景1：去年买了一台阿里云服务器，轻量应用服务器，2核4G.个人比较喜欢嵌入式，开发板也不少，但是开发板连接路由器后内次都要看一下IP然后去连接（虽然可以在路由器上控设置固定IP），然后最近突发奇想，使用阿里云服务器的公网IP作为跳板实现frp内网穿透，实现公网IP+端口随时随地就能控制你的开发板[nice.jpg]，也能通过公网IP+端口访问你的电脑等等，感觉特别好玩，联想起huashengke
JavaEE进阶知识学习-----SpringCloud（十）SpringCloudConfig配置中心四川码匠 SpringCloud JAVA进阶学习 SpringCloud学习笔记 SpringCloud
SpringCloudConfig配置中心概述就前面项目而言，分布面临的问题是配置问题，每一个项目都有一个yml文件，不好运维管理，所有需要一套集中式，动态的配置管理设施，SpringCloud提供了ConfigServer来解决这个问题。SpringCloudConfig是为微服务架构中的微服务提供集中化的外部配置支持，配置服务器为各个不同的微服务应用的环境提供了一个中心化的外部配置。Sprin
ASPICE的配置管理工具华菱企业管理咨询汽车安全运维网络服务器 web安全安全人工智能
ASPICE标准对配置管理工具的要求主要包括以下几个方面：1.版本控制：配置管理工具应提供强大的版本控制功能，能够对软件和文档等配置项进行版本管理，确保每个版本的完整性和可追溯性。2.变更管理：工具应支持变更管理流程，包括变更请求的提交、审批、实施和验证等环节，以确保变更的控制和跟踪。3.配置项追踪：工具应能够追踪配置项之间的关联关系，帮助团队理清配置项间的依赖关系和影响关系，确保变更的影响范围可
从零开始搭建WordPress个人网站 zhaoolee
imageimageimageimageimageimage文字版查看下一篇推送设置轻量应用服务器•初始化轻量应用服务器，设置登录密码比如iamzhaoolee•将域名hk.v2fy.com解析到轻量应用服务器的ip•确认开启轻量应用服务器的80端口，63306端口，待会儿要用ssh登录到服务器#查看路径下载wgethttps://wordpress.org/wordpress-5.3.tar.g
微服务——服务治理一个搬砖的农民工微服务解决方案微服务服务治理 java springcloud nacos
目录1什么是服务治理？2为什么需要服务治理？3服务治理的关键点3.1服务注册与发现3.2负载均衡3.3容错与熔断3.4服务监控与告警3.5服务配置管理4示例说明5总结1什么是服务治理？简单来说，服务治理就是对微服务架构中的服务进行管理、监控和控制的一系列技术和方法。它确保服务之间的调用、依赖和协作能够顺利进行，从而保障整个系统的稳定、可靠和高效。2为什么需要服务治理？随着微服务数量的增加，服务之间
ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

Lucene/Solr开发经验

你可能感兴趣的:(应用服务器,配置管理,Solr,Lucene,全文检索)