Solr

什么是solr

Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。 Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化。

Solr可以独立运行,运行在Jetty、Tomcat等这些Servlet容器中,Solr 索引的实现方法很简单,用 POST 方法向 Solr 服务器发送一个描述 Field 及其内容的 XML 文档,Solr根据xml文档添加、删除、更新索引 。Solr 搜索只需要发送 HTTP GET 请求,然后对 Solr 返回Xml、json等格式的查询结果进行解析,组织页面布局。Solr不提供构建UI的功能,Solr提供了一个管理界面,通过管理界面可以查询Solr的配置和运行情况。

Solr与Lucene的区别

Lucene是一个开放源代码的全文检索引擎工具包,它不是一个完整的全文检索引擎,Lucene提供了完整的查询引擎和索引引擎,目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者以Lucene为基础构建全文检索引擎。

Solr的目标是打造一款企业级的搜索引擎系统,它是一个搜索引擎服务,可以独立运行,通过Solr可以非常快速的构建企业的搜索引擎,通过Solr也可以高效的完成站内搜索功能。
Solr_第1张图片

Solr安装及配置

Solr下载

从Solr官方网站(http://lucene.apache.org/solr/ )下载Solr4.10.3,根据Solr的运行环境,Linux下需要下载lucene-4.10.3.tgz,windows下需要下载lucene-4.10.3.zip。

Solr使用指南可参考:https://wiki.apache.org/solr/FrontPage。

Solr文件夹结构

将solr-4.10.3.zip解压
Solr_第2张图片
bin:solr的运行脚本
contrib:solr的一些贡献软件/插件,用于增强solr的功能。
dist:该目录包含build过程中产生的war和jar文件,以及相关的依赖文件。
docs:solr的API文档
example:solr工程的例子目录:

  • example/solr:该目录是一个包含了默认配置信息的Solr的Core目录。
  • example/multicore:该目录包含了在Solr的multicore中设置的多个Core目录。
  • example/webapps:该目录中包括一个solr.war,该war可作为solr的运行实例工程。

licenses:solr相关的一些许可信息

运行环境

solr 需要运行在一个Servlet容器中,Solr4.10.3要求jdk使用1.7以上,Solr默认提供Jetty(java写的Servlet容器),本教程使用Tocmat作为Servlet容器,环境如下:

Solr:Solr4.10.3
Jdk:jdk1.7.0_72
Tomcat:apache-tomcat-7.0.53

Solr整合Tomcat

Solr Home与SolrCore

创建一个Solr home目录,SolrHome是Solr运行的主目录,目录中包括了运行Solr实例所有的配置文件和数据文件,Solr实例就是SolrCore,一个SolrHome可以包括多个SolrCore(Solr实例),每个SolrCore提供单独的搜索和索引服务。

example\solr是一个solr home目录结构,如下:
Solr_第3张图片
上图中“collection1”是一个SolrCore(Solr实例)目录 ,目录内容如下所示:
Solr_第4张图片
说明:

  • collection1:叫做一个Solr运行实例SolrCore,SolrCore名称不固定,一个solr运行实例对外单独提供索引和搜索接口。
  • solrHome中可以创建多个solr运行实例SolrCore。
  • 一个solr的运行实例对应一个索引目录。
  • conf是SolrCore的配置文件目录 。
  • data目录存放索引文件需要创建。

整合步骤(安装solr)

  • 第一步:安装tomcat。D:\temp\apache-tomcat-7.0.53
  • 第二步:把solr的war包复制到tomcat 的webapp目录下。
    把\solr-4.10.3\dist\solr-4.10.3.war复制到D:\temp\apache-tomcat-7.0.53\webapps下。 改名为solr.war
  • 第三步:solr.war解压。使用压缩工具解压或者启动tomcat自动解压。解压之后删除solr.war
  • 第四步:把\solr-4.10.3\example\lib\ext目录下的所有的jar包添加到solr工程中
  • 第五步:配置solrHome和solrCore。
    1)创建一个solrhome(存放solr所有配置文件的一个文件夹)。\solr-4.10.3\example\solr目录就是一个标准的solrhome。
    2)把\solr-4.10.3\example\solr文件夹复制到D:\temp路径下,改名为solrhome,改名不是必须的,是为了便于理解。
    3)在solrhome下有一个文件夹叫做collection1这就是一个solrcore。就是一个solr的实例。一个solrcore相当于mysql中一个数据库。Solrcore之间是相互隔离。

在solrcore中有一个文件夹叫做conf,包含了索引solr实例的配置信息。

在conf文件夹下有一个solrconfig.xml。配置实例的相关信息。如果使用默认配置可以不用做任何修改。

Xml的配置信息
lib:solr服务依赖的扩展包,默认的路径是collection1\lib文件夹,如果没有 就创建一个
dataDir:配置了索引库的存放路径。默认路径是collection1\data文件夹,如 果没有data文件夹,会自动创建。
requestHandler
Solr_第5张图片
Solr_第6张图片

  • 第六步:告诉solr服务器配置文件也就是solrHome的位置。修改web.xml使用jndi的方式告诉solr服务器。
    Solr/home名称必须是固定的。
    Solr_第7张图片
    Solr_第8张图片
  • 第七步:启动tomcat
  • 第八步:访问http://localhost:8080/solr/

Solr后台管理

管理界面

Solr_第9张图片

Dashboard

仪表盘,显示了该Solr实例开始启动运行的时间、版本、系统资源、jvm等信息。

Logging

Solr运行日志信息

Cloud

Cloud即SolrCloud,即Solr云(集群),当使用Solr Cloud模式运行时会显示此菜单,如下图是Solr Cloud的管理界面:
Solr_第10张图片

Core Admin

Solr Core的管理界面。Solr Core 是Solr的一个独立运行实例单位,它可以对外提供索引和搜索服务,一个Solr工程可以运行多个SolrCore(Solr实例),一个Core对应一个索引目录。

添加solrcore

第一步:复制collection1改名为collection2
第二步:修改core.properties。name=collection2
第三步:重启tomcat

java properties

Solr在JVM 运行环境中的属性信息,包括类路径、文件编码、jvm内存设置等信息。

Tread Dump

显示Solr Server中当前活跃线程信息,同时也可以跟踪线程运行栈信息。

Core selector

选择一个SolrCore进行详细操作,如下:
Solr_第11张图片

Analysis

Solr_第12张图片
通过此界面可以测试索引分析器和搜索分析器的执行情况。

Dataimport

可以定义数据导入处理器,从关系数据库将数据导入 到Solr索引库中。

Document

通过此菜单可以创建索引、更新索引、删除索引等操作 界面如下:
Solr_第13张图片
/update表示更新索引,solr默认根据id(唯一约束)域来更新Document的内容,如果根据id值搜索不到id域则会执行添加操作,如果找到则更新。

Query

Solr_第14张图片
通过/select执行搜索索引,必须指定“q”查询条件方可搜索。

配置中文分析器

Schema.xml

schema.xml,在SolrCore的conf目录下,它是Solr数据表配置文件,它定义了加入索引的数据的数据类型的。主要包括FieldTypes、Fields和其他的一些缺省设置。
Solr_第15张图片

FieldType域类型定义

下边“text_general”是Solr默认提供的FieldType,通过它说明FieldType定义的内容:
Solr_第16张图片
FieldType子结点包括:name,class,positionIncrementGap等一些参数:
name:是这个FieldType的名称
class:是Solr提供的包solr.TextField,solr.TextField 允许用户通过分析器来定制索引和查询,分析器包括一个分词器(tokenizer)和多个过滤器(filter)
positionIncrementGap:可选属性,定义在同一个文档中此类型数据的空白间隔,避免短语匹配错误,此值相当于Lucene的短语查询设置slop值,根据经验设置为100。

在FieldType定义的时候最重要的就是定义这个类型的数据在建立索引和进行查询的时候要使用的分析器analyzer,包括分词和过滤

索引分析器中:使用solr.StandardTokenizerFactory标准分词器,solr.StopFilterFactory停用词过滤器,solr.LowerCaseFilterFactory小写过滤器。

搜索分析器中:使用solr.StandardTokenizerFactory标准分词器,solr.StopFilterFactory停用词过滤器,这里还用到了solr.SynonymFilterFactory同义词过滤器。

Field定义

在fields结点内定义具体的Field,filed定义包括name,type(为之前定义过的各种FieldType),indexed(是否被索引),stored(是否被储存),multiValued(是否存储多个值)等属性。

"name" type="text_general" indexed="true" stored="true"/>
"features" type="text_general" indexed="true" stored="true" multiValued="true"/>

multiValued:该Field如果要存储多个值时设置为true,solr允许一个Field存储多个值,比如存储一个用户的好友id(多个),商品的图片(多个,大图和小图),通过使用solr查询要看出返回给客户端是数组:
Solr_第17张图片

uniqueKey

Solr中默认定义唯一主键key为id域
在这里插入图片描述
Solr在删除、更新索引时使用id域进行判断,也可以自定义唯一主键。
注意在创建索引时必须指定唯一约束。

copyField复制域

copyField复制域,可以将多个Field复制到一个Field中,以便进行统一的检索
比如,输入关键字搜索title标题内容content,
定义title、content、text的域:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
根据关键字只搜索text域的内容就相当于搜索title和content,将title和content复制到text中
在这里插入图片描述

dynamicField(动态字段)

动态字段就是不用指定具体的名称,只要定义字段名称的规则,例如定义一个 dynamicField,name 为*_i,定义它的type为text,那么在使用这个字段的时候,任何以_i结尾的字段都被认为是符合这个定义的,例如:name_i,gender_i,school_i等。

自定义Field名为:product_title_t,“product_title_t”和scheam.xml中的dynamicField规则匹配成功
在这里插入图片描述
“product_title_t”是以“_t”结尾。

创建索引
Solr_第18张图片
搜索索引
Solr_第19张图片

安装中文分词器

使用IKAnalyzer中文分析器
第一步:把IKAnalyzer2012FF_u1.jar添加到solr/WEB-INF/lib目录下。
第二步:复制IKAnalyzer的配置文件和自定义词典和停用词词典到solr的classpath下。
第三步:在schema.xml中添加一个自定义的fieldType,使用中文分析器。

<!-- IKAnalyzer-->
"text_ik" class="solr.TextField">
  class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

第四步:定义field,指定field的type属性为text_ik

<!--IKAnalyzer Field-->
"title_ik" type="text_ik" indexed="true" stored="true" />
"content_ik" type="text_ik" indexed="true" stored="false" multiValued="true"/>

第四步:重启tomcat
Solr_第20张图片

模拟业务系统Field

如果不使用Solr提供的Field可以针对具体的业务需要自定义一套Field,如下是商品信息 Field

<!--product-->
"product_name" type="text_ik" indexed="true" stored="true"/>
"product_price"  type="float" indexed="true" stored="true"/>
"product_description" type="text_ik" indexed="true" stored="false" />
"product_picture" type="string" indexed="false" stored="true" />
"product_catalog_name" type="string" indexed="true" stored="true" />

"product_keywords" type="text_ik" indexed="true" stored="false" multiValued="true"/>
"product_name" dest="product_keywords"/>
"product_description" dest="product_keywords"/>

Solr管理索引库

添加/更新文档

添加单个文档
Solr_第21张图片
批量导入数据
使用dataimport插件批量导入数据。
第一步:把dataimport插件依赖的jar包添加到solrcore(collection1\lib)中
Solr_第22张图片
还需要mysql的数据库驱动。
第二步:配置solrconfig.mxl文件,添加一个requestHandler。

"/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
    "defaults">
		"config">data-config.xml</str>
    </lst>
</requestHandler> 

第三步:创建一个data-config.xml,保存到collection1\conf\目录下

"1.0" encoding="UTF-8" ?>  
   
type="JdbcDataSource"   
		  driver="com.mysql.jdbc.Driver"   
		  url="jdbc:mysql://localhost:3306/lucene"   
		  user="root"   
		  password="root"/>   
   
	"product" query="SELECT pid,name,catalog_name,price,description,picture FROM products ">
		 "pid" name="id"/> 
		 "name" name="product_name"/> 
		 "catalog_name" name="product_catalog_name"/> 
		 "price" name="product_price"/> 
		 "description" name="product_description"/> 
		 "picture" name="product_picture"/> 
	</entity>   
</document>   

</dataConfig>

第四步:重启tomcat
Solr_第23张图片
第五步:点击“execute”按钮导入数据
到入数据前会先清空索引库,然后再导入。

删除文档

1) 删除制定ID的索引


	8</id>
</delete>

2) 删除查询到的索引数据


	product_catalog_name:幽默杂货</query>
</delete>

3) 删除所有索引数据

 
	*:*</query>
</delete>

查询索引

通过/select搜索索引,Solr制定一些参数完成不同需求的搜索:

  1. q - 查询字符串,必须的,如果查询所有使用*:*
    Solr_第24张图片
  2. fq - (filter query)过虑查询,作用:在q查询符合结果中同时是fq查询符合的
    在这里插入图片描述
    过滤查询价格从1到20的记录。
    也可以在“q”查询条件中使用product_price:[1 TO 20]
    在这里插入图片描述
    也可以使用“*”表示无限,例如:
    20以上:product_price:[20 TO ]
    20以下:product_price:[
    TO 20]
  3. sort - 排序,格式:sort=+[,+]…
    在这里插入图片描述
  4. start - 分页显示使用,开始记录下标,从0开始
  5. rows - 指定返回结果最多有多少条记录,配合start来实现分页
    在这里插入图片描述
    显示前10条。
  6. fl - 指定返回那些字段内容,用逗号或空格分隔多个
    在这里插入图片描述
    显示商品图片、商品名称、商品价格
  7. df-指定一个搜索Field
    在这里插入图片描述
    也可以在SolrCore目录 中conf/solrconfig.xml文件中指定默认搜索Field,指定后就可以直接在“q”查询条件中输入关键字。
    Solr_第25张图片
  8. wt - (writer type)指定输出格式,可以有 xml, json, php, phps, 后面 solr 1.3增加的,要用通知我们,因为默认没有打开
  9. hl 是否高亮 ,设置高亮Field,设置格式前缀和后缀
    Solr_第26张图片

SolrJ管理索引库

什么是solrJ

solrj是访问Solr服务的java客户端,提供索引和搜索的请求方法,SolrJ通常在嵌入在业务系统中,通过SolrJ的API接口操作Solr服务
Solr_第27张图片

依赖的jar包

Solr_第28张图片

添加文档

第一步:创建一个java工程
第二步:导入jar包。包括solrJ的jar包。还需要
Solr_第29张图片
第三步:和Solr服务器建立连接。HttpSolrServer对象建立连接。
第四步:创建一个SolrInputDocument对象,然后添加域。
第五步:将SolrInputDocument添加到索引库。
第六步:提交。

@Test
public void testAddDocument() throws Exception {
	// 创建一个SolrServer对象,创建连接
	// 参数:solr服务的地址
	// http://localhost:8080/solr :默认为collection1
	// http://localhost:8080/solr/collection2 :连接collection2
	SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
	// 创建一个文档对象
	SolrInputDocument document = new SolrInputDocument();
	// 向文档中添加域
	// 每个文档必须有id域,而且其他域必须在schema.xml中定义
	document.addField("id", "test001");
	document.addField("product_name", "测试商品");
	document.addField("product_price", "100");
	// 把文档添加到索引库
	solrServer.add(document);
	// 提交
	solrServer.commit();
}

删除文档

根据id删除

@Test
public void testDeleteDocumentById() throws Exception {
	SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
	// 根据id删除文档
	solrServer.deleteById("test001");
	// 提交
	solrServer.commit();
}

根据查询删除

查询语法完全支持Lucene的查询语法。

@Test
public void testDeleteDocumentByQuery() throws Exception {
	SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
	// 参数:查询语法
	solrServer.deleteByQuery("*:*");
	// 提交
	solrServer.commit();
}

修改文档

在solrJ中修改没有对应的update方法,只有add方法,只需要添加一条新的文档,和被修改的文档id一致就,可以修改了。本质上就是先删除后添加。

查询文档

简单查询

@Test
public void testQueryIndex() throws Exception {
	SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
	// 创建一个SolrQuery对象
	SolrQuery query = new SolrQuery();
	// 设置查询条件
	// query.set("q", "*:*");
	query.setQuery("*:*");
	// 执行查询
	QueryResponse response = solrServer.query(query);
	// 取查询结果
	SolrDocumentList solrDocumentList = response.getResults();
	System.out.println("查询结果总记录数:" + solrDocumentList.getNumFound());
	// 遍历查询结果
	for (SolrDocument solrDocument : solrDocumentList) {
		System.out.println(solrDocument.get("id"));
		System.out.println(solrDocument.get("product_name"));
		System.out.println(solrDocument.get("product_price"));
		System.out.println(solrDocument.get("product_catalog_name"));
		System.out.println(solrDocument.get("product_picture"));
	}
}

复杂查询

其中包含查询、过滤、分页、排序、高亮显示等处理。

@Test
public void testQueryIndexFuza() throws Exception {
	SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
	// 创建一个查询对象
	SolrQuery query = new SolrQuery();
	// 设置主查询条件
	query.setQuery("厨房");
	// 设置过滤条件
	query.addFilterQuery("product_price:[0 TO 20]");
	// 排序
	// 参数1:要排序的域, 参数2:排序方式
	query.setSort("product_price", ORDER.asc);
	// 设置分页
	query.setStart(0);
	query.setRows(5);
	// 设置返回结果包含的域
	query.setFields("id", "product_name", "product_price", "product_catalog_name", "product_picture");
	// 设置默认搜索域
	query.set("df", "product_keywords");
	// 开启高亮
	query.setHighlight(true);
	// 高亮显示的域
	query.addHighlightField("product_name");
	// 高亮前缀
	query.setHighlightSimplePre("");
	// 高亮后缀
	query.setHighlightSimplePost("");
	// 执行查询
	QueryResponse response = solrServer.query(query);
	// 取查询结果
	SolrDocumentList solrDocumentList = response.getResults();
	System.out.println("查询结果总记录数:" + solrDocumentList.getNumFound());
	// 遍历查询结果
	for (SolrDocument solrDocument : solrDocumentList) {
		System.out.println(solrDocument.get("id"));
		// 取高亮显示
		Map<String, Map<String, List<String>>> highlighting = response.getHighlighting();
		List<String> list = highlighting.get(solrDocument.get("id")).get("product_name");
		String productName = "";
		if (list != null && list.size() > 0) {
			productName = list.get(0);
		} else {
			productName = (String) solrDocument.get("product_name");
		}
		System.out.println(productName);
		System.out.println(solrDocument.get("product_price"));
		System.out.println(solrDocument.get("product_catalog_name"));
		System.out.println(solrDocument.get("product_picture"));
	}
}

你可能感兴趣的:(#,Solr,搜索引擎,solr)