Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。
Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化。
Solr可以独立运行,运行在Jetty、Tomcat等这些Servlet容器中,Solr 索引的实现方法很简单,用 POST 方法向 Solr 服务器发送一个描述 Field 及其内容的 XML 文档,Solr根据xml文档添加、删除、更新索引 。Solr 搜索只需要发送 HTTP GET 请求,然后对 Solr 返回Xml、json等格式的查询结果进行解析,组织页面布局。Solr不提供构建UI的功能,Solr提供了一个管理界面,通过管理界面可以查询Solr的配置和运行情况。
Lucene是一个开放源代码的全文检索引擎工具包
,它不是一个完整的全文检索引擎,Lucene提供了完整的查询引擎和索引引擎,目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者以Lucene为基础构建全文检索引擎。
Solr的目标是打造一款企业级的搜索引擎系统,它是一个搜索引擎服务,可以独立运行
,通过Solr可以非常快速的构建企业的搜索引擎,通过Solr也可以高效的完成站内搜索功能。
从Solr官方网站(http://lucene.apache.org/solr/ )下载Solr4.10.3,根据Solr的运行环境,Linux下需要下载lucene-4.10.3.tgz,windows下需要下载lucene-4.10.3.zip。
Solr使用指南可参考:https://wiki.apache.org/solr/FrontPage。
将solr-4.10.3.zip解压
bin
:solr的运行脚本
contrib
:solr的一些贡献软件/插件,用于增强solr的功能。
dist
:该目录包含build过程中产生的war和jar文件,以及相关的依赖文件。
docs
:solr的API文档
example
:solr工程的例子目录:
licenses
:solr相关的一些许可信息
solr 需要运行在一个Servlet容器中,Solr4.10.3要求jdk使用1.7以上,Solr默认提供Jetty(java写的Servlet容器),本教程使用Tocmat作为Servlet容器,环境如下:
Solr:Solr4.10.3
Jdk:jdk1.7.0_72
Tomcat:apache-tomcat-7.0.53
创建一个Solr home目录,SolrHome是Solr运行的主目录,目录中包括了运行Solr实例所有的配置文件和数据文件,Solr实例就是SolrCore,一个SolrHome可以包括多个SolrCore(Solr实例),每个SolrCore提供单独的搜索和索引服务。
example\solr
是一个solr home目录结构,如下:
上图中“collection1”是一个SolrCore(Solr实例)目录 ,目录内容如下所示:
说明:
在solrcore中有一个文件夹叫做conf,包含了索引solr实例的配置信息。
在conf文件夹下有一个solrconfig.xml。配置实例的相关信息。如果使用默认配置可以不用做任何修改。
Xml的配置信息
lib
:solr服务依赖的扩展包,默认的路径是collection1\lib文件夹,如果没有 就创建一个
dataDir
:配置了索引库的存放路径。默认路径是collection1\data文件夹,如 果没有data文件夹,会自动创建。
requestHandler
Solr/home名称必须是固定的。
仪表盘
,显示了该Solr实例开始启动运行的时间、版本、系统资源、jvm等信息。
Solr运行日志信息
Cloud即SolrCloud,即Solr云(集群
),当使用Solr Cloud模式运行时会显示此菜单,如下图是Solr Cloud的管理界面:
Solr Core的管理界面。
Solr Core 是Solr的一个独立运行实例单位,它可以对外提供索引和搜索服务,一个Solr工程可以运行多个SolrCore(Solr实例),一个Core对应一个索引目录。
添加solrcore
第一步:复制collection1改名为collection2
第二步:修改core.properties。name=collection2
第三步:重启tomcat
Solr在JVM 运行环境中的属性信息,包括类路径、文件编码、jvm内存设置等信息。
显示Solr Server中当前活跃线程信息,同时也可以跟踪线程运行栈信息。
可以定义数据导入处理器,从关系数据库将数据导入 到Solr索引库中。
通过此菜单可以创建索引、更新索引、删除索引等操作
界面如下:
/update表示更新索引
,solr默认根据id(唯一约束)域来更新Document的内容,如果根据id值搜索不到id域则会执行添加操作,如果找到则更新。
通过/select执行搜索索引,必须指定“q”查询条件方可搜索。
schema.xml,在SolrCore的conf目录下,它是Solr数据表配置文件,它定义了加入索引的数据的数据类型的。主要包括FieldTypes、Fields和其他的一些缺省设置。
下边“text_general”是Solr默认提供的FieldType,通过它说明FieldType定义的内容:
FieldType子结点包括:name,class,positionIncrementGap等一些参数:
name
:是这个FieldType的名称
class
:是Solr提供的包solr.TextField,solr.TextField 允许用户通过分析器来定制索引和查询,分析器包括一个分词器(tokenizer)和多个过滤器(filter)
positionIncrementGap
:可选属性,定义在同一个文档中此类型数据的空白间隔,避免短语匹配错误,此值相当于Lucene的短语查询设置slop值,根据经验设置为100。
在FieldType定义的时候最重要的就是定义这个类型的数据在建立索引和进行查询的时候要使用的分析器analyzer,包括分词和过滤
索引分析器中:使用solr.StandardTokenizerFactory标准分词器,solr.StopFilterFactory停用词过滤器,solr.LowerCaseFilterFactory小写过滤器。
搜索分析器中:使用solr.StandardTokenizerFactory标准分词器,solr.StopFilterFactory停用词过滤器,这里还用到了solr.SynonymFilterFactory同义词过滤器。
在fields结点内定义具体的Field,filed定义包括name,type(为之前定义过的各种FieldType),indexed(是否被索引),stored(是否被储存),multiValued(是否存储多个值)等属性。
"name" type="text_general" indexed="true" stored="true"/>
"features" type="text_general" indexed="true" stored="true" multiValued="true"/>
multiValued:该Field如果要存储多个值时设置为true,solr允许一个Field存储多个值
,比如存储一个用户的好友id(多个),商品的图片(多个,大图和小图),通过使用solr查询要看出返回给客户端是数组:
Solr中默认定义唯一主键key为id域
Solr在删除、更新索引时使用id域进行判断,也可以自定义唯一主键。
注意在创建索引时必须指定唯一约束。
copyField复制域,可以将多个Field复制到一个Field中,以便进行统一的检索
比如,输入关键字搜索title标题内容content,
定义title、content、text的域:
根据关键字只搜索text域的内容就相当于搜索title和content,将title和content复制到text中
动态字段就是不用指定具体的名称,只要定义字段名称的规则
,例如定义一个 dynamicField,name 为*_i,定义它的type为text,那么在使用这个字段的时候,任何以_i结尾的字段都被认为是符合这个定义的,例如:name_i,gender_i,school_i等。
自定义Field名为:product_title_t,“product_title_t”和scheam.xml中的dynamicField规则匹配成功
“product_title_t”是以“_t”结尾。
使用IKAnalyzer中文分析器
第一步:把IKAnalyzer2012FF_u1.jar添加到solr/WEB-INF/lib目录下。
第二步:复制IKAnalyzer的配置文件和自定义词典和停用词词典到solr的classpath下。
第三步:在schema.xml中添加一个自定义的fieldType,使用中文分析器。
<!-- IKAnalyzer-->
"text_ik" class="solr.TextField">
class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
第四步:定义field,指定field的type属性为text_ik
<!--IKAnalyzer Field-->
"title_ik" type="text_ik" indexed="true" stored="true" />
"content_ik" type="text_ik" indexed="true" stored="false" multiValued="true"/>
模拟
业务系统Field如果不使用Solr提供的Field可以针对具体的业务需要自定义一套Field,如下是商品信息 Field
<!--product-->
"product_name" type="text_ik" indexed="true" stored="true"/>
"product_price" type="float" indexed="true" stored="true"/>
"product_description" type="text_ik" indexed="true" stored="false" />
"product_picture" type="string" indexed="false" stored="true" />
"product_catalog_name" type="string" indexed="true" stored="true" />
"product_keywords" type="text_ik" indexed="true" stored="false" multiValued="true"/>
"product_name" dest="product_keywords"/>
"product_description" dest="product_keywords"/>
添加单个文档
批量导入数据
使用dataimport插件批量导入数据。
第一步:把dataimport插件依赖的jar包添加到solrcore(collection1\lib)中
还需要mysql的数据库驱动。
第二步:配置solrconfig.mxl文件,添加一个requestHandler。
"/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
"defaults">
"config">data-config.xml</str>
</lst>
</requestHandler>
第三步:创建一个data-config.xml,保存到collection1\conf\目录下
"1.0" encoding="UTF-8" ?>
type="JdbcDataSource"
driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://localhost:3306/lucene"
user="root"
password="root"/>
"product" query="SELECT pid,name,catalog_name,price,description,picture FROM products ">
"pid" name="id"/>
"name" name="product_name"/>
"catalog_name" name="product_catalog_name"/>
"price" name="product_price"/>
"description" name="product_description"/>
"picture" name="product_picture"/>
</entity>
</document>
</dataConfig>
第四步:重启tomcat
第五步:点击“execute”按钮导入数据
到入数据前会先清空索引库,然后再导入。
1) 删除制定ID的索引
8</id>
</delete>
2) 删除查询到的索引数据
product_catalog_name:幽默杂货</query>
</delete>
3) 删除所有索引数据
*:*</query>
</delete>
通过/select搜索索引,Solr制定一些参数完成不同需求的搜索:
q - 查询字符串,必须的,如果查询所有使用*:*
fq - (filter query)过虑查询,作用:在q查询符合结果中同时是fq查询符合的
sort - 排序
,格式:sort=+start - 分页显示使用,开始记录下标,从0开始
rows - 指定返回结果最多有多少条记录,配合start来实现分页
fl - 指定返回那些字段内容,用逗号或空格分隔多个
df-指定一个搜索Field
wt - (writer type)指定输出格式
,可以有 xml, json, php, phps, 后面 solr 1.3增加的,要用通知我们,因为默认没有打开hl 是否高亮 ,设置高亮Field,设置格式前缀和后缀
solrj是访问Solr服务的java客户端,提供索引和搜索的请求方法,SolrJ通常在嵌入在业务系统中,通过SolrJ的API接口操作Solr服务
第一步:创建一个java工程
第二步:导入jar包。包括solrJ的jar包。还需要
第三步:和Solr服务器建立连接。HttpSolrServer对象建立连接。
第四步:创建一个SolrInputDocument对象,然后添加域。
第五步:将SolrInputDocument添加到索引库。
第六步:提交。
@Test
public void testAddDocument() throws Exception {
// 创建一个SolrServer对象,创建连接
// 参数:solr服务的地址
// http://localhost:8080/solr :默认为collection1
// http://localhost:8080/solr/collection2 :连接collection2
SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
// 创建一个文档对象
SolrInputDocument document = new SolrInputDocument();
// 向文档中添加域
// 每个文档必须有id域,而且其他域必须在schema.xml中定义
document.addField("id", "test001");
document.addField("product_name", "测试商品");
document.addField("product_price", "100");
// 把文档添加到索引库
solrServer.add(document);
// 提交
solrServer.commit();
}
@Test
public void testDeleteDocumentById() throws Exception {
SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
// 根据id删除文档
solrServer.deleteById("test001");
// 提交
solrServer.commit();
}
查询语法完全支持Lucene的查询语法。
@Test
public void testDeleteDocumentByQuery() throws Exception {
SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
// 参数:查询语法
solrServer.deleteByQuery("*:*");
// 提交
solrServer.commit();
}
在solrJ中修改没有对应的update方法,只有add方法,只需要添加一条新的文档,和被修改的文档id一致就,可以修改了。本质上就是先删除后添加。
@Test
public void testQueryIndex() throws Exception {
SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
// 创建一个SolrQuery对象
SolrQuery query = new SolrQuery();
// 设置查询条件
// query.set("q", "*:*");
query.setQuery("*:*");
// 执行查询
QueryResponse response = solrServer.query(query);
// 取查询结果
SolrDocumentList solrDocumentList = response.getResults();
System.out.println("查询结果总记录数:" + solrDocumentList.getNumFound());
// 遍历查询结果
for (SolrDocument solrDocument : solrDocumentList) {
System.out.println(solrDocument.get("id"));
System.out.println(solrDocument.get("product_name"));
System.out.println(solrDocument.get("product_price"));
System.out.println(solrDocument.get("product_catalog_name"));
System.out.println(solrDocument.get("product_picture"));
}
}
其中包含查询、过滤、分页、排序、高亮显示等处理。
@Test
public void testQueryIndexFuza() throws Exception {
SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
// 创建一个查询对象
SolrQuery query = new SolrQuery();
// 设置主查询条件
query.setQuery("厨房");
// 设置过滤条件
query.addFilterQuery("product_price:[0 TO 20]");
// 排序
// 参数1:要排序的域, 参数2:排序方式
query.setSort("product_price", ORDER.asc);
// 设置分页
query.setStart(0);
query.setRows(5);
// 设置返回结果包含的域
query.setFields("id", "product_name", "product_price", "product_catalog_name", "product_picture");
// 设置默认搜索域
query.set("df", "product_keywords");
// 开启高亮
query.setHighlight(true);
// 高亮显示的域
query.addHighlightField("product_name");
// 高亮前缀
query.setHighlightSimplePre("");
// 高亮后缀
query.setHighlightSimplePost("");
// 执行查询
QueryResponse response = solrServer.query(query);
// 取查询结果
SolrDocumentList solrDocumentList = response.getResults();
System.out.println("查询结果总记录数:" + solrDocumentList.getNumFound());
// 遍历查询结果
for (SolrDocument solrDocument : solrDocumentList) {
System.out.println(solrDocument.get("id"));
// 取高亮显示
Map<String, Map<String, List<String>>> highlighting = response.getHighlighting();
List<String> list = highlighting.get(solrDocument.get("id")).get("product_name");
String productName = "";
if (list != null && list.size() > 0) {
productName = list.get(0);
} else {
productName = (String) solrDocument.get("product_name");
}
System.out.println(productName);
System.out.println(solrDocument.get("product_price"));
System.out.println(solrDocument.get("product_catalog_name"));
System.out.println(solrDocument.get("product_picture"));
}
}