solr配置通过两个文件,一个是solrconfig.xml,主要定义solr的处理程序(handler)和一些扩展程序;另一个是schema.xml,主要定义索引的字段和字段类型,下面分别说明两个文件的基本配置。
1. solrconfig
其中的配置很多,其实很多都可以保持默认,我只说几个可能会修改到的参数
1.0 dataDir
在solr/lib 文件夹下建立包 ,在solrconfig中也可修改为你指定的位置,如加个<lib>标签
- <lib dir="/home/user/solr/lib" />
以后导入数据库的DataImport的jar,驱动包都可以放在这个lib下
1.1 dataDir
默认在solr/data 文件夹下建立索引 ,在solrconfig中也可修改为你指定的位置,如
- <dataDir>${solr.data.dir:/home/user/solr/data}</dataDir>
1.2 autoCommit
自动提交是指solr在建索引的时候收到请求并没用立即写入文件,而是先放到缓存中,等收到commit命令时才将缓存中得数据写入索引文件。
自动提交默认关闭,建议打开,这样建索引时省得去考虑何时发送commit命令的麻烦
- <autoCommit>
- <maxDocs>10000</maxDocs>
- <maxTime>86000</maxTime>
- </autoCommit>
1.3 highlight
solr对高亮的默认是<em></em> ,这样其实不是很明显,高亮最好显示成突出的颜色,于是可以改成如下的红色字体显示
- <highlighting>
- 。。。
- <formatter name="html" class="org.apache.solr.highlight.HtmlFormatter" default="true">
- <lst name="defaults">
- <str name="hl.simple.pre"><![CDATA[<font coler=red>]]></str>
- <str name="hl.simple.post"><![CDATA[</font>]]></str>
- </lst>
- </formatter>
- </highlighting>
2.schema
2.1 字段类型 fieldType
- <fieldType name="pint" class="solr.IntField" omitNorms="true"/>
- <fieldType name="plong" class="solr.LongField" omitNorms="true"/>
- <fieldType name="pfloat" class="solr.FloatField" omitNorms="true"/>
- <fieldType name="pdouble" class="solr.DoubleField" omitNorms="true"/>
- <fieldType name="pdate" class="solr.DateField" sortMissingLast="true" omitNorms="true"/>
添加处理中文字段类型的方法,当然还需要先把相应的jar包放到lib中
- <fieldType name="text" class="solr.TextField">
- <analyzer class="org.apahce.lucene.analysis.cn.smart.SmartChineseAnalyzer"/>
- </fieldType>
2.2 字段 Field
2.2.1 字段 Field
定义需要的字段名和它的类型,如:
- <field name="id" type="string" indexed="true" stored="true" required="true" />
- <field name="text" type="text" indexed="true" stored="true" termVectors="true" multiValued="false"/>
- <field name="name" type="text_general" indexed="true" stored="true"/>
- <field name="alphaNameSort" type="alphaOnlySort" indexed="true" stored="false"/>
- <field name="manu" type="text_general" indexed="true" stored="true" omitNorms="true"/>
- <field name="cat" type="string" indexed="true" stored="true" multiValued="true"/>
- <field name="features" type="text_general" indexed="true" stored="true" multiValued="true"/>
- <field name="includes" type="text_general" indexed="true" stored="true" termVectors="true" termPositions="true" termOffsets="true" />
参数
1 name 字段名
2 type 字段类型 由上面的字段类型给出定义
3 indexed 是否进行索引
4 stored 是否进行保存,如不保存,可以进行搜索,但不能显示该字段的内容
5 required 是否是必须字段,如若是,该字段必须有值,否则索引报错
6 multiValued 是否允许多值
下面三个参数用个图片说明下
7 termVectors
8 termPosition
9 termOffset
如对Canon Power-Shot SD500 进行分词,得到如下的结果和positon,offset等参数,
2.2.2 动态字段 dynamic fields
动态字段表示,如果字段的定义没有在配置中找到,就在动态字段类型中进行查找,比如 sid_i ,就可以在动态字段类型中进行匹配,表示该字段是整形
- <dynamicField name="*_i" type="int" indexed="true" stored="true"/>
- <dynamicField name="*_s" type="string" indexed="true" stored="true"/>
- <dynamicField name="*_l" type="long" indexed="true" stored="true"/>
- <dynamicField name="*_t" type="text" indexed="true" stored="true"/>
- <dynamicField name="*_txt" type="text_general" indexed="true" stored="true" multiValued="true"/>
- <dynamicField name="*_en" type="text_en" indexed="true" stored="true" multiValued="true" />
- <dynamicField name="*_b" type="boolean" indexed="true" stored="true"/>
- <dynamicField name="*_f" type="float" indexed="true" stored="true"/>
- <dynamicField name="*_d" type="double" indexed="true" stored="true"/>
2.2.3 复制字段 copy fields
复制源字段到目标字段,maxchars 限制复制的最大长度
- <copyField source="body" dest="teaser" maxChars="300"/>
这样进行复制,就可以 把所有字段放在一起,这样搜索的时候就可以不用很复杂的查询组合就可以在所有字段中搜索
- <copyField source="*" dest="text_t"/>
2.3 其它参数
- <uniqueKey>id</uniqueKey>
文档的唯一标识, 必须填写这个field(除非该field被标记required="false"),否则solr建立索引报错。这相当于数据库中得主键,如建索引时遇到重复的,则会覆盖掉以前的记录
当通过数据库DataImport时,如果没有设置ID,会导致提交不了索引,把其他的都弄没了.
- <defaultSearchField>text</defaultSearchField>
如果搜索参数中没有指定具体的field,那么这是默认的域。
- <solrQueryParser defaultOperator="OR" />
配置搜索参数短语间的逻辑,可以是"AND|OR"。
1、为了改进性能,可以采取以下几种措施:
- 将所有只用于搜索的,而不需要作为结果的field(特别是一些比较大的field)的stored设置为false
- 将不需要被用于搜索的,而只是作为结果返回的field的indexed设置为false
- 删除所有不必要的copyField声明
- 为了索引字段的最小化和搜索的效率,将所有的 text fields的index都设置成field,然后使用copyField将他们都复制到一个总的 text field上,然后对他进行搜索。
- 为了最大化搜索效率,使用java编写的客户端与solr交互(使用流通信)(solrJ客户端)
- 在服务器端运行JVM(省去网络通信),使用尽可能高的Log输出等级,减少日志量。
http://blog.csdn.net/escaflone/article/details/5726320
转自:http://lionelf.iteye.com/blog/1447935