首先先介绍下solr的安装配置
solr下载地址 (我这用的solr-4.5.0)
运行环境
为防止大家各种目录搞混,安装前先告诉大家我自己所创建使用的目录
整个运行环境我创建了四个目录,分别用于
1、solr源码保存,位于/down/solr
2、solr web运行环境,位于/usr/local/tomcat/webapps
3、solr 实例运行环境,位于/usr/local/solr
4、jdk,位于/usr/java/jdk1.6.0_13
接下来的各种配置,将以此目录进行说明。
安装步骤(这里以jdk1.6 tomcat6.0 为例,他们的安装方式不属于此文的讲解范围)
从下载的solr包中复制solr.war到你的servlet容器的webapps目录
cp /down/solr/example/webapps/solr.war /usr/local/tomcat/webapps/solr
从下载的solr包中复制示例Solr的文件夹到您的solr实例环境。
cp /down/solr/example/solr /usr/local/solr
export JAVA_HOME=/usr/java/jdk1.6.0_13 export JAVA_BIN=/usr/java/jdk1.6.0_13/bin export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export JAVA_HOME JAVA_BIN PATH CLASSPATH
设置你的solr_home目录,也就是前面所述“solr 实例运行环境"所在目录 /usr/local/solr,打开以下文件,修改solr_home目录
vi /usr/local/tomcat/webapps/solr/WEB-INF/web.xml
找到如下配置,取消注释,修改value为 /usr/local/solr
<env-entry> <env-entry-name>solr/home</env-entry-name> <env-entry-value>/usr/local/solr/</env-entry-value> <env-entry-type>java.lang.String</env-entry-type> </env-entry>
vi /usr/local/solr/collection1/conf/solrconfig.xml
修改此处路径为绝对路径
<lib dir="/down/solr/contrib/extraction/lib" regex=".*\.jar" /> <lib dir="/down/solr/dist/" regex="solr-cell-\d.*\.jar" /> <lib dir="/down/solr/contrib/clustering/lib/" regex=".*\.jar" /> <lib dir="/down/solr/dist/" regex="solr-clustering-\d.*\.jar" /> <lib dir="/down/solr/contrib/langid/lib/" regex=".*\.jar" /> <lib dir="/down/solr/dist/" regex="solr-langid-\d.*\.jar" /> <lib dir="/down/solr/contrib/velocity/lib" regex=".*\.jar" /> <lib dir="/down/solr/dist/" regex="solr-velocity-\d.*\.jar" />
启动Servlet容器。
打开http://localhost:8080/solr/admin solr管理后台,验证是否安装成功。
有关使用一个以上的索引,或者Solr中的多于一个实例的工作信息,请参阅MultipleIndexes。
有关于tomcat的英文配置讲解原版:http://wiki.apache.org/solr/SolrTomcat
以上步骤,配置完毕,并验证成功后,继续来配置mmseg4j分词 下载地址
首先,在你创建的solr实例目录下,新建lib,dic两个文件夹,一个用于存放jar文件(lib),一个用于存放词库(dic)
cd /usr/local/solr mkdir lib mkdir dic
解压你下载的mmseg4j ,将mmseg4j /dist目录下的jar文件拷贝至刚新建的lib文件夹,将mmseg4j /data目录下的文件拷贝纸刚新建的dic文件夹
打开 /usr/local/solr/collection1/conf/solrconfig.xml文件,添加配置
<lib dir="/usr/local/solr/lib" />
打开 /usr/local/solr/collection1/conf/schema.xml文件,分别在相应位置添加如下配置。
<field name="simple" type="textSimple" indexed="true" stored="true"/> <field name="complex" type="textComplex" indexed="true" stored="true"/> <field name="MaxWord" type="textMaxWord" indexed="true" stored="true"/> <copyField source="simple" dest="text" /> <copyField source="complex" dest="text"/> <copyField source="MaxWord" dest="text"/> <fieldType name="textComplex" class="solr.TextField"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/usr/local/solr/dic"/> </analyzer> </fieldType> <fieldType name="textMaxWord" class="solr.TextField"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="usr/local/solr/dic"/> </analyzer> </fieldType> <fieldType name="textSimple" class="solr.TextField"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="usr/local/solr/dic"/> </analyzer> </fieldType>
OK,到此为止词库已经配置成功,重启tomcat打开 http://localhost:8080/solr/admin 试试分词效果吧,各种配置的详解将在后面的文章进行说明。