转载请注明出处:http://blog.csdn.net/l1028386804/article/details/50251927
废话不多说,直接进入主题,我们一起来搭建solr主从配置框架。
Solr(这里指Solr4.4)的主从模式实现是这样一个思路。首先至少有两个solr服务器,一个称为master(主服务),其余的一个或多个solr服务器被称为slave(附属服务)。每个slave轮询检查master的索引库版本,如果发现索引库版本有更新就会拉取master上的索引库。下图为solr官方文档的结构图:
注意:目前的我看到的文档只能slave从master获取索引库,反过来master从slave获取索引库是不行的。如果非要实现这种效果过可以使用Repeater(中转器)概念解决
操作系统:Windows7
服务器:Tomcat6(绿色版)
JDK:JDK1.6
Solr:Solr4.4
1、修改tomcat的connector编码为utf-8。(打开tomcat6\conf\server.xml修改如下内容)
2、 解压solr4.4 zip包将solr-4.4.0\example\下的solr目录复制到另一个文件夹,这里为c:\web。(这个目录用于设置为solrhome参数)
3、 复制solr4.4\example\webapps\solr.war到tomcat的webapps目录。然后将solr4.4\example\lib\ext\下的jar包放到tomcat的lib目录。
启动一下tomcat,解压开solr.war。打开tomcat6\webapps\solr\web-inf\web.xml.修改如下内容:
solr/home
C:/web/solr
java.lang.String
4、 重启tomcat,能正常的看到如下页面(图2-1),说明安装成功。
注意:因为我在安装的时候遇到过一些 filer 不能启动的问题。如果出现这个异常记得在 catalina.bat 中加入如下参数: set JAVA_OPTS="-Dsolr.solr.home=c:/web/solr-Dsolr.velocity.enabled=false" 。本博文的目的是为了解决索引库的备份问题,在官网还提供了另一种方式就是基于shell脚本的方式,感兴趣的同学可以去参考一下apache-solr-ref-guide-4.4文档。这里我们只介绍基于主从模式的索引复制。
The Java-based implementation of index replication offers these benefits:
以下是官方给出的使用Solr本身完成索引库备份的优点:
1、 Replication without requiring external scripts
不依赖于外部脚本。
2、 The configuration affecting replication is controlled by a single file, solrconfig.xml
配置方式控制在一个文件中solrconfig.xml
3、 Supports the replication of configuration files as well as index files
支持复制配置文件和索引文件
4、 Works across platforms with same configuration
配置是跨平台的
5、 No reliance on OS-dependent hard links
不依赖系统特定的系统
6、 Tightly integrated with Solr; an admin page offers fine-grained control of each aspect of replication
与Solr紧密集成
7、 The Java-based replication feature is implemented as a RequestHandler. Configuring replication is therefore similar to any normal RequestHandler.
基于java的备份的特点是使用RequestHandler实现。配置备份和普通的RequestHandle非常相似
打开SolrHome\collections1\conf\solrconfig.xml,找到name为/replication的requestHandler节点,修改为如下代码:
2
commit
optimize
optimize
solrconfig.xml:cp_solrconfig.xml,schema.xml
参数解释:
打开SolrHome\collections1\conf\solrconfig.xml,找到name为/replication的requestHandler节点,修改为如下代码:
http://masterHost:port/solr/collection1/replication
00:00:20
参数解释:
http://remote_host:port/solr/corename/replication
00:00:20
internal
5000
10000
username
password
1、 启动你的master和slave服务,打开master端更新索引库。
2、 等到你配置的间隔的时间值后slave端服务器就可以查询到你刚才添加的索引了。如下图。
Master端
Master像是一个仓库,Salve持续不断的(根据你定义的间隔时间)去检查Master索引库的版本。如果它发现一个新的版本Slave就会启动一个索引库复制的处理。步骤如下(来自apache-solr-ref-guide-4.4.pdf):
1、 The slave issues a filelist command to get the list of the files. This command returns the names of the files as well as some metadata (for example, size, a lastmodified timestamp, an alias if any).
2、 The slave checks with its own index if it has any of those files in the local index. It then runs the filecontent command to download the missing files. This uses a custom format (akin to the HTTP chunked encoding) to download the full content or a part of each file. If the connection breaks in between , the download resumes from the point it failed. At any point, the slave tries 5 times before giving up a replication altogether.
3、 The files are downloaded into a temp directory, so that if either the slave or the master crashes during the download process, no files will be corrupted. Instead, the current replication will simply abort.
4、 After the download completes, all the new files are moved to the live index directory and the file's timestamp is same as its counterpart on the master.
5、 A commit command is issued on the slave by the Slave's ReplicationHandler and the new index is loaded.
当你的系统很庞大的时候可能会有很多个slave节点,这样如果每个slave节点都从远程下载索引会耗尽带宽。解决这个问题就需要用到Repeater这个概念,Repeater就是将master和slave配置到一个服务器上。这样一个slave负责从远程master上下载索引,局域网内其他的slave从这个Repeater上下载。