如何增量导入MYSQL数据库中的数据

  <dataConfig>
         <dataSource type="JdbcDataSource" 
         driver="com.mysql.jdbc.Driver"
         url="jdbc:mysql://127.0.0.1/goods" user="root" password="root"/>

     <document name="goods">
         <entity name="book" transformer="ClobTransformer" 
                 pk="bid"
                 query="select bid,bname,author,price,currprice,discount,press,publishtime,edition,pagenum,wordnum,
                 printtime,booksize,paper from t_book"

                deltaImportQuery ="select * from t_book where bid='${dih.delta.bid}'"
                deltaQuery = "select bid from t_book where updatetime > '${dih.last_index_time}'">  

             <field column="bid" name="id" />
             <field column="bname" name="bname"/>
             <field column="author" name="bauthor"/>
             <field column="price" name="bprice"/>
             <field column="currprice" name="bcurrprice"/>
             <field column="discount" name="bdiscount"/>
             <field column="press" name="bpress"/>
             <field column="publishtime" name="bpublishtime"/>
             <field column="edition" name="bedition"/>
             <field column="pagenum" name="bpagenum"/>

             <field column="updatetime" name ="bupdatetime" />
         entity>

     document>
 dataConfig>

 

说明:
增量索引的原理是从数据库中根据deltaQuery指定的SQL语句查询出所有需要
增量导入的数据的ID号。

然后根据deltaImportQuery指定的SQL语句返回所有这些ID的数据,即为这
次增量导入所要处理的数据。

核心思想是:通过内置变量“ dih.delta.id {dih.last_index_time}”来记录本次要索引的id和最近一次索引的时间。

Solr增量索引配置

一、开始增量索引前的准备工作。

1、认识data-config.xml中相关属性

    

    
       注意这个query只返回ID字段 

    
    注意这个只返回ID字段 

最主要的是我们要知道这样一个事实: last_index_time是DataImportHandler的一个默认字段,(可查看conf目录下的dataimporter.properties文件)

我们可以在任何SQL中引用,该字段用于表明上次做full import或者是delta import(增量导入)的最后一次时间。

2、数据库配置注意事项
1)、如果只涉及添加与修改业务,那么数据库里只需添加一个类型为timpstamp,默认值为当前系统时间的字段 :CURRENT_TIMESTAMP(mysql)

2)、如果还涉及删除业务,那么数据里就需额外再多添加一个字段isdelete,int类型的用0,1来标识,此条记录是否被删除,当然也可以用其他字段标识,ture或false都可以

3、dataimporter.properties / {corename}_dataimporter.properties

在C:\solr-tomcat\solr\item\conf中查看是否存在文件dataimporter.properties,如果没有,则新建该文件。

这个配置文件很重要,它是用来记录索引的最新一次修改时间的,通过该配置文件可以找出新增的、修改的或者删除的记录。相关实例:

<dataConfig>      
     <dataSource name="activityDB" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/test" user="swang6" password="swang6"/>    
       <document>            
          <entity pk="ID"  dataSource="activityDB" name="myentity"  
            query="select * from myentity WHERE is delete=0"    
         deltaQuery="select ID  from myentity where my_date >'${dih.last_index_time}'"    
            deletedPkQuery="select ID from myentity where isdelete=1"  
            deltaImportQuery="select * from myentity where ID='${dih.delta.id}">    

                   
          <field column="ID" name="id"/>    
          <field column="name" name="name"/>    
          <field column="address" name="address"/>    
          <field column="age" name="age"/>    
          <field column="my_date" name="my_date"/>    
          <field column="isdelete" name="isdelete"/>    

        entity>  
   document>  
dataConfig>  
    

               

               

              

              

            

           

注:如果有必要,则可以在schema.xml中添加一个timestamp的field

做了以上配置后,可以设置linux的cron job或者Spring 的TaskSchuduler或者Cron Job后,可以定时发url:

http://localhost:8983/solr/dataimport?command=delta-import去做增量索引。更多关于Solr做增量索引的说明文档:http://wiki.apache.org/solr/DataImportHandler

当然也可以用Solr自带的Scheduler来做增量索引:

http://wiki.apache.org/solr/DataImportHandler#Scheduling

你可能感兴趣的:(搜索引擎)