Logstash-input-jdbc 同步mysql 至 ElasticSearch

1、Logstash下载

下载地址 https://www.elastic.co/cn/logstash  注意,logstash的版本请河elasticsearch保持一致

2、安装Ruby

下载地址 http://www.ruby-lang.org/

3、安装logstash-input-jdbc

这里需要注意,网上很多说要换gem源,不然有可能安装不成功;由于笔者未换成功,所以在github上找到了解决方案 地址如下 https://github.com/logstash-plugins/logstash-input-jdbc/issues/38 参见 tianyunwu  的回答

或者 使用科学上网

以下为正常安装 命令 windows下

进入 logstash底下的bin文件

.\logstash-plugin.bat install logstash-input-jdbc

ubuntu 为

./logstash-plugin.sh install logstash-input-jdbc 或apt  请看官方文档


安装成功以后 新建一个文件夹 里面放三个文件 sql文件,conf文件和 mysql java的连接驱动


jdbc.conf 内容:

input {

    stdin {

    }

    jdbc {

      jdbc_connection_string => "jdbc:mysql://127.0.0.1:3306/wish?useSSL=false"

      jdbc_user => "root"

      jdbc_password => "root"

      jdbc_driver_library => "D:\software\logstash-7.5.2\bin\mysql\mysql-connector-java-5.1.42.jar"

      jdbc_driver_class => "com.mysql.jdbc.Driver"

      jdbc_paging_enabled => "true"

      jdbc_page_size => "50000"

      statement_filepath => "D:\software\logstash-7.5.2\bin\mysql\jdbc.sql"

# 设置监听间隔 各字段含义(由左至右)分、时、天、月、年,全部为*默认含义为每分钟都更新

      schedule => "* * * * *"

    }

}

filter {

    json {

        source => "message"

        remove_field => ["message"]

    }

}

output {

    elasticsearch {

        hosts => ["localhost:9200"]

#es的index

        index => "aaa"

# 自增ID 需要关联的数据库中有有一个id字段,对应索引的id号 就是对应数据的表的id

        document_id => "%{JOB_ID}"

        document_type => "mysql_test"

    }

    stdout {

        codec => json_lines

    }

}

jdbc.sql :

一句简单的sql 语句 示例 

select * from  schedule_job

mysql 驱动:

自行下载

注意:这里的jdbc.sql和jdbc.conf文件编码都必须是ANSI

4、执行

windows下  在bin 目录里 .\logstash.bat -f .\mysql\jdbc.conf

ubuntu 下 在bin 目录里  ./logstash.sh -f ./mysql/jdbc.conf


执行成功的示例

 增量 来新增数据,需要在jdbc.conf配置文件中做如下修改:

input {

    stdin {

    }

    jdbc {

jdbc_connection_string => "jdbc:mysql://127.0.0.1:3306/wish?useSSL=false"

      jdbc_user => "root"

      jdbc_password => "root"

      jdbc_driver_library => "D:\software\logstash-7.5.2\bin\mysql\mysql-connector-java-5.1.42.jar"

      jdbc_driver_class => "com.mysql.jdbc.Driver"

#使用其它字段追踪,而不是用时间

      use_column_value => true

      #追踪的字段

      tracking_column => id

      record_last_run => true

    #上一个sql_last_value值的存放文件路径, 必须要在文件中指定字段的初始值

    last_run_metadata_path => "D:\software\logstash-7.5.2\bin\mysql\station_parameter.txt"

      jdbc_paging_enabled => "true"

      jdbc_page_size => "50000"

      statement_filepath => "D:\software\logstash-7.5.2\bin\mysql\jdbc.sql"

# 设置监听间隔 各字段含义(由左至右)分、时、天、月、年,全部为*默认含义为每分钟都更新

      schedule => "* * * * *"

    }

}

filter {

    json {

        source => "message"

        remove_field => ["message"]

    }

}

output {

    elasticsearch {

        hosts => ["localhost:9200"]

#es的index

        index => "aaa"

# 自增ID 需要关联的数据库中有有一个id字段,对应索引的id号 就是对应数据的表的id

        document_id => "%{JOB_ID}"

        document_type => "mysql_test"

    }

    stdout {

        codec => json_lines

    }

}

参数说明

//是否记录上次执行结果, 如果为真,将会把上次执行到的 tracking_column 字段的值记录下来,保存到 last_run_metadata_path 指定的文件中

record_last_run => true

//是否需要记录某个column 的值,如果 record_last_run 为真,可以自定义我们需要 track 的 column 名称,此时该参数就要为 true. 否则默认 track 的是 timestamp 的值.

use_column_value => true

//如果 use_column_value 为真,需配置此参数. track 的数据库 column 名,该 column 必须是递增的.比如:ID.

tracking_column => MY_ID

尤其注意:本篇只是个人搭建,网上包括本篇 都有不一定准确的地方,请以官方文档为准 ,安装Jruby的时候请使用官方文档安装 CDSN的中文文档有不准确的地方

你可能感兴趣的:(Logstash-input-jdbc 同步mysql 至 ElasticSearch)