1、Logstash下载
下载地址 https://www.elastic.co/cn/logstash 注意,logstash的版本请河elasticsearch保持一致
2、安装Ruby
下载地址 http://www.ruby-lang.org/
3、安装logstash-input-jdbc
这里需要注意,网上很多说要换gem源,不然有可能安装不成功;由于笔者未换成功,所以在github上找到了解决方案 地址如下 https://github.com/logstash-plugins/logstash-input-jdbc/issues/38 参见 tianyunwu 的回答
或者 使用科学上网
以下为正常安装 命令 windows下
进入 logstash底下的bin文件
.\logstash-plugin.bat install logstash-input-jdbc
ubuntu 为
./logstash-plugin.sh install logstash-input-jdbc 或apt 请看官方文档
安装成功以后 新建一个文件夹 里面放三个文件 sql文件,conf文件和 mysql java的连接驱动
jdbc.conf 内容:
input {
stdin {
}
jdbc {
jdbc_connection_string => "jdbc:mysql://127.0.0.1:3306/wish?useSSL=false"
jdbc_user => "root"
jdbc_password => "root"
jdbc_driver_library => "D:\software\logstash-7.5.2\bin\mysql\mysql-connector-java-5.1.42.jar"
jdbc_driver_class => "com.mysql.jdbc.Driver"
jdbc_paging_enabled => "true"
jdbc_page_size => "50000"
statement_filepath => "D:\software\logstash-7.5.2\bin\mysql\jdbc.sql"
# 设置监听间隔 各字段含义(由左至右)分、时、天、月、年,全部为*默认含义为每分钟都更新
schedule => "* * * * *"
}
}
filter {
json {
source => "message"
remove_field => ["message"]
}
}
output {
elasticsearch {
hosts => ["localhost:9200"]
#es的index
index => "aaa"
# 自增ID 需要关联的数据库中有有一个id字段,对应索引的id号 就是对应数据的表的id
document_id => "%{JOB_ID}"
document_type => "mysql_test"
}
stdout {
codec => json_lines
}
}
jdbc.sql :
一句简单的sql 语句 示例
select * from schedule_job
mysql 驱动:
自行下载
注意:这里的jdbc.sql和jdbc.conf文件编码都必须是ANSI
4、执行
windows下 在bin 目录里 .\logstash.bat -f .\mysql\jdbc.conf
ubuntu 下 在bin 目录里 ./logstash.sh -f ./mysql/jdbc.conf
增量 来新增数据,需要在jdbc.conf配置文件中做如下修改:
input {
stdin {
}
jdbc {
jdbc_connection_string => "jdbc:mysql://127.0.0.1:3306/wish?useSSL=false"
jdbc_user => "root"
jdbc_password => "root"
jdbc_driver_library => "D:\software\logstash-7.5.2\bin\mysql\mysql-connector-java-5.1.42.jar"
jdbc_driver_class => "com.mysql.jdbc.Driver"
#使用其它字段追踪,而不是用时间
use_column_value => true
#追踪的字段
tracking_column => id
record_last_run => true
#上一个sql_last_value值的存放文件路径, 必须要在文件中指定字段的初始值
last_run_metadata_path => "D:\software\logstash-7.5.2\bin\mysql\station_parameter.txt"
jdbc_paging_enabled => "true"
jdbc_page_size => "50000"
statement_filepath => "D:\software\logstash-7.5.2\bin\mysql\jdbc.sql"
# 设置监听间隔 各字段含义(由左至右)分、时、天、月、年,全部为*默认含义为每分钟都更新
schedule => "* * * * *"
}
}
filter {
json {
source => "message"
remove_field => ["message"]
}
}
output {
elasticsearch {
hosts => ["localhost:9200"]
#es的index
index => "aaa"
# 自增ID 需要关联的数据库中有有一个id字段,对应索引的id号 就是对应数据的表的id
document_id => "%{JOB_ID}"
document_type => "mysql_test"
}
stdout {
codec => json_lines
}
}
参数说明
//是否记录上次执行结果, 如果为真,将会把上次执行到的 tracking_column 字段的值记录下来,保存到 last_run_metadata_path 指定的文件中
record_last_run => true
//是否需要记录某个column 的值,如果 record_last_run 为真,可以自定义我们需要 track 的 column 名称,此时该参数就要为 true. 否则默认 track 的是 timestamp 的值.
use_column_value => true
//如果 use_column_value 为真,需配置此参数. track 的数据库 column 名,该 column 必须是递增的.比如:ID.
tracking_column => MY_ID
尤其注意:本篇只是个人搭建,网上包括本篇 都有不一定准确的地方,请以官方文档为准 ,安装Jruby的时候请使用官方文档安装 CDSN的中文文档有不准确的地方