logstash可以采集不同来源、不同格式的数据,经过清洗、转换后统一存储到Elasticsearch中。为了区别不同来源的的数据,在Elasticsearch中可以分别建立索引。为了实现这个需求,需要在Logstash定义不同的数据源,根据数据源匹配对应的输出。
1、首先在Elasticsearch中为不同来源的数据建立映射(mapping),定义每个字段的数据类型。
2、其次在Logstash中建立单个数据源的输入和输出。比如需要将Oracle中的个表A、B,输出到Elasticsearch中实现全文搜索的功能。Elasticsearch两个表的索引为indexA,indexB。
###针对数据源A建立配置信息
input {
jdbc{
jdbc_connection_string=> "jdbc:oracle:thin:@192.168.100.53:1521/gis01"
jdbc_user=> "**"
jdbc_password=> "**"
jdbc_driver_library=> ""
jdbc_driver_class=> "Java::oracle.jdbc.driver.OracleDriver"
statement=> "select t.id,t.bsm,t.mc,t.jzxttl,t.gshttl,t.ytshttl from A t"
jdbc_fetch_size=>50
}
}
output {
elasticsearch {
hosts => ["http://192.168.100.155:9200"]
index => "indexA"
}
}
###针对数据源B建立配置信息
input {
jdbc{
jdbc_connection_string=> "jdbc:oracle:thin:@192.168.100.53:1521/gis01"
jdbc_user=> "**"
jdbc_password=> "**"
jdbc_driver_library=> ""
jdbc_driver_class=> "Java::oracle.jdbc.driver.OracleDriver"
statement=> "select t.id,t.bsm,t.mc,t.jzxttl,t.gshttl,t.ytshttl from B t"
jdbc_fetch_size=>50
}
}
output {
elasticsearch {
hosts => ["http://192.168.100.155:9200"]
index => "indexB"
}
}
3、在每个jdbc{}输入中定义type值。type参数为logstash所有输入组件的通用属性。比如A来源的type值为“sourceA”,B来源的type值为“sourceB”。修改后的jdbc{}定义如下:
###针对数据源A建立配置信息,增加type属性的定义
input {
jdbc{
type=> "sourceA"
jdbc_connection_string=> "jdbc:oracle:thin:@192.168.100.53:1521/gis01"
jdbc_user=> "**"
jdbc_password=> "**"
jdbc_driver_library=> ""
jdbc_driver_class=> "Java::oracle.jdbc.driver.OracleDriver"
statement=> "select t.id,t.bsm,t.mc,t.jzxttl,t.gshttl,t.ytshttl from A t"
jdbc_fetch_size=>50
}
}
###针对数据源B建立配置信息,增加type属性的定义
input {
jdbc{
type=> "sourceB"
jdbc_connection_string=> "jdbc:oracle:thin:@192.168.100.53:1521/gis01"
jdbc_user=> "**"
jdbc_password=> "**"
jdbc_driver_library=> ""
jdbc_driver_class=> "Java::oracle.jdbc.driver.OracleDriver"
statement=> "select t.id,t.bsm,t.mc,t.jzxttl,t.gshttl,t.ytshttl from B t"
jdbc_fetch_size=>50
}
}
4、在logstash的输出中,增加不同数据源的判断。根据输入体中定义的type值,指定数据输出到Elasticsearch的不同索引下。输出体修改后如下:
###在输出中增加数据源的判断。根据输入体中定义的Type属性值,进行不同的输出操作。
output {
if [type] == "sourceA"
{
elasticsearch {
hosts => ["http://192.168.100.155:9200"]
index => "indexA"
}
}
if [type] == "sourceB"
{
elasticsearch {
hosts => ["http://192.168.100.155:9200"]
index => "indexB"
}
}
}
至此,在logstash7.4中实现不同来源数据输出到Elasticsearch的指定索引中的功能得到实现,完整的配置文件如下:
input {
###针对数据源A建立配置信息,增加type属性的定义
jdbc{
type=> "sourceA"
jdbc_connection_string=> "jdbc:oracle:thin:@192.168.100.53:1521/gis01"
jdbc_user=> "**"
jdbc_password=> "**"
jdbc_driver_library=> ""
jdbc_driver_class=> "Java::oracle.jdbc.driver.OracleDriver"
statement=> "select t.id,t.bsm,t.mc,t.jzxttl,t.gshttl,t.ytshttl from A t"
jdbc_fetch_size=>50
}
###针对数据源B建立配置信息,增加type属性的定义
jdbc{
type=> "sourceB"
jdbc_connection_string=> "jdbc:oracle:thin:@192.168.100.53:1521/gis01"
jdbc_user=> "**"
jdbc_password=> "**"
jdbc_driver_library=> ""
jdbc_driver_class=> "Java::oracle.jdbc.driver.OracleDriver"
statement=> "select t.id,t.bsm,t.mc,t.jzxttl,t.gshttl,t.ytshttl from B t"
jdbc_fetch_size=>50
}
}
output {
if [type] == "sourceA"
{
elasticsearch {
hosts => ["http://192.168.100.155:9200"]
index => "indexA"
}
}
if [type] == "sourceB"
{
elasticsearch {
hosts => ["http://192.168.100.155:9200"]
index => "indexB"
}
}
}
5、启动logstash
如果logstash没有运行,那么使用配置文件启动logstash。如果已经运行并且启用了配置文件自动加载选项(–config.reload.automati),logstash会自动新建管道,使用新的配置文件采集、存储数据;如果已经运行的logstash没有启用自动加载配置文件选项,那么可以使用以下命令重新加载配置文件。
kill -SIGHUP 1345
其中1345位运行logstash的进程ID值。