logstash无法精确到毫秒级解决方案

问题描述

最近遇到这样一个问题:logstash想要动态更新数据库内容,常用的方法是在conf文件里设置。这里我选择用timestamp记录

# 数据追踪
# 追踪的字段
tracking_column => "update_time"
tracking_column_type => "timestamp" # "numeric" or "timestamp"
use_column_value => true
 # 上次追踪的元数据存放位置
last_run_metadata_path => "/usr/share/logstash/config/lastrun/logstash_jdbc_last_run"

# sql
statement => "SELECT  * FROM News_2 where update_time > :sql_last_value"

但遇到的一个奇怪问题是:明明last_run_metadata_path记录的时间格式是精确到毫秒的,但是读取后对比的时候,毫秒级别直接被砍,只能对比秒级。

借用这位老哥的logstash论坛提问,他的遭遇和我一模一样:sql_last_value with timestamp type support milliseconds?

logstash无法精确到毫秒级解决方案_第1张图片
这样就会导致,某些数据只在毫秒级别有差异,而对比的时候如果只能精确到秒级,则这些数据会被重复选取,甚至当每次更新数据量小的时候,last_run_metadata_path都不会被更新。
logstash无法精确到毫秒级解决方案_第2张图片

原因

  • https://github.com/logstash-plugins/logstash-input-jdbc/issues/140
  • https://github.com/logstash-plugins/logstash-input-jdbc/pull/260

借助csdn的chatgpt的回答(他竟然真的给出了比较靠谱的回答,我哭死)

logstash的tracking_column_type参数被设置为timestamp时,它只能精确到秒,无法精确到毫秒。这是因为默认情况下,logstash使用的是DateTime类型来存储时间戳,而DateTime类型的精度只能到秒。如果你需要精确到毫秒的时间戳,你可以考虑使用一个更高精度的数据类型,例如BigInt或Double。然后,在你的logstash配置文件中将tracking_column_type参数设置为相应的数据类型。这样,logstash就能够正确地读取和比较精确到毫秒的时间戳了。

解决方案

不用timestamp类型,直接用numeric类型,并且记录数字格式的时间戳,例如

# 数据追踪
# 追踪的字段
tracking_column => "update_time_int"
tracking_column_type => "numeric" # "numeric" or "timestamp"
use_column_value => true
 # 上次追踪的元数据存放位置
last_run_metadata_path => "/usr/share/logstash/config/lastrun/logstash_jdbc_last_run"

# sql
statement => "
select *, cast(updated_time_int as SIGNED) as updated_time_int
from (
	SELECT *, 
	REPLACE(unix_timestamp(updated_time),'.','') as updated_time_int 
	FROM News_2 ) as temp
	where updated_time_int > :sql_last_value"

可以看到正确的往前推进了
logstash无法精确到毫秒级解决方案_第3张图片

你可能感兴趣的:(小知识,改bug,elasticsearch,容器)