Logtail从入门到精通（四）：正则表达式Java日志采集实战

前言
为简化日志接入门槛，我们提供了极简模式的日志解析方式（如[开启日志采集之旅]()中的介绍）。为了更好的对日志进行分析，我们还提供了其他解析方式，例如：分隔符模式、完整正则模式、JSON模式等。本文将为大家介绍如何使用完整正则解析模式。

日志解析介绍

日志采集最终目的还是为了分析，通常分析都要基于结构化或半结构化的数据，因此日志解析是整个日志解决方案中非常重要的一个部分。解析可以理解为从无结构化到半结构化的过程，即将文件中一行或多行文本变为一个个key&value对。

示例
例如对以下日志/log/error.log：

[2018-05-11T20:10:16,000] [INFO] [SessionTracker] [SessionTrackerImpl.java:148] Expiring sessions
java.sql.SQLException: Incorrect string value: '\xF0\x9F\x8E\x8F",...' for column 'data' at row 1
at org.springframework.jdbc.support.AbstractFallbackSQLExceptionTranslator.translate(AbstractFallbackSQLExceptionTranslator.java:84)
at org.springframework.jdbc.support.AbstractFallbackSQLException

可以解析成

time : 2018-05-11T20:10:16,000
level : INFO
method : SessionTracker
file : SessionTrackerImpl
line : 148
message : Expiring sessions
            java.sql.SQLException: Incorrect string value: '\xF0\x9F\x8E\x8F",...' for column 'data' at row 1
            at org.springframework.jdbc.support.AbstractFallbackSQLExceptionTranslator.translate(AbstractFallbackSQLExceptionTranslator.java:84)
            at org.springframework.jdbc.support.AbstractFallbackSQLException

解析所处阶段

对于不同的产品，日志解析在整个链路中所处的位置会有一定的区别，一般分为两类：schema on write 和 schema on read：

schema on write 是在进入存储系统前就已经将数据半结构化完毕。例如ES、GrayLog、MaxCompute等
schema on read 在写入时并不进行解析，只存储原始数据，当读取时再进行解析。例如Splunk、Sumologic
关于schema on write 还是 schema on read 的比较这里就不再展开，目前日志服务是采用的schema on
write形式，Logtail在写入前会将原始日志解析成Key&Value对。

解析方式
Logtail会不定期增加新的解析方式，具体可参考文本日志采集。