页面日志的服务器端的清洗和预处理

对于实时要求要宽松的应用场景下,一般的都是进行离线处理,而日志需要清洗和预处理的原因:

  1.  识别流量攻击,网络爬虫和流量作弊(虚假流量)。页面日志是互联网分析和大数据应用的基础源数据,在实际应用中,往往存在占一定比例的虚假或者恶意流量日志,导致分析指标的较大偏差。为此,需要对所采集的日志进行合法性校验,依托算法识别非正常的流量并归纳出对应的过滤规则集加以过滤。
  2.  数据缺项补正。为了遍历后续的日志应用和保证基本的数据统一口径一致,大多数情况下。需要对日志中的一些公用且重要的数据项做取值归一,标准化处理或者反向补正。
  3.  无效数据剔除。 在某些情况下,因业务变更或者配置不当,在采集到的日志中会存在一些无意义,已经失效或者冗余的数据项。为了避免此类异常的发生,需要定时检查配置并依照配置讲此类数据项剔除。
  4.  日志隔离分析。 基于数据安全或者业务特性的考虑,某些日志在进入公共数据环境之前需要做隔离。

你可能感兴趣的:(数据收集,日志)