第二章 日志采集之日志采集的挑战

       目前大型互联网企业每天日志量以亿为单位,面临的挑战已经不是采集的技术本身,而是如何实现日志数据的结构化。构建规范制定--元数据注册--日志采集--自动化计算--可视化展现的一体化系统


场景一:日志分流

1)当代互联网经常出现短时间内流量热点爆发,集中统一的采集方案已不能满足需求。

2)在日志解析和处理的过程中必须考虑以下几点:

①业务分流:要求分离的业务之间没有明显影响,爆发热点不影响日常业务处理

②日志优先级控制

③根据业务特点的定制处理

分治策略是核心。日志请求URL根据业务的变化而不同,尽早的进行分流,降低日志处理过程中的分支消耗。


场景二:采集计算一体化

       随着数据量的增大,采集--分类--处理的流程是的系统维护成本猛增,同时传统的分类是通过URL路劲正则匹配的方式,大量的匹配会消耗巨大的服务器硬件资源,因此必须将采集--计算作为一个整体来设计系统。阿里制定了两套日志规范和与之对应的元数据中心。

1)对于PV日志:通过简单的配置部署,用户可将任意页面的流量进行聚类分析并查询聚合分析的结果,包括:

2)对于交互日志:通过注册与所在页面独立的控件,用户可以获取对应的埋点代码,自动获取实时统计数据和可视化试图。


场景三:大促保障

1)服务器推送配置到客户端

2)日志分流,结合日志优先级和日志大小拆分日志服务器

3)实时处理的优化

基于以上三点,在流量爆发时评估峰值数据量,通过服务器端推送配置客户端,对非重要日志进行限流,错峰后恢复。推送的配置包括:

你可能感兴趣的:(第二章 日志采集之日志采集的挑战)