大数据日志分析系统-介绍

刚从公司离职-需要求职新公司 对做过的项目做一个记录(这个记录会有一个完整的流程实现,但是具体安全细节与各种组件的基础学习不进行介绍,所有ip均不是真实ip做点保密喽),这个记录主要是每一步的实战记录,不进行逻辑分析。
经过了CDN公司日志分析实战日志日志分析系统:
1.原始日志量: 每小时高的是否达到了 45303452条日志(四千五百多万条原始日志) ,某天日志量(这个随便选的)422110779 条(4亿两千多万)
2.需求:
1)对原始日志按域名进行分析包括: 请求数分析、独立IP分析、PV分析、地区分布运营商分布分析(根据ip计算)、浏览器操作系统分布分析(根据原始日志的agent进行分析)、热点页面分析、文件类型分析

2)原始日志按域名、按天、按小时进行打包。


完全了解了两种日志分析系统:

第一种(在公司原有基础上做了改动):

logstash-forward(边缘设备)  → logstash (用logstast-before配置文件) → Kafka (同时依赖zookeeper) → logstash (用logstash-after配置文件) →elaticsearch  → python脚本 →  统计日志本地然后上传到hadoop,各种统计结果到elasticsearch(nginx负载均衡)   →  界面展示



第二种(很多自己探索的,发现网上很多东西用到实际处不可以)

filebeat(或flume) --> logstash --> kafka(kafka依赖zookeeper) --> spark统计计算 --> 统计各种结果到elasticsearch(nginx负载均衡) -- > 界面展示

                                                                                                --> flume(自定义sink插件、验证可行待完成) -- > 原始日志本地打包 --> 原始日志hadoop上传 (当然这里也可以用hbase进行日志存储)

你可能感兴趣的:(大数据日志分析系统)