匸&㕕

ELK 企业级日志分析系统（一）

一、ELK 简介

1.1 组件说明

1.2 为什么要使用ELK

1.3 完整日志系统的基本特征

1.4 ELK工作原理

二、Elasticsearch的介绍

2.1 Elasticsearch的核心:

三、Logstash

3.1 Logstash简介

四、Kibana

五、部署ELK日志分析系统

5.1 服务器配置

5.2 ELK Elasticsearch 集群部署（在Node1、Node2节点上操作）

5.3 安装 Elasticsearch-head 插件（node1为例）

六、ELK Logstash 部署（在 Apache 节点上操作）

6.1 测试 Logstash

七、ELK-Kibana 部署（在 node1 节点上操作）

一、ELK 简介

ELK平台是一套完整的日志集中处理解决方案，将 ElasticSearch、Logstash 和 Kiabana 三个开源工具配合使用，完成更强大的用户对日志的查询、排序、统计需求。

1.1 组件说明

ElasticSearch

是基于Lucene (一个全文检索引擎的架构) 开发的分布式存储检索引擎，用来存储各类日志。
Elasticsearch 是用 Java 开发的，可通过 RESTful Web 接口，让用户可以通过浏览器与Elasticsearch 通信。
Elasticsearch是一个实时的、分布式的可扩展的搜索引擎，允许进行全文、结构化搜索，它通常用于索引和搜索大容量的日志数据，也可用于搜索许多不同类型的文档。

Kiabana

Kibana 通常与 Elasticsearch 一起部署，Kibana 是 Elasticsearch的一个功能强大的数据可视化 Dashboard，Kibana 提供图形化的 web 界面来浏览 Elasticsearch日志数据，可以用来汇总、分析和搜索重要数据。

Logstash

作为数据收集引擎。它支持动态的从各种数据源搜集数据，并对数据进行过滤、分析、丰富、统一格式等操作，然后存储到用户指定的位置，一般会发送给 Elasticsearch。Logstash 由 Ruby 语言编写，运行在 Java 虚拟机 (JVM) 上，是一款强大的数据处理工具，可以实现数据传输、格式处理、格式化输出。Logstash 具有强大的插件功能，常用于日志处理。

可以添加的其它组件

Eilebeat: 轻量级的开源日志文件数据搜集器。通常在需要采集数据的客户端安装并指定目录与日志格式，Eilebeat 就能快速收集数据，并发送给 logstashFilebeat，进行解析，或是直接发给 Elasticsearch 存储，性能上相比运行于 JVM 上的 logstash优势明显，是对它的替代。常应用于 EELK 架构当中。

filebeat 结合 loqstash 带来好处:

通过 Logstash 具有基于磁盘的自适应缓冲系统，该系统将吸收传入的吞吐量，从而减轻Elasticsearch 持续写入数据的压力
从其他数据源(例如数据库，s3对象存储或消息传递队列) 中提取
将数据发送到多个目的地，例如S3，HDES (Hadoop分布式文件系统) 或写入文件
使用条件数据流逻辑组成更复杂的处理管道

缓存/消息队列 (redis、kafka、Rabbitmo等)可以对高并发日志数据进行流量削峰和缓冲，这样的缓冲可以一定程度的保护数据不丢失，还可以对整个架构进行应用解耦。
Fluentd是一个流行的开源数据收集器。由于 logstash 太重量级的缺点，Logstash性能低、资源消耗比较多等问题，随后就有 Fluentd 的出现。相比较 logstash，Eluentd更易用、资源消耗更少、性能更高，在数据处理上更高效可靠，受到企业欢迎，成为 logstash的一种替代方案，常应用于 EEK 架构当中。在 Kubernetes 集群中也常使用 EEK作为日志数据收集的方案。
在 Kubernetes 集群中一般是通过 DaemonSet 来运行 Eluentd，以便它在每个 Kubernetes工作节点上都可以运行一个 Pod。它通过获取容器日志文件、过滤和转换日志数据，然后将数据传递到 Elasticsearch集群，在该集群中对其进行索引和存储。
它通过获取容器日志文件、过滤和转换日志数据，然后将数据传递到 Elasticsearch集群，在该集群中对其进行索引和存储。

1.2 为什么要使用ELK

日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷，性能安全性，从而及时采取措施纠正错误。
往往单台机器的日志我们使用grep、awk等工具就能基本实现简单分析，但是当日志被分散的储存不同的设备上。如果你管理数十上百台服务器，你还在使用依次登录每台机器的传统方法查阅日志。这样是不是感觉很繁琐和效率低下。当务之急我们使用集中化的日志管理，例如: 开源的syslog，将所有服务器上的日志收集汇总。集中化管理日志后，日志的统计和检索又成为一件比较麻烦的事情，一般我们使用grep、awk和wc等Linux命令能实现检索和统计，但是对于要求更高的查询、排序和统计等要求和庞大的机器数量依然使用这样的方法难免有点力不从心。
一般大型系统是一个分布式部署的架构，不同的服务模块部署在不同的服务器上，问题出现时，大部分情况需要根据问题暴露的关键信息，定位到具体的服务器和服务模块，构建一套集中式日志系统，可以提高定位问题的效率。

1.3 完整日志系统的基本特征

收集：能够采集多种来源的日志数据
传输：能够稳定的把日志数据解析过滤并传输到存储系统
存储：存储日志数据
分析：支持 UI 分析
警告：能够提供错误报告，监控机制

1.4 ELK工作原理

在所有需要收集日志的服务器上部署Logstash; 或者先将日志进行集中化管理在日志服务器上，在日志服务器上部署 Logstash。
Logstash 收集日志，将日志格式化并输出到 Elasticsearch 群集中
Elasticsearch 对格式化后的数据进行索引和存储。
Kibana 从 ES 群集中查询数据生成图表，并进行前端数据的展示。

二、Elasticsearch的介绍

提供了一个分布式多用户能力的全文搜索引擎

2.1 Elasticsearch的核心:

接近实时（NRT）

Elasticsearch是一个接近实时的搜索平台，这意味着，从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟（通常是1秒）

集群（cluster）

一个集群就是由一个或者多个节点组织在一起，它们共同持有你整个的数据，并一起提供索引和搜索功能。其中一个为主节点，这个主节点是可以通过选举产生的，并提供跨节点的联合索引和搜索功能。
集群有一个唯一性标示的名字，默认是Elasticsearch，集群的名字很重要，每个节点是基于集群名字加入到集群中的。因此，确保在不同的环境中使用不同的集群名字。
一个集群可以只有一个节点，建议在配置Elasticsearch时，配置成集群模式。
Elasticsearch具有集群机制，节点通过集群名称加入到集群中，同时在集群中的节点会有一个自己唯一的身份标识（自己的名称）

节点（node）

节点就是一台单一的服务器，是集群的一部分，存储数据并参与集群的索引和搜索功能。像集群一样，节点也是通过名字来标识，默认是在节点启动时随机分配的字符名。也可自己定义，名字很重要，在集群中用于识别服务器对应的节点
节点可以通过指定集群名字来加入到集群中。默认情况下，每个节点被设置成加入到Elasticsearch集群。如果启动了多个节点，假设能自动发现对方，他们将会自动组建一个名为Elasticsearch的集群。

索引（index）

一个索引就是一个拥有几分相似特征的文档的集合。
一个索引由一个名字来标识（必须全部是小写字母），并且当我们要对对应于这个索引中的文档进行索引、搜索、更新和删除的时候。都要使用到这个名字。在一个集群中，可以定义任意多的索引。

类型（type）

在一个索引中，你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区，其语义完全由你来定。
通常会为具有一组共同字段的文档定义一个类型。

文档（document）

一个文档是一个可被索引的基础信息单元
在一个index/type里面，只要你想，你可以存储任意多的文档。注意，虽然一个文档在物理上位于一个索引中，实际上一个文档必须在一个索引内被索引和分配一个类型

分片和副本（shards & replicas）也是es作为搜索引擎比较快的原因

实际情况下，索引存储的数据可能超过单个节点的硬件限制。为了解决这个问题，Elasticsearch提供将索引分成多个分片的功能。当在创建索引时，可以定义想要的分片数量。每一个分片就是一个全功能的独立的索引，可以位于集群中任何节点上。

分片的主要原因

水平分割扩展，增大存储量
分布式并跨越分片操作，提高性能和吞吐量
分布式分片机制和搜索请求的文档如何火鬃完全是由Elasticsearch控制的，这些对用户是完全透明的。为了健壮性，建议有一个故障切换机制，为此，Elasticsearch让我们将索引分片复制一份或多份，称之为分片副本

分片副本的原因

高可用性，以应对分片或者节点故障。处于这个原因，分片副本要在不同的节点上
增大吞吐量，搜索可以并行在所有副本上执行
总之，每个索引可以被分成多个分片。一个索引可以被复制0次或者多次。一旦复制了，每个索引就有了主分片（作为复制源的原来的分片）和复制分片（主分片的拷贝）之别。分片和副本的数量可以在索引创建的时候指定。在索引创建之后，你可以在指定任何时候动态的改变副本的数量，但是你事后不能改变分片的数量。
默认情况下，Elasticsearch中的每个索引被分片5个主分片和1个副本，这意味着，如果你的集群中至少有两个节点，你的索引将会有5个主分片和另外的5个副本分片（一个完全拷贝），这样的话每个索引总共有10个分片。
相关概念在关系型数据库和ElasticSearch中的对应关系

关系型数据库	Elasticserch
数据库database	索引index，支持全文索引
表table	类型type
数据行row	文档document。但不需要固定结构，不同文档可以具有不同字段集合
数据列cloumn	字段field
模式schema	映像mapping

三、Logstash

3.1 Logstash简介

Logstash由JRuby语言编写，基于消息（message-based）的简单架构，并运行在java虚拟机（JVM）上。不同于分离的代理端（agent）或主机端（server），Logstash可配置单一的代理端与其他开源软件结合，以实现不同的功能。
是一款强大的数据处理工具、
可实现数据传输，格式处理，格式化输出
数据输入、数据加工(如过滤，改写等)以及数据输出

常用插件

input：收集源数据（访问日志、错误日志等）
Filter Plugin：用于过滤日志和格式处理
Output：输出日志

主要组件

Shipper(日志收集)：负责监控本地日志文件的变化，及时把日志文件的最新内容收集起来。通常，远程代理端（agent）只需要运行这个组件即可
Indexer(日志存储)：负责接收日志并写入到本地文件
Broker(日志Hub)：负责连接多个Shipper和多个Indexer
Search and Storage：允许对事件进行搜索和存储
Web Interface：基于Web的展示界面

四、Kibana

Kibana 是用于在 Elasticsearch 中可视化数据的强大工具，可通过基于浏览器的界面轻松搜索，可视化和探索大量数据。
一个针对Elasticsearch的开源分析及可视化平台
搜索、查看存储在Elasticsearch索引中的数据
通过各种图表进行高级数据分析及展示

Kibana主要功能

Elasticsearch无缝之集成

Kibana架构为Elasticsearch定制，可以将任何结构化和非结构化数据加入Elasticsearch索引。Kibana还充分利用了Elasticsearch强大的搜索和分析功能。

整合数据

Kibana能够更好地处理海量数据，并据此创建柱形图、折线图、散点图、直方图、饼图和地图。

复杂数据分析。

Kibana提升了Elasticsearch分析能力，能够更加智能地分析数据，执行数学转换并且根据要求对数据切割分块。

让更多团队成员收益

强大的数据库可视化接口让各业务岗位都能够从数据集合受益。

接口灵活，分享更容易

使用Kibana可以更加方便地创建、保存、分享数据，并将可视化数据快速交流。

配置简单

Kibana的配置和启用非常简单，用户体验非常友好。Kibana自带Web服务器，可以快速启动运行。

可视化多数据源

Kibana可以非常方便地把来自Logstash、ES-Hadoop、Beats或第三方技术的数据整合到Elasticsearch，支持的第三方技术包括Apache flume、 Fluentd 等。

简单数据导出

Kibana可以方便地导出感兴趣的数据，与其它数据集合并融合后快速建模分析，发现新结果。