ELK简介

ELK

    • 1. ELK
    • 2. Elasticsearch(ES)
    • 3. Logstash
    • 4. Kibana
    • 5. Filebeat
    • 6. 缓存/消息队列(redis、kafka、RabbitMQ等)

1. ELK

ELK是三个开源软件的首字母缩写,分别表示:Elasticsearch , Logstash, Kibana , 它们都是开源软件。新增了一个FileBeat,它是一个轻量级的日志收集处理工具(Agent),Filebeat占用资源少,适合于在各个服务器上搜集日志后传输给Logstash,官方也推荐此工具。

  • 为何使用 ELK

    对于有一定规模的公司来讲,一般会有多个应用,并部署在大量的服务器上。运维和开发人员经常须要经过查看日志来定位问题。若是应用是集群化部署,试想若是登陆一台台服务器去查看日志,是多么费时费力。

    而经过 ELK 这套解决方案,能够同时实现日志收集、日志搜索和日志分析的功能。

  • ELK技术栈
    ELK简介_第1张图片

  • ELK 架构

    简要图:
    ELK简介_第2张图片
    详细图:
    ELK简介_第3张图片

  • 整个 ELK 的运行流程如下

    1. 在微服务(产生日志的服务)上部署一个 Logstash,作为 Shipper 角色,主要负责对所在机器上的服务产生的日志文件进行数据采集,并将消息推送到 Redis 消息队列。

    2. 另用一台服务器部署一个 Indexer 角色的 Logstash,主要负责从 Redis 消息队列中读取数据,并在 Logstash 管道中经过 Filter 的解析和处理后输出到 Elasticsearch 集群中存储。

    3. Elasticsearch 主副节点之间数据同步。

    4. 单独一台服务器部署 Kibana 读取 Elasticsearch 中的日志数据并展示在 Web 页面。

https://www.elastic.co/cn/

2. Elasticsearch(ES)

Elasticsearch 为所有类型的数据提供近乎实时的搜索和分析。无论您拥有结构化或非结构化文本、数字数据还是地理空间数据,Elasticsearch 都能以支持快速搜索的方式高效地存储和索引它。您可以超越简单的数据检索和聚合信息来发现数据中的趋势和模式。随着您的数据和查询量的增长,Elasticsearch 的分布式特性使您的部署能够随之无缝增长。

  • 工作原理:
    Elasticsearch 的实现原理主要分为以下几个步骤:
    1. 首先用户将数据提交到Elasticsearch 数据库中
    2. 再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据
    3. 当用户搜索数据时候,再根据权重将结果排名,打分,再将返回结果呈现给用户

Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。”Elasticsearch是分布式的,这意味着索引可以被分成分片,每个分片可以有0个或多个副本。每个节点托管一个或多个分片,并充当协调器将操作委托给正确的分片。再平衡和路由是自动完成的。“相关数据通常存储在同一个索引中,该索引由一个或多个主分片和零个或多个复制分片组成。一旦创建了索引,就不能更改主分片的数量。

Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。Elasticsearch用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

ELK简介_第4张图片

  • Elasticsearch(ES) 是一个分布式的 Restful 风格的搜索和数据分析引擎,它具有以下特点:

    • 查询:允许执行和合并多种类型的搜索 — 结构化、非结构化、地理位置、度量指标 — 搜索方式随心而变。
    • 分析:Elasticsearch 聚合让您能够从大处着眼,探索数据的趋势和模式。
    • 速度:很快,可以做到亿万级的数据,毫秒级返回。
    • 可扩展性:可以在笔记本电脑上运行,也可以在承载了 PB 级数据的成百上千台服务器上运行。
    • 弹性:运行在一个分布式的环境中,从设计之初就考虑到了这一点。
    • 灵活性:具备多个案例场景。支持数字、文本、地理位置、结构化、非结构化,所有的数据类型都欢迎。
  • Elasticsearch的核心:

    1. 接近实时(NRT)

      • Elasticsearch是一个接近实时的搜索平台,这意味着,从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒)
    2. 集群(cluster)

      • 一个集群就是由一个或者多个节点组织在一起,它们共同持有你整个的数据,并一起提供索引和搜索功能。其中一个为主节点,这个主节点是可以通过选举产生的,并提供跨节点的联合索引和搜索功能。

      • 集群有一个唯一性标示的名字,默认是Elasticsearch,集群的名字很重要,每个节点是基于集群名字加入到集群中的。因此,确保在不同的环境中使用不同的集群名字。

      • 一个集群可以只有一个节点,建议在配置Elasticsearch时,配置成集群模式。

      • Elasticsearch具有集群机制,节点通过集群名称加入到集群中,同时在集群中的节点会有一个自己唯一的身份标识(自己的名称)

    3. 节点(node)

      • 节点就是一台单一的服务器,是集群的一部分,存储数据并参与集群的索引和搜索功能。像集群一样,节点也是通过名字来标识,默认是在节点启动时随机分配的字符名。也可自己定义,名字很重要,在集群中用于识别服务器对应的节点
      • 节点可以通过指定集群名字来加入到集群中。默认情况下,每个节点被设置成加入到Elasticsearch集群。如果启动了多个节点,假设能自动发现对方,他们将会自动组建一个名为Elasticsearch的集群
    4. 索引(index)

      • 一个索引就是一个拥有几分相似特征的文档的集合。
      • 一个索引由一个名字来标识(必须全部是小写字母),并且当我们要对对应于这个索引中的文档进行索引、搜索、更新和删除的时候。都要使用到这个名字。在一个集群中,可以定义任意多的索引。
    5. 类型(type)

      • 在一个索引中,你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区,其语义完全由你来定。
      • 通常会为具有一组共同字段的文档定义一个类型。
    6. 文档(document)

      • 一个文档是一个可被索引的基础信息单元
      • 在一个index/type里面,只要你想,你可以存储任意多的文档。注意,虽然一个文档在物理上位于一个索引中,实际上一个文档必须在一个索引内被索引和分配一个类型
    7. 分片和副本(shards & replicas)也是es作为搜索引擎比较快的原因
      实际情况下,索引存储的数据可能超过单个节点的硬件限制。为了解决这个问题,Elasticsearch提供将索引分成多个分片的功能。当在创建索引时,可以定义想要的分片数量。每一个分片就是一个全功能的独立的索引,可以位于集群中任何节点上

      • 分片的主要原因:

        • 水平分割扩展,增大存储量
        • 分布式并跨越分片操作,提高性能和吞吐量
        • 分布式分片机制和搜索请求的文档如何火鬃完全是由Elasticsearch控制的,这些对用户是完全透明的。
        • 为了健壮性,建议有一个故障切换机制,为此,Elasticsearch让我们将索引分片复制一份或多份,称之为分片副本。
      • 分片副本的原因:

        • 高可用性,以应对分片或者节点故障。处于这个原因,分片副本要在不同的节点上
        • 增大吞吐量,搜索可以并行在所有副本上执行

      总之,每个索引可以被分成多个分片。一个索引可以被复制0次或者多次。一旦复制了,每个索引就有了主分片 (作为复制源的原来的分片)和复制分片(主分片的拷贝)之别。分片和副本的数量可以在索引创建的时候指定。在索引创建之后,你可以在指定任何时候动态的改变副本的数量,但是你事后不能改变分片的数量。

      默认情况下,Elasticsearch中的每个索引被分片5个主分片和1个副本,这意味着,如果你的集群中至少有两个节点,你的索引将会有5个主分片和另外的5个副本分片(一个完全拷贝),这样的话每个索引总共有10个分片。

    8. 相关概念在关系型数据库和ElasticSearch中的对应关系

关系型数据库 ElasticSearch
数据库database 索引index,支持全文索引
表table 类型type
数据行row 文档document。但不需要固定结构,不同文档可以具有不同字段集合
数据列column 字段field
模式schema 映像mapping

3. Logstash

Logstash是具有实时流水线能力的开源的数据收集引擎。Logstash可以动态统一不同来源的数据,并将数据标准化到您选择的目标输出。它提供了大量插件,可帮助我们解析,丰富,转换和缓冲任何类型的数据。
ELK简介_第5张图片

  • 如何工作

    管道(Logstash Pipeline)是Logstash中独立的运行单元,每个管道都包含两个必须的元素输入(input)和输出(output),和一个可选的元素过滤器(filter),事件处理管道负责协调它们的执行。 输入和输出支持编解码器,使您可以在数据进入或退出管道时对其进行编码或解码,而不必使用单独的过滤器。如:json、multiline等

    • inputs(输入阶段):
      会生成事件。包括:file、kafka、beats等

    • filters(过滤器阶段):
      可以将过滤器和条件语句结合使用对事件进行处理。包括:grok、mutate等

    • outputs(输出阶段):
      将事件数据发送到特定的目的地,完成了所以输出处理,改事件就完成了执行。如:elasticsearch、file等

    • Codecs(解码器):
      基本上是流过滤器,作为输入和输出的一部分进行操作,可以轻松地将消息的传输与序列化过程分开。

  • 工作原理

    Logstash管道中每个输入阶段都运行在自己的线程中,输入将事件写入到内存或磁盘的中央队列。每个管道工作线程(pipeline worker)从队列中获取一批事件,通过配置的过滤器运行这批事件,然后将过滤的事件运行到所有输出。批处理的大小和工作线程数可以通过pipeline.batch.size和pipeline.workers进行配置。

    默认Logstash在管道各阶段之间使用内存队列来缓存事件,如果发生意外的终止,则内存中的事件都将丢失。为了防止数据丢失,可以启用Logstash配置queue.type: persisted将正在运行的事件持久保存到磁盘。

4. Kibana

Kibana是一个开源的分析和可视化平台,设计用于和Elasticsearch一起工作。你用Kibana来搜索,查看,并和存储在Elasticsearch索引中的数据进行交互。你可以轻松地执行高级数据分析,并且以各种图标、表格和地图的形式可视化数据。

Kibana使得理解大量数据变得很容易。它简单的、基于浏览器的界面使你能够快速创建和共享动态仪表板,实时显示Elasticsearch查询的变化。

Kibana 通常与 Elasticsearch 一起部署,Kibana 是 Elasticsearch 的一个功能强大的数据可视化 Dashboard,Kibana 提供图形化的 web 界面来浏览 Elasticsearch 日志数据,可以用来汇总、分析和搜索重要数据

  • Kibana主要功能:

    • Elasticsearch无缝之集成:
      Kibana架构为Elasticsearch定制,可以将任何结构化和非结构化数据加入Elasticsearch索引。Kibana还充分利用了Elasticsearch强大的搜索和分析功能。

    • 整合数据:
      Kibana能够更好地处理海量数据,并据此创建柱形图、折线图、散点图、直方图、饼图和地图。

    • 复杂数据分析。
      Kibana提升了Elasticsearch分析能力,能够更加智能地分析数据,执行数学转换并且根据要求对数据切割分块。

    • 让更多团队成员收益:
      强大的数据库可视化接口让各业务岗位都能够从数据集合受益。

    • 接口灵活,分享更容易:
      使用Kibana可以更加方便地创建、保存、分享数据,并将可视化数据快速交流。

    • 配置简单:
      Kibana的配置和启用非常简单,用户体验非常友好。Kibana自带Web服务器,可以快速启动运行。

    • 可视化多数据源:
      Kibana可以非常方便地把来自Logstash、ES-Hadoop、Beats或第三方技术的数据整合到Elasticsearch,支持的第三方技术包括Apache flume、 Fluentd 等。

    • 简单数据导出:
      Kibana可以方便地导出感兴趣的数据,与其它数据集合并融合后快速建模分析,发现新结果。

5. Filebeat

Filebeat是一个轻量级的日志托运工具,用于转发和集中日志数据。 Filebeat作为代理安装在服务器上,监控指定的日志文件或目录,收集日志事件,并将它们转发到Elasticsearch或Logstash进行索引。

  • Filebeat的工作原理:
    启动Filebeat时,它会启动一个或多个inputs,这些inputs将查找日志数据指定的位置。 对于Filebeat找到的每个日志,Filebeat启动一个收集器(harvester)。 每个收集器(harvester)从单个日志中收集新内容,并将新日志数据发送到libbeat,libbeat聚合事件并将聚合数据发送到为Filebeat配置的输出。
    ELK简介_第6张图片

  • Filebeat是一个Beat,它基于libbeat框架。Beats 是一个开放源代码的数据发送器。我们可以把 Beats 作为一种代理安装在我们的服务器上,这样就可以比较方便地将数据发送到 Elasticsearch 或者 Logstash 中。Elastic Stack 提供了多种类型的 Beats 组件。

  • filebeat 结合 logstash 带来好处

    • 通过 Logstash 具有基于磁盘的自适应缓冲系统,该系统将吸收传入的吞吐量,从而减轻 Elasticsearch 持续写入数据的压力
    • 从其他数据源(例如数据库,S3对象存储或消息传递队列)中提取
    • 将数据发送到多个目的地,例如S3,HDFS(Hadoop分布式文件系统)或写入文件
    • 使用条件数据流逻辑组成更复杂的处理管道

6. 缓存/消息队列(redis、kafka、RabbitMQ等)

可以对高并发日志数据进行流量削峰和缓冲,这样的缓冲可以一定程度的保护数据不丢失,还可以对整个架构进行应用解耦。

你可能感兴趣的:(#,ELK,elk,elasticsearch,java)