Elastic 中国社区官方博客

Logstash：Logstash 入门教程（二）

这是之前系列文章“Logstash：Logstash 入门教程（一）”的续集。在之前的文章中，我们详细地介绍了Logstash是什么？在今天的文章中，我们将详细介绍如果使用Logstash，并把Apache Web log导入到Elasticsearch中。在这篇文章中，我们将触及到如下的过滤器：

Grok
Geoip
Useragent
Date
Mutate

安装

Elasticsearch

如果你还没有安装好自己的Elasticsearch，请参阅我之前的文章“如何在Linux，MacOS及Windows上进行安装Elasticsearch”来安装好自己的Elasticsearch。

Kibana

如果你还没有安装好自己的Kibana，请参阅我之前的文章“如何在Linux，MacOS及Windows上安装Elastic栈中的Kibana”安装好自己的Kibana。

Logstash

如果你还没有安装好自己的Logstash，请参阅我之前的文章“如何安装Elastic栈中的Logstash”来安装好自己的Logstash。

如何运行Logstash

在Mac, Unix及Linux下，我们可以使用如下的方式来进行运行：

bin/logstash [options]

在Windows环境下，我们使用如下的方式来运行：

bin/logstash.bat [options]

在通常情况下，我们需要跟上一些选项才可以启动Logstash，否则它会退出。除非有一种情况，在我们启动monitoring后，可以不添加选项来启动Logstash。关于如何启动集中管理，请参阅我之前的文章“Logstash: 启动监控及集中管理”。

如何配置 Logstash pipeline

Logstash管道有两个必需元素，输入和输出，以及一个可选元素filter。输入插件使用来自源的数据，过滤器插件在您指定时修改数据，输出插件将数据写入目标。

要测试Logstash安装，请运行最基本的Logstash管道。例如：

cd logstash-7.6.2
bin/logstash -e 'input { stdin { } } output { stdout {} }'

等Logstash完成启动后，我们在stdin里输入一下文字，我们可以看到如下的输出：

当我们打入一行字符然后回车，那么我们马上可以在stdout上看到输出的信息。如果我们能看到这个输出，说明我们的Logstash的安装是成功的。

另外一种运行Logstash的方式，也是一种最为常见的运行方式。我们首先需要创建一个配置文件，比如：

heartbeat.conf

input {
  heartbeat {
    interval => 10
    type => "heartbeat"
  }
}
 
output {
  stdout {
    codec => rubydebug
  }
}

然后，我们通过如下的方式来运行logstash：

bin/logstash -f heartbeat.conf

那么我们可以在console中看到如下的输出：

动手实践

在这一节中，我们将使用一个例子来一步一步地详细介绍如何使用Logstash来实现我们的数据处理。

1）首先启动我们的Elasticsearch及Kibana。请参照之前的步骤运行Elasticsearch及Kibana。

2）我们进入到Logstash安装目录，并修改config/logstash.yml文件。我们把 config.reload.automatic 设置为true。

这样设置的好处是，每当我修改完我的配置文件后，我不需要每次都退出我的logstash，然后再重新运行。

3）创建一个叫做weblog.conf的配置文件，并输入一下的内容：

weblog.conf

input {
  tcp {
    port => 9900
  }
}

output {
  stdout { }
}

4）运行我们的Logstash

bin/logstash -f weblog.conf

这样我们的Logstash就已经启动了。

接下来，我们使用 nc 应用把数据发送到 TCP 端口号 9900，并查看console的输出。我们在另外一个console中打入如下的命令：

echo 'hello logstash' | nc localhost 9900

我们在Logstash 运行的console里可以看到输出：

上面说明我们的TCP input 运行是正常的。

5）下载Weblog文件并发送给Logstash

我们可以在地址https://ela.st/weblog-sample下载一个叫做weblog-sample.log的文件。这个文件有64.5M的大下。我们把这个文件保存于Logstash的安装目录中。它里面的其中的一个log的内容如下：

14.49.42.25 - - [12/May/2019:01:24:44 +0000] "GET /articles/ppp-over-ssh/ HTTP/1.1" 200 18586 "-" "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.2b1) Gecko/20091014 Firefox/3.6b1 GTB5"

我使用如下的命令来读取第一行，并输入到TCP 9900端口：

head -n 1 weblog-sample.log | nc localhost 9900

那么在Logstash运行的console中，我们可以看到如下的输出：

这显示是我们第一行的那条Weblog信息。在这里，我们没有对数据进行任何的处理。它只是把第一行日志读出来，并把它都赋予给message这个字段。

运用过滤器来对数据进行处理

接下来，我们分别使用一些过滤器来对数据进行分别处理。

Grok

针对Grok，我还有有一个专门的文章“Logstash：Grok filter 入门”来描述。在这里，我们针对weblog.conf进行如下的修改（你可以使用你喜欢的编辑器）：

input {
  tcp {
    port => 9900
  }
}

filter {
  grok {
    match => { "message" => "%{COMBINEDAPACHELOG}" }
  }
}

output {
  stdout { }
}

还记得之前我们的设置config.reload.automatic为true吗？当我们保存weblog.conf文件后，我们可以在Logstash的输出console里看到:

也就是说，我们的pipleline被自动地装载进来了。我们安装上面同样的方法取第一条的数据来输入：

head -n 1 weblog-sample.log | nc localhost 9900

这个时候，我们再在Logstash运行的console里，我们可以看到：

也就是说，我们通过Grok这个filter，它通过正则表达式进行匹配，并把我们的输入的非结构化的数据变为一个结构化的数据。从上面，我们可以看到各种被提取的字段，比如clientip, port, host等等。

Geoip

尽管上面的数据从非结构化变为结构化数据，这是非常好的，但是还是有美中不足的地方。比如clientip，我们知道了这个请求的IP地址，但是我们还是不知道这个IP是从哪个地方来的，具体是哪个国家，哪个地理位置。在这个时候，我们需要使用geoip过滤器来对数据进行丰富。我们在filter的这个部分加入geoip。当我们保存好weblog.conf文件后，我们会发现Logstash会自动装载我们最新的配置文件（如上步所示一样）：

weblog.conf

input {
  tcp {
    port => 9900
  }
}

filter {
  grok {
    match => { "message" => "%{COMBINEDAPACHELOG}" }
  }

  geoip {
    source => "clientip"
  }
}

output {
  stdout { }
}

同样地，我们使用如下的命令来发送日志里的第一条数据：

head -n 1 weblog-sample.log | nc localhost 9900

这个时候，我们可以看到除了在上面的clientip信息之外，我们的数据多了一个新的叫做geoip的字段。它里面含有location位置信息。这就为我们在地图上进行显示这些数据提供了方便。我们可以利用Elastic所提供的地图清楚地查看到请求是来自哪里。

Useragent

上面的数据比以前更加丰富。我们还注意到agent这个字段。它非常长，我们没法查看出来是来自什么样的浏览器，什么语言等等信息。我们可以使用useragent这个过滤器来进一步丰富数据。我们在weblog.conf中添加这个过滤器：

weblog.conf

input {
  tcp {
    port => 9900
  }
}

filter {
  grok {
    match => { "message" => "%{COMBINEDAPACHELOG}" }
  }

  geoip {
    source => "clientip"
  }

  useragent {
    source => "agent"
    target => "useragent"
  }

}

output {
  stdout { }
}

等更新完这个配置文件后，我们再次在另外一个console中发送第一个log：

head -n 1 weblog-sample.log | nc localhost 9900

我们可以在上面看到一个新增加的字段useragent。上面它表明了useragent的版本信息，浏览器的名称以及操作系统。这对于我们以后的数据分析提供更进一步的帮助。

Mutate - convert

从上面的输出中，我们了可以看出来bytes是一个字符串的类型。这个和我们实际的应用可能会有所不同。这应该是一个整型数。我们可以使用mutate: convert 过滤器来对它进行转换。我们重新编辑weblog.conf文件。我们把它放于grok过滤器之后：

weblog.conf

input {
  tcp {
    port => 9900
  }
}

filter {
  grok {
    match => { "message" => "%{COMBINEDAPACHELOG}" }
  }

  mutate {
    convert => {
      "bytes" => "integer"
    }
  }

  geoip {
    source => "clientip"
  }

  useragent {
    source => "agent"
    target => "useragent"
  }

}

output {
  stdout { }
}

等更新完这个配置文件后，我们再次在另外一个console中发送第一个log：

head -n 1 weblog-sample.log | nc localhost 9900

从上面的输出中，我们可以看到bytes这个字段已经变为正式值了，而不是之前的字符串了。

Date

Logstash将事件时间存储在@timestamp字段中。但是实际的日志创建时间在 timestamp 字段中（没有@）。该字段的格式不是ISO8601，因此存储为文本。我们可以使用 date 过滤器将此字段转换为日期类型。我们编辑weblog.conf，并加入 date 过滤器：

weblog.conf

input {
  tcp {
    port => 9900
  }
}

filter {
  grok {
    match => { "message" => "%{COMBINEDAPACHELOG}" }
  }

  mutate {
    convert => {
      "bytes" => "integer"
    }
  }

  geoip {
    source => "clientip"
  }

  useragent {
    source => "agent"
    target => "useragent"
  }

  date {
    match => ["timestamp", "dd/MMM/yyyy:HH:mm:ss Z"]
  }
}

output {
  stdout { }
}

等更新完这个配置文件后，我们再次在另外一个console中发送第一个log：

head -n 1 weblog-sample.log | nc localhost 9900

从上面，我们看出来新添加了一个叫做@timestamp的字段。

设置输出 - Elasticsearch

所有的到目前为止，所有的输出都是stdout，也就是输出到Logstash运行的console。我们想把处理后的数据输出到Elasticsearch。我们在output的部分添加如下的Elasticsearch输出：

weblog.conf

input {
  tcp {
    port => 9900
  }
}

filter {
  grok {
    match => { "message" => "%{COMBINEDAPACHELOG}" }
  }

  mutate {
    convert => {
      "bytes" => "integer"
    }
  }

  geoip {
    source => "clientip"
  }

  useragent {
    source => "agent"
    target => "useragent"
  }

  date {
    match => ["timestamp", "dd/MMM/yyyy:HH:mm:ss Z"]
  }
}

output {
  stdout { }

  elasticsearch {
    hosts => ["localhost:9200"]
    user => "elastic"
    password => "changeme"
  }
}

在上面，我们同时保留两个输出：stdout及elasticsearch。事实上，我们可以定义很多个的输出。stdout输出对于我们初期的调试是非常有帮助的。等我们完善了所有的调试，我们可以把上面的stdout输出关掉。依赖于我们是否已经为Elasticsearch提供安全设置，我们需要在上面配置好访问的用户名及密码。

等更新完这个配置文件后，我们再次在另外一个console中发送第一个log：

head -n 1 weblog-sample.log | nc localhost 9900

这一次，我们打开Kibana：

我们在Dev Tools里输入如下的命令：

GET logstash/_count

从上面，我们可以看到有一条Logstash的数据。我们可以再接着打入如下的命令：

GET logstash/_search

从上面我们可以看到这条Logstash导入的数据。它和我们之前在Longstash console里看到的是一摸一样的。

启用 keystore 来保护自己的密码等

在上面所有的配置中，我们在配置文件中把自己的用户名及密码都写在文本中间。这个是非常不好的，这是因为任何可以接触到这个配置文件的人都可以看到你这些敏感信息。为此，logstash-keystore 提供了一种安全机制。它允许我们把这些信息保存于一个keystore里，这样别人都看不到真实的用户名及密码等信息。如果你还不知道如何为Elasticsearch设置安全信息的话，请参阅我之前的文章“Elasticsearch：设置Elastic账户安全”。

我们在Logstash的console里打入如下的命令：

bin/logstash-keystore create

$ bin/logstash-keystore create
Java HotSpot(TM) 64-Bit Server VM warning: Option UseConcMarkSweepGC was deprecated in version 9.0 and will likely be removed in a future release.
2020-05-08T10:38:35.483+08:00 [main] WARN FilenoUtil : Native subprocess control requires open access to sun.nio.ch
Pass '--add-opens java.base/sun.nio.ch=org.jruby.dist' or '=org.jruby.core' to enable.

WARNING: The keystore password is not set. Please set the environment variable `LOGSTASH_KEYSTORE_PASS`. Failure to do so will result in reduced security. Continue without password protection on the keystore? [y/N] y
Created Logstash keystore at /Users/liuxg/elastic3/logstash-7.6.2/config/logstash.keystore

我们接着打入如下的命令：

bin/logstash-keystore add ES_HOST

我们把配置文件中的Elasticsearch的地址 localhost:9200 拷贝并粘贴过来：

$ bin/logstash-keystore add ES_HOST
Java HotSpot(TM) 64-Bit Server VM warning: Option UseConcMarkSweepGC was deprecated in version 9.0 and will likely be removed in a future release.
2020-05-08T10:39:41.884+08:00 [main] WARN FilenoUtil : Native subprocess control requires open access to sun.nio.ch
Pass '--add-opens java.base/sun.nio.ch=org.jruby.dist' or '=org.jruby.core' to enable.

Enter value for ES_HOST: 
Added 'es_host' to the Logstash keystore.

我们再接着打入如下的命令：

bin/logstash-keystore add LS_USER

$ bin/logstash-keystore add LS_USER
Java HotSpot(TM) 64-Bit Server VM warning: Option UseConcMarkSweepGC was deprecated in version 9.0 and will likely be removed in a future release.
2020-05-08T10:41:41.603+08:00 [main] WARN FilenoUtil : Native subprocess control requires open access to sun.nio.ch
Pass '--add-opens java.base/sun.nio.ch=org.jruby.dist' or '=org.jruby.core' to enable.

Enter value for LS_USER: 
Added 'ls_user' to the Logstash keystore.

我们在上面输入我们的Logstash的用户名。这个用户名可以是那个超级用户elastic，也可以是我们自己创建的一个专为数据采集的用户。

最后，我们也可以打入如下的命令：

bin/logstash-keystore add LS_PWD

我们把上面用户名的密码进行输入：

$ bin/logstash-keystore add LS_PWD
Java HotSpot(TM) 64-Bit Server VM warning: Option UseConcMarkSweepGC was deprecated in version 9.0 and will likely be removed in a future release.
2020-05-08T10:48:29.166+08:00 [main] WARN FilenoUtil : Native subprocess control requires open access to sun.nio.ch
Pass '--add-opens java.base/sun.nio.ch=org.jruby.dist' or '=org.jruby.core' to enable.

Enter value for LS_PWD: 
Added 'ls_pwd' to the Logstash keystore.

在这里我必须指出的是：上面我使用的 ES_HOST, LS_USER 及 LS_PWD 都是你自己任意可以选取的名字。只要它们和我们下边所使用的配置里的名字是配合的即可。

在上面，我们已经创建了一下键值，那么我们该如何使用它们呢？我们重新打开weblog.conf文件：

weblog.conf

input {
  tcp {
    port => 9900
  }
}

filter {
  grok {
    match => { "message" => "%{COMBINEDAPACHELOG}" }
  }

  mutate {
    convert => {
      "bytes" => "integer"
    }
  }

  geoip {
    source => "clientip"
  }

  useragent {
    source => "agent"
    target => "useragent"
  }

  date {
    match => ["timestamp", "dd/MMM/yyyy:HH:mm:ss Z"]
  }
}

output {
  stdout { }

  elasticsearch {
    hosts => ["${ES_HOST}"]
    user => "${LS_USER}"
    password => "${LS_PWD}"
  }
}

在上面的elasticsearch输出部分，我们分别使用了 ES_HOST, LS_USER 及 LS_PWD 来分别代替了之前使用的字符串。这样做的好处是，我们再也不用硬编码我们的这些字符串了。我们把这个文件给任何人看，他们都不会发现我们的这些敏感信息了。

经过这个修改后，我们重新运行Logstash:

 bin/logstash -f weblog.conf

我们看到Logstash已经被成功启动了。我们使用如下的命令再次发送第一条日志信息：

head -n 1 weblog-sample.log | nc localhost 9900

我们再次查看Kibana:

显然，这次比上一次多了一条数据。说明我们的配置是成功的！

把整个文件都导入进Elasticsearch

到目前为止，我们只是测试了我们的Logstash的配置文件部分。可能很多的人觉得并不完整。如果你想把整个的log文件都导入进Elasticsearch中，那么我们可以配合 Filebeat 来进行使用。关于这个部分，请阅读我的另外一篇文章“Logstash：把Apache日志导入到Elasticsearch”。

由于一些原因，我们可以把Filebeat的配置文件设置为：

filebeat_logstash.yml

filebeat.inputs:
- type: log
  enabled: true
  paths:
    - /path-to-log-file/weblog-sample.log
 
output.logstash:
  hosts: ["localhost:9900"]

我们要记得根据自己weblog-sample.log的位置修改上面的paths。同时，由于一些原因，我们也同时也要做上面的Logstash的配置文件weblog.conf做很小的修正。把useragent里的source修改为user-agent而不是之前的agent。

weblog.conf

input {  
  beats {
    port => "5044"
  }
}
 
filter {
  grok {
    match => { "message" => "%{COMBINEDAPACHELOG}" }
  }
 
  mutate {
    convert => {
      "bytes" => "integer"
    }
  }
 
  geoip {
    source => "clientip"
  }
 
  useragent {
    source => "user_agent"
    target => "useragent"
  }
 
  date {
    match => ["timestamp", "dd/MMM/yyyy:HH:mm:ss Z"]
  }
}

output {
  stdout {
    codec => dots {}
  }
 
  elasticsearch {
    hosts=>["localhost:9200"]
    user=>"elastic"
    password=>"123456"
    index => "apache_elastic_example"
    template => "/Users/liuxg/data/beats/apache_template.json"
    template_name => "apache_elastic_example"
    template_overwrite => true
  }
}

你可以在地址：https://github.com/liu-xiao-guo/beats-getstarted 下载所以的代码。记得换掉上面的路径即可。在使用时，你先要启动Logstash，然后再启动Filebeat。

bin/logstash -f weblog.conf

然后，再运行Filebeat:

bin/filebeat -e -c filebeat_logstash.yml

在Kibana中，我们可以通过如下的命令来查看索引：

GET _cat/indices

从上面，我们可以看出来有30万个数据被导入到Elasticsearch中。

更多阅读

你可以发现更多的关于Logstash的文章。相关的文章：

如何安装Elastic栈中的Logstash
Logstash: 启动监控及集中管理
Logstash：使用 mutate 过滤器
Logstash：Grok filter 入门

你可能感兴趣的:(Logstash,Elastic)

ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
ElasticSearch查询超过10000条（1000页）时出现Result window is too large的问题王月亮17
问题当ES数据量较大，使用分页查询超过10000条（1000页）时，出现如下错误：Cannotexecutejestaction,responsecode:500,error:{"root_cause":[{"type":"query_phase_execution_exception","reason":"Resultwindowistoolarge,from+sizemustbelesstha
Elasticsearch7.7.0 配置用户名和密码 i0208 Elasticsearch
配置用户和密码需要在配置文件中开启x-pack验证,修改config目录下面的elasticsearch.yml文件，在里面添加如下内容,并重启ES[root@localhostesuser]#vim/opt/es/elasticsearch-7.7.0/config/elasticsearch.ymlxpack.security.enabled:truexpack.license.self_ge
elasticsearch数据迁移之elasticdump 迷茫运维路 elasticsearch 中间件 elasticsearch linux 运维
系列文章目录第一章es集群搭建第二章es集群基本操作命令第三章es基于search-guard插件实现加密认证第四章es常用插件文章目录系列文章目录前言一、elasticdump是什么？二、安装elasticdump工具1.离线安装2.在线安装三、elasticdump相关参数四、使用elasticdump进行数据备份五、使用elasticdump进行数据恢复前言在企业实际生产环境中,避免不了要对
在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）不会编程的小孩子 elasticsearch 大数据搜索引擎
#在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）前言文章目录前言-聚合和分析-执行聚合操作-1.使用JavaAPI执行聚合操作-2.使用CURL命令执行聚合操作-1.使用JavaAPI执行度量操作-2.使用CURL命令执行度量操作-使用缓存-调整分片大小和数量-使用搜索建议-结论-节点发现-负载均衡-故障转移-结论-访问控制-加密-身份验证-结论-RESTA
Elasticsearch Java API 的使用（22）—实现桶聚合迷途码界 Elasticsearch Java API 桶聚合
分组聚合使用terms实现分组集合publicclassEsTermsAggthrowsUnknownHostException{publicvoidTermsAgg(TransportClientclient){AggregationBuilderagg=AggregationBuilders.terms("terms").field("agg");SearchResponseresponse=
Elasticsearch之bool查询 cyt涛 java elasticsearch 大数据搜索引擎 bool 布尔查询全文检索
bool查询是Elasticsearch中最常用的复合查询类型，允许将多个查询组合在一起。它通过逻辑操作符（如must、should、must_not和filter）来构建复杂的查询条件，从而满足多条件匹配、逻辑与（AND）、或（OR）、非（NOT）的查询需求。bool查询主要由四个部分组成：must：必须满足的条件（类似于SQL中的AND）。should：应该匹配的条件（类似于SQL中的OR）。
影响数据分析导致数据建模错误！你可能都没发觉的几个小细节丨程序之道丨
如果你有一个目标，想获得所有这些数据的可操作的见解，并一直在收集。那么，你如何确定模型的数据，以便实际上可以获得这些见解，并回答你的业务问题?你的计划。当规划阶段不充分或不完全，其结果是可怕的。那么分析和性能、数据完整性和安全性的问题接踵而至，将会使日常的维护和发展的成本达到了不必要的水平。避免常见的建模错误1.开始实施时没有明确的行动计划当涉及到的分析，如数据仓库或Elasticube建模数据资
Elasticsearch 安装哒哒-blog Elasticsearch elasticsearch jenkins 大数据
下载安装elasticsearch下载链接运行：bin\elasticsearch.bat设置密码：.\bin\elasticsearch-setup-passwordsinteractive这边设置密码遇到一个坑PSG:\elasticsearch-8.8.1>.\bin\elasticsearch-setup-passwordsinteractiveFailedtoauthenticateus
Docker启动Elasticsearch(挂载数据、配置文件、插件) 程序员迪迦项目实战 Java elasticsearch docker
Docker启动Elasticsearch拉取镜像dockerpullelasticsearch:7.4.2修改配置文件mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/data/mkdir-p/mydata/elasticsearch/pluginsecho"http.host:0.0.0.0">>/mydata/el
docker部署elasticsearch 大大陈· elasticsearch docker 大数据
docker部署es1.简单启动2.配置文件3.安装es步骤1.简单启动#"discovery.type=single-node"标识单机启动dockerrun-d--nameelasticsearch-p9200:9200-p9300:9300-e"discovery.type=single-node"elasticsearch:tag#如果没有上面的标识，是集群启动，不这样做会报错#但是这样启
Docker安装elasticsearch和kibana viego1999 elasticsearch docker 大数据
1、首先拉取elasticsearch镜像dockerpullelasticsearch:7.9.12、创建docker挂载的目录我这里将docker环境下挂在的目录统一放在了/dockerdata目录下mkdir-p/dockerdata/elasticsearch/configmkdir-p/dockerdata/elasticsearch/datamkdir-p/dockerdata/ela
Docker部署单点es Javaismymorning ES学习笔记 docker elasticsearch
前言该笔记是根据B站上黑马SpringCloud学习总结的一、ES是什么？Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性，能使数据在生产环境变得更有价值二、Docker部署ES步骤1.创建网络因为还要部署Kibana，实现es和Kibana关联，创建一个网络Kibana是为
MySQL同步数据到Elasticsearch 运维小雅 elasticsearch mysql 大数据
背景随着平台的业务日益增多，基于数据库的全文搜索查询速度较慢，已经无法满足需求。所以，决定基于Elasticsearch做一个全文搜索平台，支持业务相关的搜索需求。那么第一个问题就是：如何从MySQL同步数据到Elasticsearch？解决方案一：基于Logstash同步数据该方案上次有详细说明过，这里就简单描述一下。Logstash同步数据流程图：优点：1、组件少，只需要Logstash就可以
docker安装与使用小鱼做了就会开发框架及各种插件 docker java maven ubuntu linux
docker安装与使用一、docker安装二、容器三、镜像五、Docker部署ES5.1部署ES5.2配置跨域5.3重启容器5.4Docker部署ES-IK分词器5.5Docker部署ElasticSearch-Head5.6Docker快速安装kibana一、docker安装sudowget-qO-https://get.docker.com/|bash二、容器容器是由镜像实例化而来，这和我们学
ES(Elasticsearch)常用的函数遨游在知识的海洋里无法自拔 java
Elasticsearch（简称ES）是一个开源的搜索引擎，广泛用于全文搜索、分析和数据可视化。以下是一些常用的Elasticsearch函数和操作：索引操作创建索引PUT/index_name删除索引DELETE/index_name查看索引GET/index_name文档操作插入文档POST/index_name/_doc/{"field":"value"}获取文档GET/index_name
java实现es分页查询_elasticsearch high level rest api分页查询数据 weixin_42565971 java实现es分页查询
Transport方式查询数据，在今后的elasticsearch中将不在维护，官方推荐用用highlevelrestapi或者lowerlevelapi去操作elasticsearch中的数据。在elasticsearch的增删改查操作中，其实最复杂的也就是分页查询了，根据elasticsearch官方资料，做个简单的笔记.1.准备jar包,我用的elasticsearch7.3版本,各版本需要
弹性资源组件集成系列(一)datax集成弹性资源设计解释中间件XL 弹性资源组件k8s 分布式dataX 弹性资源分布式datax k8s
简介弹性组件集成有弹性需求的组件，为组件增加高弹性容量，规划集成datax，elastic-job，xxl-job，sentineldashboard，dolphinscheduer，eventbridgedatax基于社区版，此前已对datax进行重构，增加其metricsexporter，分布式特性，分布式模型是基于启动的worker分配，固定的worker数量，如果分片少，浪费资源；分片多，
python连接es_Elasticsearch --- 3. ik中文分词器, python操作es weixin_39962285 python连接es
一.IK中文分词器1.下载安装2.测试#显示结果{"tokens":[{"token":"上海","start_offset":0,"end_offset":2,"type":"CN_WORD","position":0},{"token":"自来水","start_offset":2,"end_offset":5,"type":"CN_WORD","position":1},{"token":"
python 写入es_python-elasticsearch从创建索引到写入数据夙砂酒 python 写入es
创建索引fromelasticsearchimportElasticsearches=Elasticsearch('192.168.1.1:9200')mappings={"mappings":{"type_doc_test":{#type_doc_test为doc_type"properties":{"id":{"type":"long","index":"false"},"serial":{"
使用Python的Elasticsearch客户端 elasticsearch-py 来完成删除现有索引、重新创建索引并测试分词的示例代码 Roc-xb Python python elasticsearch
以下是一个使用Python的Elasticsearch客户端elasticsearch-py来完成删除现有索引、重新创建索引并测试分词的示例代码一、安装依赖pipinstallelasticsearch二、运行效果三、程序代码fromelasticsearchimportElasticsearch,NotFoundError#连接到Elasticsearches=Elasticsearch(
springboot指定依赖jar版本 m0_67402235 java java 后端
项目是maven父子项目结构如下：有多个子项目，因为springboot版本采用的是1.5.所以默认导入的elasticsearch版本是1.2.，而我们的集群是6.*的版本，试了很多次最后解决问题如下：在父pom的dependencyManagement中添加指定版本就可以了因为！！！父pom中指定版本优先级最高，所以可以解决子依赖pom中的版本问题。子模块只需要引入就可以了
ElasticSearch-多边形范围查询(8.x) W_Meng_H #ElasticSearch #SpringBoot elasticsearch 大数据搜索引擎
目录一、字段设计二、数据录入三、查询语句四、Java代码实现开发版本详见：Elasticsearch-经纬度查询(8.x-半径查询)_es经纬度范围查询-CSDN博客一、字段设计PUT/aoi_points{"mappings":{"properties":{"location":{"type":"geo_shape"}}}}aoi_points是索引名称，location是字段名称，它将存储地理
Elasticsearch文档值知知之之 Elasticsearch elasticsearch 大数据搜索引擎
在Elasticsearch中，文档值（DocValues）是用于高效存储和检索数据的一种数据结构，特别是在处理聚合、排序和过滤操作时。文档值是Elasticsearch为每个字段生成的预先计算的格式化数据，目的是改善性能和降低内存使用。什么是文档值（DocValues）文档值是将字段的数据存储在磁盘上的一种方式，使得字段的值以列式结构存储。这种存储方式使得对字段的高效检索和聚合成为可能，尤其是在
弹性搜索引擎Elasticsearch：本地部署与远程访问指南猴哥是肖鸿人工智能技术指导专升本 jenkins 运维
在大数据时代，数据搜索和分析成为企业核心竞争力的关键因素。弹性搜索引擎Elasticsearch作为一种分布式、可扩展的搜索和分析引擎，受到广泛欢迎。本文将介绍Elasticsearch的本地部署与远程访问，帮助读者更好地利用这一强大的工具。一、本地部署环境准备在开始部署Elasticsearch之前，需要准备以下环境：操作系统：Elasticsearch支持多种操作系统，如Linux、Windo
elasticsearch 图灵农场 tl微服务专题
cluster：代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。shards：代表索引分片，es可以把一个完整的索引分成多个分片，这样的好处是可以把一个大的索引拆
在ELFK架构中加入kafka beretxj_ kafka 分布式大数据 elk
传统的ELFK架构中，filebeat到logstash这个过程中，由于logstash要进行日志的分析处理，而filebeat至进行日志的收集和发送，处理过程较为简单，所以当日志量非常巨大的时候，logstash会由于处理不及时导致日志或数据的丢失，这时候可以在filebeat和logstash之间加入kafka存储信息，在logstash处理不及时的时候，日志或数据不至于丢失。kafka的安装
ELK架构介绍星河漫漫l elk elasticsearch 运维服务器
一、ELK简介ELK是由三个开源软件组成的，分别是：Elasticsearch、Logstash和Kibana，这三个软件各自在日志管理和数据分析领域发挥着重要作用。Elasticsearch提供分布式存储和搜索能力；Logstash负责数据收集和处理，而Kibana则提供数据可视化和分析界面。他们共同构成了一个完整的日志管理解决方案，帮助企业高效利用日志数据进行监控、分析和安全审计。1.Elas
JAVA使用es不分词_谈谈 Elasticsearch 分词和自定义分词 weixin_39966376 JAVA使用es不分词
初次接触Elasticsearch的同学经常会遇到分词相关的难题，比如如下这些场景：1、为什么命名有包含搜索关键词的文档，但结果里面就没有相关文档呢？2、我存进去的文档到底被分成哪些词(term)了？3、我得自定义分词规则，但感觉好麻烦呢，无从下手如果你遇到过类似的问题，希望本文可以解决你的疑惑。一、上手让我们从一个实例出发，如下创建一个文档：PUTtest/doc/1{"msg":"Eating
ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

Logstash：Logstash 入门教程 （二）

安装

Elasticsearch

Kibana

Logstash

如何运行Logstash

如何配置 Logstash pipeline

动手实践

运用过滤器来对数据进行处理

Grok

Geoip

Useragent

Mutate - convert

Date

设置输出 - Elasticsearch

启用 keystore 来保护自己的密码等

把整个文件都导入进Elasticsearch

更多阅读

你可能感兴趣的:(Logstash,Elastic)

Logstash：Logstash 入门教程（二）