茉璃珞

企业级日志系统分析——ELK详解

前言

一、概述

1、组件说明

1.1 ElasticSearch

1.2 Kiabana

1.3 Logstash

1.4 Filebeat

1.5 缓存/消息队列（redis、kafka、RabbitMQ等）

1.6 Fluentd

2、思考：为什么要用ELK

3、完整日志系统的基本特征

4、ELK工作原理

二、部署ELK日志分析系统

1、服务器配置

2、关闭防火墙

3、ElasticSearch集群部署（需要部署两个节点，这里以node1为例说明）

3.1 环境准备

3.2 部署 ElasticSearch 软件

4、安装 Elasticsearch-head 插件（node1为例）

4.1编译安装 node

4.2 安装 phantomjs

4.3 安装 Elasticsearch-head 数据可视化工具

4.4 修改 Elasticsearch 主配置文件

4.5 启动 elasticsearch-head 服务

4.6 通过 Elasticsearch-head 查看 ES 信息

4.7插入索引

4.8 浏览器查看索引信息

5、ELK-Logstash 部署（在 Apache 节点上操作）

5.1 更改主机名

5.2 安装 Apache 服务（httpd）

5.3 安装 Java 环境

5.4 安装 logstash

5.5 测试 Logstash

5.6定义 logstash 配置文件

5.7访问测试

6、ELK-Kibana 部署（在 node1 节点上操作）

6.1 安装 Kibana

6.2 设置 Kibana 的主配置文件

6.3 启动 Kibana 服务

6.4 验证 Kibana

6.5 将 Apache 服务器的日志（访问的、错误的）添加到 ES 并通过 Kibana 显示

6 .6 浏览器访问

三、ELFK（Filebeat + ELK）

1、Filebeat 的作用

2、ELFK 工作流程

3、ELFK 的部署

3.1服务器配置

3.2 服务器环境

3.3 安装 filebeat

3.4 修改 filebeat 主配置文件

3.5 在 logstash 组件所在节点（apache节点）上新建一个 logstash 配置文件

3.6 浏览器验证

前言

ELK 平台是一套完整的日志集中处理解决方案，将 ElasticSearch、Logstash 和 Kibana 三个开源工具配合使用，完成更强大的用户对日志的查询、排序、统计需求。

一、概述

1、组件说明

1.1 ElasticSearch

ElasticSearch是基于Lucene（一个全文检索引擎的架构）开发的分布式存储检索引擎，用来存储各类日志。
Elasticsearch 是用 Java 开发的，可通过 RESTful Web 接口，让用户可以通过浏览器与 Elasticsearch 通信。
Elasticsearch是一个实时的、分布式的可扩展的搜索引擎，允许进行全文、结构化搜索，它通常用于索引和搜索大容量的日志数据，也可用于搜索许多不同类型的文档。

1.2 Kiabana

Kibana 通常与 Elasticsearch 一起部署，Kibana 是 Elasticsearch 的一个功能强大的数据可视化 Dashboard，Kibana 提供图形化的 web 界面来浏览 Elasticsearch 日志数据，可以用来汇总、分析和搜索重要数据。

1.3 Logstash

Logstash作为数据收集引擎。它支持动态的从各种数据源搜集数据，并对数据进行过滤、分析、丰富、统一格式等操作，然后存储到用户指定的位置,一般会发送给 Elasticsearch。
Logstash 由 Ruby 语言编写，运行在 Java 虚拟机（JVM）上，是一款强大的数据处理工具，可以实现数据传输、格式处理、格式化输出。Logstash 具有强大的插件功能，常用于日志处理。

1.4 Filebeat

Filebeat 是一款轻量级的开源日志文件数据搜索器。通常在需要采集数据的客户端安装 Filebeat，并指定目录与日志格式，Filebeat 就能快速收集数据，并发送给 Logstash 进行解析，或是直接发给 ES 存储，性能上相比运行于 JVM 上的 Logstash 优势明显，是对它的替代。

filebeat 结合 logstash 带来好处

通过 Logstash 具有基于磁盘的自适应缓冲系统，该系统将吸收传入的吞吐量，从而减轻 Elasticsearch 持续写入数据的压力
从其他数据源（例如数据库，S3对象存储或消息传递队列）中提取
将数据发送到多个目的地，例如S3，HDFS（Hadoop分布式文件系统）或写入文件
使用条件数据流逻辑组成更复杂的处理管道

日志的集中化管理 beats 包括四种工具

Packetbeat（搜索网络流量数据）
Topbeat（搜索系统、进程和文件系统级别的 CPU 和内存使用情况等数据）
Filebeat（搜集文件数据）
Winlogbeat（搜集 Windows 时间日志数据）

1.5 缓存/消息队列（redis、kafka、RabbitMQ等）

可以对高并发日志数据进行流量削峰和缓冲，这样的缓冲可以一定程度的保护数据不丢失，还可以对整个架构进行应用解耦。

1.6 Fluentd

Fluentd是一个流行的开源数据收集器。由于 logstash 太重量级的缺点，Logstash 性能低、资源消耗比较多等问题，随后就有 Fluentd 的出现。相比较 logstash，Fluentd 更易用、资源消耗更少、性能更高，在数据处理上更高效可靠，受到企业欢迎，成为 logstash 的一种替代方案，常应用于 EFK 架构当中。在 Kubernetes 集群中也常使用 EFK 作为日志数据收集的方案。
在 Kubernetes 集群中一般是通过 DaemonSet 来运行 Fluentd，以便它在每个 Kubernetes 工作节点上都可以运行一个 Pod。它通过获取容器日志文件、过滤和转换日志数据，然后将数据传递到 Elasticsearch 集群，在该集群中对其进行索引和存储。

2、思考：为什么要用ELK

答：
日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷，性能安全性，从而及时采取措施纠正错误。
往往单台机器的日志我们使用grep、awk等工具就能基本实现简单分析，但是当日志被分散的储存不同的设备上。如果你管理数十上百台服务器，你还在使用依次登录每台机器的传统方法查阅日志。这样是不是感觉很繁琐和效率低下。当务之急我们使用集中化的日志管理，例如：开源的syslog，将所有服务器上的日志收集汇总。集中化管理日志后，日志的统计和检索又成为一件比较麻烦的事情，一般我们使用 grep、awk和wc等Linux命令能实现检索和统计，但是对于要求更高的查询、排序和统计等要求和庞大的机器数量依然使用这样的方法难免有点力不从心。
一般大型系统是一个分布式部署的架构，不同的服务模块部署在不同的服务器上，问题出现时，大部分情况需要根据问题暴露的关键信息，定位到具体的服务器和服务模块，构建一套集中式日志系统，可以提高定位问题的效率。

3、完整日志系统的基本特征

收集：能够采集多种来源的日志数据
传输：能够稳定的把日志数据解析过滤并传输到存储系统
存储：存储日志数据
分析：支持 UI 分析
警告：能够提供错误报告，监控机制

4、ELK工作原理

AppServer 是一个类似于 Nginx、Apache 的集群，其日志信息由 Logstash 来收集
往往为了减少网络问题所带来的瓶颈，会把 Logstash 服务放入前者的集群内，减少网络的消耗
Logstash 把收集到的日志数据格式化后输出转存至 ES 数据库内（这是一个将日志进行集中化管理的过程）
随后，Kibana 对 ES 数据库内格式化后日志数据信息进行索引和存储
最后，Kibana 把其展示给客户端

总结：logstash作为日志搜集器，从数据源采集数据，并对数据进行过滤，格式化处理，然后交由Elasticsearch存储，kibana对日志进行可视化处理。

二、部署ELK日志分析系统

1、服务器配置

服务器	配置	主机名	ip地址	主要软件
node1 节点	2C/4G	node1	192.168.223.37	ElasticSearch、Kibana
node2 节点	2C/4G	node2	192.168.223.53	ElasticSearch
apache 节点	/	apache	192.168.223.13	Logstash、Apache

2、关闭防火墙

systemctl stop firewalld && systemctl disable firewalld
setenforce 0
ntpdate ntp.aliyun.com

3、ElasticSearch集群部署（需要部署两个节点，这里以node1为例说明）

3.1 环境准备

[root@localhost ~]# hostnamectl set-hostname node1
[root@localhost ~]# su
[root@node1 ~]# echo "192.168.223.37 node1" >> /etc/hosts
[root@node1 ~]# echo "192.168.223.53 node2" >> /etc/hosts
[root@node1 ~]# java -version	#不建议使用 openjdk

# rpm 安装 jdk （方法一）
cd /opt
#将软件包传至该目录下
rpm -ivh jdk-8u201-linux-x64.rpm

vim /etc/profile.d/java.sh
export JAVA_HOME=/usr/java/jdk1.8.0_201-amd64
export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar
export PATH=$JAVA_HOME/bin:$PATH
#注释：
1.输出定义java的工作目录
2.输出指定java所需的类文件
3.输出重新定义环境变量，$PATH一定要放在$JAVA_HOME的后面，让系统先读取到工作目录中的版本信息


source /etc/profile.d/java.sh
java -version
java version "1.8.0_201"
Java(TM) SE Runtime Environment (build 1.8.0_201-b09)
Java HotSpot(TM) 64-Bit Server VM (build 25.201-b09, mixed mode)


# rpm 安装 jdk （方法二）
cd /opt
tar zxvf jdk-8u91-linux-x64.tar.gz -C /usr/local
mv /usr/local/jdk1.8.0_91/ /usr/local/jdk

vim /etc/profile
export JAVA_HOME=/usr/local/jdk
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

source /etc/profile
java -version

3.2 部署 ElasticSearch 软件

1、安装 elasticsearch-rpm 包

[root@node1 ~]# cd /opt
[root@node1 opt]# rz -E
#上传elasticsearch-5.5.0.rpm到/opt目录下
rz waiting to receive.
[root@node1 opt]# rpm -ivh elasticsearch-5.5.0.rpm

2、加载系统服务

systemctl daemon-reload && systemctl enable elasticsearch.service

3、修改 elasticsearch 主配置文件

[root@node1 opt]# cp /etc/elasticsearch/elasticsearch.yml /etc/elasticsearch/elasticsearch.yml.bak
#备份配置文件
[root@node1 opt]# vim /etc/elasticsearch/elasticsearch.yml
 
##17行，取消注释，指定群集名称
cluster.name: my-elk-cluster
##23行，取消注释，指定节点名称（node1节点为node1，node2节点为node2）
node.name: node1
##33行，取消注释，指定数据存放路径
path.data: /data/elk_data
##37行，取消注释，指定日志存放路径
path.logs: /var/log/elasticsearch/
##43行，取消注释，不在启动的时候锁定内存（前端缓存，与IOPS-性能测试方式，每秒读写次数相关）
bootstrap.memory_lock: false
##55行，取消注释，设置监听地址，0.0.0.0代表所有地址
network.host: 0.0.0.0
##59行，取消注释，ES服务的默认监听端口为9200
http.port: 9200
##68行，取消注释，集群发现通过单播实现，指定要发现的节点node1、node2
discovery.zen.ping.unicast.hosts: ["node1", "node2"]
 
[root@node1 opt]# grep -v "^#" /etc/elasticsearch/elasticsearch.yml
cluster.name: my-elk-cluster
node.name: node1
path.data: /data/elk_data
path.logs: /var/log/elasticsearch/
bootstrap.memory_lock: false
network.host: 0.0.0.0
http.port: 9200
discovery.zen.ping.unicast.hosts: ["node1", "node2"]
-------------------------------------------------------

scp /etc/elasticsearch/elasticsearch.yml [email protected]:/etc/elasticsearch/elasticsearch.yml
#将配置好的文件用 scp 传至 node2，后续只用去改个节点名字即可

4、创建数据存放路径并授权

[root@node1 opt]# mkdir -p /data/elk_data
[root@node1 opt]# chown elasticsearch:elasticsearch /data/elk_data/

5、启动 elasticsearch

[root@node1 opt]# systemctl start elasticsearch.service 
[root@node1 opt]# netstat -natp | grep 9200		#启动较慢，需等待
tcp6       0      0 :::9200                 :::*                    LISTEN      4216/java           


注：必须在解压后的 elasticsearch-head 目录下启动服务，进程会读取该目录下的 gruntfile.js 文件，否则可能启动失败。

6、查看节点信息

浏览器访问 http://192.168.223.37:9200、http://192.168.223.53:9200 查看节点 node1、node2 的信息

浏览器访问 http://192.168.223.37:9200/_cluster/health?pretty、http://192.168.223.53:9200/_cluster/health?pretty查看群集的健康情况，可以看到status值为green(绿色)，表示节点健康运行

浏览器访问 http://192.168.223.37:9200/_cluster/state?pretty、http://192.168.223.53:9200/_cluster/state?pretty 检查群集状态信息

4、安装 Elasticsearch-head 插件（node1为例）

ES 在 5.0 版本后，插件需要作为独立服务进行安装，需要使用 npm 工具（NodeJS 的包管理工具）安装。安装 Elasticsarch-head 需要提前安装好依赖软件 node 和 phantomjs。

node是一个基于 Chrome V8 引擎的 JavaScript 运行环境。
phantomjs是一个基于 webkit 的 JavaScriptAPI，可以理解为一个隐形的浏览器，任何基于 webkit 浏览器做的事情，它都可以做到。

4.1编译安装 node

[root@node1 ~]# cd /opt
[root@node1 opt]# rz -E
#上传软件包node-v8.2.1.tar.gz到/opt目录
rz waiting to receive.
[root@node1 opt]# yum install -y gcc gcc-c++ make
[root@node1 opt]# tar zxvf node-v8.2.1.tar.gz 
[root@node1 opt]# cd node-v8.2.1/
[root@node1 node-v8.2.1]# ./configure
[root@node1 node-v8.2.1]# make -j 4 && make install
#编译时间很长

4.2 安装 phantomjs

[root@node1 node-v8.2.1]# cd /opt
[root@node1 opt]# rz -E
#上传软件包phantomjs-2.1.1-linux-x86_64.tar.bz2到/opt目录
rz waiting to receive.
[root@node1 opt]# tar jxvf phantomjs-2.1.1-linux-x86_64.tar.bz2 -C /usr/local/src
[root@node1 opt]# cd /usr/local/src/phantomjs-2.1.1-linux-x86_64/bin
[root@node1 bin]# cp phantomjs /usr/local/bin

4.3 安装 Elasticsearch-head 数据可视化工具

[root@node1 bin]# cd /opt
[root@node1 opt]# rz -E
#上传软件包elasticsearch-head.tar.gz到/opt目录
rz waiting to receive.
[root@node1 opt]# tar zxvf elasticsearch-head.tar.gz -C /usr/local/src/
[root@node1 opt]# cd /usr/local/src/elasticsearch-head/
[root@node1 elasticsearch-head]# npm install

4.4 修改 Elasticsearch 主配置文件

[root@node1 elasticsearch-head]# vim /etc/elasticsearch/elasticsearch.yml
 
##末行添加以下内容
http.cors.enabled: true			##开启跨域访问支持，默认为false
http.cors.allow-origin: "*"		##指定跨域访问允许的域名地址为所有
 
[root@node1 elasticsearch-head]# systemctl restart elasticsearch.service
[root@node1 elasticsearch-head]# netstat -antp | grep 9200

4.5 启动 elasticsearch-head 服务

[root@node1 elasticsearch-head]# cd /usr/local/src/elasticsearch-head/
[root@node1 elasticsearch-head]# npm run start &
[1] 71012
> [email protected] start /usr/local/src/elasticsearch-head
> grunt server
 
Running "connect:server" (connect) task
Waiting forever...
Started connect web server on http://localhost:9100
^C
[root@node1 elasticsearch-head]# netstat -natp | grep 9100
tcp        0      0 0.0.0.0:9100            0.0.0.0:*               LISTEN      71022/grunt

注：必须在解压后的 elasticsearch-head 目录下启动服务，进程会读取该目录下的 gruntfile.js 文件，否则可能启动失败。

4.6 通过 Elasticsearch-head 查看 ES 信息

通过浏览器访问 http://192.168.223.37:9100 地址并连接群集。如果看到群集健康值为 green，代表群集很健康。

注意：有的时候显示未连接，这时将 localhost 改成 IP 地址即可

4.7插入索引

通过命令插入一个测试索引，索引为 index-demo，类型为 test

[root@node1 elasticsearch-head]# curl -X PUT 'localhost:9200/index-demo/test/1?pretty&pretty' -H 'content-Type: application/json' -d '{"user":"zhangsan","mesg":"hello world"}'
{
  "_index" : "index-demo",
  "_type" : "test",
  "_id" : "1",
  "_version" : 1,
  "result" : "created",
  "_shards" : {
    "total" : 2,
    "successful" : 2,
    "failed" : 0
  },
  "created" : true
}

4.8 浏览器查看索引信息

浏览器访问 http://129.168.223.37:9100 查看索引信息，可以看见索引默认被分片为 5 个，并且有一个副本。

点击 **数据浏览**，会发现在 node1 上创建的索引为 index-demo，类型为 test 的相关信息。

5、ELK-Logstash 部署（在 Apache 节点上操作）

Logstash 一般部署在需要监控其日志的服务器。在本案例中，Logstash 部署在 Apache 服务器上，用于收集 Apache 的日志信息并发送到 Elasticsearch。

5.1 更改主机名

[root@localhost ~]# hostnamectl set-hostname apache
[root@localhost ~]# su
[root@apache ~]#

5.2 安装 Apache 服务（httpd）

[root@apache ~]# yum install -y httpd
[root@apache ~]# systemctl start httpd && systemctl enable httpd

5.3 安装 Java 环境

cd /opt
tar zxvf jdk-8u91-linux-x64.tar.gz -C /usr/local
mv /usr/local/jdk1.8.0_91/ /usr/local/jdk

vim /etc/profile
export JAVA_HOME=/usr/local/jdk
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

source /etc/profile
java -version

5.4 安装 logstash

[root@apache ~]# cd /opt
[root@apache opt]# rz -E	#上传安装包 logstash-5.5.1.rpm
[root@apache opt]# rpm -ivh logstash-5.5.1.rpm 
[root@apache opt]# systemctl start logstash.service && systemctl enable logstash.service
[root@apache opt]# ln -s /usr/share/logstash/bin/logstash /usr/local/bin/

5.5 测试 Logstash

1、 Logstash 命令常用选项

Logstash 命令常用选项	说明
-f	通过这个选项可以指定 Logstash 的配置文件，根据配置文件配置 Logstash 的输入和输出流
-e	从命令行中获取，输入、输出后面跟着字符串，该字符串可以被当做 Logstash 的配置（如果是空，则默认使用 stdin 作为输入，stdout 作为输出）
-t	测试配置文件是否正确，然后退出

2、定义输入和输出流

标准输入、输出：输入采用标准输入，输出采用标准输出（类似管道）

[root@apache opt]# logstash -e 'input { stdin{} } output { stdout{} }'
ERROR StatusLogger No log4j2 configuration file found. Using default configuration: logging only errors to the console.
WARNING: Could not find logstash.yml which is typically located in $LS_HOME/config or /etc/logstash. You can specify the path using --p the defaults
Could not find log4j2 configuration at path //usr/share/logstash/config/log4j2.properties. Using default config which logs to console
12:16:12.662 [main] INFO  logstash.setting.writabledirectory - Creating directory {:setting=>"path.queue", :path=>"/usr/share/logstash/
12:16:12.667 [main] INFO  logstash.setting.writabledirectory - Creating directory {:setting=>"path.dead_letter_queue", :path=>"/usr/shaueue"}
12:16:12.699 [LogStash::Runner] INFO  logstash.agent - No persistent UUID file found. Generating new UUID {:uuid=>"20e5df40-1bc6-4e92-8r/share/logstash/data/uuid"}
12:16:12.997 [[main]-pipeline-manager] INFO  logstash.pipeline - Starting pipeline {"id"=>"main", "pipeline.workers"=>16, "pipeline.bat.delay"=>5, "pipeline.max_inflight"=>2000}
12:16:13.056 [[main]-pipeline-manager] INFO  logstash.pipeline - Pipeline main started
The stdin plugin is now waiting for input:
12:16:13.110 [Api Webserver] INFO  logstash.agent - Successfully started Logstash API endpoint {:port=>9600}
www.test.com
2022-07-06T16:16:52.104Z apache www.test.com
www.baidu.com
2022-07-06T16:16:58.786Z apache www.baidu.com
www.aliyun.com
2022-07-06T16:17:12.959Z apache www.aliyun.com
^C12:17:16.405 [SIGINT handler] WARN  logstash.runner - SIGINT received. Shutting down the agent.
12:17:16.417 [LogStash::Runner] WARN  logstash.agent - stopping pipeline {:id=>"main"}

rubydebug 输出使：用 rubydebug 输出详细格式显示，codec 为一种编解码器

[root@apache opt]# logstash -e 'input { stdin{} } output { stdout{ codec=>rubydebug } }'
ERROR StatusLogger No log4j2 configuration file found. Using default configuration: logging only errors to the console.
WARNING: Could not find logstash.yml which is typically located in $LS_HOME/config or /etc/logstash. You can specify the path using --path.settings. Continuing using the defaults
Could not find log4j2 configuration at path //usr/share/logstash/config/log4j2.properties. Using default config which logs to console
12:17:43.470 [[main]-pipeline-manager] INFO  logstash.pipeline - Starting pipeline {"id"=>"main", "pipeline.workers"=>16, "pipeline.batch.size"=>125, "pipeline.batch.delay"=>5, "pipeline.max_inflight"=>2000}
12:18:39.514 [[main]-pipeline-manager] INFO  logstash.pipeline - Pipeline main started
The stdin plugin is now waiting for input:
12:18:39.750 [Api Webserver] INFO  logstash.agent - Successfully started Logstash API endpoint {:port=>9600}
www.test.com
{
    "@timestamp" => 2022-07-06T16:18:45.980Z,
      "@version" => "1",
          "host" => "apache",
       "message" => "www.test.com"
}
^C12:18:52.237 [SIGINT handler] WARN  logstash.runner - SIGINT received. Shutting down the agent.
12:18:52.260 [LogStash::Runner] WARN  logstash.agent - stopping pipeline {:id=>"main"}

输出到 ES：使用 logstash 将写入到 ES 中

[root@apache opt]# logstash -e 'input { stdin{} } output { elasticsearch { hosts=>["192.168.223.37:9200"] } }'
12:20:47.760 [[main]-pipeline-manager] INFO  logstash.outputs.elasticsearch - Running health check to see if an Elasticsearch connection is working {:healthcheck_url=>http://192.168.223.37:9200/, :path=>"/"}
12:20:47.856 [[main]-pipeline-manager] WARN  logstash.outputs.elasticsearch - Restored connection to ES instance {:url=>#}
12:20:47.859 [[main]-pipeline-manager] INFO  logstash.outputs.elasticsearch - Using mapping template from {:path=>nil}
12:20:48.074 [[main]-pipeline-manager] INFO  logstash.outputs.elasticsearch - Attempting to install template {:manage_template=>{"template"=>"logstash-*", "version"=>50001, "settings"=>{"index.refresh_interval"=>"5s"}, "mappings"=>{"_default_"=>{"_all"=>{"enabled"=>true, "norms"=>false}, "dynamic_templates"=>[{"message_field"=>{"path_match"=>"message", "match_mapping_type"=>"string", "mapping"=>{"type"=>"text", "norms"=>false}}}, {"string_fields"=>{"match"=>"*", "match_mapping_type"=>"string", "mapping"=>{"type"=>"text", "norms"=>false, "fields"=>{"keyword"=>{"type"=>"keyword", "ignore_above"=>256}}}}}], "properties"=>{"@timestamp"=>{"type"=>"date", "include_in_all"=>false}, "@version"=>{"type"=>"keyword", "include_in_all"=>false}, "geoip"=>{"dynamic"=>true, "properties"=>{"ip"=>{"type"=>"ip"}, "location"=>{"type"=>"geo_point"}, "latitude"=>{"type"=>"half_float"}, "longitude"=>{"type"=>"half_float"}}}}}}}}
12:20:48.083 [[main]-pipeline-manager] INFO  logstash.outputs.elasticsearch - New Elasticsearch output {:class=>"LogStash::Outputs::ElasticSearch", :hosts=>[#]}
12:20:48.088 [[main]-pipeline-manager] INFO  logstash.pipeline - Starting pipeline {"id"=>"main", "pipeline.workers"=>16, "pipeline.batch.size"=>125, "pipeline.batch.delay"=>5, "pipeline.max_inflight"=>2000}
12:20:48.138 [[main]-pipeline-manager] INFO  logstash.pipeline - Pipeline main started
The stdin plugin is now waiting for input:
12:20:48.179 [Api Webserver] INFO  logstash.agent - Successfully started Logstash API endpoint {:port=>9600}
www.test.com
^C12:23:05.586 [SIGINT handler] WARN  logstash.runner - SIGINT received. Shutting down the agent.
12:23:05.601 [LogStash::Runner] WARN  logstash.agent - stopping pipeline {:id=>"main"}

结果不在标准输出显示，而是发送至 ES，可浏览器访问 http://192.168.223.37:9100 查看索引和数据

5.6定义 logstash 配置文件

Logstash 配置文件基本由三部分组成：input、output 以及 filter（可选，根据需要选择使用）

input：表示从数据源采集数据，常见的数据源如Kafka、日志文件等
filter：表示数据处理层，包括对数据进行格式化处理、数据类型转换、数据过滤等，支持正则表达式
output：表示将Logstash收集的数据经由过滤器处理之后输出到Elasticsearch。

格式如下：

input {...}
output {...}
filter {...}

在每个部分中，也可以指定多个访问方式。例如：若要指定两个日志来源文件，则格式如下：

input {
	file { path =>"/var/log/messages" type =>"syslog"}
	file { path =>"/var/log/httpd/access.log" type =>"apache"}
}

修改 logstash 配置文件，让其收集系统日志 /var/log/messages，并将其输出到 ES 中

[root@apache opt]# chmod o+r /var/log/messages
#赋予读的权限，让 Logstash 可以获取到该文件的内容
[root@apache opt]# vim /etc/logstash/conf.d/system.conf
##该文件需自行创建，文件名可自定义
 
input {
    file{
        path =>"/var/log/messages"
##指定要收集的日志的位置
        type =>"system"
##自定义日志类型标识
        start_position =>"beginning"
##表示从开始处收集
    }
}
output {
    elasticsearch{
##输出到ES
        hosts =>["192.168.223.37:9200", "192.168.223.53:9200"]
##指定ES服务器的地址和端口，为避免单机故障，建议写全
        index =>"system-%{+YYYY.MM.dd}"
##指定输出到ES的索引格式
    }
}
 
[root@apache opt]# systemctl restart logstash.service

5.7访问测试

浏览器访问 http://192.168.223.37:9100 查看索引信息

6、ELK-Kibana 部署（在 node1 节点上操作）

6.1 安装 Kibana

[root@node1 elasticsearch-head]# cd /opt
[root@node1 opt]# rz -E		#上传软件包 kibana-5.5.1-x86_64.rpm
[root@node1 opt]# rpm -ivh kibana-5.5.1-x86_64.rpm

6.2 设置 Kibana 的主配置文件

[root@node1 opt]# cp /etc/kibana/kibana.yml /etc/kibana/kibana.yml.bak
#备份配置文件

[root@node1 opt]# vim /etc/kibana/kibana.yml
##2行，取消注释，kibana服务的默认监听端口为5601
server.port: 5601
##7行，取消注释，设置kibana的监听地址，0.0.0.0代表所有地址
server.host: "0.0.0.0"
##21行，取消注释，设置和ES建立连接的地址和端口
elasticsearch.url: "http://192.168.223.37:9200"
##30行，取消注释，设置在ES中添加.kibana索引
kibana.index: ".kibana"

6.3 启动 Kibana 服务

[root@node1 opt]# systemctl start kibana.service && systemctl enable kibana.service 
[root@node1 opt]# netstat -natp | grep 5601
tcp        0      0 0.0.0.0:5601            0.0.0.0:*               LISTEN      82765/node

6.4 验证 Kibana

浏览器访问 http://192.168.223.37:5601

第一次登录需要添加一个 ES 索引

点击 create 创建

索引添加完成后，点击 Discover 按钮可查看图表信息及日志信息

数据展示可以分类显示，例如：在 Available Fileds 中的 host

6.5 将 Apache 服务器的日志（访问的、错误的）添加到 ES 并通过 Kibana 显示

apache 服务器

[root@apache opt]# vim /etc/logstash/conf.d/apache_log.conf
 
input {
    file{
        path => "/etc/httpd/logs/access_log"
        type => "access"
        start_position => "beginning"
    }
    file{
        path => "/etc/httpd/logs/error_log"
        type => "error"
        start_position => "beginning"
    }
}
output {
    if [type] == "access" {
        elasticsearch {
            hosts => ["192.168.223.37:9200", "192.168.223.53:9200"]
            index => "apache_access-%{+YYYY.MM.dd}"
        }
    }
	if [type] == "error" {
        elasticsearch {
            hosts => ["192.168.223.37:9200", "192.168.223.53:9200"]
            index => "apache_error-%{+YYYY.MM.dd}"
        }
    }
}
[root@apache opt]# cd /etc/logstash/conf.d
[root@apache conf.d]# /usr/share/logstash/bin/logstash -f apache_log.conf
······
23:42:13.199 [Api Webserver] INFO  logstash.agent - Successfully started Logstash API endpoint {:port=>9601}

6 .6 浏览器访问

浏览器访问 http://192.168.223.37:9100 查看索引是否创建
可能你只看到了 apache-error，那是因为 access 需要访问 httpd 页面才能生成

浏览器访问 http://192.168.223.37:5601 登录 kibana，添加 apache_access-* 和 apache_error-* 索引，查看日志信息

三、ELFK（Filebeat + ELK）

1、Filebeat 的作用

由于 logstash 会大量占用系统的内存资源，一般我们会使用 filebeat 替换 logstash 收集日志的功能，组成 ELFK 架构
或用 fluentd 替代 logstash 组成 EFK（elasticsearch/fluentd/kibana），由于 fluentd 是由 Go 语言开发的，一般在 K8s 环境中使用较多

2、ELFK 工作流程

filebeat 将日志收集后交由 logstash 处理
logstash 进行过滤、格式化等操作，满足过滤条件的数据将发送给 ES
ES 对数据进行分片存储，并提供索引功能
Kibana 对数据进行图形化的 web 展示，并提供索引接口

3、ELFK 的部署

3.1服务器配置

服务器	配置	主机名	ip地址	主要软件部署
node1 节点	2C/4G	node1	192.168.223.37	ElasticSearch、Kibana
node2 节点	2C/4G	node2	192.168.223.53	ElasticSearch
apache 节点	/	apache	192.168.223.13	Logstash、Apache
filebeat 节点	/	filebeat	192.168.223.33	Filebeat

在 ELK 的服务配置的基础上，增加一台 filebeat 服务器，其余不变（所以以下只说明部署Filebeat服务器）

3.2 服务器环境

[root@localhost ~]# hostnamectl set-hostname filebeat
[root@localhost ~]# su
[root@filebeat ~]# systemctl stop firewalld && systemctl disable firewalld
[root@filebeat ~]# setenforce 0

3.3 安装 filebeat

#wget https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-6.2.4-linux-x86_64.tar.gz
#wget http://101.34.22.188/ELK/filebeat-5.5.1-linux-x86_64.tar.gz -P /opt
[root@filebeat ~]# wget http://101.34.22.188/ELK/filebeat-6.2.4-linux-x86_64.tar.gz -P /opt
[root@filebeat ~]# cd /opt
[root@filebeat opt]# tar zxvf filebeat-6.2.4-linux-x86_64.tar.gz 
[root@filebeat opt]# mv filebeat-6.2.4-linux-x86_64 /usr/local/filebeat

3.4 修改 filebeat 主配置文件

3.5 在 logstash 组件所在节点（apache节点）上新建一个 logstash 配置文件

[root@apache ~]# cd /etc/logstash/conf.d/
[root@apache conf.d]# vim logstash.conf
 
input {
    beats {
        port => "5044"
    }
}
output {
    elasticsearch {
        hosts => ["192.168.223.37:9200", "192.168.223.53:9200"]
        index => "%{[fields][service_name]}-%{+YYYY.MM.dd}"
    }
    stdout {
        codec => rubydebug
    }
}
 
[root@apache conf.d]# /usr/share/logstash/bin/logstash -f apache_log.conf

3.6 浏览器验证

浏览器访问 http://192.168.223.37:5601 登录 kibana，添加 filebeat-* 索引后在 Discover 中查看 filebeat 日志收集情况。

参考文件如下

ELK 理论详解https://blog.csdn.net/weixin_51486343/article/details/114297277?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163721971416780271569143%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=163721971416780271569143&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_v2~rank_v29-2-114297277.pc_v2_rank_blog_default&utm_term=ELK&spm=1018.2226.3001.4450
ELK 部署https://xucf1.blog.csdn.net/article/details/114333700
ELK 详解https://www.cnblogs.com/dingcong1201/p/15363199.html
Zookeeper、Kafka集群与Filebeat+Kafka+ELK架构https://www.cnblogs.com/dingcong1201/p/15365638.html

你可能感兴趣的:(elk,elasticsearch,搜索引擎)

ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
ElasticSearch查询超过10000条（1000页）时出现Result window is too large的问题王月亮17
问题当ES数据量较大，使用分页查询超过10000条（1000页）时，出现如下错误：Cannotexecutejestaction,responsecode:500,error:{"root_cause":[{"type":"query_phase_execution_exception","reason":"Resultwindowistoolarge,from+sizemustbelesstha
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
2019.1.6 root_restart
1.新版研学行程公众号推送及页面改动，以后继续尝试无logo版行程单方便转发，附带一篇研学政策解读2.百家号，头条号，搜狐号注册认证及审核，后续每天会在上面更新以往研学活动，增加搜索引擎中山大研学和雨滴教育的关联3.与鹿老师探讨研究方便代理的新宣传模式
只有一个诚字最重要（3.22）胡同学的读书笔记
1人们会认为谷歌是搜索引擎。而事实上，谷歌是第一个以机器为主导的搜索引擎，这个分类在谷歌之前是不存在的，而你必须要认识到谷歌的这个秘密才能判断它与其他公司的不同之处。2如果我目前在一个公司，当大家不知道未来的路怎么走，过去的路也已经彻底放弃了，我会先把事实摆在所有人面前，然后让大家讨论，在争论的过程中产生一个纲领性的共识，让每个部门在大的纲领下去寻求一种变化，不再以增长和竞争为纲，而是转移到产品和
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
【ShuQiHere】快速排序（Quick Sort）：揭开高效排序算法的神秘面纱 ShuQiHere 排序算法算法数据结构
【ShuQiHere】引言在计算机科学中，排序算法是我们日常编程不可或缺的一部分。无论是处理大量数据、优化搜索引擎，还是进行系统性能提升，排序算法都起到了至关重要的作用。在所有的排序算法中，快速排序（QuickSort）凭借其高效性和灵活的分治策略成为最受欢迎的排序算法之一。在这篇博客中，我们将深入探讨快速排序的原理、性能分析以及如何通过优化策略进一步提升其效率。1.什么是快速排序？（QuickS
Elasticsearch7.7.0 配置用户名和密码 i0208 Elasticsearch
配置用户和密码需要在配置文件中开启x-pack验证,修改config目录下面的elasticsearch.yml文件，在里面添加如下内容,并重启ES[root@localhostesuser]#vim/opt/es/elasticsearch-7.7.0/config/elasticsearch.ymlxpack.security.enabled:truexpack.license.self_ge
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
elasticsearch数据迁移之elasticdump 迷茫运维路 elasticsearch 中间件 elasticsearch linux 运维
系列文章目录第一章es集群搭建第二章es集群基本操作命令第三章es基于search-guard插件实现加密认证第四章es常用插件文章目录系列文章目录前言一、elasticdump是什么？二、安装elasticdump工具1.离线安装2.在线安装三、elasticdump相关参数四、使用elasticdump进行数据备份五、使用elasticdump进行数据恢复前言在企业实际生产环境中,避免不了要对
K8S - Volume - NFS 卷的简介和使用 nvd11 K8S kubernetes 容器云原生
在之前的文章里已经介绍了K8S中两个简单卷类型hostpath和emptydirk8s-Volume简介和HostPath的使用K8S-Emptydir-取代ELK使用fluentd构建loggingsaidcar但是这两种卷都有同1个限制，就是依赖于k8snodes的空间如果某个servicepod中需要的volumn空间很大，这时我们就需要考虑网络磁盘方案，其中NAS类型的Volume是常用且
fluentd 简介，日志收集并导入BigQuery nvd11 Cloud spring Etl spring boot
日志收集的工具有很多种例如Splunk，很多大公司都在使用，但是个人使用的话并不合适，主要是需要license的…钱是1个大问题另1个常见开源的解决方案是ELK,但是搭建和学习成本高，如果只是为了日志收集并不值。对于k8s方案，还有1个开源选择，就是fluentd，本文的主题。Fluentd的简介Fluentd是一个开源的数据收集器，旨在实现日志数据的统一收集、处理和转发。它支持多种数据源和数据格
ELK 架构中 ES 性能优化 xianjie0318 elk 架构 elasticsearch
1.背景由于目前日志采集流程中,经常遇到用户磁盘IO占用超过90%以上的场景,但是观察其日志量大约在2k~5k之间,整体数据量不大,所以针对该问题进行了一系列的压测和实验验证,最后得出这篇优化建议文档2.压测前期准备2.1制造大量日志该阶段为数据源输入阶段,为了避免瓶颈在数据制造侧,所以需要保证filebeat具有足够的日志制造能力最后效果,filebeat可以达到70kQPS的数据发往logst
K8S - Emptydir - 取代ELK 使用fluentd 构建logging saidcar nvd11 K8S kubernetes
由于k8s的无状态service通常部署在多个POD中，实现多实例面向高并发。但是k8s本身并没有提供集中查询多个pod的日志的功能其中1个常见方案就是ELK.本文的方案是利用fluentdsidecar和emptydir把多个pod的日志导向到bigquery的table中。Emptydir的简介Kubernetes中的EmptyDir是一种用于容器之间共享临时存储的空目录卷类型。EmptyDi
在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）不会编程的小孩子 elasticsearch 大数据搜索引擎
#在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）前言文章目录前言-聚合和分析-执行聚合操作-1.使用JavaAPI执行聚合操作-2.使用CURL命令执行聚合操作-1.使用JavaAPI执行度量操作-2.使用CURL命令执行度量操作-使用缓存-调整分片大小和数量-使用搜索建议-结论-节点发现-负载均衡-故障转移-结论-访问控制-加密-身份验证-结论-RESTA
Elasticsearch Java API 的使用（22）—实现桶聚合迷途码界 Elasticsearch Java API 桶聚合
分组聚合使用terms实现分组集合publicclassEsTermsAggthrowsUnknownHostException{publicvoidTermsAgg(TransportClientclient){AggregationBuilderagg=AggregationBuilders.terms("terms").field("agg");SearchResponseresponse=
Elasticsearch之bool查询 cyt涛 java elasticsearch 大数据搜索引擎 bool 布尔查询全文检索
bool查询是Elasticsearch中最常用的复合查询类型，允许将多个查询组合在一起。它通过逻辑操作符（如must、should、must_not和filter）来构建复杂的查询条件，从而满足多条件匹配、逻辑与（AND）、或（OR）、非（NOT）的查询需求。bool查询主要由四个部分组成：must：必须满足的条件（类似于SQL中的AND）。should：应该匹配的条件（类似于SQL中的OR）。
全面解析MeiliSearch及其Go语言实现寻找09之夏 Meilisearch golang 开发语言后端 Meilisearch
前言随着互联网的发展和数字化进程的加速，无论是企业还是个人用户，都需要面对海量的信息。在这个背景下，搜索技术的重要性日益凸显。MeiliSearch是一款开源搜索引擎，它的出现为开发者提供了一个高效、灵活的选择。本文将从多个角度探讨MeiliSearch的特性、使用方法及其实现原理，并通过Go语言示例展示如何构建一个高性能的搜索系统。一、MeiliSearch特性MeiliSearch之所以受到欢
5分钟熟练上手ES的具体使用佚名涙 elasticsearch jenkins 大数据学习
5分钟上手ES的具体使用相信有很多同学想要去学习elk时会使用docker等一些方式去下载相关程序，但提到真正去使用es的一系列操作时又会知之甚少。于是这一篇博客应运而生。本文就以下载好elk/efk系统后应该如何去使用为例，介绍es的具体操作。es关键字基本概念索引（Index）：类似于关系型数据库中的“数据库”，是数据存储的容器。文档（Document）：类似于关系型数据库中的“行”，是JSO
面对信息茧房，我们如何破局？听风便是雨_
当我们进入了互联网时代，信息的交互变得无比地便捷，当你需要什么样的信息，只需要在搜索引擎上输入，便可立马查询到你想要的结果，而且现在随着抖音、微博之类的应用APP的出现，我们本应从这些APP中获得更加丰富的知识或者信息，来开阔我们的眼界。但是事实上，我们仿佛没有获得预期的效果，更甚至于陷入更大的怪圈当中——缺乏耐心，不能容忍与自己想法不一样的他人建议，失去了与外界良好沟通的能力以及开拓自己的眼界的
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（十一）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
80%的人都知道的——内容营销老泊
我们已经知道内容营销是依靠内容来进行营销，一起看一下内容营销的工作流吧。选题创作投放主要内容营销的选题类型-常青树：用户长时间关心的，比如房价，教育-热点：用户短时间关心的，比如八卦，实事二八原则常青树话题等等选题来源：访谈法：寻找目标用户尽可能一对一进行访谈，用户反馈的问题都可以成为你的选题来源数据法：利用搜索引擎获取内容选题。利用爬虫工具看看人们都比较关心哪些话题来作为选题基于时事的选题数据工
50.复盘变现之路 506小棉袄
1.昨天下载了头条，用搜索引擎找到了如何写文章。注册了一下。这一切其实都好简单，但是自己就是拖着没有做，而且还心安理得。现在在管理别人，于是用自己做到了才能教别人去做到来要求自己发现也不难。2.日更被我捡了起来。后面没有特殊情况，我会一直更下去。放弃一件事很容易，坚持自己喜欢的事也不会太难。3.今天完成了50关的最后一关，接下来就要挑战100关。想看看自己的极限在哪里。具体做法：1.每天早起一小时
Elasticsearch 安装哒哒-blog Elasticsearch elasticsearch jenkins 大数据
下载安装elasticsearch下载链接运行：bin\elasticsearch.bat设置密码：.\bin\elasticsearch-setup-passwordsinteractive这边设置密码遇到一个坑PSG:\elasticsearch-8.8.1>.\bin\elasticsearch-setup-passwordsinteractiveFailedtoauthenticateus
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Docker启动Elasticsearch(挂载数据、配置文件、插件) 程序员迪迦项目实战 Java elasticsearch docker
Docker启动Elasticsearch拉取镜像dockerpullelasticsearch:7.4.2修改配置文件mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/data/mkdir-p/mydata/elasticsearch/pluginsecho"http.host:0.0.0.0">>/mydata/el
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f