梦清凌

Logstash-数据流引擎

作者 | WenasWei

一 Logstash

Logstash是具有实时流水线功能的开源数据收集引擎。Logstash可以动态统一来自不同来源的数据，并将数据标准化到您选择的目标位置。清除所有数据并使其民主化，以用于各种高级下游分析和可视化用例。

1.1 Logstash简介

Logstash 是一个数据流引擎：

它是用于数据物流的开源流式 ETL（Extract-Transform-Load）引擎
在几分钟内建立数据流管道
具有水平可扩展及韧性且具有自适应缓冲
不可知的数据源
具有200多个集成和处理器的插件生态系统
使用 Elastic Stack 监视和管理部署

官方介绍：Logstash is an open source data collection engine with real-time pipelining capabilities。简单来说logstash就是一根具备实时数据传输能力的管道，负责将数据信息从管道的输入端传输到管道的输出端；与此同时这根管道还可以让你根据自己的需求在中间加上滤网，Logstash提供里很多功能强大的滤网以满足你的各种应用场景。

1.2 数据处理

Logstash 是一个功能强大的工具，可与各种部署集成。它提供了大量插件，可帮助你解析，丰富，转换和缓冲来自各种来源的数据。如果你的数据需要 Beats 中没有的其他处理，则需要将 Logstash 添加到部署中。

当下最为流行的数据源:

Logstash 可以摄入日志，文件，指标或者网路真实数据。经过 Logstash 的处理，变为可以使用的 Web
Apps 可以消耗的数据，也可以存储于数据中心，或变为其它的流式数据:

Logstash 可以很方便地和 Beats一起合作，这也是被推荐的方法
Logstash 也可以和那些著名的云厂商的服务一起合作处理它们的数据
它也可以和最为同样的信息消息队列，比如 redis 或 kafka 一起协作
Logstash 也可以使用 JDBC 来访问 RDMS 数据
它也可以和 IoT 设备一起处理它们的数据
Logstash 不仅仅可以把数据传送到 Elasticsearch，而且它还可以把数据发送至很多其它的目的地，并作为它们的输入源做进一步的处理

二 Logstash系统架构

Logstash 包含3个主要部分：输入（inputs），过滤器（filters）和输出（outputs）

Logstash的事件（logstash将数据流中等每一条数据称之为一个event）处理流水线有三个主要角色完成：inputs –> filters –> outputs：

inpust：必须，负责产生事件（Inputs generate events），常用：File、syslog、redis、kakfa、beats（如：Filebeats）
filters：可选，负责数据处理与转换（filters modify them），常用：grok、mutate、drop、clone、geoip
outpus：必须，负责数据输出（outputs ship them elsewhere），常用：elasticsearch、file、graphite、kakfa、statsd

三 Logstash安装

3.1 环境清单

操作系统：Linux #56-Ubuntu SMP Tue Jun 4 22:49:08 UTC 2019 x86_64
Logstash版本：logstash-6.2.4
Jdk版本：1.8.0_152

3.2 Linux安装JDK

3.2.1 解压缩并移动到指定目录（约定的目录:/usr/local）

(1)解压缩

tar -zxvf jdk-8u152-linux-x64.tar.gz

(2)创建目录

mkdir -p /usr/local/java

(3)移动安装包

mv jdk1.8.0_152/ /usr/local/java/

(4)设置所有者

chown -R root:root /usr/local/java/

3.2.2 配置环境变量

(1)配置系统环境变量

vi /etc/environment

(2)添加如下语句

PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games"
export JAVA_HOME=/usr/local/java/jdk1.8.0_152
export JRE_HOME=/usr/local/java/jdk1.8.0_152/jre
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

(3)配置用户环境变量

nano /etc/profile

(4)添加如下语句(一定要放中间)

if [ "$PS1" ]; then
  if [ "$BASH" ] && [ "$BASH" != "/bin/sh" ]; then
    # The file bash.bashrc already sets the default PS1.
    # PS1='\h:\w\$ '
    if [ -f /etc/bash.bashrc ]; then
      . /etc/bash.bashrc
    fi
  else
    if [ "`id -u`" -eq 0 ]; then
      PS1='# '
    else
      PS1='$ '
    fi
  fi
fi

export JAVA_HOME=/usr/local/java/jdk1.8.0_152
export JRE_HOME=/usr/local/java/jdk1.8.0_152/jre
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin

if [ -d /etc/profile.d ]; then
  for i in /etc/profile.d/*.sh; do
    if [ -r $i ]; then
      . $i
    fi
  done
  unset i
fi

(5)使用户环境变量生效

source /etc/profile

(6)测试是否安装成功

$ java -version
java version "1.8.0_152"
Java(TM) SE Runtime Environment (build 1.8.0_152-b16)
Java HotSpot(TM) 64-Bit Server VM (build 25.152-b16, mixed mode)

3.3 安装Logstash

3.3.1 创建安装目录

$ sudo mkdir /usr/local/logstash

3.3.2 下载Logstash安装文件

$ wget -P /usr/local/logstash https://artifacts.elastic.co/downloads/logstash/logstash-6.2.4.tar.gz

3.3.2 解压缩安装文件

$ cd /usr/local/logstash/
$ sudo tar -zxvf logstash-6.2.4.tar.gz

3.3.3 测试安装是否成功

测试: 快速启动，标准输入输出作为input和output，没有filter

$ cd logstash-6.2.4/
$ ./bin/logstash -e 'input { stdin {} } output { stdout {} }'

Sending Logstash's logs to /usr/local/logstash/logstash-6.2.4/logs which is now configured via log4j2.properties
[2021-05-27T00:22:28,729][INFO ][logstash.modules.scaffold] Initializing module {:module_name=>"fb_apache", :directory=>"/usr/local/logstash/logstash-6.2.4/modules/fb_apache/configuration"}
[2021-05-27T00:22:28,804][INFO ][logstash.modules.scaffold] Initializing module {:module_name=>"netflow", :directory=>"/usr/local/logstash/logstash-6.2.4/modules/netflow/configuration"}
[2021-05-27T00:22:29,827][WARN ][logstash.config.source.multilocal] Ignoring the 'pipelines.yml' file because modules or command line options are specified
[2021-05-27T00:22:30,979][INFO ][logstash.runner          ] Starting Logstash {"logstash.version"=>"6.2.4"}
[2021-05-27T00:22:31,821][INFO ][logstash.agent           ] Successfully started Logstash API endpoint {:port=>9600}
[2021-05-27T00:22:36,463][INFO ][logstash.pipeline        ] Starting pipeline {:pipeline_id=>"main", "pipeline.workers"=>1, "pipeline.batch.size"=>125, "pipeline.batch.delay"=>50}
[2021-05-27T00:22:36,690][INFO ][logstash.pipeline        ] Pipeline started successfully {:pipeline_id=>"main", :thread=>"#"}
The stdin plugin is now waiting for input:
[2021-05-27T00:22:36,853][INFO ][logstash.agent           ] Pipelines running {:count=>1, :pipelines=>["main"]}

## 此时命令窗口停留在等待输入状态，键盘键入任意字符 ##

hello world

## 下方是Logstash输出到效果 ##

{
    "@timestamp" => 2021-05-26T16:22:52.527Z,
          "host" => "*******",
       "message" => "hello world",
      "@version" => "1"
}

四 Logstash参数与配置

4.1 常用启动参数

参数	说明	举例
-e	立即执行，使用命令行里的配置参数启动实例	./bin/logstash -e ‘input {stdin {}} output {stdout {}}’
-f	指定启动实例的配置文件	./bin/logstash -f config/test.conf
-t	测试配置文件的正确性	./bin/logstash-f config/test.conf -t
-l	指定日志文件名称	./bin/logstash-f config/test.conf -l logs/test.log
-w	指定filter线程数量，默认线程数是5	./bin/logstash-f config/test.conf -w 8

4.2 配置文件结构及语法

(1)区段

Logstash通过{}来定义区域，区域内可以定义插件，一个区域内可以定义多个插件，如下：

input {
    stdin {
    }
    beats {
        port => 5044
    }
}

(2)数据类型

Logstash仅支持少量的数据类型：

Boolean：ssl_enable => true
Number：port => 33
String：name => “Hello world”
Commonts：# this is a comment

(3)字段引用

Logstash数据流中的数据被称之为Event对象，Event以JSON结构构成，Event的属性被称之为字段，如果你像在配置文件中引用这些字段，只需要把字段的名字写在中括号[]里就行了，如[type]，对于嵌套字段每层字段名称都写在[]里就可以了，比如：[tags][type]；除此之外，对于Logstash的arrag类型支持下标与倒序下表，如：[tags][type][0],[tags][type][-1]。

(4)条件判断

Logstash支持下面的操作符：

equality：==, !=, <, >, <=, >=
regexp：=~, !~
inclusion：in, not in
boolean：and, or, nand, xor
unary：!

例如：

if EXPRESSION {
  ...
} else if EXPRESSION {
  ...
} else {
  ...
}

(5)环境变量引用

Logstash支持引用系统环境变量，环境变量不存在时可以设置默认值，例如：

export TCP_PORT=12345

input {
  tcp {
    port => "${TCP_PORT:54321}"
  }
}

4.3 常用输入插件（Input plugin）

输入插件包含有以下多种，详情查看官网文档-常用输入插件:

elasticsearch
exec
file
github
http
jdbc
jms
jmx
kafka
log4j
rabbitmq
redis
tcp
udp
unix
websocket

4.3.1 File读取插件

文件读取插件主要用来抓取文件的变化信息，将变化信息封装成Event进程处理或者传递。

配置事例

input
  file {
    path => ["/var/log/*.log", "/var/log/message"]
    type => "system"
    start_position => "beginning"
  }
}

常用参数

参数名称	类型	默认值	描述信息
add_field	hash	{}	用于向Event中添加字段
close_older	number	3600	设置文件多久秒内没有更新就关掉对文件的监听
codec	string	“plain”	输入数据之后对数据进行解码
delimiter	string	“\n”	文件内容的行分隔符，默认按照行进行Event封装
discover_interval	number	15	间隔多少秒查看一下path匹配对路径下是否有新文件产生
enable_metric	boolean	true
exclude	array	无	path匹配的文件中指定例外，如：path => “/var/log/“；exclude =>”.gz”
id	string	无	区分两个相同类型的插件，比如两个filter，在使用Monitor API监控是可以区分，建议设置上ID
ignore_older	number	无	忽略历史修改，如果设置3600秒，logstash只会发现一小时内被修改过的文件，一小时之前修改的文件的变化不会被读取，如果再次修改该文件，所有的变化都会被读取，默认被禁用
max_open_files	number	无	logstash可以同时监控的文件个数（同时打开的file_handles个数），如果你需要处理多于这个数量多文件，可以使用“close_older”去关闭一些文件
path	array	无	必须设置项，用于匹配被监控的文件，如“/var/log/.log”或者“/var/log//.log”，必须使用绝对路径
sincedb_path	string	无	文件读取记录，必须指定一个文件而不是目录，文件中保存没个被监控的文件等当前inode和byteoffset，默认存放位置“$HOME/.sincedb*”
sincedb_write_interval	number	15	间隔多少秒写一次sincedb文件
start_position	“beginning”，“end”	” end”	从文件等开头还是结尾读取文件内容，默认是结尾，如果需要导入文件中的老数据，可以设置为“beginning”，该选项只在第一次启动logstash时有效，如果文件已经存在于sincedb的记录内，则此配置无效
stat_interval	number	1	间隔多少秒检查一下文件是否被修改，加大此参数将降低系统负载，但是增加了发现新日志的间隔时间
tags	array	无	可以在Event中增加标签，以便于在后续的处理流程中使用
type	string		Event的type字段，如果采用elasticsearch做store，在默认情况下将作为elasticsearch的type

4.3.2 TCP监听插件

TCP插件有两种工作模式，“Client”和“Server”，分别用于发送网络数据和监听网络数据。

配置事例

tcp {
    port => 41414
}

常用参数（空 => 同上）

参数名称	类型	默认值	描述信息
add_field
codec
enable_metric
host
id
mode	“server”、“client”	“server”	“server”监听“client”的连接请求，“client”连接“server”
port	number	无	必须设置项，“server”模式时指定监听端口，“client”模式指定连接端口
proxy_protocol	boolean	false	Proxyprotocol support, only v1 is supported at this time
ssl_cert
ssl_enable
ssl_extra_chain_certs
ssl_key
ssl_key_passphrase
ssl_verify
tags
type

4.3.3 Redis读取插件

用于读取Redis中缓存的数据信息。

配置事例

input {
  redis {
    host => "127.0.0.1"
    port => 6379
    data_type => "list"
    key => "logstash-list"
  }
}

常用参数（空 => 同上）

参数名称	类型	默认值	描述信息
add_field
batch_count	number	125	使用redis的batch特性，需要redis2.6.0或者更新的版本
codec
data_type	list，channel， pattern_channel	无	必须设置项，根据设置不同，订阅redis使用不同的命令，依次是：BLPOP、SUBSCRIBE、PSUBSCRIBE
db	number	0	指定使用的redis数据库
enable_metric
host	string	127.0.0.1	redis服务地址
id
key	string	无	必须设置项，reidslist或者channel的key名称
password	string	无	redis密码
port	number	6379	redis连接端口号
tags
threads	number	1
timeout	number	5	redis服务连接超时时间，单位：秒

注意:

data_type 需要注意的是“channel”和“pattern_channel”是广播类型，相同的数据会同时发送给订阅了该channel的logstash，也就是说在logstash集群环境下会出现数据重复，集群中的每一个节点都将收到同样的数据，但是在单节点情况下，“pattern_channel”可以同时定于满足pattern的多个key

4.3.4 Kafka读取插件

用于读取Kafka中推送的主题数据信息。

配置事例

input {
  kafka {
    bootstrap_servers => "kafka-01:9092,kafka-02:9092,kafka-03:9092"
    topics_pattern  => "elk-.*"
    consumer_threads => 5
    decorate_events => true
    codec => "json"
    auto_offset_reset => "latest"
    group_id => "logstash1"##logstash 集群需相同
  }
}

常用参数:

参数名称	类型	默认值	描述信息
bootstrap_servers	string	localhost:9092	Kafka列表，用于建立与集群的初始连接
topics_pattern	string		要订阅的主题正则表达式模式。使用此配置时，主题配置将被忽略。
consumer_threads	number		并发线程数，理想情况下，您应该拥有与分区数量一样多的线程
decorate_events	string	none	可接受的值为：none/basic/extended/false
codec	codec	plain	用于输入数据的编解码器
auto_offset_reset	string		当Kafka初始偏移量
group_id	String	logstash	该消费者所属的组的标识符

注意:

auto_offset_reset: earliest-将偏移量自动重置为最早的偏移量;latest-自动将偏移量重置为最新偏移量;none-如果未找到消费者组的先前偏移量，则向消费者抛出异常;anything else-向消费者抛出异常。
decorate_events: none：未添加元数据，basic：添加了记录的属性，extended：记录的属性，添加标题，false：不建议使用的别名 none，true：不建议使用的别名 basic

4.4 常用过滤插件（Filter plugin）

丰富的过滤器插件的是 logstash威力如此强大的重要因素，过滤器插件主要处理流经当前Logstash的事件信息，可以添加字段、移除字段、转换字段类型，通过正则表达式切分数据等，也可以根据条件判断来进行不同的数据处理方式,详情查看官网文档-常用过滤插件

4.4.1 grok正则捕获

grok 是Logstash中将非结构化数据解析成结构化数据以便于查询的最好工具，非常适合解析syslog logs，apache log， mysql log，以及一些其他的web log

(1)预定义表达式调用:

Logstash提供120个常用正则表达式可供安装使用，安装之后你可以通过名称调用它们，语法如下：%{SYNTAX:SEMANTIC}
SYNTAX：表示已经安装的正则表达式的名称
SEMANTIC：表示从Event中匹配到的内容的名称

例如:
Event的内容为“[debug] 127.0.0.1 - test log content”，匹配%{IP:client}将获得“client: 127.0.0.1”的结果，前提安装了IP表达式；如果你在捕获数据时想进行数据类型转换可以使用%{NUMBER:num:int}这种语法，默认情况下，所有的返回结果都是string类型，当前Logstash所支持的转换类型仅有“int”和“float”；

一个稍微完整一点的事例：

日志文件http.log内容：55.3.244.1 GET /index.html 15824 0.043
表达式：%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}
配置文件内容：

input {
  file {
    path => "/var/log/http.log"
  }
}
filter {
  grok {
    match => {"message" => "%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}"}
  }
}

输出结果：

client: 55.3.244.1
method: GET
request: /index.html
bytes: 15824
duration: 0.043

(2)自定义表达式调用

语法：(?the pattern here)

举例：捕获10或11和长度的十六进制queue_id可以使用表达式(?[0-9A-F]{10,11})
安装自定义表达式

与预定义表达式相同，你也可以将自定义的表达式配置到Logstash中，然后就可以像于定义的表达式一样使用；以下是操作步骤说明：

1、在Logstash根目录下创建文件夹“patterns”，在“patterns”文件夹中创建文件“extra”（文件名称无所谓，可自己选择有意义的文件名称）；
2、在文件“extra”中添加表达式，格式：patternName regexp，名称与表达式之间用空格隔开即可，如下：

# contents of ./patterns/postfix:
POSTFIX_QUEUEID [0-9A-F]{10,11}

3、使用自定义的表达式时需要指定“patterns_dir”变量，变量内容指向表达式文件所在的目录，举例如下：

<1>日志内容

Jan  1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-id=<[email protected]>

<2>Logstash配置

filter {
  grok {
    patterns_dir => ["./patterns"]
    match => { "message" => "%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}" }
  }
}

<3>运行结果

timestamp: Jan 1 06:25:43
logsource: mailserver14
program: postfix/cleanup
pid: 21403
queue_id: BEF25A72965

(3)grok常用配置参数（空 => 同上）

参数名称	类型	默认值	描述信息
add_field
add_tag
break_on_match	boolean	true	match字段存在多个pattern时，当第一个匹配成功后结束后面的匹配，如果想匹配所有的pattern，将此参数设置为false
enable_metric
id
keep_empty_captures	boolean	false	如果为true，捕获失败的字段奖设置为空值
match	array	{}	设置pattern数组: match=> {“message” => [“Duration: %{NUMBER:duration}”,”Speed: %{NUMBER:speed}”]}
named_captures_only	boolean	true	If true, only store named captures from grok.
overwrite	array	[]	覆盖字段内容: match=> { “message” => “%{SYSLOGBASE} %{DATA:message}” } overwrite=> [ “message” ]
patterns_dir	array	[]	指定自定义的pattern文件存放目录，Logstash在启动时会读取文件夹内patterns_files_glob 匹配的所有文件内容
patterns_files_glob	string	“*”	用于匹配patterns_dir中的文件
periodic_flush	boolean	false	定期调用filter的flush方法
remove_field	array	[]	从Event中删除任意字段: remove_field=> [ “foo_%{somefield}” ]
remove_tag	array	[]	删除“tags”中的值: remove_tag=> [ “foo_%{somefield}” ]
tag_on_failure	array	[“_grokparsefailure”]	当没有匹配成功时，将此array添加到“tags”字段内
tag_on_timeout	string	“_groktimeout”	当匹配超时时，将此内容添加到“tags”字段内
timeout_millis	number	30000	设置单个match到超时时间，单位：毫秒，如果设置为0，则不启用超时设置

4.4.2 date时间处理插件

该插件用于时间字段的格式转换，比如将“Apr 17 09:32:01”（MMM dd HH:mm:ss）转换为“MM-dd HH:mm:ss”。而且通常情况下，Logstash会为自动给Event打上时间戳，但是这个时间戳是Event的处理时间（主要是input接收数据的时间），和日志记录时间会存在偏差（主要原因是buffer），我们可以使用此插件用日志发生时间替换掉默认是时间戳的值。

常用配置参数（空 => 同上）

参数名称	类型	默认值	描述信息
add_field
add_tag
enable_metric
id
locale
match	array	[]	时间字段匹配,可自定多种格式，直到匹配到或匹配结束
periodic_flush
remove_field
remove_tag
tag_on_failure
target	string	“@timestamp”	指定match匹配并且转换为date类型的存储位置（字段），默认覆盖到“@timestamp”
timezone	string	无	指定时间格式化的时区

注意:

match的格式:时间字段匹配,可自定多种格式，直到匹配到或匹配结束，格式: [ field,formats…]，如：match=>[ “logdate”,“MMM dd yyyy HH:mm:ss”,“MMM d yyyy HH:mm:ss”,“ISO8601”]

4.4.3 mutate数据修改插件

mutate 插件是 Logstash另一个重要插件。它提供了丰富的基础类型数据处理能力。可以重命名，删除，替换和修改事件中的字段。

常用配置参数（空 => 同上）

参数名称	类型	默认值	描述信息
add_field
add_tag
convert	hash	无	将指定字段转换为指定类型，字段内容是数组，则转换所有数组元素，如果字段内容是hash，则不做任何处理，目前支持的转换类型包括：integer,float, string, and boolean.例如： convert=> { “fieldname” => “integer” }
enable_metric
gsub	array	无	类似replace方法，使用指定内容替换掉目标字符串的现有内容，前提是目标字段必须是字符串，否则不做任何处理，例如：[ “fieldname”, “/”, ““, “fieldname2”, “[\?#-]”, “.”]，解释：使用“”替换掉“fieldname”中的所有“／”，使用“.”替换掉“fieldname2”中的所有“\”“?”、“#”和“-”
id
join	hash	无	使用指定的符号将array字段的每个元素连接起来，对非array字段无效。例如：使用“,”将array字段“fieldname”的每一个元素连接成一个字符串： join=> { “fieldname” => “,” }
lowercase	array	无	将自定的字段值转换为小写
merge	hash	无	合并两个array或者hash，如果是字符串，将自动转换为一个单元素数组；将一个array和一个hash合并。例如：将”added_field”合并到”dest_field”： merge=> { “dest_field” => “added_field” }
periodic_flush
remove_field
remove_tag
rename	hash	无	修改一个或者多个字段的名称。例如：将”HOSTORIP”改名为”client_ip”： rename=> { “HOSTORIP” => “client_ip” }
replace	hash	无	使用新值完整的替换掉指定字段的原内容，支持变量引用。例如：使用字段“source_host”的内容拼接上字符串“: My new message”之后的结果替换“message”的值： replace=> { “message” => “%{source_host}: My new message” }
split	hash	无	按照自定的分隔符将字符串字段拆分成array字段，只能作用于string类型的字段。例如：将“fieldname”的内容按照“,”拆分成数组： split=> { “fieldname” => “,” }
strip	array	无	去掉字段内容两头的空白字符。例如：去掉“field1”和“field2”两头的空格： strip=> [“field1”, “field2”]
update	hash	无	更新现有字段的内容，例如：将“sample”字段的内容更新为“Mynew message”： update=> { “sample” => “My new message” }
uppercase	array	无	将字符串转换为大写

4.4.4 JSON插件

JSON插件用于解码JSON格式的字符串，一般是一堆日志信息中，部分是JSON格式，部分不是的情况下

(1)配置事例

json {
    source => ...
}

事例配置，message是JSON格式的字符串："{\"uid\":3081609001,\"type\":\"signal\"}"

filter {
    json {
        source => "message"
        target => "jsoncontent"
    }
}

输出结果:

{
    "@version": "1",
    "@timestamp": "2014-11-18T08:11:33.000Z",
    "host": "web121.mweibo.tc.sinanode.com",
    "message": "{\"uid\":3081609001,\"type\":\"signal\"}",
    "jsoncontent": {
        "uid": 3081609001,
        "type": "signal"
    }
}

如果从事例配置中删除target，输出结果如下:

{
    "@version": "1",
    "@timestamp": "2014-11-18T08:11:33.000Z",
    "host": "web121.mweibo.tc.sinanode.com",
    "message": "{\"uid\":3081609001,\"type\":\"signal\"}",
    "uid": 3081609001,
    "type": "signal"
}

(2)常用配置参数（空 => 同上）

参数名称	类型	默认值	描述信息
add_field
add_tag
enable_metric
id
periodic_flush
remove_field
remove_tag
skip_on_invalid_json	boolean	false	是否跳过验证不通过的JSON
source	string	无	必须设置项，指定需要解码的JSON字符串字段
tag_on_failure
target	string	无	解析之后的JSON对象所在的字段名称，如果没有，JSON对象的所有字段将挂在根节点下

4.4.5 elasticsearch查询过滤插件

用于查询Elasticsearch中的事件，可将查询结果应用于当前事件中

常用配置参数（空 => 同上）

参数名称	类型	默认值	描述信息
add_field
add_tag
ca_file	string	无	SSL Certificate Authority file path
enable_sort	boolean	true	是否对结果进行排序
fields	array	{}	从老事件中复制字段到新事件中，老事件来源于elasticsearch（用于查询更新）
hosts	array	[“localhost:9200”]	elasticsearch服务列表
index	string	“”	用逗号分隔的elasticsearch索引列表，如果要操作所有所有使用“_all”或者“”，保存数据到elasticsearch时，如果索引不存在会自动以此创建
password	string	无	密码
periodic_flush
query	string	无	查询elasticsearch的查询字符串
remove_field
remove_tag
result_size	number	1	查询elasticsearch时，返回结果的数量
sort	string	“@timestamp:desc”	逗号分隔的“:”列表，用于查询结果排序
ssl	boolean	false	SSL
tag_on_failure
user	string	无	用户名

4.5 常用输出插件（Output plugin）

4.5.1 ElasticSearch输出插件

用于将事件信息写入到Elasticsearch中，官方推荐插件，ELK必备插件

(1)配置事例

output {
    elasticsearch {
        hosts => ["127.0.0.1:9200"]
        index => "filebeat-%{type}-%{+yyyy.MM.dd}"
        template_overwrite => true
    }
}

(2)常用配置参数（空 => 同上）

参数名称	类型	默认值	描述信息
absolute_healthcheck_path	boolean	false	当配置了“healthcheck_path”时，决定elasticsearch健康检查URL是否按照绝对路径配置。例如： elasticsearch访问路径为：”http://localhost:9200/es“，“healthcheck_path”为”/health”，当前参数为true时的访问路径为：”http://localhost:9200/es/health“，当前参数为false时的访问路径为：”http://localhost:9200/health”
absolute_sniffing_path	boolean	false	当配置了“sniffing_path”时，决定elasticsearch的sniffing访问路径配置。例如： elasticsearch访问路径为：“http://localhost:9200/es”，“sniffing_path”为“/_sniffing”，当前参数为true时的访问路径为：“http://localhost:9200/es/_sniffing”，当前参数为false时的访问路径为：“http://localhost:9200/_sniffing”
action	string	“index”	对elasticsearch的操作类型，可用的操作类型： index：索引Logstash事件数据到elasticsearch； delete：根据id删除文档，id必须指定； delete：根据id删除文档，id必须指定； update：根据id更新文档
cacert	string	无	.cer或者.pem证书文件路径，使用证书进行elasticsearch认证
codec
doc_as_upsert	boolean	false	使update启用upsert模式，即文档不存在时创建新文档
document_id	string	无	elasticsearch中的文档id，用来覆盖已经保存到elasticsearch中的文档
document_type	string	无	指定存入elasticsearch中的文档的type，没有指定的情况下会使用Event信息中的“type”字段的值作为elasticsearch的type
enable_metric
failure_type_logging_whitelist	array	[]	elasricsearch报错白名单，白名单的异常信息不会被记入logstash的log中，比如你想忽略掉所有的“document_already_exists_exception”异常
flush_size
healthcheck_path	string	“/”	elasricsearch检查状态检查路径
hosts	string	[//127.0.0.1]	elasticsearch服务地址列表，如果配置多个将启用负载均衡
id
idle_flush_time	number	1	间隔多长时间将数据输出到elasticsearch中一次，主要用于较慢的事件
index	string	“logstash-%{+YYYY.MM.dd}”	指定elasticsearch存储数据时的所有名称，支持变量引用，比如你可以按天创建索引，方便删除历史数据或者查询制定范围内的数据
keystore	string	无	用于指定密钥库路径，可以是.jks或者.p12
keystore_password	string	无	密钥库密码
manage_template	boolean	true	是否启用elasticsearch模版，Logstash自带一个模版，但是只有名称匹配“logstash-*”的索引才会应用该默版
parameters	hash	无	添加到elasticsearch URL后面的参数键值对
parent	string	“nil”	为文档子节点指定父节点的id
password	string	无	elasticsearch集群访问密码
path	string	无	当设置了elasticsearch代理时用此参数从定向HTTP API，如果“hosts”中已经包含此路径，则不需要设置
pipeline	string	“nil”	设置Event管道
pool_max	number	1000	elasticsearch最大连接数
pool_max_per_route	number	100	每个“endpoint”的最大连接数
proxy	string	无	代理URL
resurrect_delay	number	5	检查挂掉的“endpoint”是否恢复正常的频率
retry_initial_interval	number	2	设置批量重试的时间间隔，重试到 “retry_max_interval”次
retry_max_interval	number	64	Setmax interval in seconds between bulk retries.
retry_on_conflict	number	1	Thenumber of times Elasticsearch should internally retry an update/upserteddocument
routing	string	无	指定Event路由
script	string	“”	设置“scriptedupdate”模式下的脚本名称
script_lang	string	“painless”	设置脚本语言
script_type	“inline”、“indexed”、 “file”	[“inline”]	Definethe type of script referenced by “script” variable inline :”script” contains inline script indexed : “script” containsthe name of script directly indexed in elasticsearch file : “script”contains the name of script stored in elasticseach’s config directory
script_var_name	string	“event”	Setvariable name passed to script (scripted update)
scripted_upsert	boolean	false	ifenabled, script is in charge of creating non-existent document (scriptedupdate)
sniffing
sniffing_delay
sniffing_path
ssl
ssl_certificate_verification
template	string	无	设置自定义的默版存放路径
template_name	string	“logstash”	设置使用的默版名称
template_overwrite	boolean	false	是否始终覆盖现有模版
timeout	number	60	网络超时时间
truststore	string	无	“:truststore”或者“:cacert”证书库路径
truststore_password	string	无	证书库密码
upsert	string	“”	Setupsert content for update mode.s Create a new document with this parameter asjson string if document_id doesn’texists
user	string	“”	elasticsearch用户名
validate_after_inactivity	number	10000	间隔多长时间保持连接可用
version	string	无	存入elasticsearch的文档的版本号
version_type	“internal”、“external”、 “external_gt”、 “external_gte”、“force”	无
workers	string	1	whenwe no longer support the :legacy type This is hacky, but it can only be herne

4.5.2 Redis输出插件

用于将Event写入Redis中进行缓存，通常情况下Logstash的Filter处理比较吃系统资源，复杂的Filter处理会非常耗时，如果Event产生速度比较快，可以使用Redis作为buffer使用

(1)配置事例

output {
    redis {
        host => "127.0.0.1"
        port => 6379
        data_type => "list"
        key => "logstash-list"
    }
}

(2)常用配置参数（空 => 同上）

参数名称	类型	默认值	描述信息
batch	boolean	false	是否启用redis的batch模式，仅在data_type=”list”时有效
batch_events	number	50	batch大小，batch达到此大小时执行“RPUSH”
batch_timeout	number	5	batch超时时间，超过这个时间执行“RPUSH”
codec
congestion_interval	number	1	间隔多长时间检查阻塞，如果设置为0，则没个Event检查一次
congestion_threshold	number	0
data_type	“list”、“channel”	无	存储在redis中的数据类型，如果使用“list”，将采用“RPUSH”操作，如果是“channel”，将采用“PUBLISH”操作
db	number	0	使用的redis数据库编号
enable_metric
host	array	[“127.0.0.1”]	redis服务列表，如果配置多个，将随机选择一个，如果当前的redis服务不可用，将选择下一个
id
key	string	无	Thename of a Redis list or channel. Dynamic names are valid here, forexample logstash-%{type}.
password	string	无	redis服务密码
port	number	6379	redis服务监听端口
reconnect_interval	number	1	连接失败时的重连间隔
shuffle_hosts	boolean	true	Shufflethe host list during Logstash startup.
timeout	number	5	redis连接超时时间
workers	number	1	whenwe no longer support the :legacy type This is hacky, but it can only be herne

4.5.3 File输出插件

用于将Event输出到文件内

(1)配置事例

output {
    file {
        path => ...
        codec => line { format => "custom format: %{message}"}
    }
}

(2)常用配置参数（空 => 同上）

参数名称	类型	默认值	描述信息
codec
create_if_deleted	boolean	true	如果目标文件被删除，则在写入事件时创建新文件
dir_mode	number	-1	设置目录的访问权限，如果为“-1”，使用操作系统默认的访问权限
enable_metric
file_mode	number	-1	设置文件的访问权限，如果为“-1”，使用操作系统默认的访问权限
filename_failure	string	“_filepath_failures”	如果指定的文件路径无效，这会在目录内创建这个文件并记录数据
flush_interval	number	2	flush间隔
gzip	boolean	false	是否启用gzip压缩
id
path	string	无	必须设置项，文件输出路径，如：path =>”./test-%{+YYYY-MM-dd}.txt”
workers	string	1	whenwe no longer support the :legacy type This is hacky, but it can only be herne

4.5.4 Kafka输出插件

用于将Event输出到Kafka指定的Topic中,官网Kafka详情配置

(1)配置事例

output {
    kafka {
        bootstrap_servers => "localhost:9092"
        topic_id => "test"
        compression_type => "gzip"
    }
}

(2)常用配置参数（空 => 同上）

参数名称	类型	默认值	描述信息
bootstrap_servers	string		Kafka集群信息，格式为 host1:port1,host2:port2
topic_id	string		产生消息的主题
compression_type	String	none	生产者生成的所有数据的压缩类型。默认为无（即无压缩）。有效值为 none、gzip、snappy 或 lz4。
batch_size	number	16384	配置以字节为单位控制默认批处理大小
buffer_memory	number	33554432(32MB)	生产者可用于缓冲等待发送到服务器的记录的总内存字节数
max_request_size	number	1048576(1MB)	请求的最大大小
flush_interval	number	2	flush间隔
gzip	boolean	false	是否启用gzip压缩
id
path	string	无	必须设置项，文件输出路径，如：path =>”./test-%{+YYYY-MM-dd}.txt”
workers	string	1	whenwe no longer support the :legacy type This is hacky, but it can only be herne

4.6 常用编码插件（Codec plugin）

4.6.1 JSON编码插件

直接输入预定义好的 JSON 数据，这样就可以省略掉 filter/grok 配置

配置事例

json {
}

常用配置参数
| 参数名称 | 类型 | 默认值 | 描述信息 |
| ------------- | ------ | ------- | -------- |
| charset | string | “UTF-8” | 字符集 |
| enable_metric | | | |
| id | | | |

五 Logstash实例

5.1 接收Filebeat事件，输出到Redis

input {
    beats {
        port => 5044
    }
}

output {
    redis {
        host => "127.0.0.1"
        port => 6379
        data_type => "list"
        key => "logstash-list"
    }
}

5.2 读取Redis数据，根据“type”判断，分别处理，输出到ES

input {
    redis {
        host => "127.0.0.1"
        port => 6379
        data_type => "list"
        key => "logstash-list"
    }
}

filter {
    if [type] == "application" {
        grok {
            match => ["message", "(?m)-(?.+?):(?(?>\d\d){1,2}-(?:0?[1-9]|1[0-2])-(?:(?:0[1-9])|(?:[12][0-9])|(?:3[01])|[1-9]) (?:2[0123]|[01]?[0-9]):(?:[0-5][0-9]):(?:(?:[0-5][0-9]|60)(?:[:.,][0-9]+)?)) \[(?(\b\w+\b)) *\] (?(\b\w+\b)) \((?.*?)\) - (?.*)"]
        }
        date {
            match => ["logTime", "yyyy-MM-dd HH:mm:ss,SSS"]
        }
        json {
            source => "message"
        }
        date {
            match => ["timestamp", "yyyy-MM-dd HH:mm:ss,SSS"]
        }
    }
    if [type] == "application_bizz" {
        json {
            source => "message"
        }
        date {
            match => ["timestamp", "yyyy-MM-dd HH:mm:ss,SSS"]
        }
    }
    mutate {
        remove_field => ["@version", "beat", "logTime"]
    }
}

output {
    stdout{
    }
    elasticsearch {
        hosts => ["127.0.0.1:9200"]
        index => "filebeat-%{type}-%{+yyyy.MM.dd}"
        document_type => "%{documentType}"
        template_overwrite => true
    }
}

六应用场景

6.1 以logstash作为日志搜索器

架构：logstash采集、处理、转发到elasticsearch存储，在kibana进行展示

特点：这种结构因为需要在各个服务器上部署 Logstash，而它比较消耗 CPU 和内存资源，所以比较适合计算资源丰富的服务器，否则容易造成服务器性能下降，甚至可能导致无法正常工作。

6.2 消息模式

消息模式：Beats 还不支持输出到消息队列（新版本除外：5.0版本及以上），所以在消息队列前后两端只能是 Logstash 实例。logstash从各个数据源搜集数据，不经过任何处理转换仅转发出到消息队列（kafka、redis、rabbitMQ等），后logstash从消息队列取数据进行转换分析过滤，输出到elasticsearch，并在kibana进行图形化展示

架构（Logstash进行日志解析所在服务器性能各方面必须要足够好）：

模式特点：这种架构适合于日志规模比较庞大的情况。但由于 Logstash 日志解析节点和 Elasticsearch 的负荷比较重，可将他们配置为集群模式，以分担负荷。引入消息队列，均衡了网络传输，从而降低了网络闭塞，尤其是丢失数据的可能性，但依然存在 Logstash 占用系统资源过多的问题

工作流程：Filebeat采集—> logstash转发到kafka—> logstash处理从kafka缓存的数据进行分析—> 输出到es—> 显示在kibana

6.3 logstash（非filebeat）进行文件采集，输出到kafka缓存，读取kafka数据并处理输出到文件或es

6.4 logstash同步mysql数据库数据到es（logstash5版本以上已集成jdbc插件，无需下载安装，直接使用）

七 Logstash和Flume对比

首先从结构对比，我们会惊人的发现，两者是多么的相似！Logstash的Shipper、Broker、Indexer分别和Flume的Source、Channel、Sink各自对应！只不过是Logstash集成了，Broker可以不需要，而Flume需要单独配置，且缺一不可，但这再一次说明了计算机的设计思想都是通用的！只是实现方式会不同而已。

从程序员的角度来说，上文也提到过了，Flume是真的很繁琐，你需要分别作source、channel、sink的手工配置，而且涉及到复杂的数据采集环境，你可能还要做多个配置，这在上面提过了，反过来说Logstash的配置就非常简洁清晰，三个部分的属性都定义好了，程序员自己去选择就行，就算没有，也可以自行开发插件，非常方便。当然了，Flume的插件也很多，但Channel就只有内存和文件这两种（其实现在不止了，但常用的也就两种）。读者可以看得出来，两者其实配置都是非常灵活的，只不过看场景取舍罢了。

其实从作者和历史背景来看，两者最初的设计目的就不太一样。Flume本身最初设计的目的是为了把数据传入HDFS中（并不是为了采集日志而设计，这和Logstash有根本的区别），所以理所应当侧重于数据的传输，程序员要非常清楚整个数据的路由，并且比Logstash还多了一个可靠性策略，上文中的channel就是用于持久化目的，数据除非确认传输到下一位置了，否则不会删除，这一步是通过事务来控制的，这样的设计使得可靠性非常好。相反，Logstash则明显侧重对数据的预处理，因为日志的字段需要大量的预处理，为解析做铺垫。

回过来看我当初为什么先讲Logstash然后讲Flume？这里面有几个考虑

其一：Logstash其实更有点像通用的模型，所以对新人来说理解起来更简单，而Flume这样轻量级的线程，可能有一定的计算机编程基础理解起来更好；
其二：目前大部分的情况下，Logstash用的更加多，这个数据我自己没有统计过，但是根据经验判断，Logstash可以和ELK其他组件配合使用，开发、应用都会简单很多，技术成熟，使用场景广泛。相反Flume组件就需要和其他很多工具配合使用，场景的针对性会比较强，更不用提Flume的配置过于繁琐复杂了。

最后总结下来，我们可以这么理解他们的区别：

Logstash就像是买来的台式机，主板、电源、硬盘，机箱（Logstash）把里面的东西全部装好了，你可以直接用，当然也可以自己组装修改；

Flume就像提供给你一套完整的主板，电源、硬盘，Flume没有打包，只是像说明书一样指导你如何组装，才能运行的起来。

参考文档:

[1] 迷途的攻城狮.CSDN: https://blog.csdn.net/chenleiking/article/details/73563930 , 2017-06-22.
[2] Logstash 官网: https://www.elastic.co/cn/logstash

你可能感兴趣的:(大数据,大数据,后端,运维,服务器,经验分享)

前端性能优化之SSR优化 xiangzhihong8 前端前端
我们常说的SSR是指Server-SideRendering，即服务端渲染，属于首屏直出渲染的一种方案。SSR也是前端性能优化中最常用的技术方案了，能有效地缩短页面的可见时间，给用户带来很好的体验。SSR渲染方案一般来说，我们页面加载会分为好几个步骤：请求域名，服务器返回HTML资源。浏览器加载HTML片段，识别到有CSS/JavaScript资源时，获取资源并加载。现在大多数前端页面都是单页面应
服务器使用宝塔上传文件时卡住了的解决办法 Frozen-tzy 服务器运维 linux
当我用宝塔向服务器上传文件时，它一直显示上传速度是0，卡住不动了。还有一种情况是上传到一半失败了，这时报了一个磁盘空间不足的错。这时我们来看宝塔面板首页的磁盘空间，一般会看到它是红色的，接近100%，这时我们就需要清理掉服务器中不必要的文件（比如日志、缓存等）我们也可以通过命令来查看磁盘的使用情况：通过SSH登录服务器df-h输出示例FilesystemSizeUsedAvailUse%Mount
前端面经真题解析10-字节/抖音电商/前端/超详细记录浪里个浪zxf 前端面试前端
文章目录1.自我介绍2.介绍下自己的项目3.看你项目里面用了axios,说下请求拦截和响应拦截怎么做？4.说下项目里面前后端交互过程及设计？5.怎么处理切换分页请求数据的，优化手段？6.说下你爬取别人网站数据的时候，别人如果设置了拦截，你的解决方案是？7.你说下http请求的refer字段？**Origin字段：****Referer字段：****Host字段****区别：**8.看你做了路由懒加
云原生边缘计算：分布式智能的时代黎明桂月二二云原生边缘计算分布式
引言：从集中式算力到万物智联的范式裂变AT&T边缘节点部署超5000个，特斯拉自动驾驶系统每节点200TOPS算力。国家电网通过边缘计算实现毫秒级电网故障隔离，菜鸟物流分拣效率提升400%。IDC预测2027年边缘基础设施支出将达亿，宝马汽车工厂设备预测性维护准确率达9亿运维成本。一、边缘计算范式进化论1.1算力拓扑结构演变世代大型主机中心化云计算分布式雾计算去中心化边缘计算泛在化神经形态计算体计
基于51单片机设计的呼吸灯鱼弦单片机系统合集 51单片机嵌入式硬件单片机
鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）基于51单片机设计的呼吸灯是一种常见的LED灯效应果，通过控制LED的亮度逐渐增加和减小，模拟人类呼吸的效果。下面将对其原理、应用场景、算法实现、代码实现等进
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
记服务器MongoDB数据库迁移实战记录【云MongoDB数据库迁移】一键难忘数据库 mongodb 服务器
文章目录一.服务器MongoDB数据库迁移实战记录1.1备份MongoDB数据库步骤1.2恢复数据库到新服务器里1.3总结一.服务器MongoDB数据库迁移实战记录1.背景：我原来的服务器到期了，因为高昂的费用我只能使用新用户的身份购买一个服务器。2.需求：将原来的云端MongoDB数据库迁移到新购买的服务器上。3.注意：之前的MongoDB并没有使用宝塔的可视化创建，而是使用命令行，导致，可视化
软件定义世界下的教育创新：高校计算机实验室应重心转向开源平台开源
一、一键式教学环境部署，节省90%准备时间•应用模板库：提供200+预置教学工具模板（如JupyterLab+TensorFlow、MySQL集群），教师可根据课程需求选择模板，5分钟内完成包含依赖库、运行环境的全栈部署。•多版本隔离：支持同一服务器并行运行不同版本框架（如Django3.2教学版与4.1开发版），避免版本冲突导致30%的课堂时间浪费。•自助式环境创建：学生通过命令行快速申请带GP
mysql 统计同一字段不同值的个数 liudachu Mysql数据库 mysql
在一个项目中,制作呃echart图表的时候，遇到一个需求，需要从后端接口获取数据----售票员的姓名和业绩所以需要在订单表中，获取不同售票员的订单数量。订单表解决方案汇总MySQL统计一个列中不同值的数量需求：MySQL统计一个列中不同值的数量，其中origin是用户来源，其中的值有iPhone、Android、Web三种，现在需要分别统计由这三种渠道注册的用户数量。方案1:SELECTcount
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
探索 LangChain、Hugging Face、LM Studio 等 AI 应用工具 Alex程 langchain 人工智能
目录1.LangChainv0.2简介安装概念指南简单试用(1)模型选择(2)基础操作(3)更多操作Runnable调用链的连接Runnable并行自定义函数RunnableLambda额外assign参数(4)langchain.js2.HuggingFace简介如何调用API3.LMStudio简介LMStudio服务器JavaScript/TypeScriptSDK4.Dify.AI简介安装
火山云与腾讯云的优势对比苹果企业签名分发腾讯云云计算
首先，我需要确定用户的需求是什么。可能他们是在选择云服务提供商，或者在做市场调研。用户可能是企业的IT决策者，或者是开发人员，需要了解哪个平台更适合他们的项目。接下来，我得收集火山云和腾讯云的基本信息。火山云是字节跳动旗下的，虽然进入市场较晚，但可能有字节的技术支持，比如大数据和AI方面的优势。腾讯云作为老牌厂商，生态完善，产品线全，尤其在游戏、社交等领域有优势。需要对比的方面包括：背景与市场地位
Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
Java WebSocket与项目页面（通常是HTML + JavaScript）之间建立连接并传输数据 hh_fine java websocket html
JavaWebSocket与项目页面（通常是HTML+JavaScript）之间建立连接并传输数据1.创建JavaWebSocket服务器：使用JavaWebSocketAPI创建一个WebSocket服务器端点。2.在HTML页面中使用JavaScript连接WebSocket：通过JavaScript的WebSocketAPI与JavaWebSocket服务器建立连接。3.双向数据传输：实现服
Django系列教程（13）——Cookie和Session应用场景及案例 l软件定制开发工作室 Django教程 django
目录什么是cookie，cookie的应用场景及缺点Django中如何使用cookieCookie使用示例什么是session及session的工作原理Django中如何使用会话sessionSession使用示例小结HTTP协议本身是”无状态”的，在一次请求和下一次请求之间没有任何状态保持，服务器无法识别来自同一用户的连续请求。有了cookie和session，服务器就可以利用它们记录客户端的访
Trae AI 上新 SSHremote：服务器 Python 接口日志排查实战指南芯作者 DD：日记人工智能深度学习机器学习
在当今的软件开发中，服务器端的稳定性和可靠性至关重要。然而，生产环境中的问题往往难以预测，尤其是接口返回502错误却无日志记录的情况，更是让开发者头疼不已。幸运的是，字节跳动推出的AI原生IDE——Trae，近期上线的SSHremote功能，为远程服务器日志排查提供了全新的解决方案。本文将结合实战案例，深入探讨如何利用TraeAI的SSHremote功能高效排查Python接口日志问题，并分享创新
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等） DoYangTan python 学习分布式
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等）前言随着业务规模的不断扩大以及对系统性能、可扩展性的更高要求，后端应用往往会朝着分布式系统的方向发展。然而，分布式系统带来诸多优势的同时，也面临着如数据一致性等复杂的挑战。本期我们就聚焦于分布式系统中的关键问题——数据一致性，深入探讨分布式锁、分布式事务等相关知识以及保障数据一致性的策略与实践，让我们一起深入学习
一文搞懂Nginx: 域名配置、SSL、HTTP转HTTPS 千层冷面知识类 http nginx ssl linux
本文将在Centos系统下详解Nginx服务器，从概念、下载、安装、编译、配置(含域名和证书)到启动。本文先讲Nginx如何使用，然后再谈概念。一、实践1.下载下载通常有2种方式：Centos自带的包管理工具、源码编译安装(推荐，拓展性强)，本文使用源码编译安装的形式下载从Nginx官网（nginx.org）下载Nginx的源代码。亦可以使用wget命令或者浏览器下载后通过FTP等方式传输到服务器
【知识图谱】开发经验记录：CORS（跨域资源共享）问题 niuuuu16 基于知识图谱的智能助教系统知识图谱人工智能经验分享 java spring boot
尝试前后端交互时出现了这样的报错：AccesstoXMLHttpRequestat'http://localhost:8080/api/courses'fromorigin'http://localhost:8081'hasbeenblockedbyCORSpolicy:No'Access-Control-Allow-Origin'headerispresentontherequestedreso
大数据最新大数据StarRocks(七)：数据表创建(2) 2401_84182271 程序员大数据
2.1表分为内部表和外部表默认未内部表，3.0版本开始集成外部数据建议使用catalog，外部表的建表方式将被弃用2.2列定义语法：col_namecol_type[agg_type][NULL|NOTNULL][DEFAULT"default\_value"][AUTO_INCREMENT][ASgeneration_expr]col_name：列名称注意，在一般情况下，不能直接创建以以__op
PCDN 与传统 CDN 的对比：优势和劣势分析 yczykjyxgs pcdn 智能路由器
在内容分发领域，PCDN和传统CDN是两种重要的技术手段。传统CDN凭借其成熟的架构，在互联网发展历程中发挥着关键作用。它通过在各地广泛部署缓存服务器，将内容缓存至离用户更近的节点，以此加快分发速度。这种模式下，内容传输路径短，能有效减少延迟，为用户提供稳定的访问体验。不过，传统CDN的大规模服务器部署带来了高昂成本，无论是建设费用还是维护成本都不容小觑。PCDN作为融合了P2P技术的新兴内容分发
我所认识的区块链 whg1016 区块链
什么是区块链区块链是一个多节点共同参与，共同确认的记账系统，账本由是由一串串数据块组成的，下一个数据块记录了上个数据的hash，所有的块按照顺序形成一个完整的数据链条。每个节点都有完全一致的账本数据，记录的数据不可篡改和不可伪造。这个链条被保存在所有的服务器中，只要整个系统中有一台服务器可以工作，整条区块链就是安全的。区块链的由来区块链起源于Bitcoin，2008年11月1日，一位自称中本聪(S
【Spring AI】基于专属知识库的RAG智能问答小程序开发——代码逐行精讲：核心交互函数及RAG知识库构建 un_fired spring 人工智能 java
系列文章目录【SpringAI】基于专属知识库的RAG智能问答小程序开发——完整项目（含完整前端+后端代码）【SpringAI】基于专属知识库的RAG智能问答小程序开发——代码逐行精讲：核心ChatClient对象相关构造函数【SpringAI】基于专属知识库的RAG智能问答小程序开发——代码逐行精讲：核心交互函数及RAG知识库构建文章目录系列文章目录前言1.Service层知识库构建与检索函数详
ubuntu高并发内核参数调优 - （压测客户端调优） sj1163739403 Linux系统 ubuntu
业务上要求集群提供10w+并发，10w+并发听上去不是很难，但10w并发持续1小时呢在业务上线之前还需要我们自己对业务进行压测，俗称benchmark。压测的服务器也是需要进行性能调优的，以下列出调优前后的参数对比，更直观的分析和感受参数对程序的影响压测前内核参数自检#!/bin/bash#脚本名称:check_benchmark_server_kernel_params.sh#描述:查询压测服务
从 DeepSeek 到 AI 工具箱：Websoft9 应用托管平台赋能高校教学与科研人工智能deepseek
从DeepSeek到AI工具箱：Websoft9应用托管平台赋能高校教学与科研人工智能技术的快速发展正在重塑高校的教学与科研生态。从智能教学辅助到跨学科研究，AI工具的应用场景不断扩展，而技术落地的复杂性也带来新的挑战。在这一背景下，如何将大模型能力与多样化AI工具无缝整合，构建安全、易用的科研教学环境，成为高校数字化转型的关键命题。一、高校智能化转型的三大痛点技术门槛高•AI工具部署依赖专业运维
Websoft9 开源多应用平台：培养学生数字化能力的实战工具开源实践
引言数字化教育转型的核心在于将技术工具与教学场景深度融合，但传统模式常因环境配置复杂、工具链割裂等问题阻碍实践教学效率。Websoft9开源多应用平台以标准化部署、多工具集成、轻量化运维为核心能力，为教育场景提供了一种技术门槛更低、协作效率更高的解决方案。本文基于实际教学需求与技术验证，探讨如何通过该平台构建数字化能力培养体系。一、技术特性与教育场景的适配性开源生态覆盖全技术栈，缩短教学准备周期平
nginx性能优化有哪些方式？企鹅侠客 linux 面试 nginx 性能优化 php
0.运维干货分享软考高级系统架构设计师备考学习资料软考高级网络规划设计师备考学习资料KubernetesCKA认证学习资料分享信息安全管理体系（ISMS）制度模板分享免费文档翻译工具(支持word、pdf、ppt、excel)PuTTY中文版安装包MobaXterm中文版安装包pinginfoview网络诊断工具中文版Nginx是一个高性能的HTTP服务器和反向代理服务器，但在高并发场景下，仍然有
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号