leveretz

elk7.10.2安装（vm版）

elk7.10.2分布式集群安装（centos7）

ELK安装

主机规划

192.168.31.101 cancer01 es master/es datanode/logstash

192.168.31.102 cancer02 es master/es datanode/logstash

192.168.31.103 cancer03 es master/es datanode/logstash/kibana

ES安装

下载

elasticsearch-7.10.2-linux-x86_64.tar.gz

logstash-7.10.2-linux-x86_64.tar.gz

kibana-7.10.2-linux-x86_64.tar.gz

elasticsearch-analysis-ik-7.10.2.zip

jdk-11.0.9_linux-x64_bin.rpm

环境准备

设置IP

在每台主机上设置IP

1、修改配置文件

# vim /etc/sysconfig/network-scripts/ifcfg-eth0（ifcfg-eth0为网卡名，不同主机可能名称不同）

BOOTPROTO=static

ONBOOT=yes

IPADDR=192.168.31.101

NETMASK=255.255.255.0

GATEWAY=192.168.31.1

DNS1=192.168.31.1

DNS2=0.0.0.0

2、重启服务

# service network restart

设置主机名

在每台主机上设置主机名

1、查看主机名

# hostnamectl

2、用命令修改

# hostnamectl set-hostname cancer01 （修改当前主机名）

3、修改配置文件

# vim /etc/hosts （每台主机hosts文件均为如下内容）

127.0.0.1 localhost

192.168.116.101 cancer01

192.168.116.102 cancer02

192.168.116.103 cancer03

4、重启主机

# reboot now

关闭防火墙

在每台主机上关闭防火墙

# systemctl stop firewalld.service centos7停止firewall

# systemctl disable firewalld.service centos7禁止firewall开机启动

关闭selinux

在每台主机上关闭selinux

# vim /etc/sysconfig/selinux

selinux=disabled

禁用透明大页

在每台主机上禁用Transparent Hugepage

查看状态

# cat /sys/kernel/mm/transparent_hugepage/enabled

返回结果

[always] madvise never

永久关闭

# vim /etc/rc.local

if test -f /sys/kernel/mm/transparent_hugepage/enabled; then

echo never > /sys/kernel/mm/transparent_hugepage/enabled

if test -f /sys/kernel/mm/transparent_hugepage/defrag; then

echo never > /sys/kernel/mm/transparent_hugepage/defrag

或者直接运行下面命令：

# echo never > /sys/kernel/mm/transparent_hugepage/enabled

# echo never > /sys/kernel/mm/transparent_hugepage/defrag

重启机器

查看状态

# cat /sys/kernel/mm/transparent_hugepage/enabled

返回结果

always madvise [never]

设置虚拟内存

在每台主机上设置最大虚拟内存区

echo "vm.max_map_count=262144" > /etc/sysctl.conf 或者 sysctl -w vm.max_map_count=262144 > /etc/sysctl.conf

sysctl -p

设置文件句柄数量和进程数量

在每台主机上设置文件句柄打开数量和进程数量

1、查看

最大打开文件句柄数和最大进程数

# ulimit -a

最大打开文件句柄数

#ulimit -n

最大进程数

#ulimit -u

2、查看应用进程打开文件句柄数

# lsof -n|awk '{print $2}'|sort|uniq -c|sort -nr|more

根据进程ID号来查看进程名

# ps aef|grep 24204

3、用户级限制修改

# vim /etc/security/limits.conf

* soft nofile 65535

* hard nofile 65535

* soft nproc 32000

* hard nproc 32000

centos7修改用户进程数和文件描述符

soft nproc：单个用户可用的最大进程数量(软限制)

hard nproc：单个用户可用的最大进程数量(硬限制)

soft nofile：可打开的文件句柄的最大数(软限制)

hard nofile：可打开的文件句柄的最大数(硬限制)

* ：代表所有用户，也可以写成你需要修改的用户名

4、系统级限制修改

# echo 6553560 > /proc/sys/fs/file-max （临时生效，重启机器后会失效）

# vim /etc/sysctl.conf

fs.file-max = 6553560 （永久生效）

# reboot now

主机时间同步

在每台主机上安装ntp时间同步插件

1.检查是否有时间同步的插件：

# rpm -qa | grep ntp

2.没有就安装（每台都要安装）：

# yum -y install ntp ntpdate

3.选择一台服务器作为集群的时间服务器，主节点

比如：cancer01：时间服务器，cancer02、cancer03、cancer04、cancer05时间同步cancer01

4.修改主节点配置

#vim /etc/ntp.conf

## 1 同步网络时间地址

server 0.asia.pool.ntp.org

server 1.asia.pool.ntp.org

server 2.asia.pool.ntp.org

server 3.asia.pool.ntp.org

## 2 当外部时间不可用，则使用当前硬件时间

server 127.127.1.0 iburst local lock

## 3 允许哪些网段的机器，来同步时间

restrict 192.168.31.0 mask 255.255.255.0 nomodify notrap

##注：1位置为修改原有的配置，2，3位置的新增加的，其余原有文件配置保持不动

5.修改从节点配置

#vim /etc/ntp.conf

## 客户端节点配置同步时间的主节点，表示向主节点cancer01同步时间

server cancer01 prefer

server 127.127.1.0

fudge 127.127.1.0 stratum 10

#vim /etc/ntp/step-tickers

cancer01

6.重启所有节点ntp服务，并设置开机启动

#systemctl restart ntpd

#systemctl enable ntpd

7.在从节点从主节点同步时间

#ntpdate -u cancer01

8.从节点设置定时任务

#crontab -e

## follow time from master host

0 * * * * ntpdate -u cdh01

## write system time to hardware time

1 * * * * hwclock –systohc

## 同步时间后，还需把同步到的时间写入机器硬件时间，命令为 hwclock --systohc

## 或者

## 每10分钟同步一次时间

0-59/10 * * * * /sbin/service ntpd stop

0-59/10 * * * * /usr/sbin/ntpdate -u node1

0-59/10 * * * * /sbin/service ntpd start

配置免密

在每台主机上配置ssh免密

# ssh-keygen -t rsa

然后三次回车，运行结束会在~/.ssh下生成两个新文件：

id_rsa.pub和id_rsa就是公钥和私钥

然后也是在每台主机上都执行：

# ssh-copy-id cancer01

# ssh-copy-id cancer02

# ssh-copy-id cancer03

安装JDK

elasticsearch要求jdk为11.

在每台主机上安装jdk

下载jdk-11.0.9_linux-x64_bin.rpm，使用rz命令上传。

1、安装前，最好先删除Linux自带的OpenJDK：

(1)运行java -version，会发现Linux自带的OpenJDK，运行rpm -qa | grep jdk，找出自带的OpenJDK名称；

(2)运行rpm -e --nodeps OpenJDK名称，删除OpenJDK；

2、运行rpm -ivh jdk-11.0.9_linux-x64_bin.rpm

或者yum localinstall jdk-11.0.9_linux-x64_bin.rpm

3、运行vim /etc/profile，在文件末尾输入以下几行：

export JAVA_HOME=/usr/java/jdk-11.0.9

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$PATH:$JAVA_HOME/bin

4、运行source /etc/profile，使文件生效；

5、运行java -version，查看返回结果。

添加用户

在每台主机上添加用户es，elasticsearch需要使用非root用户启动

# groupadd es

# useradd -g es es

# passwd es

授权sudo

在每台主机上给es用户授权sudo

# vim /etc/sudoers

es ALL=(ALL) ALL

安装ES

先在cancer01上安装配置，完成后拷贝到其他主机

解压缩

tar -zxvf elasticsearch-7.10.0-linux-x86_64.tar.gz -C /usr/local/

mv /usr/local/elasticsearch-7.10.2 /usr/local/elasticsearch

cd /usr/local/elasticsearch

mkdir data

mkdir logs

设置属主

chown -R es.es /usr/local/elasticsearch

设置环境变量

vim /etc/profile

export ES_HOME=/usr/local/elasticsearch

export PATH=$PATH:$ES_HOME/bin

source /etc/profile

配置ES

vim /usr/local/elasticsearch/config/elasticsearch.yml

cluster.name: elk

node.name: cancer01

node.master: true

node.data: true

network.host: 0.0.0.0

http.port: 9200

path.data: /usr/local/elasticsearch/data

path.logs: /usr/local/elasticsearch/logs

discovery.seed_hosts:

- cancer01

- cancer02

- cancer03

cluster.initial_master_nodes: ["cancer01", "cancer02", "cancer03"]

参数说明

cluster.name 集群名称，各节点配成相同的集群名称。

node.name 节点名称，各节点配置不同。

node.data 指示节点是否为数据节点。数据节点包含并管理索引的一部分。

network.host 绑定节点IP。

http.port 监听端口。

path.data 数据存储目录。

path.logs 日志存储目录。

discovery.seed_hosts 指定集群成员，用于主动发现他们，所有成员都要写进来，包括自己，每个节点中应该写一样的信息。

cluster.initial_master_nodes 指定有资格成为 master 的节点

http.cors.enabled 用于允许head插件访问ES。

http.cors.allow-origin 允许的源地址。

当您为提供自定义设置时 network.host，Elasticsearch会假设您正在从开发模式过渡到生产模式，并将许多系统启动检查从警告升级到异常。

cluster.initial_master_nodes 中的节点名称需要和 node.name 的名称一致。

#开启安全访问

xpack.security.enabled: true

#跨域访问设置

http.cors.enabled: true

http.cors.allow-origin: "*"

#ca设置

xpack.security.transport.ssl.enabled: true #开启ssl加密传输

xpack.security.transport.ssl.verification_mode: certificate #开启加密传输验证

xpack.security.transport.ssl.keystore.path: /usr/local/elasticsearch/elastic-certificates.p12 #秘钥需要预先创建

xpack.security.transport.ssl.truststore.path: /usr/local/elasticsearch/elastic-certificates.p12

#忽略ca验证设置

xpack.security.transport.ssl.verification_mode: none #加密传输验证关闭

xpack.security.http.ssl.client_authentication: none #关闭秘钥验证

xpack.http.ssl.verification_mode: none #关闭秘钥验证,此处很多文档写的不一样，可能是版本变化，亲测此方法最有效。

transport.tcp.port: 9300

transport.tcp.compress: true

network.publish_host: cancer01 ##本机IP

配置log

vim /usr/local/elasticsearch/config/log4j2.properties

appender.rolling.strategy.action.condition.nested_condition.type = IfLastModified

appender.rolling.strategy.action.condition.nested_condition.age = 30D

限制集群日志增长，这里只保存30天的日志

默认会每天rolling一个文件，当到达2G的时候，才开始清除超出的部分，当一个文件只有几十K的时候，文件会一直累计下来。

配置jvm

vim /usr/local/elasticsearch/config/jvm.options

-Xms2g

-Xmx2g

-XX:HeapDumpPath=data

说明：

Xmx和Xms两个设置必须彼此相等,大小应该不超过你物理内存的50％，最大不要超过 32G, 通常 26G是可以的。

HeapDumpPath是内存不足异常上的堆转储到默认数据目录。

拷贝到其他主机

scp -r /usr/local/elasticsearch es@cancer02:/usr/local/

scp -r /usr/local/elasticsearch es@cancer03:/usr/local/

配置其他主机

在cancer02、cancer03主机上，设置属主

chown -R es.es /usr/local/elasticsearch

在cancer02、cancer03主机上，设置环境变量

vim /etc/profile

export ES_HOME=/usr/local/elasticsearch

export PATH=$PATH:$ES_HOME/bin

source /etc/profile

在cancer02主机上，配置ES

vim /usr/local/elasticsearch/config/elasticsearch.yml

cluster.name: elk

node.name: cancer02

node.data: true

network.host: 0.0.0.0

http.port: 9200

discovery.seed_hosts:

- cancer01

- cancer02:9300

- cancer03

cluster.initial_master_nodes: ["cancer01", "cancer02", "cancer03"]

在cancer03主机上，配置ES

vim /usr/local/elasticsearch/config/elasticsearch.yml

cluster.name: elk

node.name: cancer03

node.data: true

network.host: 0.0.0.0

http.port: 9200

discovery.seed_hosts:

- cancer01

- cancer02:9300

- cancer03

cluster.initial_master_nodes: ["cancer01", "cancer02", "cancer03"]

启动ES

在每台主机上启动elasticsearch,

su - es

cd /usr/local/elasticsearch

./bin/elasticsearch -d -p /tmp/elasticsearch.pid

-d 后台运行

-p 指定一个文件,用于存放进程的 pid

关闭ES

pkill -F /tmp/elasticsearch.pid

验证

查看日志，$ES_HOME/logs/

ls logs/elk.log

查看集群健康状态

curl -X GET "localhost:9200/_cat/health?v" 或者 http://localhost:9200/_cluster/health?pretty

三种不同状态的含义

黄色如果您仅运行单个Elasticsearch实例，则集群状态将保持黄色。单节点群集具有完整的功能，但是无法将数据复制到另一个节点以提供弹性。

绿色副本分片必须可用，群集状态为绿色。

红色如果群集状态为红色，则某些数据不可用。

查看集群节点信息

curl -X GET "localhost:9200/_cat/nodes?v"

排查错误

# 找到进程

[es@cancer01 elasticsearch]$ jdk/bin/jps

8244 Jps

7526 Elasticsearch

# 杀死进程

[es@cancer01 elasticsearch]$ kill -9 7526

# 删除数据目录中的所有文件

[es@cancer01 elasticsearch]$ rm -rf data/*

# 删除 keystore 文件

[es@cancer01 elasticsearch]$ rm -rf config/elasticsearch.keystore

# 重新启动进程

[es@cancer01 elasticsearch]$ bin/elasticsearch -d -p /tmp/elk.pid

Logstash安装

Kibana安装

Kafka安装

Filebeat安装

ELK案例

1. 需求分析

确认需要收集的日志类型及使用的相关插件

系统日志： /var/log/* （可以使用 input 的 syslog 插件）

访问日志： Apache/Nginx/Tomcat 等的访问日志（使用 input 的 file/json 等插件，filter 的 grok 插件）

错误日志： error log、Java 日志（使用访问日志类似的插件，Java 的日志需要使用 codec 多行插件）

运行日志：程序自己生成的（使用 input 的 file/json 等插件）

网络日志：防火墙、交换机、路由器等的日志（可以使用 input 的 syslog 插件）

2. 日志标准化

2.1 日志放置目录及命名规范

规范日志放置目录和命名，以下是一个示例参考：

[root@linux-node1 logs]# tree /data/logs

/data/logs

├── access-log # 访问日志目录

├── error-log # 错误日志目录

└── runtime-log # 运行日志目录

2.2 日志切割

对于不同程序，有的程序可以自定义日志切割，有的可能需要自己编写脚本来进行日志切割。

日志文件切割时间可以按天、按小时等，这个需要根据实际业务的日志情况来确定。

2.3 日志接入格式标准

我们可以规定，如果要接入 ELK 日志系统，程序日志格式应该是 JSON 格式，方便日志的统一接收。

这个和研发去协商，为了实现 DevOps，研发和运维应该相互配合，如果日志格式不是 JSON，我们可以不接收。

2.4 原始日志文件删除和归档策略

比如可以将本地原始日志文件 rsync 到一个共享存储文件系统后，然后删除本地最近 7 天前的日志文件。这个也是根据具体业务的日志情况来制定。

如果业务一天能产生海量日志，那么可能就要删除最近一天前的日志。

3. 工具化

如何使用 Logstash 等 Agent 工具进行日志收集。需要规划好方案和画好架构图。

ES介绍

ELK是三个开源软件的缩写，分别为：Elasticsearch 、 Logstash以及Kibana , 它们都是开源软件。不过现在还新增了一个Beats，它是一个轻量级的日志收集处理工具(Agent)，Beats占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具，目前由于原本的ELK Stack成员中加入了 Beats 工具所以已改名为Elastic Stack。早期的ELK架构中使用Logstash收集、解析日志，但是Logstash对内存、cpu、io等资源消耗比较高。相比 Logstash，Beats所占系统的CPU和内存几乎可以忽略不计。目前Beats包含六种工具：

Packetbeat：网络数据（收集网络流量数据）

Metricbeat：指标（收集系统、进程和文件系统级别的 CPU 和内存使用情况等数据）

Filebeat：日志文件（收集文件数据）

Winlogbeat： windows事件日志（收集 Windows 事件日志数据）

Auditbeat：审计数据（收集审计日志）

Heartbeat：运行时间监控（收集系统运行时的数据）

0 架构概览

ELK日志分析系统

Elasticsearch：存储，索引池

Logstash：日志收集器

Kibana：数据可视化

日志处理步骤

1，将日志进行集中化管理

2，将日志格式化（Logstash）并输出到Elasticsearch

3，对格式化后的数据进行索引和存储（Elasticsearch）

4，前端数据的展示（Kibana）

Elasticsearch的概述

提供了一个分布式多用户能力的全文搜索引擎

Elasticsearch的概念

接近实时

集群

节点

索引：索引(库)-->类型(表)-->文档(记录)

分片和副本

Logstash介绍

一款强大的数据处理工具，可以实现数据传输、格式处理、格式化输出

数据输入、数据加工(如过滤，改写等)以及数据输出

LogStash主要组件

Shipper

Indexer

Broker

Search and Storage

Web Interface

Kibana介绍

一个针对Elasticsearch的开源分析及可视化平台

搜索、查看存储在Elasticsearch索引中的数据

通过各种图表进行高级数据分析及展示

Kibana主要功能

Elasticsearch无缝之集成

整合数据，复杂数据分析

让更多团队成员受益

接口灵活，分享更容易

配置简单，可视化多数据源

简单数据导出

1 集群条件

集群最少 3 个节点，集群的每个节点都需要使用非 root 用户启动。

2 Elasticsearch 基本概念介绍

2.1 文档

2.2 文档源数据

_all 字段在7.0版本中已被废除
_version 为了解决在大量并发写入时候文档冲突问题
_score 用于标识在一次查询结果中某条数据和希望查询到的目标的相似度

2.3 索引

索引在不同环境下的语义

2.4 Type

在 7.0 之前，一个 Index 可以设置多个 Types
7.0 开始一个索引只能建立一个 Type: _doc

2.5 和RDBMS的比较

2.6 增删改查

要增删改查 Elasticsearch 的中数据，需要使用 REST API

3 集群的基本概念

3.1 集群的特性

Elasticsearch 集群是一个多节点组成的高可用可扩展的分布式系统

3.2 集群中的节点角色

Master-eligible Node 和 Master Node

Date Node 和 Coordinating Node

3.3 设置节点角色的建议

4 分片

4.1 主分片和副本

分片分布示例

4.2 分片的设定

主分片是在一开始建立索引时候设置的，后期无法更改

生产中要做好数据容量规划。

分片过少
后期如果数量量不断增多，也无法通过增加节点来实现水平扩展
也会导致单个分片存储数据量过多，在以后数据重新分配时耗时。

分片过多
假如长期分片过多，会影响查询结果的相关性打分，从而影响查询结果的准确性
单节点上存放过多的分片会造成资源的浪费，也会影响性能

Logstash介绍

Logstash是一款强大的数据处理工具，它可以实现数据传输，格式处理，格式化输出，还有强大的插件功能，常用于日志处理。

Logstash工作的三个阶段：

input数据输入端，可以接收来自任何地方的源数据。

* file：从文件中读取

* syslog：监听在514端口的系统日志信息，并解析成RFC3164格式。

* redis：从redis-server list中获取

* beat：接收来自Filebeat的事件

Filter数据中转层，主要进行格式处理，数据类型转换、数据过滤、字段添加，修改等，常用的过滤器如下。

* grok:通过正则解析和结构化任何文本。Grok目前是logstash最好的方式对非结构化日志数据解析成结构化和可查询化。logstash内置了120个匹配模式，满足大部分需求。

* mutate:在事件字段执行一般的转换。可以重命名、删除、替换和修改事件字段。

* drop:完全丢弃事件，如debug事件。

* clone:复制事件，可能添加或者删除字段。

* geoip:添加有关IP地址地理位置信息。

output是logstash工作的最后一个阶段，负责将数据输出到指定位置，兼容大多数应用，常用的有:

* elasticsearch:发送事件数据到Elasticsearch，便于查询，分析，绘图。

* file:将事件数据写入到磁盘文件上。

* mongodb:将事件数据发送至高性能NoSQL mongodb，便于永久存储，查询，分析，大数据分片。

* redis:将数据发送至redis-server，常用于中间层暂时缓存。

* graphite:发送事件数据到graphite。http://graphite.wikidot.com/

* statsd:发送事件数据到statsd。

input

我们今天先讨论input组件的功能和基本插件。前面我们意见介绍过了，input组件是Logstash的眼睛和鼻子，负责收集数据的，那么们就不得不思考两个问题，第一个问题要清楚的就是，元数据在哪，当然，这就包含了元数据是什么类型，属于什么业务；第二个问题要清楚怎么去拿到元数据。只要搞明白了这两个问题，那么Logstash的input组件就算是弄明白了。

对于第一个问题，元数据的类型有很多，比如说你的元数据可以是日志、报表、可以是数据库的内容等等。元数据是什么样子的我们不需要关心，我们要关系的是元数据是什么类型的，只要你知道元数据是什么类型的，你才能给他分类，或者说给他一个type，这很重要，type对于你后面的工作处理是非常有帮助的。所以第一个问题的重心元数据在吗，是什么，现在已经是清楚了。那么进行第二个问题。

第二个问题的核心是怎么拿到这些不同类型的原数据？这是一个真个input组件的核心内容了，我们分门别类的来看待这和解决个问题。

首先，我们肯定需要认同的，什么样的数据源，就需要使用什么样的方式去获取数据。

我们列举几种：

1、文件类型：文件类型，顾名思义，文件数据源，我们可以使用input组件的file插件来获取数据。file{}插件有很多的属性参数，我们可以张开讲解一下。

input{

file{

#path属性接受的参数是一个数组，其含义是标明需要读取的文件位置

path => [‘pathA’，‘pathB’]

#表示多就去path路径下查看是够有新的文件产生。默认是15秒检查一次。

discover_interval => 15

#排除那些文件，也就是不去读取那些文件

exclude => [‘fileName1’,‘fileNmae2’]

#被监听的文件多久没更新后断开连接不在监听，默认是一个小时。

close_older => 3600

#在每次检查文件列表的时候，如果一个文件的最后修改时间超过这个值，就忽略这个文件。默认一天。

ignore_older => 86400

#logstash 每隔多久检查一次被监听文件状态（是否有更新），默认是1秒。

stat_interval => 1

#sincedb记录数据上一次的读取位置的一个index

sincedb_path => ’$HOME/. sincedb‘

#logstash 从什么位置开始读取文件数据，默认是结束位置也可以设置为：beginning 从头开始

start_position => ‘beginning’

#注意：如果你需要每次都从同开始读取文件的话，关设置start_position => beginning是没有用的，你可以选择sincedb_path 定义为 /dev/null

}

2、数据库类型：数据库类型的数据源，就意味着我们需要去和数据库打交道了是吗？是的！那是必须的啊，不然怎么获取数据呢。input组件如何获取数据库类的数据呢？没错，下面即将隆重登场的是input组件的JDBC插件jdbc{}。同样的，jdbc{}有很多的属性，我们在下面的代码中作出说明；

input{

jdbc{

#jdbc sql server 驱动,各个数据库都有对应的驱动，需自己下载

jdbc_driver_library => "/etc/logstash/driver.d/sqljdbc_2.0/enu/sqljdbc4.jar"

#jdbc class 不同数据库有不同的 class 配置

jdbc_driver_class => "com.microsoft.sqlserver.jdbc.SQLServerDriver"

#配置数据库连接 ip 和端口，以及数据库

jdbc_connection_string => "jdbc:sqlserver://200.200.0.18:1433;databaseName=test_db"

#配置数据库用户名

jdbc_user =>

#配置数据库密码

jdbc_password =>

#上面这些都不重要，要是这些都看不懂的话，你的老板估计要考虑换人了。重要的是接下来的内容。

# 定时器多久执行一次SQL，默认是一分钟

# schedule => 分时天月年

# schedule => * 22 * * * 表示每天22点执行一次

schedule => "* * * * *"

#是否清除 last_run_metadata_path 的记录,如果为真那么每次都相当于从头开始查询所有的数据库记录

clean_run => false

#是否需要记录某个column 的值,如果 record_last_run 为真,可以自定义我们需要表的字段名称，

#此时该参数就要为 true. 否则默认 track 的是 timestamp 的值.

use_column_value => true

#如果 use_column_value 为真,需配置此参数. 这个参数就是数据库给出的一个字段名称。当然该字段必须是递增的，可以是数据库的数据时间这类的

tracking_column => create_time

#是否记录上次执行结果, 如果为真,将会把上次执行到的 tracking_column 字段的值记录下来,保存到 last_run_metadata_path 指定的文件中

record_last_run => true

#们只需要在 SQL 语句中 WHERE MY_ID > :last_sql_value 即可. 其中 :last_sql_value 取得就是该文件中的值

last_run_metadata_path => "/etc/logstash/run_metadata.d/my_info"

#是否将字段名称转小写。

#这里有个小的提示，如果你这前就处理过一次数据，并且在Kibana中有对应的搜索需求的话，还是改为true，

#因为默认是true，并且Kibana是大小写区分的。准确的说应该是ES大小写区分

lowercase_column_names => false

#你的SQL的位置，当然，你的SQL也可以直接写在这里。

#statement => SELECT * FROM tabeName t WHERE t.creat_time > :last_sql_value

statement_filepath => "/etc/logstash/statement_file.d/my_info.sql"

#数据类型，标明你属于那一方势力。单了ES哪里好给你安排不同的山头。

type => "my_info"

}

#注意：外载的SQL文件就是一个文本文件就可以了，还有需要注意的是，一个jdbc{}插件就只能处理一个SQL语句，

#如果你有多个SQL需要处理的话，只能在重新建立一个jdbc{}插件。

}

好了，废话不多说了，接着第三种情况：

input {

beats {

#接受数据端口

port => 5044

#数据类型

type => "logs"

}

#这个插件需要和filebeat进行配很这里不做多讲，到时候结合起来一起介绍。

}

现在我们基本清楚的知道了input组件需要做的事情和如何去做，当然他还有很多的插件可以进行数据的收集，比如说TCP这类的，还有可以对数据进行encode，这些感兴趣的朋友可以自己去查看，我说的只是我自己使用的。一般情况下我说的三种插件已经足够了。

filter

Logstash三个组件的第二个组件，也是真个Logstash工具中最复杂，最蛋疼的一个组件，当然，也是最有作用的一个组件。

1、grok插件 grok插件有非常强大的功能，他能匹配一切数据，但是他的性能和对资源的损耗同样让人诟病。

filter{

grok{

#只说一个match属性，他的作用是从message 字段中吧时间给抠出来，并且赋值给另个一个字段logdate。

#首先要说明的是，所有文本数据都是在Logstash的message字段中中的，我们要在过滤器里操作的数据就是message。

#第二点需要明白的是grok插件是一个十分耗费资源的插件，这也是为什么我只打算讲解一个TIMESTAMP_ISO8601正则表达式的原因。

#第三点需要明白的是，grok有超级多的预装正则表达式，这里是没办法完全搞定的，也许你可以从这个大神的文章中找到你需要的表达式

#http://blog.csdn.net/liukuan73/article/details/52318243

#但是，我还是不建议使用它，因为他完全可以用别的插件代替，当然，对于时间这个属性来说，grok是非常便利的。

match => ['message','%{TIMESTAMP_ISO8601:logdate}']

}

2、mutate插件 mutate插件是用来处理数据的格式的，你可以选择处理你的时间格式，或者你想把一个字符串变为数字类型（当然需要合法），同样的你也可以返回去做。可以设置的转换类型包括： "integer"， "float" 和 "string"。

filter {

mutate {

#接收一个数组，其形式为value，type

#需要注意的是，你的数据在转型的时候要合法，你总是不能把一个‘abc’的字符串转换为123的。

convert => [

#把request_time的值装换为浮点型

"request_time", "float"，

#costTime的值转换为整型

"costTime", "integer"

]

}

3、ruby插件官方对ruby插件的介绍是——无所不能。ruby插件可以使用任何的ruby语法，无论是逻辑判断，条件语句，循环语句，还是对字符串的操作，对EVENT对象的操作，都是极其得心应手的。

filter {

ruby {

#ruby插件有两个属性，一个init 还有一个code

#init属性是用来初始化字段的，你可以在这里初始化一个字段，无论是什么类型的都可以，这个字段只是在ruby{}作用域里面生效。

#这里我初始化了一个名为field的hash字段。可以在下面的coed属性里面使用。

init => [field={}]

#code属性使用两个冒号进行标识，你的所有ruby语法都可以在里面进行。

#下面我对一段数据进行处理。

#首先，我需要在把message字段里面的值拿到，并且对值进行分割按照“|”。这样分割出来的是一个数组（ruby的字符创处理）。

#第二步，我需要循环数组判断其值是否是我需要的数据（ruby条件语法、循环结构）

#第三步，我需要吧我需要的字段添加进入EVEVT对象。

#第四步，选取一个值，进行MD5加密

#什么是event对象？event就是Logstash对象，你可以在ruby插件的code属性里面操作他，可以添加属性字段，可以删除可以修改，同样可以进行树脂运算。

#进行MD5加密的时候，需要引入对应的包。

#最后把冗余的message字段去除。

code => "

array=event。get('message').split('|')

array.each do |value|

if value.include? 'MD5_VALUE'

then

require 'digest/md5'

md5=Digest::MD5.hexdigest(value)

event.set('md5',md5)

end

if value.include? 'DEFAULT_VALUE'

then

event.set('value',value)

end

remove_field=>"message"

}

4、date插件这里需要合前面的grok插件剥离出来的值logdate配合使用（当然也许你不是用grok去做）。

filter{

date{

#还记得grok插件剥离出来的字段logdate吗？就是在这里使用的。你可以格式化为你需要的样子，至于是什么样子。就得你自己取看啦。

#为什什么要格式化？

#对于老数据来说这非常重要，应为你需要修改@timestamp字段的值，如果你不修改，你保存进ES的时间就是系统但前时间（+0时区）

#单你格式化以后，就可以通过target属性来指定到@timestamp，这样你的数据的时间就会是准确的，这对以你以后图表的建设来说万分重要。

#最后，logdate这个字段，已经没有任何价值了，所以我们顺手可以吧这个字段从event对象中移除。

match=>["logdate","dd/MMM/yyyy:HH:mm:ss Z"]

target=>"@timestamp"

remove_field => 'logdate'

#还需要强调的是，@timestamp字段的值，你是不可以随便修改的，最好就按照你数据的某一个时间点来使用，

#如果是日志，就使用grok把时间抠出来，如果是数据库，就指定一个字段的值来格式化，比如说："timeat", "%{TIMESTAMP_ISO8601:logdate}"

#timeat就是我的数据库的一个关于时间的字段。

#如果没有这个字段的话，千万不要试着去修改它。

}

5、json插件，这个插件也是极其好用的一个插件，现在我们的日志信息，基本都是由固定的样式组成的，我们可以使用json插件对其进行解析，并且得到每个字段对应的值。

filter{

#source指定你的哪个值是json数据。

json {

source => "value"

}

#注意：如果你的json数据是多层的，那么解析出来的数据在多层结里是一个数组，你可以使用ruby语法对他进行操作，最终把所有数据都装换为平级的。

}

json插件还是需要注意一下使用的方法的，下图就是多层结构的弊端：

对应的解决方案为：

ruby{

code=>"

kv=event.get('content')[0]

kv.each do |k,v|

event.set(k,v)

end"

remove_field => ['content','value','receiptNo','channelId','status']

}

Logstash filter组件的插件基本介绍到这里了，这里需要明白的是：

add_field、remove_field、add_tag、remove_tag 是所有 Logstash 插件都有。相关使用反法看字段名就可以知道。不如你也试试吧。

output

Logstash的output模块,相比于input模块来说是一个输出模块,output模块集成了大量的输出插件,可以输出到指定文件,也可输出到指定的网络端口,当然也可以输出数据到ES.在这里我只介绍如何输出到ES,至于如何输出到端口和指定文件,有很多的文档资料可查找.

elasticsearch{

hosts=>["172.132.12.3:9200"]

action=>"index"

index=>"indextemplate-logstash"

#document_type=>"%{@type}"

document_id=>"ignore"

template=>"/opt/logstash-conf/es-template.json"

template_name=>"es-template.json"

template_overwrite=>true

}

action=>”index” #es要执行的动作 index, delete, create, update

index:将logstash.时间索引到一个文档

delete:根据id删除一个document(这个动作需要一个id)

create:建立一个索引document，如果id存在动作失败.

update:根据id更新一个document，有一种特殊情况可以upsert--如果document不是已经存在的情况更新document 。参见upsert选项。

A sprintf style string to change the action based on the content of the event. The value %{[foo]} would use the foo field for the action

document_id=>” ” 为索引提供document id ，对重写elasticsearch中相同id词目很有用

document_type=>” ”事件要被写入的document type，一般要将相似事件写入同一type，可用%{}引用事件type，默认type=log

index=>”logstash-%{+YYYY,MM.dd}” 事件要被写进的索引，可是动态的用%{foo}语句

hosts=>[“127.0.0.0”] ["127.0.0.1:9200","127.0.0.2:9200"] "https://127.0.0.1:9200"

manage_template=>true 一个默认的es mapping 模板将启用（除非设置为false 用自己的template）

template=>”” 有效的filepath 设置自己的template文件路径，不设置就用已有的

template_name=>”logstash” 在es内部模板的名字

这里需要十分注意的一个问题是,document_id尽量保证值得唯一,这样会解决你面即将面临的ES数据重复问题,切记切记!

配置实例（日志到ES）

编辑nginx配置文件，修改以下内容（在http模块下添加）

log_format json '{"@timestamp":"$time_iso8601",'

'"@version":"1",'

'"client":"$remote_addr",'

'"url":"$uri",'

'"status":"$status",'

'"domian":"$host",'

'"host":"$server_addr",'

'"size":"$body_bytes_sent",'

'"responsetime":"$request_time",'

'"referer":"$http_referer",'

'"ua":"$http_user_agent"'

'}';

修改access_log的输出格式为刚才定义的json

access_log logs/elk.access.log json;

继续修改apache的配置文件

LogFormat "{ \

\"@timestamp\": \"%{%Y-%m-%dT%H:%M:%S%z}t\", \

\"@version\": \"1\", \

\"tags\":[\"apache\"], \

\"message\": \"%h %l %u %t \\\"%r\\\" %>s %b\", \

\"clientip\": \"%a\", \

\"duration\": %D, \

\"status\": %>s, \

\"request\": \"%U%q\", \

\"urlpath\": \"%U\", \

\"urlquery\": \"%q\", \

\"bytes\": %B, \

\"method\": \"%m\", \

\"site\": \"%{Host}i\", \

\"referer\": \"%{Referer}i\", \

\"useragent\": \"%{User-agent}i\" \

}" ls_apache_json

一样修改输出格式为上面定义的json格式

CustomLog logs/access_log ls_apache_json

编辑logstash配置文件，进行日志收集（由于MySQL的慢日志查询格式比较特殊，所以需要用正则进行匹配，并使用multiline能够进行多行匹配（看具体配置））

input {

file {

path => "/var/log/messages"

type => "system"

start_position => "beginning"

}

file {

path => "/var/log/secure"

type => "secure"

start_position => "beginning"

}

file {

path => "/var/log/httpd/access_log"

type => "http"

start_position => "beginning"

}

file {

path => "/usr/local/nginx/logs/elk.access.log"

type => "nginx"

start_position => "beginning"

}

file {

path => "/var/log/mysql/mysql.slow.log"

type => "mysql"

start_position => "beginning"

codec => multiline {

pattern => "^# User@Host:"

negate => true

what => "previous"

}

redis {

host => "192.168.1.202"

port => "6379"

password => 'test'

type => "redis"

db => '1'

data_type => "list"

key => 'elk-test'

batch_count => 1 #这个值是指从队列中读取数据时，一次性取出多少条，默认125条（如果redis中没有125条，就会报错，所以在测试期间加上这个值）

}

filter {

grok {

match => { "message" => "SELECT SLEEP" }

add_tag => [ "sleep_drop" ]

tag_on_failure => []

}

if "sleep_drop" in [tags] {

drop {}

}

grok {

match => { "message" => "(?m)^# User@Host: %{USER:User}\[[^\]]+\] @ (?:(?\S*) )?\[(?:%{IP:Client_IP})?\]\s.*# Query_time: %{NUMBER:Query_Time:float}\s+Lock_time: %{NUMBER:Lock_Time:float}\s+Rows_sent: %{NUMBER:Rows_Sent:int}\s+Rows_examined: %{NUMBER:Rows_Examined:int}\s*(?:use %{DATA:Database};\s*)?SET timestamp=%{NUMBER:timestamp};\s*(?(?\w+)\s+.*)\n# Time:.*$" }

}

date {

match => [ "timestamp", "UNIX" ]

remove_field => [ "timestamp" ]

}

output {

if [type] == "system" {

elasticsearch {

hosts => ["192.168.1.202:9200"]

index => "nagios-system-%{+YYYY.MM.dd}"

}

if [type] == "secure" {

elasticsearch {

hosts => ["192.168.1.202:9200"]

index => "nagios-secure-%{+YYYY.MM.dd}"

}

if [type] == "http" {

elasticsearch {

hosts => ["192.168.1.202:9200"]

index => "nagios-http-%{+YYYY.MM.dd}"

}

if [type] == "nginx" {

elasticsearch {

hosts => ["192.168.1.202:9200"]

index => "nagios-nginx-%{+YYYY.MM.dd}"

}

if [type] == "mysql" {

elasticsearch {

hosts => ["192.168.1.202:9200"]

index => "nagios-mysql-slow-%{+YYYY.MM.dd}"

}

if [type] == "redis" {

elasticsearch {

hosts => ['192.168.1.202:9200']

index => 'redis-test-%{+YYYY.MM.dd}'

}

配置实例（日志到Redis）

input {

file {

path => "/var/log/httpd/access_log"

type => "http"

start_position => "beginning"

}

file {

path => "/usr/local/nginx/logs/elk.access.log"

type => "nginx"

start_position => "beginning"

}

file {

path => "/var/log/secure"

type => "secure"

start_position => "beginning"

}

file {

path => "/var/log/messages"

type => "system"

start_position => "beginning"

}

output {

if [type] == "http" {

redis {

host => "192.168.1.202"

password => 'test'

port => "6379"

db => "6"

data_type => "list"

key => 'nagios_http'

}

if [type] == "nginx" {

redis {

host => "192.168.1.202"

password => 'test'

port => "6379"

db => "6"

data_type => "list"

key => 'nagios_nginx'

}

if [type] == "secure" {

redis {

host => "192.168.1.202"

password => 'test'

port => "6379"

db => "6"

data_type => "list"

key => 'nagios_secure'

}

if [type] == "system" {

redis {

host => "192.168.1.202"

password => 'test'

port => "6379"

db => "6"

data_type => "list"

key => 'nagios_system'

}

配置实例（Redis到ES）

input {

redis {

type => "system"

host => "192.168.1.202"

password => 'test'

port => "6379"

db => "6"

data_type => "list"

key => 'nagios_system'

batch_count => 1

}

redis {

type => "http"

host => "192.168.1.202"

password => 'test'

port => "6379"

db => "6"

data_type => "list"

key => 'nagios_http'

batch_count => 1

}

redis {

type => "nginx"

host => "192.168.1.202"

password => 'test'

port => "6379"

db => "6"

data_type => "list"

key => 'nagios_nginx'

batch_count => 1

}

redis {

type => "secure"

host => "192.168.1.202"

password => 'test'

port => "6379"

db => "6"

data_type => "list"

key => 'nagios_secure'

batch_count => 1

}

output {

if [type] == "system" {

elasticsearch {

hosts => ["192.168.1.202:9200"]

index => "nagios-system-%{+YYYY.MM.dd}"

}

if [type] == "http" {

elasticsearch {

hosts => ["192.168.1.202:9200"]

index => "nagios-http-%{+YYYY.MM.dd}"

}

if [type] == "nginx" {

elasticsearch {

hosts => ["192.168.1.202:9200"]

index => "nagios-nginx-%{+YYYY.MM.dd}"

}

if [type] == "secure" {

elasticsearch {

hosts => ["192.168.1.202:9200"]

index => "nagios-secure-%{+YYYY.MM.dd}"

}

你可能感兴趣的:(大数据,elk7)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
数字化（电子化）招标采购平台系统核心功能详细介绍 xinyuan_123456 oracle
数智化招标采购平台覆盖全业务类型、全采购流程、全采购方式，是郑州信源公司运用“互联网+”、大数据、人工智能、区块链、物联网等新兴技术，结合供应链管理理念，以招标采购为核心，提供交易、管理、数据、服务、监管为一体的高标准采购管理平台，赋能政企用户实现采购业务全流程的电子化、数字化、智慧化。根据产品功能及应用领域，产品包括：企业数智化招采供应链平台、金融数智化招采平台、政府数智化采购平台、公共资源数智
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =