月昭昭

基于kafka，zookeeper实现的日志收集平台搭建

1.项目简介

时间：2022年7月项目人员：3人
项目环境：centos7（9台，1核2G）， kafka(2.12) ，nginx， filebeat， zookeeper(3.6.3)， python3.6， mysql
项目描述：分别使用3台Linux服务器来作为nginx集群搭建前端web服务，kafka集群和zookeeper集群,2台Linux机器做反向代理集群。通过filebeat收集前端nginx集群的访问日志，统一存入kafka集群平台，部署zookeeper集群来对kafka进行配置管理，通过python编写消费者对nginx的log日志做数据清洗，获取流量信息存入mysql数据库。

2.项目步骤

1.规划整个项目的拓扑结构和思维导图
2、搭建nginx集群作为前端web服务
3、搭建kafka集群实现日志的统一收集
4.搭建zookeeper集群实现来对kafka集群进行配置管理
5、搭建filebeat，调试生产者和消费者
6、通过python编写消费者，通过IP调用淘宝接口将省份，运营商等信息爬取下来
7.清洗nginx日志，收集带宽信息存入数据库
8、创建分布式任务基于流量进行告警监控

3.项目部署

1.环境准备

1.准备好9台Linux机器(1核2G)

2.配置好静态ip地址(我使用的是桥接模式，在同一个局域网内可以和其他Linux机器通信)

vim /etc/sysconfig/network-scripts/ifcfg-ens33

3.配置好本地DNS服务器(114.114.114.114)

vim /etc/resolv.conf

4.修改主机名（推荐用下面的方式，修改了HOSTNAME变量的值，同时也修改了/etc/hostname文件里的内容，永久生效）

hostnamectl  set-hostname  +主机名

5.每一台机器上都写好域名解析（方便后续直接用主机名进行操作）

vim  /etc/hosts

ps：DNS解析的顺序

1、浏览器的缓存
2、本地hosts文件 --linux（/etc/hosts）
3、找本地域名服务器 -- linux（/etc/resolv.conf）

6.安装基本软件（wget是用于获取web的数据，chronyd是时间同步服务）

yum install wget lsof vim -y
yum -y install chrony

7.开启chronyd服务,关闭防火墙服务和selinux（防止防火墙影响主机之间的通信）

systemctl enable chronyd
systemctl start chronyd
systemctl stop firewalld
systemctl disable firewalld

关闭selinux：vim /etc/selinux/config,设置SELINUX=disabled

2.nginx搭建

1.安装好epel源和nginx服务

yum install epel-release -y
yum install  nginx -y

2. 启动nginx并设置为开机自启

systemctl start nginx
systemctl enable nginx

3.编辑配置文件

vim /etc/nginx/nginx.conf
将 
   listen       80 default_server;
修改成：
   listen       80；

ps:对于.conf文件的配置做一个简介

全局块：配置影响nginx全局的指令。一般有运行nginx服务器的用户组，nginx进程pid存放路径，日志存放路径，配置文件引入，允许生成worker process数等。

events块：配置影响nginx服务器或与用户的网络连接。有每个进程的最大连接数，选取哪种事件驱动模型处理连接请求，是否允许同时接受多个网路连接，开启多个网络连接序列化等。

http块：可以嵌套多个server，配置代理，缓存，日志定义等绝大多数功能和第三方模块的配置。如文件引入，mime-type定义，日志自定义，是否使用sendfile传输文件，连接超时时间，单连接请求数等。

server块：配置虚拟主机的相关参数，一个http中可以有多个server。

location块：配置请求的路由，以及各种页面的处理情况

4.自定义一个server用来检测

ps：后面搭建filebeat时就是收集/var/log/nginx/sc/access.log下的日志

vim  /etc/nginx/conf.d/sc.conf

server {
    listen 80 default_server;
    server_name  www.sc.com;
    #html源代码文本路径    
    root         /usr/share/nginx/html;
    #访问日志的保存路径
    access_log  /var/log/nginx/sc/access.log main;

    location  / {

    }
}

5.语法检测

nginx -t

6.重新加载nginx服务

nginx -s  reload

3.kafka,zookeeper搭建

ps：kafka是一种消息中间件，和其他MQ相比，有着单机10万级高吞吐量，高可用性强，分布式，一个partition多个replica，少数宕机不会丢失数据，一般配合大数据类系统进行实时数据计算，日志分析场景。

broker:kafka的节点。一台服务器相当于一个节点

topic:主题，消息的分类。比如nginx，mysql日志给不同的主题，就是不同的类型。

partition:分区。提高吞吐量，提高并发性。（多个partition会导致消息顺序混乱，如果对消息顺序有要求就只设置一个partition就可以了）

replica: 副本。完整的分区备份。

ps：zookeeper是一种分布式应用协调管理服务，具有配置管理，域名管理，分布式数据存储，集群管理等功能，在本次项目中用于对kafka集群进行配置（topic,partition,replica等）管理

kafka3.0版本已经脱离zookeeper管理，自己实现了zookeeper功能

1.安装基本软件(虽然kafka自带zookeeper软件，但实测不太好用，所以用官方标准的)

#安装java
yum install java wget  -y
#安装kafka
wget   https://mirrors.bfsu.edu.cn/apache/kafka/2.8.1/kafka_2.12-2.8.1.tgz 
#解压到/opt目录下
tar  xf  kafka_2.12-2.8.1.tgz
#安装zookeeper
wget   https://mirrors.bfsu.edu.cn/apache/zookeeper/zookeeper-3.6.3/apache-zookeeper-3.6.3-bin.tar.gz
#解压到/opt目录下
tar  xf  apache-zookeeper-3.6.3-bin.tar.gz

2.配置kafka（修改/opt/kafka_2.12-2.8.1/config /server.properties文件）

broker.id=x(第一台为1以此类推)
listeners=PLAINTEXT://nginx-kafka01（主机名）:9092
zookeeper.connect=192.168.1.213:2181,192.168.1.214:2181,192.168.1.215:2181（三台Linux的IP）

ps:用zookeeper管理多个kafka集群(一个集群一个目录)

zookeeper.connect=192.168.1.213:2181/kafka1(第一组集群放在zookeeper路径/kafka1下面),192.168.1.214:2181/kafka2(第二组集群放在zookeeper路径/kafka2下面),192.168.1.215:2181/kafka3（第三组集群放在zookeeper路径/kafka3下面）等

3.配置zookeeper(3888和4888都是端口,一个用于数据传输，一个用于检验存活性和选举)

cd /opt/apache-zookeeper-3.6.3-bin/confs
cp zoo_sample.cfg zoo.cfg
#修改zoo.cfg, 添加如下三行：
server.1=192.168.1.213:3888:4888
server.2=192.168.1.214:3888:4888
server.3=192.168.1.215:3888:4888

4.创建/tmp/zookeeper目录，在目录中添加myid文件(文件内容就是本机指定的zookeeper id)

如：在192.168.1.213机器上
echo 1 > /tmp/zookeeper/myid

5.启动zookeeper(3台)

bin/zkServer.sh start

6.查看zookeeper状态（如下）

bin/zkServer.sh status

ps：开启zk和kafka的时候，一定是先启动zk，再启动kafka
关闭服务的时候，kafka先关闭，再关闭zk

7.查看zookeeper管理kafka的配置（ls时是以tree形式进行查看--必须从/开始搜索）

cd /opt/apache-zookeeper-3.6.3-bin
cd bin
./zkCli.sh

示例如下：（三个ids对应三台kafka机器）

8.启动kafka（-daemon是启动守护进程）

bin/kafka-server-start.sh -daemon config/server.properties

9.创建topic

bin/kafka-topics.sh --create --zookeeper 192.168.1.213:2181 --replication-factor 3 --partitions 3 --topic sc

bin/kafka-topics.sh --list --zookeeper 192.168.1.213:2181

10.创建生产者和消费者（kafka服务中自带用于测试的生产者和消费者）进行测试，检测输入的数据是否可以被消费

#创建生产者
bin/kafka-console-producer.sh --broker-list 192.168.1.213:9092 --topic sc
#创建消费者    
bin/kafka-console-consumer.sh --bootstrap-server 192.168.1.215:9092 --topic sc --from-beginning

示例如下：一台作为生产者输入数据，另一台作为消费者接收数据

4.filebeat部署

Filebeat 是使用 Golang 实现的轻量型日志采集器，也是 Elasticsearch stack 里面的一员。本质上是一个 agent ，可以安装在各个节点上，根据配置读取对应位置的日志，并上报到相应的地方去。

Filebeat 由两个主要组件组成：harvester 和 prospector。

采集器 harvester 的主要职责是读取单个文件的内容。读取每个文件，并将内容发送到 the output。每个文件启动一个 harvester，harvester 负责打开和关闭文件，这意味着在运行时文件描述符保持打开状态。如果文件在读取时被删除或重命名，Filebeat 将继续读取文件。

查找器 prospector 的主要职责是管理 harvester 并找到所有要读取的文件来源。如果输入类型为日志，则查找器将查找路径匹配的所有文件，并为每个文件启动一个 harvester。每个 prospector 都在自己的 Go 协程中运行。

1.安装依赖包

rpm --import https://packages.elastic.co/GPG-KEY-elasticsearch

2.编辑/etc/yum.repos.d/fb.repo文件

[elastic-7.x]
name=Elastic repository for 7.x packages
baseurl=https://artifacts.elastic.co/packages/7.x/yum
gpgcheck=1
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
enabled=1
autorefresh=1
type=rpm-md

3.安装filebeat

yum  install  filebeat -y

4.检查filebeat的安装路径及其相关文件

rpm -qa  |grep filebeat
rpm -ql  filebeat

5.修改配置文件（vim /etc/filebeat/filebeat.yml）

内容如下：

filebeat.inputs:
- type: log
  # Change to true to enable this input configuration.
  enabled: true
  # Paths that should be crawled and fetched. Glob based paths.
  paths:
    - /var/log/nginx/sc/access.log 
#==========------------------------------kafka-----------------------------------
output.kafka:
  hosts: ["192.168.1.213:9092","192.168.1.214:9092","192.168.1.215:9092"]
  topic: nginxlog
  keep_alive: 10s

6.设置开机启动服务，并检查filebeat是否启动

#设置开机自启
systemctl enable filebeat
#启动服务：
systemctl start  filebeat
# 查看filebeat是否启动
ps -ef |grep filebeat

7.创建主题和消费者来检测数据

#创建主题nginxlog
bin/kafka-topics.sh --create --zookeeper 192.168.1.213:2181 --replication-factor 3 --partitions 1 --topic nginxlog

#创建消费者来检测日志是否生产过来
bin/kafka-console-consumer.sh --bootstrap-server 192.168.1.215:9092 --topic nginxlog --from-beginning

当我访问自己搭建的web服务时，filebeat将access.log的日志输出，消费者成功接收数据，表示filebeat搭建成功！

5.编写python创建消费者并将收集的数据写入数据库

ps：也可以使用pandas去实现

import json
import requests
import time
import pymysql

#连接数据库
db = pymysql.connect(
    host = "192.168.1.213",      #mysql主机ip
    user = "qilin",              #用户名
    passwd = "123456",            #密码
    database = "weblog2"                 #数据库
)

taobao_url = "https://ip.taobao.com/outGetIpInfo?accessKey=alibaba-inc&ip="
#查询ip地址的信息（省份和运营商isp），通过taobao网的接口
def resolv_ip(ip):
    response = requests.get(taobao_url+ip)
    if response.status_code == 200:
       tmp_dict = json.loads(response.text)
       prov = tmp_dict["data"]["region"]
       isp = tmp_dict["data"]["isp"]
       return prov,isp
    return None,None

#将日志里读取的格式转换为我们指定的格式
def trans_time(dt):
     #把字符串转成时间格式
    timeArray = time.strptime(dt, "%d/%b/%Y:%H:%M:%S")
    #timeStamp = int(time.mktime(timeArray))
    #把时间格式转成字符串
    new_time = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)    
    return new_time

#从kafka里获取数据，清洗为我们需要的ip，时间，带宽
from pykafka import KafkaClient
client = KafkaClient(hosts="192.168.1.213:9092,192.168.1.214:9092,192.168.1.215:9092")
topic = client.topics['nginxlog'] 
balanced_consumer = topic.get_balanced_consumer(
  consumer_group='testgroup',
    #自动提交offset
  auto_commit_enable=True,    
  zookeeper_connect='nginx-kafka01:2181,nginx-kafka02:2181,nginx-kafka03:2181'
) 
#consumer = topic.get_simple_consumer()
i = 1
for message in balanced_consumer:
   if message is not None: 
       line = json.loads(message.value.decode("utf-8"))
       log = line["message"]
       tmp_lst = log.split()
       ip = tmp_lst[0]
       dt = tmp_lst[3].replace("[","")
       bt = tmp_lst[9]
       dt = trans_time(dt)
       prov, isp = resolv_ip(ip)
       if prov and isp:
          print(dt,prov,isp,bt)

          cursor = db.cursor()
          try:
            cursor.execute(f"insert into mynginxlog values({i},{dt},'{prov}','{isp}',{bt})")
            db.commit()
            i += 1
          except Exception as e:
              print("插入失败",e)
              db.rollback()

# create table mynginxlog(
# id int primary key auto_increment,
# dt datetime not null,
# prov varchar(20),
# isp varchar(20),
# bd float
# )charset=utf8;

#关闭数据库
db.close()

效果如下：

6.创建分布式任务基于流量进行告警监控

1.了解Celery

celery 是由python开发的，简单、灵活、可靠的分布式任务处理框架

ps：celery 的5个角色
Task：就是任务，有异步任务和定时任务

Broker：中间人，接收生产者发来的消息即Task，将任务存入队列。任务的消费者是Worker。

Worker：执行任务的单元，它实时监控消息队列，如果有任务就获取任务并执行它。

Beat：定时任务调度器，根据配置定时将任务发送给Broker。

Backend：结果存储在redis中

Celery本身不提供队列服务，推荐用Redis或RabbitMQ实现队列服务。
redis通常在数据库做缓存，也可以作为消息中间件，存储任务及结果

2.安装redis并修改监听ip

ps：redis是一种key-value键值存储的数据库。
redis开启持久化的两种模式：
AOF 全持久化模式每一次操作日志都会同步到磁盘
RDB 半持久化模式定时的将内存内容快照写入磁盘

yum  install epel-release -y
yum install redis -y

3.修改监听ip并启动服务

#修改监听ip
vim /etc/redis.conf
bind 0.0.0
#启动redis
systemctl start redis.0

4.安装Celery

pip install  celery

5.编辑Celery

config.py

from celery.schedules import crontab
#配置消息中间件的地址
BROKER_URL = "redis://192.168.1.213:6379/1"
#配置结果存放地址
CELERY_RESULT_BACKND = "redis://192.168.1.213:6379/2"
#启动celery时，导入任务
CELERY_IMPORTS = {
    'celery_tasks'
}
#时区
CELERY_TIMEZONE = "Asia/Shanghai"
#设置定时任务
CELERYBEAT_SCHEDULE = {
    'log-every-minute':{
        'task':'celery_tasks.scheduled_task',
        'schedule':crontab(minute='*/1')
    }
}

app.py

from celery import Celery
#实例化对象，传入一个名字
celery_app = Celery('celery_app')
celery_app.config_from_object('config')

celery_tasks.py

from app import celery_app
@celery_app.task
def scheduled_task(*args,**kwargs):
    print("this is schedule task")

4.项目心得

1.通过网络拓扑图和思维导图的建立，提高了项目整体的落实和效率
2.对搭建前端web服务，集群的部署更为熟悉
3.对于kafka集群统一收集web日志更为了解，对于zookeeper管理kafka集群有了更深的理解
4.对于脑裂现象的出现和解决有了更加清晰的认识
5.通过团队交流提高了团队协作能力，遇到困难去CSDN博客查阅，加强了自主学习能力和troubleshooting能力

5.常见问题

1.为什么要做反向代理集群，以及怎么实现负载均衡

DNS其实也可以实现负载均衡，www.sc.com可以解析成多个ip地址，对应相应的nginx服务器，一般来说，会以轮询的方式解析成各个ip。但是如果其中一台服务器挂了，DNS不会立马将这个ip地址去掉，还是会解析成挂掉的ip，可能会造成访问失败。虽然客户端会有重试机制，但还是会影响用户体验。而在web应用前面加反向代理，客户端不会直接访问到服务器，而是通过代理服务器访问，这样服务器安全性也会提高，负载均衡控制容易很多。

反向代理机通过keepalived双vip互为主备实现高可用，提高资源利用率。

vip：www.sc.com解析成两个虚拟ip

互为主备：一台作为master，一台backup

2.为什么使用kafka做日志收集

1、可以更直观地排除错误所在，直接将数据导入到mysql里面的话，我们排错需要登录三台nginx服务器查看日志，而吐到kafka里面方便定位故障

2.日志集中管理，后续需要日志的程序直接从kafka获取即可，尽可能减少日志处理对nginx里web服务的影响

3.kafka中leader的作用

leader和follower：一个分区有多个副本，选举一台作为leader，其他作为follower存放在ISR队列中

生产者和消费者只和leader打交道，leader接收数据后，再根据ISR同步到其他follower

生产者跟任何一台broker连接都可以，虽然这个broker可能没有leader部署，但broker会返回当前请求副本leader的信息，最后生产者再跟leader交互

2.kafka如何保证高可用

多个broker+多个partition+多个replica

ISR->in-sync-replica 集合列表（需要同步的follower集合）
比如说5个副本，1个leader,4follower-》ISR
有一条消息来了，leader怎么知道要同步哪些副本呢？根据ISR来。

如果一个follower挂了，那就从这个列表里别除了
如果一个follower卡住或者同步过慢它也会从ISR里删除
如果有一个机器宕机，后续启动之后想要重新加入ISR,必须得同步到HW(最高水位线)值

3.如何保证数据一致性

1、生产者可以通过request.required.acks设置ack可以为0（生产者不需要接收响应，发完就发下一条），1（默认，1 eadert收到就会给生产发送响应)，-1（等待ISR列表中的每一个副本都接收到，才给生产者响应）
2、消费者消费数据时，引入了High Water Mark机制。木桶效应，只能消费ISR列表里偏移量最少的副本的消息数量。

4.zookeeper在kafka中的作用

1、保存kafka的元信息，topic,parition,副本信息
2、选举kafka controller （通过抢占的方式来选出controller。选举出的kafka controller管理kafka副本的leader和follwer:同步，选举）

5.zookeeper中leader的选举及数据的同步

一致性算法：少数服从多数原则，票数过半的当选为leader（>=n//2+1）

zookeeper集群中，节点存活数必须过半，集群才能正常使用（若不是这样，49%的正在使用，而之前51%宕机的机器突然启动，这样leader就会混乱，从而导致脑裂现象）

Zk集群节点数一般设置为奇数，方便选举

数据同步：只要过半节点同步完成，就表示数据已经commit。zookeeper不是强一致性，它属于最终一致性

6. 消费者如何知道下次从哪里开始消费

消费者消费的时候，会记录自己的消费偏移量，消费偏移量可以自己保存在本地，也可以提交到kafka的_consumer_offset主题里面保存

kafka日志每个分区保存时按段保存的：segment（一个segment由一个index和log文件组成） /data假设有如下segment
00.log 11.log 22.log

00.log保存的是第一条到11条的日志
11.log保存的是第12条到第22条的日志
22.log保存的是第22条之后的日志

数据的存储目录：
文件夹：-<分区号>
分出多个segment便于做数据清理
kafka可以按照两个维度清理数据
1、按大小
2、按时间
任意一个条件满足，都可以触发日志清理

你可能感兴趣的:(kafka,zookeeper,分布式,运维开发)

GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
【Death Note】网吧战神之7天爆肝渗透测试死亡笔记_sqlmap在默认情况下除了使用 char() 函数防止出现单引号 2401_84561374 程序员笔记
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！特殊服务端口2181zookeeper服务未授权访问
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
慢速连接攻击是什么？慢速连接攻击怎么防护？快快小毛毛网络 ddos 服务器
慢速连接攻击（SlowConnectionAttack），又称慢速攻击（SlowlorisAttack），是一种网络攻击技术，旨在通过占用服务器上的所有可用连接资源来使其无法响应正常请求。与传统的拒绝服务（DoS）和分布式拒绝服务（DDoS）攻击不同，慢速攻击并不依赖于发送大量数据包来消耗带宽，而是利用HTTP、TCP或SSL等协议的特性，通过发送大量不完整的请求或缓慢发送数据来占用服务器资源，使
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
Gobelieve 架构 weixin_34099526 数据库 golang json
Gobelievegithub地址声明:转简书JackieF的文章,为了自己方便copy了一份,加一些自己的东西.链接：https://www.jianshu.com/p/8121d6e85282IMCore主要分三大块:im客户连接服务器（可分布式部署，暂无负载均衡模块)imr路由查询服务器（主要解决im分布式部署的问题）ims存储服务器(主从部署)基础模块1.数据包协议包：header(12)
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
linux挂载文件夹小码快撩 linux
1.使用NFS（NetworkFileSystem）NFS是一种分布式文件系统协议，允许一个系统将其文件系统的一部分共享给其他系统。检查是否安装NFSrpm-qa|grepnfs2.启动和启用NFS服务假设服务名称为nfs-server.service，你可以使用以下命令启动和启用它：sudosystemctlstartnfs-server.servicesudosystemctlenablenf
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
Rides实现分布式锁，保障数据一致性,Redisson分布式事务处理朱杰jjj 缓存分布式
分布式环境下分布式锁有三种方式：基于数据库分布式锁基于Redis分布式锁基于zk分布式锁本帖只介绍Redis分布式锁为什么需要用到分布式锁？在单机环境下一个服务中多个线程对同一个事物或数据资源进行操作时，可以通过添加加锁方式（synchronized和lock）来解决数据一致性的问题。但是如果出现多个服务的情况下，这时候我们在通过synchronized和lock的方式来加锁会出现问题，因为多个服
机电综合管理系统架构小熊coder 机载系统系统架构
文章目录一、机电综合管理系统架构1.系统概述2.架构层次3.核心组件二、余度管理1.余度概述2.硬件冗余3.软件冗余4.通信冗余三、总线架构1.MIL-STD-1553B总线2.ARINC429总线3.ARINC629总线4.AFDX/ARINC664总线四、未来发展趋势1.分布式架构2.高速网络3.智能化与自动化结语机电综合管理系统（ElectromechanicalManagementSyst
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
Dubbo架构概览：服务注册与发现、远程调用、监控与管理木南曌 dubbo 架构
Dubbo是一个成熟的、高性能的、基于Java的微服务开发框架，它主要用于解决分布式系统中的服务治理问题，包括服务的注册与发现、远程过程调用（RPC）、服务监控与管理等多个关键环节。以下是Dubbo架构概览的详细介绍：服务注册与发现Dubbo的服务注册与发现机制是其核心功能之一，它依赖于注册中心来管理服务的生命周期和定位服务提供者。1.服务提供者（Provider）服务提供者是实际提供服务的节点，
nfs服务搭建 GHope
nfs是什么？基哥度娘网络文件系统(NFS)是sun微系统最初开发的分布式文件系统协议,[1]允许客户端计算机上的用户通过计算机网络访问文件很像本地存储被访问。NFS与许多其他协议一样,在开放网络计算远程过程调用(很久以前RPC)系统上建立。NFS是在请求注释(RFC)中定义的开放标准,允许任何人实现协议。NFSNFS优势：节省本地存储空间，将常用的数据存放在一台NFS服务器上且可以通过网络访问，
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
Docker安装Kafka和Kafka-Manager 阿靖哦
本文介绍如何通过Docker安装kafka与kafka界面管理界面一、拉取zookeeper由于kafka需要依赖于zookeeper，因此这里先运行zookeeper1、拉取镜像dockerpullwurstmeister/zookeeper2、启动dockerrun-d--namezookeeper-p2181:2181-eTZ="Asia/Shanghai"--restartalwayswu
主流行架构 rainbowcheng 架构架构
nexus，gitlab,svn,jenkins,sonar,docker，apollo，catteambition，axure，蓝湖，禅道,WCP；redis，kafka，es，zookeeper，dubbo，shardingjdbc，mysql，InfluxDB，Telegraf，Grafana，Nginx，xxl-job，Neo4j,NebulaGraph是一个高性能的,NOSQL图形数据库
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST