陌上出

TIDB集群搭建-流水线

官方文档：TIDB简介

 TiDB 是 PingCAP 公司设计的开源分布式 HTAP (Hybrid Transactional and Analytical Processing) 数据库，结合了传统的 RDBMS 和 NoSQL 的最佳特性。TiDB 兼容 MySQL，支持无限的水平扩展，具备强一致性和高可用性。TiDB 的目标是为 OLTP (Online Transactional Processing) 和 OLAP (Online Analytical Processing) 场景提供一站式的解决方案。

官方链接:https://pingcap.com/docs-cn/v3.0/overview/

系统的初始化在此不在赘述，直接贴出本次实验所用系统

 [root@localhost yum.repos.d]# lsb_release -a
 LSB Version:    :core-4.1-amd64:core-4.1-noarch:cxx-4.1-amd64:cxx-4.1-noarch:desktop-4.1-amd64:desktop-4.1-noarch:languages-4.1-amd64:languages-4.1-noarch:printing-4.1-amd64:printing-4.1-noarch
 Distributor ID: CentOS
 Description:    CentOS Linux release 7.6.1810 (Core) 
 Release:    7.6.1810
 Codename:   Core

## 这个是本次实验所用系统的角色分配

Host	Hostname	Tidb	Pd	Tikv	Grafana	Tispark	Tidb-ansible	cpu	ram
192.168.2.91	tbpd1	√	√					2*12	16G
192.168.2.92	tbpd2	√	√					2*12	16G
192.168.9.93	pd3		√		√	√	√	2*12	32G
192.168.9.94	tikv1			√				2*12	16G
192.168.9.95	tikv2			√				2*12	16G
192.168.9.96	tikv3			√				2*12	16G

正式开始搭建TIDB集群

一些约定
账户分为root和yx，密码均为123
所有服务安装目录均为/home/yx/server

关闭ssh服务的dns反解析，很重要，关系到后期是否能成功启动。
```
 vim /etc/ssh/sshd_config
 UseDNS no
 systemctl reload sshd.service
```
此次实验选择的中控机是93，因此首先切换到93服务器

安装依赖包

 yum -y install epel-release git curl sshpass
 yum -y install python-pip

普通用户免密登录root，新增一行

 vim /etc/sudoers
 yx ALL=(ALL) NOPASSWD: ALL

以yx用户登录中控机，生成ssh key，提示 Enter passphrase 时直接回车即可。执行成功后，ssh 私钥文件为 /home/yx/.ssh/id_rsa， ssh 公钥文件为 /home/yx/.ssh/id_rsa.pub。

如果是已有公钥的服务器，此处直接拷贝id_rsa.pub这个文件到其他五台服务器的/home/yx/.ssh/authorized_keys文件下就好。

 [yx@pd3 ~]$ ssh-keygen -t rsa
 Generating public/private rsa key pair.
 Enter file in which to save the key (/home/yx/.ssh/id_rsa): 
 Created directory '/home/yx/.ssh'.
 Enter passphrase (empty for no passphrase): 
 Enter same passphrase again: 
 Your identification has been saved in /home/yx/.ssh/id_rsa.
 Your public key has been saved in /home/yx/.ssh/id_rsa.pub.
 The key fingerprint is:
 SHA256:nEIhIFBHMJTJsSC20wQcRNnxTzznXx2OkjEQpbrMF3Y [email protected]
 The key's randomart image is:
 +---[RSA 2048]----+
 |XX%X= .  oo.     |
 |o=B=....  o      |
 | o.. ..+ o o   . |
 |  .  .o.=.  + + .|
 |      .oS+ E o o |
 |      o.o + o    |
 |       + . .     |
 |        .        |
 |                 |
 +----[SHA256]-----+于版本的选择

关于版本的选择

tidb-ansible 分支	TiDB 版本	备注
release-2.0	2.0 版本	最新 2.0 稳定版本，可用于生产环境。
release-2.1	2.1 版本	最新 2.1 稳定版本，可用于生产环境（建议）。
3.0 版本	v3.0.0-beta、v3.0.0-beta.1 等	目前是 beta 版本，不建议用于生产环境。
latest 版本	None	包含最新特性，每日更新，不建议用于生产环境。

安装tidb-ansible

在中控机器上下载 TiDB-Ansible 2.1，此处是93服务器

 [yx@pd3 server]$ git clone -b release-2.1 https://github.com/pingcap/tidb-ansible.git

以 yx用户登录中控机，请务必按以下方式通过 pip 安装 Ansible 及其相关依赖的指定版本，否则会有兼容问题。

 cd /home/yx/server/tidb-ansible
 sudo pip install -r ./requirements.txt  -i https://pypi.tuna.tsinghua.edu.cn/simple
 ansible --version
 ansible 2.6.17

配置ansible的ssh互信规则

在中控机上配置部署机器 ssh 互信及 sudo 规则

此处有两个选择，要么按照我的操作步骤来，要么手动拷贝中控机的公钥到其他服务器上，做免秘钥认证
编辑hosts.ini文件，添加组和username

[yx@pd3 tidb-ansible]$ vim hosts.ini 
[servers]
192.168.9.91
192.168.9.92
192.168.9.93
192.168.9.94
192.168.9.95
192.168.9.96

[all:vars]
username = yx    //官方是要创建tidb用户，此处统一使用yx用户
ntp_server = pool.ntp.org

执行以下命令，按提示输入部署目标机器 root 用户密码。该步骤将在部署目标机器上创建 yx 用户，并配置 sudo 规则，配置中控机与部署目标机器之间的 ssh 互信。

[yx@pd3 tidb-ansible]$ ansible-playbook -i hosts.ini create_users.yml -u root -k
SSH password: 
...
PLAY RECAP **********************************************************************************************************************************************************************************
192.168.9.91               : ok=3    changed=2    unreachable=0    failed=0   
192.168.9.92               : ok=3    changed=2    unreachable=0    failed=0   
192.168.9.93               : ok=3    changed=2    unreachable=0    failed=0   
192.168.9.94               : ok=3    changed=2    unreachable=0    failed=0   
192.168.9.95               : ok=3    changed=2    unreachable=0    failed=0   
192.168.9.96               : ok=3    changed=2    unreachable=0    failed=0   

Congrats! All goes well. :-)

创建完成后可以ssh试下能否免密登录其他机器。sudo也是不要密码的。
可选项：如果其他服务器都是新的，没有安装NTP服务也没有做时间同步，那么就执行以下命令在整个集群上安装NTP服务，反之直接略过。

[yx@pd3 tidb-ansible]$ ansible-playbook -i hosts.ini deploy_ntp.yml -u yx -b -T 600
...
PLAY RECAP **********************************************************************************************************************************************************************************
192.168.9.91               : ok=6    changed=3    unreachable=0    failed=0   
192.168.9.92               : ok=6    changed=3    unreachable=0    failed=0   
192.168.9.93               : ok=6    changed=3    unreachable=0    failed=0   
192.168.9.94               : ok=6    changed=3    unreachable=0    failed=0   
192.168.9.95               : ok=6    changed=3    unreachable=0    failed=0   
192.168.9.96               : ok=6    changed=3    unreachable=0    failed=0   

Congrats! All goes well. :-)

分配角色，并完成初始化以及部署

对照你的角色分配表，配置inventory.ini文件

[yx@pd3 tidb-ansible]$ vim inventory.ini
## TiDB Cluster Part
[tidb_servers]
192.168.9.91
192.168.9.92

[tikv_servers]
192.168.9.94
192.168.9.95
192.168.9.96

[pd_servers]
192.168.9.91
192.168.9.92
192.168.9.93


[spark_master]	//如果TIspark角色要单独分离出来，需要在master和slave都写上，否则默认安装在TIDB角色上
192.168.9.93
[spark_slaves]	

[lightning_server]

[importer_server]

## Monitoring Part
# prometheus and pushgateway servers
[monitoring_servers]	//监控
192.168.9.93
[grafana_servers]	//监控
192.168.9.93

# node_exporter and blackbox_exporter servers
[monitored_servers]
192.168.9.91
192.168.9.92
192.168.9.93
192.168.9.94
192.168.9.95
192.168.9.96

[alertmanager_servers]
192.168.0.1    //删除掉此行
......
[all:vars]
deploy_dir = /home/yx/server/deploy	//tikv,pd,tidb的安装路径
......
ansible_user = yx		
cluster_name = tidb_colony	//集群名称

执行以下命令如果所有 server 返回 yx表示 ssh 互信配置成功。

[yx@pd3 tidb-ansible]$ ansible -i inventory.ini all -m shell -a 'whoami'
192.168.9.94 | SUCCESS | rc=0 >>
yx

192.168.9.93 | SUCCESS | rc=0 >>
yx

192.168.9.95 | SUCCESS | rc=0 >>
yx

192.168.9.96 | SUCCESS | rc=0 >>
yx

192.168.9.91 | SUCCESS | rc=0 >>
yx

192.168.9.92 | SUCCESS | rc=0 >>
yx

执行以下命令如果所有 server 返回 root 表示 yx用户 sudo 免密码配置成功。

[yx@pd3 tidb-ansible]$ ansible -i inventory.ini all -m shell -a 'whoami' -b
192.168.9.94 | SUCCESS | rc=0 >>
root

192.168.9.92 | SUCCESS | rc=0 >>
root

192.168.9.91 | SUCCESS | rc=0 >>
root

192.168.9.95 | SUCCESS | rc=0 >>
root

192.168.9.96 | SUCCESS | rc=0 >>
root

192.168.9.93 | SUCCESS | rc=0 >>
root

执行 local_prepare.yml playbook，联网下载 TiDB binary 到中控机：

[yx@pd3 tidb-ansible]$ ansible-playbook local_prepare.yml
......
PLAY RECAP **********************************************************************************************************************************************************************************
localhost                  : ok=30   changed=22   unreachable=0    failed=0   

Congrats! All goes well. :-)

初始化系统环境，修改内核参数，因为本次实验所采用硬盘为SAS的HDD，所以需要将脚本里的一些检查配置项注释掉

注释掉硬盘检查

[yx@pd3 tidb-ansible]$ vim roles/machine_benchmark/tasks/fio_randread.yml
  3 #- name: fio randread benchmark on tikv_data_dir disk
  4 #  shell: "cd {{ fio_deploy_dir }} && ./fio -ioengine=psync -bs=32k -fdatasync=1 -thread -rw=randread -size={{ benchmark_size }} -filename=fio_randread_test.txt -name='fio randread test
    ' -iodepth=4 -runtime=60 -numjobs=4 -group_reporting --output-format=json --output=fio_randread_result.json"
  5 #  register: fio_randread
...
 12 #- name: get fio randread iops
 13 #  shell: "python parse_fio_output.py --target='fio_randread_result.json' --read-iops"
 14 #  register: disk_randread_iops
 15 #  args:
 16 #    chdir: "{{ fio_deploy_dir }}/"
 17 #
 18 #- name: get fio randread summary
 19 #  shell: "python parse_fio_output.py --target='fio_randread_result.json' --summary"
 20 #  register: disk_randread_smmary
 21 #  args:
 22 #    chdir: "{{ fio_deploy_dir }}/"
...
  
 33 #- name: Preflight check - Does fio randread iops of tikv_data_dir disk meet requirement
 34 #  fail:
 35 #    msg: 'fio: randread iops of tikv_data_dir disk is too low: {{ disk_randread_iops.stdout }} < {{ min_ssd_randread_iops }}, it is strongly recommended to use SSD disks for TiKV and P
    D, or there might be performance issues.'
 36 #  when: disk_randread_iops.stdout|int < min_ssd_randread_iops|int

注释掉磁盘转数检查

[yx@pd3 tidb-ansible]$ vim roles/machine_benchmark/tasks/fio_randread_write_latency.yml
 39 #- name: Preflight check - Does fio mixed randread and sequential write latency of tikv_data_dir disk meet requirement - randread
 40 #  fail:
 41 #    msg: 'fio mixed randread and sequential write test: randread latency of  tikv_data_dir disk is too low: {{ disk_mix_randread_lat.stdout }} ns > {{ max_ssd_mix_randread_lat }} ns, i
    t is strongly recommended to use SSD disks for TiKV and PD, or there might be performance issues.'
 42 #  when: disk_mix_randread_lat.stdout|int > max_ssd_mix_randread_lat|int
 43 
 44 #- name: Preflight check - Does fio mixed randread and sequential write latency of tikv_data_dir disk meet requirement - sequential write
 45 #  fail:
 46 #    msg: 'fio mixed randread and sequential write test: sequential write latency of tikv_data_dir disk is too low: {{ disk_mix_write_lat.stdout }} ns > {{ max_ssd_mix_write_lat }} ns, 
    it is strongly recommended to use SSD disks for TiKV and PD, or there might be performance issues.'
 47 #  when: disk_mix_write_lat.stdout|int > max_ssd_mix_write_lat|int

也是磁盘转数

[yx@pd3 tidb-ansible]$ vim bootstrap.yml
 42 #    - { role: machine_benchmark, when: not dev_mode|default(false) }

注释掉监控主机检测

[yx@pd3 tidb-ansible]$ vim deploy.yml
 23    # - check_config_static
[yx@pd3 tidb-ansible]$ vim bootstrap.yml
 21     #- check_config_static
[yx@pd3 tidb-ansible]$ vim start.yml
23     #- check_config_static
[yx@pd3 tidb-ansible]$ vim stop.yml
23    # - check_config_static

开始初始化系统参数

[yx@pd3 tidb-ansible]$ ansible-playbook bootstrap.yml -T 600
...
PLAY RECAP **********************************************************************************************************************************************************************************
192.168.9.91               : ok=34   changed=8    unreachable=0    failed=0   
192.168.9.92               : ok=34   changed=8    unreachable=0    failed=0   
192.168.9.93               : ok=33   changed=9    unreachable=0    failed=0   
192.168.9.94               : ok=34   changed=8    unreachable=0    failed=0   
192.168.9.95               : ok=34   changed=8    unreachable=0    failed=0   
192.168.9.96               : ok=34   changed=8    unreachable=0    failed=0   
localhost                  : ok=2    changed=2    unreachable=0    failed=0   

Congrats! All goes well. :-)

部署 TiDB 集群软件

[yx@pd3 tidb-ansible]$ ansible-playbook deploy.yml -T 600
...
PLAY RECAP **********************************************************************************************************************************************************************************
192.168.9.91               : ok=76   changed=34   unreachable=0    failed=0   
192.168.9.92               : ok=76   changed=34   unreachable=0    failed=0   
192.168.9.93               : ok=52   changed=23   unreachable=0    failed=0   
192.168.9.94               : ok=63   changed=26   unreachable=0    failed=0   
192.168.9.95               : ok=63   changed=26   unreachable=0    failed=0   
192.168.9.96               : ok=63   changed=26   unreachable=0    failed=0   

Congrats! All goes well. :-)

启动 TiDB 集群

[yx@pd3 tidb-ansible]$ ansible-playbook start.yml
PLAY RECAP **********************************************************************************************************************************************************************************
192.168.9.91               : ok=15   changed=4    unreachable=0    failed=0   
192.168.9.92               : ok=15   changed=4    unreachable=0    failed=0   
192.168.9.93               : ok=12   changed=3    unreachable=0    failed=0   
192.168.9.94               : ok=14   changed=3    unreachable=0    failed=0   
192.168.9.95               : ok=14   changed=3    unreachable=0    failed=0   
192.168.9.96               : ok=14   changed=3    unreachable=0    failed=0   

Congrats! All goes well. :-)

如果启动失败，记得先执行

ansible-playbook stop.yml 然后再重新start.yml

将tidb-ansible部署到另外一台服务器上，以防第一台中控机挂掉

部署第二台中控机，记住这个是在tidb上执行的。本实验ip为192.168.9.92，手动拷贝公钥的时候注意换行问题

yum -y install epel-release git curl sshpass
yum -y install python-pip
拷贝第一台中控机的tidb-ansible到本地
cd /home/yx/server/tidb-ansible
sudo pip install -r ./requirements.txt  -i https://pypi.tuna.tsinghua.edu.cn/simple
ssh-keygen -t rsa
ansible-playbook -i hosts.ini create_users.yml -u root -k	//这一步应该可以省略掉

2.执行完以上命令就可以在执行ansible-playbook stop.yml -l 192.168.9.95了

查看TIDB和Tispark集群

测试连接 TiDB 集群，推荐在 TiDB 前配置负载均衡来对外统一提供 SQL 接口。
使用 MySQL 客户端连接测试，TCP 4000 端口是 TiDB 服务默认端口。

mysql -u root -h 192.168.9.91 -P 4000
SET PASSWORD FOR 'root'@'192.168.2.%' = 'Wdty@2014';
GRANT ALL PRIVILEGES ON *.* TO 'wdty'@'192.168.2.%' WITH GRANT OPTION;
SET PASSWORD FOR 'wdty'@'192.168.2.%' = 'Wdty@2014';

通过浏览器访问监控平台。

http://192.168.9.93:3000 默认帐号密码是：admin/admin

查看TIspark集群，本次实验应该是只显示一个93的，截图之所以多了一个是因为下一步我将手动添加一台TIspark slave]()

添加Tispark slave

Spark 推荐 32G 内存以上的配额。请在配置中预留 25% 的内存给操作系统。
Spark 推荐每台计算节点配备 CPU 累计 8 到 16 核以上。你可以初始设定分配所有 CPU 核给 Spark。
Spark 的具体配置方式也请参考官方说明。以下为根据 spark-env.sh 配置的范例：

SPARK_EXECUTOR_MEMORY=32g
SPARK_WORKER_MEMORY=32g
SPARK_WORKER_CORES=8

手动添加Tispark，不用在tidb-ansible中进行任何操作

此处新添加的Tispark角色是在92服务器

拷贝93的deploy下的整个spark目录到92的deploy下

[yx@pd3 ~]$ scp -r ~/server/deploy/spark  192.168.9.92:/home/yx/server/deploy/

编辑配置文件，添加或修改pd配置

[yx@dbpd2 ~]$ vim ~/server/deploy/spark/conf/spark-defaults.conf
...
spark.master   spark://192.168.9.93:7077
spark.tispark.pd.addresses   192.168.9.91:2379,192.168.9.92:2379,192.168.9.93:2379
[yx@dbpd2 conf]$ cat spark-env.sh
SPARK_MASTER_HOST=192.168.9.93	//最后的这个要写对，必须是master的ip

TiSpark 需要 JDK 1.8+ 以及 Scala 2.11（Spark2.0+ 默认 Scala 版本）。此处只需要安装jdk就好

[yx@dbpd2 ~]$ tar zxvf jdk-1.8.tar.gz	&& mv jdk ~/server/
[yx@dbpd2 ~]$ sudo vim /etc/profile
export JAVA_HOME=/home/yx/server/jdk
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

[yx@dbpd2 ~]$ source /etc/profile
[yx@dbpd2 ~]$ java -version
java version "1.8.0_91"
Java(TM) SE Runtime Environment (build 1.8.0_91-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.91-b14, mixed mode)

启动93的Tispark master，进入/home/yx/server/deploy/spark/sbin路径下，如果TIspark的master以及启动就不需要再次启动了。

[yx@pd3 sbin]$ ./start-master.sh 
starting org.apache.spark.deploy.master.Master, logging to /home/yx/server/deploy/spark/logs/spark-yx-org.apache.spark.deploy.master.Master-1-dbpd2.out

启动92的Tispark slave。

[yx@dbpd2 sbin]$ ./start-slave.sh spark://192.168.9.93:7077
starting org.apache.spark.deploy.worker.Worker, logging to /home/yx/server/deploy/spark/logs/spark-yx-org.apache.spark.deploy.worker.Worker-1-dbpd1.out

此时在Workers 下已经出现了我们新添加的92 slave

通过tidb-ansible添加Tispark

切换到93服务器，也就是中控机。编辑inventory.ini文件

[yx@pd3 tidb-ansible]$ vim inventory.ini 
[spark_master]
192.168.9.93

[spark_slaves]
192.168.9.91

初始化新添加的Tispark

[yx@pd3 tidb-ansible]$ ansible-playbook bootstrap.yml

部署Tispark的slave

[yx@pd3 tidb-ansible]$ ansible-playbook deploy.yml -T 600

启动集群

[yx@pd3 tidb-ansible]$ ansible-playbook start.yml
[yx@pd3 tidb-ansible]$ ansible-playbook start.yml -l 192.168.9.91 //此方法没有经过测试，但感觉可行

记得在http://192.168.9.93:8080/ 页面验证是否添加成功。

TIDB的扩容缩容

参考官网：https://pingcap.com/docs-cn/dev/how-to/scale/with-ansible/

无论是扩容哪个角色都需要提前执行的初始化命令，此处实验用的是新服务器，如果是已有服务的注意公钥

新增节点上执行以下命令
[yx@kv5 ~]$ sudo vim /etc/security/limits.conf
yx        -           nofile        1000000

[yx@kv5 ~]$ sudo vim /etc/pam.d/login
#此处系统为Centos 7 ，路径是lib64，其它系统有可能是lib
session required /lib64/security/pam_limits.so

[yx@kv5 ~]$ mkdir ~/.ssh
[yx@kv5 ~]$ chmod 700 ~/.ssh/
[yx@kv5 ~]$ chmod 600 ~/.ssh/authorized_keys
#此处需要注意，如果中控机只有一台可以直接将中控机的id_rsa.pub拷贝到新的kv服务器，如果有多台中控机，记得将它们的公钥全部拷到新添加的角色服务器。
#在中控机上执行
[yx@dbpd2 tidb-ansible]$ scp -p ~/.ssh/id_rsa.pub [email protected]:/home/yx/.ssh/authorized_keys
[yx@kv5 ~]$ chmod 600 ~/.ssh/authorized_keys

KV&TIDB扩容

KV和TIDB添加方法完全一样，注意修改host.ini和inventory.ini文件时ip放在相对应的模组里就好。
注意：如果有两台中控机的话，记得保持host.ini和inventory.ini以及ssh密钥的一致性。
新加一台kv4，ip为192.168.9.97 。在中控机上执行

[yx@dbpd2 tidb-ansible]$ vim hosts.ini 
[servers]
192.168.9.91
192.168.9.92
192.168.9.93
192.168.9.94
192.168.9.95
192.168.9.96
192.168.9.97

编辑 inventory.ini 文件，添加节点信息，此处添加的是kv：

[yx@dbpd2 tidb-ansible]$ vim inventory.ini
...
[tikv_servers]
192.168.9.94
192.168.9.95
192.168.9.96
192.168.9.97
...
[monitored_servers]
192.168.9.91
192.168.9.92
192.168.9.93
192.168.9.94
192.168.9.95
192.168.9.96
192.168.9.97

执行以下命令，按提示输入部署目标机器 root 用户密码。该步骤将在部署目标机器上创建 yx 用户，并配置 sudo 规则，配置中控机与部署目标机器之间的 ssh 互信。

[yx@dbpd2 tidb-ansible]$ ansible-playbook -i hosts.ini create_users.yml -u root -k -l 192.168.9.97

在新的kv上安装ntp服务并启动

[yx@dbpd2 tidb-ansible]$ ansible-playbook -i hosts.ini deploy_ntp.yml -u yx -b -T 600 -l 192.168.9.97

初始化新增kv

[yx@dbpd2 tidb-ansible]$ ansible-playbook bootstrap.yml -l 192.168.9.97
#如果一次新增多个节点可以用逗号隔开ip，例如
#ansible-playbook bootstrap.yml -l 192.168.9.97,192.168.9.98

部署并启动新增节点：

[yx@dbpd2 tidb-ansible]$ ansible-playbook deploy.yml -l 192.168.9.97
#启动新增的kv
[yx@dbpd2 tidb-ansible]$ ansible-playbook start.yml -l 192.168.9.97

滚动升级监控：

[yx@dbpd2 tidb-ansible]$ ansible-playbook rolling_update_monitor.yml --tags=prometheus

查看TIDB监控

PD扩容

此处新加pd服务器ip为：192.168.9.98

[yx@dbpd2 tidb-ansible]$ vim hosts.ini 
[servers]
192.168.9.91
192.168.9.92
192.168.9.93
192.168.9.94
192.168.9.95
192.168.9.96
192.168.9.97
192.168.9.98

添加PD角色配置

[yx@dbpd2 tidb-ansible]$ vim inventory.ini 

[pd_servers]
192.168.9.91
192.168.9.92
192.168.9.93
192.168.9.98
...
[monitored_servers]
192.168.9.91
192.168.9.92
192.168.9.93
192.168.9.94
192.168.9.95
192.168.9.96
192.168.9.97
192.168.9.98

初始化新增的PD节点

[yx@dbpd2 tidb-ansible]$ ansible-playbook bootstrap.yml -l 192.168.9.98

部署新增节点

[yx@dbpd2 tidb-ansible]$ ansible-playbook deploy.yml -l 192.168.9.98

登录新增的 PD 节点，编辑启动脚本：{deploy_dir}/scripts/run_pd.sh

[yx@pd4 ~]$ vim ~/server/deploy/scripts/run_pd.sh

#删除第20行
20     --initial-cluster="pd_dbpd1=http://192.168.9.91:2380,pd_dbpd2=http://192.168.9.92:2380,pd_pd3=http://192.168.9.93:2380,pd_pd4=http://192.168.9.98:2380" \
#新加一行，IP 地址 （192.168.9.93 可以是集群内现有 PD IP 地址中的任意一个。
--join="http://192.168.9.93:2379"

#在新增 PD 节点中手动启动 PD 服务：
[yx@pd4 ~]$ bash ~/server/deploy/scripts/start_pd.sh

登录中控机，使用 pd-ctl 检查新节点是否添加成功：

[yx@dbpd2 ~]$ /home/yx/server/tidb-ansible/resources/bin/pd-ctl -u "http://192.168.9.98:2379" -d member
{
  "header": {
    "cluster_id": 6699372971722481899
  },
  "members": [
    {
      "name": "pd_pd3",
      "member_id": 850721977124358136,
      "peer_urls": [
        "http://192.168.9.93:2380"
      ],
      "client_urls": [
        "http://192.168.9.93:2379"
      ]
    },
    {
      "name": "pd_dbpd2",
      "member_id": 7856605665486128202,
      "peer_urls": [
        "http://192.168.9.92:2380"
      ],
      "client_urls": [
        "http://192.168.9.92:2379"
      ]
    },
    {
      "name": "pd_dbpd1",
      "member_id": 9849683487793918155,
      "peer_urls": [
        "http://192.168.9.91:2380"
      ],
      "client_urls": [
        "http://192.168.9.91:2379"
      ]
    },
    {
      "name": "pd_pd4",
      "member_id": 13092416884020586414,
      "peer_urls": [
        "http://192.168.9.98:2380"
      ],
      "client_urls": [
        "http://192.168.9.98:2379"
      ]
    }
  ],
  "leader": {
    "name": "pd_pd4",
    "member_id": 13092416884020586414,
    "peer_urls": [
      "http://192.168.9.98:2380"
    ],
    "client_urls": [
      "http://192.168.9.98:2379"
    ]
  },
  "etcd_leader": {
    "name": "pd_pd4",
    "member_id": 13092416884020586414,
    "peer_urls": [
      "http://192.168.9.98:2380"
    ],
    "client_urls": [
      "http://192.168.9.98:2379"
    ]
  }
}

滚动升级整个集群

[yx@dbpd2 tidb-ansible]$ ansible-playbook rolling_update.yml

启动监控服务

[yx@dbpd2 tidb-ansible]$ ansible-playbook start.yml -l 192.168.9.93

更新 Prometheus 配置并重启

[yx@dbpd2 tidb-ansible]$ ansible-playbook rolling_update_monitor.yml --tags=prometheus

打开浏览器访问监控平台：http://192.168.9.93:3000，监控整个集群和新增节点的状态。

PD缩容

关闭一个节点，此处为98

[yx@dbpd2 tidb-ansible]$ ansible-playbook stop.yml -l 192.168.9.98

然后编辑文件，将该服务器删除

[yx@dbpd2 tidb-ansible]$ vim hosts.ini 
[servers]
192.168.9.91
192.168.9.92
192.168.9.93
192.168.9.94
192.168.9.95
192.168.9.96
192.168.9.97
192.168.9.98	//删除

[yx@dbpd2 tidb-ansible]$ vim inventory.ini 

[pd_servers]
192.168.9.91
192.168.9.92
192.168.9.93
192.168.9.98	//删除
...
[monitored_servers]
192.168.9.91
192.168.9.92
192.168.9.93
192.168.9.94
192.168.9.95
192.168.9.96
192.168.9.97
192.168.9.98	//删除

更新 Prometheus 配置并重启

[yx@dbpd2 tidb-ansible]$ ansible-playbook rolling_update_monitor.yml --tags=prometheus

查看监控，应该会少一个pd节点，此处监控更新时间略长

TIKV缩容

使用 pd-ctl 从集群中移除节点，此处移除的是97

#查看 node9 节点的 store id：此处的91是tidb，当前kv状态是up
[yx@dbpd2 tidb-ansible]$ /home/yx/server/tidb-ansible/resources/bin/pd-ctl -u "http://192.168.9.92:2379" -d store
...
{
      "store": {
        "id": 1001,
        "address": "192.168.9.97:20160",
        "version": "2.1.11",
        "state_name": "Up"
      },
      "status": {
        "capacity": "441 GiB",
        "available": "440 GiB",
        "leader_weight": 1,
        "region_count": 7,
        "region_weight": 1,
        "region_score": 7,
        "region_size": 7,
        "start_ts": "2019-06-11T18:48:32+08:00",
        "last_heartbeat_ts": "2019-06-11T20:45:35.105710941+08:00",
        "uptime": "1h57m3.105710941s"
      }
    }
  ]
}
#从集群中移除 KV4，假如 store id 为 1001：
[yx@dbpd1 tidb-ansible]$ /home/yx/server/tidb-ansible/resources/bin/pd-ctl -u "http://192.168.9.91:2379" -d store delete 1001
Success!

使用 Grafana 或者 pd-ctl 检查节点是否下线成功（下线需要一定时间，下线节点的状态变为 Tombstone 就说明下线成功了）

#此状态变成了Tombstone，说明下线成功，监控的话需要延迟一段时间
[yx@dbpd2 tidb-ansible]$ /home/yx/server/tidb-ansible/resources/bin/pd-ctl -u "http://192.168.9.92:2379" -d store  1001
{
  "store": {
    "id": 1001,
    "address": "192.168.9.97:20160",
    "state": 2,
    "version": "2.1.11",
    "state_name": "Tombstone"
  },
  "status": {
    "capacity": "441 GiB",
    "available": "440 GiB",
    "leader_weight": 1,
    "region_weight": 1,
    "start_ts": "2019-06-11T18:48:32+08:00",
    "last_heartbeat_ts": "2019-06-11T20:48:16.404973464+08:00",
    "uptime": "1h59m44.404973464s"
  }
}

下线成功后，停止该kv上的服务

[yx@dbpd2 tidb-ansible]$ ansible-playbook stop.yml -l 192.168.9.97

编辑 inventory.ini 文件，移除节点信息

[yx@dbpd2 tidb-ansible]$ vim hosts.ini 
[servers]
192.168.9.91
192.168.9.92
192.168.9.93
192.168.9.94
192.168.9.95
192.168.9.96
192.168.9.97	//删除

[yx@dbpd2 tidb-ansible]$ vim inventory.ini 

[tikv_servers]
192.168.9.94
192.168.9.95
192.168.9.96
192.168.9.97	//删除
...
[monitored_servers]
192.168.9.91
192.168.9.92
192.168.9.93
192.168.9.94
192.168.9.95
192.168.9.96
192.168.9.97	//删除

查看监控，此时会提示TIKV断掉

更新 Prometheus 配置并重启

[yx@dbpd2 tidb-ansible]$ ansible-playbook rolling_update_monitor.yml --tags=prometheus

此处TIKV已经成功下线

TIDB缩容

使用 pd-ctl 从集群中移除节点，此处移除的是91

#查看 PD 节点的 name：
[yx@dbpd2 tidb-ansible]$ /home/yx/server/tidb-ansible/resources/bin/pd-ctl -u "http://192.168.9.92:2379" -d  member
{
  "header": {
    "cluster_id": 6699372971722481899
  },
  "members": [
    {
      "name": "pd_192.168.9.91",
      "member_id": 850721977124358136,
      "peer_urls": [
        "http://192.168.9.91:2380"
      ],
      "client_urls": [
        "http://192.168.9.91:2379"
      ]
    },
...
#从集群中移除 91，假如 name 为 pd_192.168.9.91：
[yx@dbpd1 tidb-ansible]$ /home/yx/server/tidb-ansible/resources/bin/pd-ctl -u "http://192.168.9.92:2379" -d  member delete name pd_192.168.9.91
Success!

使用 pd-ctl 检查节点是否下线成功（TIDB下线会很快，结果中没有 91节点信息即为下线成功）

[yx@dbpd2 tidb-ansible]$ /home/yx/server/tidb-ansible/resources/bin/pd-ctl -u "http://192.168.9.92:2379" -d  member
{
  "header": {
    "cluster_id": 6699372971722481899
  },
  "members": [
    {
      "name": "pd_192.168.9.92",
      "member_id": 7856605665486128202,
      "peer_urls": [
        "http://192.168.9.92:2380"
      ],
      "client_urls": [
        "http://192.168.9.92:2379"
      ]
    },
    {
      "name": "pd_192.168.9.93",
      "member_id": 9849683487793918155,
      "peer_urls": [
        "http://192.168.9.93:2380"
      ],
      "client_urls": [
        "http://192.168.9.93:2379"
      ]
    },
    {
      "name": "pd_192.168.9.98",
      "member_id": 13092416884020586414,
      "peer_urls": [
        "http://192.168.9.98:2380"
      ],
      "client_urls": [
        "http://192.168.9.98:2379"
      ]
    }
  ],
  "leader": {
    "name": "pd_192.168.9.93",
    "member_id": 9849683487793918155,
    "peer_urls": [
      "http://192.168.9.91:2380"
    ],
    "client_urls": [
      "http://192.168.9.91:2379"
    ]
  },
  "etcd_leader": {
    "name": "pd_192.168.9.93",
    "member_id": 9849683487793918155,
    "peer_urls": [
      "http://192.168.9.93:2380"
    ],
    "client_urls": [
      "http://192.168.9.93:2379"
    ]
  }
}

下线成功后，停止91的TIDB服务

[yx@dbpd2 tidb-ansible]$ ansible-playbook stop.yml -l 192.168.9.91

编辑 inventory.ini 文件，移除节点信息

[yx@dbpd2 tidb-ansible]$ vim hosts.ini 
[servers]
192.168.9.92
192.168.9.93
192.168.9.94
192.168.9.95
192.168.9.96

[yx@dbpd2 tidb-ansible]$ vim inventory.ini 

[tidb_servers]
192.168.9.92
192.168.9.93
...
[monitored_servers]
192.168.9.92
192.168.9.93
192.168.9.94
192.168.9.95
192.168.9.96

滚动升级整个集群

[yx@dbpd2 tidb-ansible]$ ansible-playbook rolling_update.yml

更新 Prometheus 配置并重启

[yx@dbpd2 tidb-ansible]$ ansible-playbook rolling_update_monitor.yml --tags=prometheus

查看监控，TIDB已经更新完成

TIDB数据的导出与导入

导出

此处推荐使用的工具为mydumper
官方文档：https://pingcap.com/docs-cn/dev/how-to/migrate/from-mysql/
官方文档：https://pingcap.com/docs-cn/dev/how-to/migrate/from-mysql/

安装依赖包，建议

sudo  yum install glib2-devel mysql-devel zlib-devel pcre-devel zlib gcc-c++ gcc cmake -y

下载mydumper源码包

git clone https://github.com/maxbube/mydumper.git
cd mydumper/
cmake .
make && sudo make install
which mydumper 
/usr/local/bin/mydumper

导出MySQL数据库，本次测试尽量选择大的数据库

mydumper -S /var/run/mysqld/mysqld.sock -u root -p 123456 -t 8 -F 64 -B p2peye --skip-tz-utc -o ./mayc/p2peye-20190612-tidb
#以下是本次命令详解
mydumper/loader 全量导入数据最佳实践

为了快速的迁移数据 (特别是数据量巨大的库)，可以参考以下建议：

    mydumper 导出数据至少要拥有 SELECT，RELOAD，LOCK TABLES 权限
    使用 mydumper 导出来的数据文件尽可能的小，最好不要超过 64M，可以设置参数 -F 64
    loader的 -t 参数可以根据 TiKV 的实例个数以及负载进行评估调整，例如 3个 TiKV 的场景，此值可以设为 3 *（1 ～ n)；当 TiKV 负载过高，loader 以及 TiDB 日志中出现大量 backoffer.maxSleep 15000ms is exceeded 可以适当调小该值，当 TiKV 负载不是太高的时候，可以适当调大该值。

导入示例及相关配置： - mydumper 导出后总数据量 214G，单表 8 列，20 亿行数据 - 集群拓扑 - TiKV * 12 - TiDB * 4 - PD * 3 - mydumper -F 设置为 16，Loader -t 参数设置为 64

结果：导入时间 11 小时左右，19.4 G/小时
从 MySQL 导出数据

我们使用 mydumper 从 MySQL 导出数据，如下:

./bin/mydumper -h 127.0.0.1 -P 3306 -u root -t 16 -F 64 -B test -T t1,t2 --skip-tz-utc -o ./var/test

上面，我们使用 -B test 表明是对 test 这个 database 操作，然后用 -T t1,t2 表明只导出 t1，t2 两张表。

-t 16 表明使用 16 个线程去导出数据。-F 64 是将实际的 table 切分成多大的 chunk，这里就是 64MB 一个 chunk。

--skip-tz-utc 添加这个参数忽略掉 MySQL 与导数据的机器之间时区设置不一致的情况，禁止自动转换。

导入

安装TIDB导入SQL文件的官方插件

wget http://download.pingcap.org/tidb-enterprise-tools-latest-linux-amd64.tar.gz
tar zxvf tidb-enterprise-tools-latest-linux-amd64.tar.gz 
cd tidb-enterprise-tools-latest-linux-amd64/
#解压后就能用。都在bin下

导入到TIDB中

./bin/loader -h 192.168.9.92 -u root -P 4000 -t 3 -d ~/mayc/p2peye-20190612-tidb/

安装过程中遇到的问题

手动安装NTP服务

先检测 NTP 服务是否正常（此处步骤可以跳过，只要确保服务器时间是正确同步就好）

执行以下命令输出 running 表示 NTP 服务正在运行:

[root@localhost yum.repos.d]# sudo systemctl status ntpd.service
● ntpd.service - Network Time Service
   Loaded: loaded (/usr/lib/systemd/system/ntpd.service; enabled; vendor preset: disabled)
   Active: active (running) since 三 2019-03-20 15:46:01 CST; 2min 26s ago
  Process: 8009 ExecStart=/usr/sbin/ntpd -u ntp:ntp $OPTIONS (code=exited, status=0/SUCCESS)
 Main PID: 8010 (ntpd)
   CGroup: /system.slice/ntpd.service
           └─8010 /usr/sbin/ntpd -u ntp:ntp -g

3月 20 15:46:01 localhost.localdomain ntpd[8010]: Listen and drop on 0 v4wildcard 0.0.0.0 UDP 123
3月 20 15:46:01 localhost.localdomain ntpd[8010]: Listen and drop on 1 v6wildcard :: UDP 123
3月 20 15:46:01 localhost.localdomain ntpd[8010]: Listen normally on 2 lo 127.0.0.1 UDP 123
3月 20 15:46:01 localhost.localdomain ntpd[8010]: Listen normally on 3 ens160 192.168.13.199 UDP 123
3月 20 15:46:01 localhost.localdomain ntpd[8010]: Listen normally on 4 lo ::1 UDP 123
3月 20 15:46:01 localhost.localdomain ntpd[8010]: Listen normally on 5 ens160 fe80::cbc3:a5c6:e2ee:5ed UDP 123
3月 20 15:46:01 localhost.localdomain ntpd[8010]: Listening on routing socket on fd #22 for interface updates
3月 20 15:46:01 localhost.localdomain ntpd[8010]: 0.0.0.0 c016 06 restart
3月 20 15:46:01 localhost.localdomain ntpd[8010]: 0.0.0.0 c012 02 freq_set kernel 0.000 PPM
3月 20 15:46:01 localhost.localdomain ntpd[8010]: 0.0.0.0 c011 01 freq_not_set

安装NTP服务

sudo yum install ntp ntpdate -y
sudo ntpdate pool.ntp.org
sudo systemctl start ntpd.service
sudo systemctl enable ntpd.service

验证

[root@localhost yum.repos.d]# ntpstat
synchronised to NTP server (119.28.206.193) at stratum 3 
time correct to within 1011 ms
polling server every 64 s

你可能感兴趣的:(运维)

2020年最新程序员职业发展路线指南，超详细！编程流川枫 11 编程语言程序员互联网 IT 职业
【文章来源微信公众号：每天学编程】01、程序员的特性技术出身的职场人特性很明显，与做市场、业务出身的职场人区别尤其明显。IT行业中常见的一些职场角色：老板、项目经理、产品经理、需求分析师、设计师、开发工程师、运维工程师等。开发工程师具有如下特征：1、逻辑思维清晰、严谨和细腻；但是有时不容易转弯，有些程序员容易较劲、钻牛角尖。2、性格偏内向、不善于沟通、表达和交际；但是在网络聊天工具上，有些显为幽默
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
ruby和python哪个好学 hakesashou python基础知识 ruby python 开发语言
Ruby和python都挺好学的。建议学习Python，语法的话，Python相对更简洁。而且Python应用场合更广泛，运维、网站开发、数据处理、科学研究都可以。Ruby和Python十分相似，有很多共同点，但也有一些不同之外，以下是Python和Ruby的对比：1、Python和Ruby都是面向对象的语言，都是动态和灵活的。二者的主要区别在于他们解决问题的方式。Ruby提供了不同的方法，而Py
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
Prometheus运维六 PromQL查询语言详解及操作安顾里 Prometheus 监控类大数据 kubernetes 运维 linux
海阔凭鱼跃，天高任鸟飞Prometheus官网：https://prometheus.io/文章目录1.什么是PromQL?2.PromQL的基本使用2.1时间序列选择器2.1.1瞬时向量选择器2.2区间向量选择器2.2.1范围向量选择器2.2.2时间位移操作2.2.3使用聚合操作2.3标量和字符串3.PromQL操作符4.内置常用函数5.HTTPAPI操作PromQL6.使用建议1.什么是Pro
Ansible架构介绍与安装 2401_86637445 ansible 架构
一、介绍Ansible什么是Ansible?Ansible是一款自动化运维工具，其主要功能是帮助运维实现IT工作的自动化、降低人为操作失误、提高业务自动化率、提升运维工作效率。实现了批量系统配置、批量程序部署、批量运行命令等功能。ansiblepuppetsaltstack主流的三种。ansible自动化运维工具被红帽收购阿里巴巴在用saltstackpython开发。无客户端，只需安装SSH、P
【K8S】kubernetes集群架构与组件奇奇怪怪^ 云 Linux IT 运维服务器 linux
文章目录【K8S】kubernetes集群架构与组件kubernetes组件**master组件**node组件整体流程POD终止过程【K8S】kubernetes集群架构与组件kubernetes组件K8S是属于主从设备模型(Master-slave架构)，即有Master节点负责集群的调度、管理和运维，Slave节点是集群中的运算工作负载节点在K8S中，主节点一般被称为Master节点，而从节
Spring Boot实现多租户架构 spring_root spring boot 架构后端
一、概述1什么是多租户架构？多租户架构是指在一个应用中支持多个租户（Tenant）同时访问，每个租户拥有独立的资源和数据，并且彼此之间完全隔离。通俗来说，多租户就是把一个应用按照客户的需求“分割”成多个独立的实例，每个实例互不干扰。2多租户架构的优势更好地满足不同租户的个性化需求。可以降低运维成本，减少硬件、网络等基础设施的投入。节约开发成本，通过复用代码，快速上线新的租户实例。增强了系统的可扩展
【Linux 从基础到进阶】Puppet配置管理工具使用爱技术的小伙子 Linux从基础到进阶 linux puppet 运维
Puppet配置管理工具使用Puppet是一种开源的配置管理工具，广泛用于自动化管理和配置服务器。它通过声明式的语言定义系统状态，能够跨多台服务器实现一致性配置。Puppet对运维团队来说，是一种强大的工具，能够有效管理服务器配置并简化操作复杂性。本文将详细介绍Puppet的核心概念、安装步骤、以及如何在CentOS和Ubuntu系统上进行配置和管理。1.Puppet的核心概念在使用Puppet之
Docker 安装配置和基本命令详解以及案例示范 J老熊 docker 容器运维面试 linux
1.引言容器化技术的快速发展给软件开发和运维带来了革命性的变化，Docker作为这一领域的领军者，已经成为软件开发和部署流程中的重要工具。Docker的轻量化、快速启动和高效资源利用让开发者能够在不同的环境中实现一致的开发体验。本篇文章将详细讲解如何在CentOS系统中安装Docker，如何配置阿里云镜像加速，Docker的基本命令和语法，以及通过实际的电商交易系统案例来演示如何在Docker环境
服务器运维小技巧（二）——如何进行监控告警 baiolkdnhjaio 网络安全
服务器运维难度高的原因，很大程度是因为服务器一旦出现问题，生产环境的业务就会受到严重影响，极有可能带来难以承担的后果。因此这份工作要求工程师保持高要求的服务质量，能够快速响应问题，及时解决问题。但是“及时”的这一点很难做到，需要通过优化工作流程、建立预警系统，搭建自动化等行为快速响应。今天主要介绍如何通过服务器运维工具搭建监控预警的手段来辅助缩短响应时间。首先打开牧云主机管理助手，进入系统设置界面
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推 weixin_53585422 c++算法 python java c语言
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推①汤臣倍健【内推岗位】：市场类、营销类、研发类、电商类、职能类、IT技术类、商业分析类、生产运营类【内推链接】https://sourl.cn/JSDhLU【推荐码】ES3W2T②科锐国际(OD项目组--计算机专场)【招聘岗位】软件开发工程师、软件测试工程师、大数据开发工程师、运维工程师等计算机类岗位，2
前端发布 CDN缓存跳动的世界线前端缓存 CDN
公司给服务器加了CDN，导致有时前端代码上传打包后，正式环境页面效果却不更新。每次都需要去找运维刷CDN…让我彻底记住了CDN缓存CDN（ContentDeliveryNetwork，内容分发网络）是一种广泛使用的互联网技术，旨在提高用户访问网站的速度和可靠性。CDN的核心思想是将网站的内容缓存到全球分布的边缘节点上，让用户能够从最近的节点获取数据，从而减少延迟和带宽消耗。CDN缓存机制的基本原理
如何快速的构建企业运维可视化大屏益达_glmsb
基于AIOps理念研发的新一代运维监大屏全盘展示IT运行状态，减轻运维人员的重复性工作量，提高IT系统排错速度，加速运维知识学习积累。图片1.png领先的数据可视化平台，把IT运维化繁为简图片2.jpg图片3.png图片4.png图片5.png图片6.png全面提升IT运维管理水平1.直接导出精美的IT运行可视化报表图片7.png2.资源分析对比图片8.png3.自动生成监控项运行“脑图”图片9.
使用MLOps进行AI部署的顶级公司 AI研报人工智能
自从AI技术进入主流领域以来，MLOps（机器学习运维）已成为在生产环境中部署和管理机器学习模型的一系列实践，这对企业的成败起着关键作用。各种背景的公司都在采用MLOps技术，以简化操作、提高模型效率和扩展AI解决方案。本文介绍了在AI部署方面表现突出的顶尖公司，它们的策略以及成功案例。使用MLOps进行AI部署的公司1.谷歌谷歌在MLOps领域处于领先地位，凭借其在云计算和机器学习研发方面的深厚
ansible入门打败404 运维 linux ansible
一、ansible简介1、ansible是什么？ansible是目前最受运维欢迎的自动化运维工具，基于Python开发，集合了众多运维工具（SaltStackpuppet、chef、func、fabric）的优点，实现了批量系统配置、批量程序部署、批量运行命令等功能。ansible是基于paramiko开发的,并且基于模块化工作，本身没有批量部署的能力。真正具有批量部署的是ansible所运行的模
云平台下存储运维的变革与实践宋罗世家技术屋 VIP专栏运维大数据
【摘要】未来存储监控平台可结合整体智能运维分层立体的监控体系，实现从基础设施到租户业务的端到端全覆盖的立体监控，提供基础监控、业务监控、链路监控等方面通用平台能力，将监控平台+云服务+一线运维等各云服务监控整合基于监控平台实现自己特定业务监控。现有运维体系的建设现状随着银行数字化转型升级进程的加快，IT系统架构越来越复杂，软件更新迭代越来越快。银行信息化建设中的大量业务和数据需要依靠信息系统来完成
构建Java微服务架构的CI/CD流程微赚淘客系统@聚娃科技架构 java 微服务
构建Java微服务架构的CI/CD流程大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！今天，我们来探讨如何构建一个高效的Java微服务架构的持续集成和持续部署（CI/CD）流程。随着微服务架构的流行，CI/CD已成为开发和运维流程中的关键部分，通过自动化的构建、测试和部署，能够大幅提高开发效率和系统可靠性。什么是CI/CD？CI/C
云原生应用——软件的未来快乐非自愿云原生
随着云计算技术的飞速发展，企业对于软件应用的部署和运行方式提出了新的要求。传统的软件部署模式已经难以满足现代企业对于敏捷性、可伸缩性和高可用性的需求。因此，云原生应用应运而生，它代表了软件开发和运维的新范式，预示着软件的未来。什么是云原生应用？云原生应用是指那些专门为在云环境中运行而量身定制和优化的应用程序。这些应用程序充分利用了云计算的核心特性，例如弹性伸缩、按需资源分配、微服务架构、容器化技术
Psutil：Python 系统和进程监控利器 ivwdcwso 运维开发 python 开发语言 Psutil 运维自动化系统管理
引言在现代IT运维和系统管理中，实时监控系统资源和进程状态是一项至关重要的任务。Python的psutil（PythonSystemandProcessUtilities）库为我们提供了一个跨平台的工具，使得获取系统信息和管理进程变得简单而高效。本文将详细介绍psutil的主要功能，并通过实际案例展示其在日常运维中的应用。什么是Psutil？Psutil是一个跨平台的库，用于获取运行进程和系统利用
利用zabbix监控ogg进程(Windows平台) Linux运维老纪万象人生-坚守Zabbix企业级监控岗位运维开发服务器云计算 zabbix linux
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:Linux运维老纪的首页,持续学习,不断总结,共同进步,活到老学到老导航剑指大厂系列:全面总结运维核心技术:系统基础、数据库、网路技术、系统安全、自动化运维、容器技术、监控工具、脚本编程、云服务等。常用运维工具系列:常用的运维开发工具,zab
TDengine和DolphinDB哪个更好，哈哈哈哈，闲来无聊分析了一下。(1) 2401_84023482 程序员 tdengine 大数据时序数据库
TDengine是专为时序数据设计的，针对的是物联网、工业互联网、IT运维场景。这些场景是不需要特殊的查询函数的，更关心的是写入速度、查询速度。而且这些场景下，也需要一些其他数据库不具备的功能，比如插值、时间聚合等等如果要问TDengine和DolphinDB最大的特色，存储引擎可能是TDengine最大的特色，性能也非常好；DolphinDB的最大特色毫无疑问是它的计算引擎。可以毫不夸张的说，D
CentOS 运维常用的shell脚本一碗情深运维运维 centos linux
文章目录一、操作系统磁盘空间查看实时获取系统运行状态获取cpu、内存等系统运行状态获取系统信息二、应用程序获取进程运行状态查看有多少远程的IP在连接本机三、用户管理统计当前Linux系统中可以登录计算机的账户有多少个创建用户四、自动化管理自动备份日志文件监控的页面地址，对tomcat状态进行重启或维护实时监控本机内存和硬盘，剩余空间不足发送报警邮件一、操作系统磁盘空间查看disk_info.shd
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（十一）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
【2023年】云计算金砖牛刀小试3 geekgold 云计算 linux 运维容器 kubernetes 云原生
A场次题目：OpenStack平台部署与运维业务场景：某企业拟使用OpenStack搭建一个企业云平台，用于部署各类企业应用对外对内服务。云平台可实现IT资源池化，弹性分配，集中管理，性能优化以及统一安全认证等。系统结构如下图：企业云平台的搭建使用竞赛平台提供的两台云服务器，配置如下表：设备名称主机名接口ip地址云服务器1controllereth0，eth1私网：192.168.100.10/2
【2023年】云计算金砖牛刀小试 geekgold linux 容器 grafana prometheus ansible kubernetes 云原生
A模块题目OpenStack平台部署与运维任务1私有云平台环境初始化（6分）IP主机名192.168.157.30controller192.168.157.31compute1.配置主机名把controller节点主机名设置为controller,compute节点主机名设置为compute。分别在controller节点和compute节点将hostname命令的返回结果提交到答题框。【0.5
【2023年】云计算金砖牛刀小试2 geekgold 云计算运维容器 jenkins kubernetes devops docker
A场次题目：Openstack平台部署与运维control172.17.31.10compute172.17.31.20compute任务1私有云平台环境初始化1.初始化操作系统使用提供的用户名密码，登录竞赛云平台。根据表1中的IP地址规划，设置各服务器节点的IP地址，确保网络正常通信，设置控制节点主机名为Controller，计算节点主机名为Compute，并修改hosts文件将IP地址映射为主
网络安全（黑客）自学白帽子凯哥 web安全安全网络安全服务器网络
一、什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。无论网络、Web、移动、桌面、云等哪个领域，都有攻与防两面性，例如Web安全技术，既有Web渗透，也有Web防御技术（WAF）。作为一个合格的网络安全工程师，应该做到攻守兼备，毕竟知己知彼，才能百战百胜。二、怎样规划网络安全如果你是一
网络安全（黑客）——自学2024 白帽子黑客-宝哥 web安全安全嵌入式硬件网络单片机
一、什么是网络安全网络安全是一种综合性的概念，涵盖了保护计算机系统、网络基础设施和数据免受未经授权的访问、攻击、损害或盗窃的一系列措施和技术。经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。作为一个合格的网络安全工程师，应该做到攻守兼备，毕竟知己知彼，才能百战百胜。二、网络安全怎么入门安全并非孤立存在，而是建立在其计算机基础之上的应用技术。
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。