俺就是菜得很

MySQL生产环境高可用架构实战

分布式技术MongoDB

1. MySQL高可用集群介绍
- 1.1 数据库主从架构与分库分表
- 1.2 MySQL主从同步原理
2. 动手搭建MySQL主从集群
- 2.1 基础环境搭建
- 2.2 安装MySQL服务
- - 2.2.1 初始化MySQL
  - 2.2.2 启动mysql
  - 2.2.3 连接MySQL
- 2.3 搭建主从集群
- - 2.3.1 配置master主服务
  - 2.3.2 配置slave从服务
  - 主从集群测试
3. 了解MySQL的其他高可用方案
- 3.1 MMM
- 3.2 MHA
- 3.3 MGR
4. 分库分表方案介绍
- 4.1 分库分表有什么用
- 4.2 分库分表的方式
- 4.3 分库分表要解决哪些问题
- 4.4 什么时候需要分库分表?
- 4.5 常见的分库分表组件
5. 课程内容总结

本文是按照自己的理解进行笔记总结，如有不正确的地方，还望大佬多多指点纠正，勿喷。

课程内容：

1、MySQL高可用集群原理

2、动手搭建MySQL主从集群

3、异步复制与半同步复制

4、MySQL其他高可用方案介绍

5、理解分库分表与主从集群

1. MySQL高可用集群介绍

1.1 数据库主从架构与分库分表

随着现在互联网的应用越来越大，数据库会频繁的成为整个应用的性能瓶颈。我们经常使用的MySQL数据库，也会不断面临数据量太大、数据访问太频繁、数据读写速度太快等一系2iP在增加MQ进行流量削峰等等。但定，o数据库，例如添加Redis缓存，增加MQ进行流量削峰等等。但是，数据库本身如果不能得到提升，这就相当于是水桶理论中的最短板。

而要提升数据库的性能，一种思路，当然是对数据库本身进行优化，例如对MySQL进行优化配置，或者干脆换成ClickHouse这一类的针对大数据的产品。另一方面就是跟微服务架构的思路一样，从单体架构升级到集群架构，这样才能真正全方位解放数据库的性能瓶颈。而我们后续要学习的分库分表就是一种非常常见的数据库集群架构管理方案。

但是就像微服务架构并不是简单的将服务从单机升级为就能一样，分库分表也并不只是字面意义上的将数据分到多个库或者多个表这么简单，他也是基于数据库产品的一系列分布式解决方案。在不同的应用场景下，针对不同的数据库产品，分库分表也有不同的落地方式。而我们后续，会以最为常见的MySQL数据库以及ShardingSphere框架来了解分库分表要如何进行。

1.2 MySQL主从同步原理

既然要解决MySQL数据库的分布式集群化问题，那就不能不先了解MySQL自身提供的主从同步原理。这是构建MySQL集群的基础，也是后续进行分库分表的基础，更是MySQL进行生产环境部署的基础。

其实数据库的主从同步，就是为了要保证多个数据库之间的数据保持一致。最简单的方式就是使用数据库的导入导出工具，定时将主库的数据导出，再导入到从库当中。这是一种很常见，也很简单易行的数据库集群方式。也有很多的工具帮助我们来做这些事情。但是这种方式进行数据同步的实时性比较差。

而如果要保证数据能够实时同步，对于MySQL，通常就要用到他自身提供的一套通过 Binlog日志在多个MySQL服务之间进行同步的集群方案。基于这种集群方案，一方面可以提高数据的安全性，另外也可以以此为基础，提供读写分离、故障转移等其他高级的功能。

即在主库上打开Binlog日志，记录对数据的每一步操作。然后在从库上打开RelayLog日志，用来记录跟主库一样的Binlog日志，并将RelayLog中的操作日志在自己数据库中进行重演。这样就能够更加实时的保证主库与从库的数据一致。

MysQL的Binlog默认是不打开的。

他的实现过程是在从库上启动一系列IO线程，负责与主库建立TCP连接，请求主库在写入Binlog日志时，也往从库传输一份。这时，主库上会有一个IO Dump线程，负责将Binlog日志通过这些TCP连接传输给从库的IO线程。而从库为了保证日志接收的稳定性，并不会立即重演Binlog数据操作，而是先将接收到的Binlog日志写入到自己的RelayLog日志当中。然后再异步的重演RelayLog中的数据操作。

MySQL的BinLog日志能够比较实时的记录主库上的所有日志操作，因此他也被很多其他工具用来实时监控MySQL的数据变化。例如Canal框架，可以模拟一个slave节点，同步MySQL的Binlog，然后将具体的数据操作按照定制的逻辑进行转发。例如转发到Redis实现缓存一致，转发到Kafka实现数据实时流转等。而ClickHouse也支持将自己模拟成一个MySQL的从节点，接收MySQL的Binlog日志，实时同步MySQL的数据。这个功能目前还在实验阶段。

2. 动手搭建MySQL主从集群

2.1 基础环境搭建

以下实验准备两台服务器，来搭建一个MySQL的主从集群均安装CentOS7操作系统。192.168.232.128将作为MySQL主节点，192.168.232.129将作为MySQL的从节点。

然后在两台服务器上均安装MySQL服务，MySQL版本采用mysql-8.0.20版本。

2.2 安装MySQL服务

这里强调下，我们下面的示例是带大家在Linux上搭建MySQL服务。但是在Linux上安装MySQL经常会遇到各种各件的环境问题，这些环境问题大都只能通过百度加经验的方式来解决。大家根据自己的实际情况，如果在Linux上搭建MySQL有困难的话，可以改为用Windows来安装MySQL。Windows上安装MySQL会简单很多，并且也不影响我们后续ShardingSphere的学习。

2.2.1 初始化MySQL

MySQL的安装有很多种方式，具体可以参考官网手册: https://dev.mysql.com/doc/refman/8.0/en/binary-installation.html

我们这里采用对系统环境依赖最低，出问题的可能性最小的tar包方式来安装。

上传mysql压缩包到worker2机器的root用户工作目录/root下，然后按照下面的指令，解压安装mysql

groupadd mysql
useradd -r -g mysql -s /bin/false mysql #这里是创建一个mysql用户用于承载mysql服务，但是不需要登陆权限

tar -xvf mysql-8.0.20-linux-glibc2.12-x86_64.tar.xz #解压
ln -s mysql-8.0.20-linux-glibc2.12-x86_64 mysql #建立软链接
cd mysql
mkdir mysql-files
chown mysql:mysql mysql-files
chmod 750 mysql-files
bin/mysqld --initialize --user=mysql #初始化mysql数据库文件  注意点1
bin/mysql_ssl_rsa_setup
bin/mysqld_safe --user=mysql
# Next command is optional
cp support-files/mysql.server /etc/init.d/mysql.server

注意点：

1、初始化过程中会初始化一些mysql的数据文件，经常会出现一些文件或者文件夹权限不足的问题。如果有文件权限不足的问题，需要根据他的报错信息，创建对应的文件或者文件夹，并配置对应的文件权限
2、初始化过程如果正常完成，日志中会打印出一个root用户的默认密码。这个密码需要记录下来。

2023-06-30T01:58:51.261843Z 6 [Note] [MY-010454] [Server] A temporary password is generated for root@localhost: -l?ii&wgo3-F

2.2.2 启动mysql

bin/mysqld --user=mysql

注意点:

1、这个启动过程会独占当前命令行窗口，如果要后台执行可以在后面添加一个&。但是一般第一次启动mysql服务时，经常会出现一些错误，所以建议用独占窗口的模式跟踪下日志。

Linux上安装软件经常会出现各种各样的环境问题，很难全部概括大部分的问题，需要查百度，根据别人的经验来修改。如果安装有困难的同学，可以改为在Windows上安MySQL，整个过程会简单很多不会影响后续ShardingSpehre的学习。

2.2.3 连接MySQL

MySQL服务启动完成后，默认是只能从本机登录，远程是无法访问的。所以需要用root用户登录下，配置远程访问的权限。

cd /root/mysql
bin/mysql -uroot -p #然后用之前记录的默认密码登录

注意点:

1、如果遇到ERROR 2002 (HY000): Can’t connect to localMySQL server through socket ‘/tmp/mysql.sock’(2)这个报错信息，可以参照下面的配置，修改下/etc/my.cnf配置文件，来配置下sock连接文件的地址。主要是下面client部分。

[mysqld]
datadir=/var/lib/mysql
socket=/var/lib/mysql/mysql.sock
user=mysql
# Disabling symbolic-links is recommended to prevent assortedsecurity risks
symbolic-links=0
# Settings user and group are ignored when systemd is used.#If you need to run mysqld under a different user or group,
[mysqld_safe]
log-error=/var/log/mariadb/mariadb.log
pid-file=/var/run/mariadb/mariadb.pid
# include all files from the config directory#
!includedir /etc/my.cnf.d
[client]
port=3306
socket=/var/lib/mysql/mysql.sock

登录进去后，需要配置远程登录权限:

alter user 'root'@'localhost' identified by '123456'; #修改root用户的密码
use mysql;
update user set host='%' where user='root';
flush privileges;

这样，Linux机器上的MySQL服务就搭建完成了。可以使用navicat等连接工具远程访问MySQL服务了。

然后如果有同学安装MySQL确实有问题的话，推荐大家可以使用宝塔面板。https://www.bt.cn/。使用这个工具可以图形化安装以及管理MySQL，非常方便。
另外，对于熟悉Docker和K8s的同学，可以用这些虚拟化的方式来搭建，也非常简单高效。

这里需要注意下的是，搭建主从集群的多个服务，有两个必要的条件。
1、MySQL版本必须一致。

2、集群中哥哥服务器的时间需要同步

2.3 搭建主从集群

接下来在这两个MySQL服务基础上，搭建一个主从集群。

2.3.1 配置master主服务

首先，配置主节点的mysql配置文件:/etc/my.cnf(没有的话就手动创建一个)

这一步需要对master进行配置，主要是需要打开binlog日志以及指定severld。我们打开MySQL主服务的my.cnf文件，在文件中一行server-id以及一个关闭域名解析的配置。然后重启服务。

[mysqld]
server-id=47 
#开启binlog
log_bin=master-bin
log_bin-index=master-bin.index
skip-name-resolve
#设置连接端口
port=3306
#设置mysql的安装目录
basedir=/usr/local/mysql
#设置mysql数据库的数据的存放目录
datadir=/usr/local/mysql/mysql-files
#允许最大连接数
max_connections=200
#允许连接失败的次数。
max_connect_errors=10
#服务端使用的字符集默认为UTF8
character-set-server=utf8
#创建新表时将使用的默认存储引擎
default-storage-engine=INNODB
#默认使用"mysql_native_password"插件认证
#mysql_native_password
default_authentication_plugin=mysql_native_password

配置说明:主要需要修改的是以下几个属性:

server-id:服务节点的唯一标识。需要给集群中的每个服务分配一个单独的ID。
log_bin:打开Binlog日志记录，并指定文件名。
log_bin-index: Binlog日志文件

重启MySQL服务，service mysqld restart
然后，我们需要给root用户分配一个replication slave的权限。

#登录主数据库
mysql -u root -p
GRANT REPLICATION SLAVE ON *.* TO 'root'@'%';
flush privileges;
#查看主节点同步状态:
show master status;

在实际生产环境中，通常不会直接使用root用户，而会创建一个拥有全部权限的用户来负责主从同步。

这个指令集中的File和Position记录的是当前日志的binlog文件以及文件中的索引。

而后面的Binlog_Do_DB和Binlog_lgnore_DB这两个字段是表示需要记录binlog文件的库以及不需要记录binlog文件的库。目前我们没有进行配置，就表示是针对全库记录日志。这两个字段如何进行配置，会在后面进行介绍。

开启binlog后，数据库中的所有操作都会被记录到datadir当中，以一组轮询文件的方式循环记录。而指令查到的File和Position就是当前日志的文件和位置。而在后面配置从服务时，就需要通过这个File和Position通知从服务从哪个地方开始记录binLog。

[mysqld]
#主库和从库需要不一致
server-id=48
#打开MySQ工中继日志
relay-log-index=slave-relay-bin.index
relay-log=slave-relay-bin
#打开从服务二进制日志
log-bin=mysql-bin
#使得更新的数据写进二进制日志中
log-slave-updates=1
#设置3306端口
port=3306
#设置mysql的安装目录
basedir=/usr/local/mysql
#设置mysql数据库的数据的存放目苹
datadir=/usr/local/mysql/mysql-files
#允许最大连接数
max_connections=200
#允许连接失败的次数。
max_connect_errors=10
#服务端使用的字符集默认为UTF8
character-set-server=utf8

#创建新表时将使用的默认存储引擎
default-storage-engine=INNODB
#默认使用"mysql_native _password"插件认证
#mysql_native _password
default_authentication _plugin=mysql_native_password

配置说明: 主要需要关注的几个属性:
server-id: 服务节点的唯一标识
relay-log: 打开从服务的relay-log日志。
log-bin: 打开从服务的bin-log日志记录。

然后我们启动mysqls的服务，并设置他的主节点同步状态。

2.3.2 配置slave从服务

下一步，我们来配置从服务mysqls。我们打开mysqls的配置文件my.cnf，修改配置文件:

#登录从服务
mysql -u root -p;
#设置同步主节点:
CHANGE MASTER TO
MASTER_HOST='192.168.232.128',
MASTER_PORT=3306,
MASTER_USER='root',
MASTER_PASSwORD='root',
MASTER_LOG_FILE='master-bin.000004',
MASTER_LOG_POS=156,
GET_MASTER_PUBLIC_KEY=1;
#开启slave
start slave;
#查看主从同步状态
show slave status;
或者用show slave status \G;这样查看比较简洁

注意，CHANGE MASTER指令中需要指定的MASTER_LOG_FILE和MASTER_LOG_POS必须与主服务中查到的保持一致。

并且后续如果要检查主从架构是否成功，也可以通过检查主服务与从服务之间的File和Position这两个属性是否一致来确定。

主从集群测试

测试时，我们先用showdatabases，查看下两个MySQL服务中的数据库情况

然后我们在主服务器上创建一个数据库

mysql> create database syncdemo;
Query OK，1 row affected (0.00 sec)

然后我们再用show databases，来看下这个syncdemo的数据库是不是已经同步到了从服务。

接下来我们继续在syncdemo这个数据库中创建一个表，并插入条数据。

mysql> use syncdemo;
Database changed
mysql> create table demoTable(id int not nul1);
Query OK,0 rows affected (0.02 sec)
mysql> insert into demoTable value(l);
Query OK,1 row affected (0.01 sec)

然后我们也同样到主服务与从服务上都来查一下这个demoTable是否同步到了从服务。

3. 了解MySQL的其他高可用方案

3.1 MMM

MMM(Master-Master replication managerfor Mysql,Mysql主主复制管理器)是一套由Perl语言实现的脚本程序，可以对mysql集群进行监控和故障迁移。他需要两个Master，同一时间只有一个Master对外提供服务可以说是主备模式。

他是通过一个VIP(虚拟IP)的机制来保证集群的高可用。整个集群中，在主节点上会通过一个VIP地址来提供数据读写服务，而当出现故障时VIP就会从原来的主节点漂移到其他节点，由其他节点提供服务。

优点:

提供了读写VIP的配置，使读写请求都可以达到高可用
工具包相对比较完善，不需要额外的开发脚本
完成故障转移之后可以对MySQL集群进行高可用监控

缺点:

故障简单粗暴，容易丢失事务，建议采用半同步复制方式，减少失败的概率
目前MMM社区已经缺少维护，不支持基于GTID的复制

适用场景:

读写都需要高可用的
基于日志点的复制方式

3.2 MHA

https://www.cnblogs.com/killer21/articles/11918024.html

Master High Availability Manager and Tools for MySQL。是由日本人开发的一个基于Perl脚本写的工具。这个工具专门用于监控主库的状态，当发现master节点故障时，会提升其中拥有新数据的slave节点成为新的master节点，在此期间，MHA会通过其他从节点获取额外的信息来避免数据一致性方面的问题。MHA还提供了mater节点的在线切换功能，即按需切换master-slave节点。MHA能够在30秒内实现故障切换，并能在故障切换过程中，最大程度的保证数据一致性。在淘宝内部，也有一个相似的TMHA产品。

MHA是需要单独部署的，分为Manager节点和Node节点，两种节点。其中Manager节点一般是单独部署的一台机器。而Node节点一般是部署在每台MySQL机器上的。Node节点得通过解析各个MySQL的日志来进行一些操作。

Manager节点会通过探测集群里的Node节点去判断各个Node所在机器上的MySQL运行是否正常，如果发现某个Master故障了，就直接把他的一个Slave提升为Master，然后让其他Slave都挂到新的Master上去，完全透明。

优点：

MHA除了支持日志点的复制还支持GTID的方式
同MMM相比，MHA会尝试从旧的Master中恢复旧的二进制日志，只是未必每次都能成功。如果希望更少的数据丢失场景，建议使用MHA架构。

缺点:

MHA需要自行开发VIP转移脚本。
MHA只监控Master的状态，未监控Slave的状态

3.3 MGR

MGR: MySQL Group Replication。是MySQL官方在5.7版本正式推出的一种组复制机制。主要是解决传统异步复制和半同步复制的数据一致性问题。

由若千个节点共同组成一个复制组，一个事务提交后，必须经过超过半数节点的决议并通过后，才可以提交。引入组复制，主要是为了解决传统异步复制和半同步复制可能产生数据不一致的问题。MGR依靠分布式一致性协议(Paxos协议的一个变体)，实现了分布式下数据的最终一致性，提供了真正的数据高可用方案(方案落地后是否可靠还有待商榷)。

支持多主模式，但官方推荐单主模式:

多主模式下，客户端可以随机向MySQL节点写入数据
单主模式下，MGR集群会选出primary节点负责写请求primary节点与其它节点都可以进行读请求处理.

优点:

高一致性，基于原生复制及paxos协议的组复制技个，开以抽H力式挺六，正供一致数据安全保证;
高容错性，只要不是大多数节点坏掉就可以继续工作，有自动检测机制，当不同节点产生资源争用冲突时，不会出现错误，按照先到者优先原则进行处理，并且内置了自动化脑裂防护机制;
高扩展性，节点的新增和移除都是自动的，新节点加入后，会自动从其他节点上同步状态，直到新节点和其他节点保持一致，如果某节点被移除了，其他节点自动更新组信息，自动维护新的组信息;
高灵活性，有单主模式和多主模式，单主模式下，会自动选主所有更新操作都在主上进行;多主模式下，所有server都可以同时处理更新操作。

缺点：

仅支持InnoDB引擎，并且每张表一定要有一个主键，用于做write set的冲突检测;
必须打开GTID特性，二进制日志格式必须设置为ROW，用于选主与write set;主从状态信息存于表中 (–master-info-repository=TABLE. --relay-log-info-repository=TABLE), --log-slave-updates打开;
COMMIT可能会导致失败，类似于快照事务隔离级别的失败场景目前一个MGR集群最多支持9个节点
不支持外键于save point特性，无法做全局间的约束检测与部分事务回滚

使用业务的场景

对主从延迟比较敏感
希望对对写服务提供高可用，又不想安装第三方软件数据强一致的场景

4. 分库分表方案介绍

前面我们做的一大段实验，目的是为了大家能够理解MySQL的主从集群。而主从集群的作用，在我们开发角度更大的是作为读写分离的支持也是我们后面学习ShardingSphere的重点。我们这一部分就来介绍下分库分表。

分库分表就是业务系统将数据写请求分发到master节点，而读请求分发到slave节点的一种方案，可以大大提高整个数据库集群的性能。但是要注意，分库分表的一整套逻辑全部是由客户端自行实现的。而对于MySQL集群数据主从同步是实现读写分离的一个必要前提条件。

4.1 分库分表有什么用

分库分表就是为了解孢由于数据量过大而导致数据库性能降低的问题，将原来独立的数据库拆分成若干数据库组成，将数据大表拆分成若干数据表组成，使得单一数据库、单
数据表的数据量变小，从而达到提升数据库性能的目的。

例如:微服务架构中，每个服务都分配一个独立的数据库，这就是分库。而对一些业务日志表，按月拆分成不同的表，这就是分表。

4.2 分库分表的方式

分库分表包含分库和分表两个部分，而这两个部分可以统称为数据分片，其目的都是将数据拆分成不同的存储单元。另外，从分拆的角度上，可以分为垂直分片和水平分片。

垂直分片: 按照业务来对数据进行分片，又称为纵向分片。他的核心理念就是转库专用。在拆分之前，一个数据库由多个数据表组成，每个表对应不同的业务。而拆分之后，则是按照业务将表进行归类，分布到不同的数据库或表中，从而将压力分散至不同的数据库或表。例如，下图将用户表和订单表垂直分片到不同的数据库:

垂直分片往往需要对架构和设计进行调整。通常来讲，是来不及应对业务需求快速变化的。而且，他也无法真正的解决单点数据库的性能瓶颈。垂直分片可以缓解数据量和访问量带来的问题，但无法根治。如果垂直分片之后，表中的数据量依然超过单节点所能承载的阈值，则需要水平分片来进一步处理。

水平分片:又称横向分片。相对于垂直分片，它不再将数据根据业务逻辑分类，而是通过某个字段(或某几个字段)，根据某种规则将数据分散至多个库或表中，每个分片仅包含数据的一部分。例如，像下图根据主键机构分片。

常用的分片策略有:

取余\取模︰优点均匀存放数据，缺点扩容非常麻烦（比如：之前是两个，然后按照2取模，然后有一天这个不够用了，我们再加一个，那么就肯定要做数据迁移的，就会很麻烦）
按照范围分片∶比较好扩容，数据分布不够均匀（按照月份的话可能就不均匀，如果双11。比如是订单数据，这是1月和2月的，如果扩容的话老的数据就不需要动。再这个基础上我们可以添加一个方案，搞一个redis来记录每一个月的分片情况，1月份有哪几个片，可以认为是哪几个机器，比如1月份有1、2、3总共3个机器，2月份业务量上来了，三个机器不够了就可以加机器，然后在redis里面记录一下，2月份是1、2、3、4、5总共5个机器，这就做到了扩容，又想把数据做到均匀，怎么办呢？1月份我就按照3取模，2月份我就按照5取模，这样就结合了以上两种方式的优点。既可以做到扩容方便，不需要迁移数据，又做到了数据分配均匀。其实这个只是一个初级的方案，还是可以改进的，在2月份的时候多加了两个节点，也就是4和5，1月份的数据没有存到这两个节点上来，这两个节点上的数据肯定要少，整体来看数据依赖是不均匀的，为了能让数据稍微均匀一点，所以在取模的时候可以做一些加权，如果1、2、3月份的加权是1，那么4和5月份的加权就是2）
按照时间分片: 比较容易将热点数据区分出来。
按照枚举值分片∶例如按地区分片
按照目标字段前缀指定进行分区:自定义业务规则分片

水平分片从理论上突破了单机数据量处理的瓶颈，并且扩展相对自由，是分库分表的标准解决方案。

一般来说，在系统设计阶段就应该根据业务耦合松紧来确定垂直分库，垂直分表方案，在数据量及访问压力不是特别大的情况，首先考虑缓存、读写分离、索引技术等方案。若数据量极大，且持续增长，再考虑水平分库水平分表方案。

扩展问题: 如何设计一个不需要数据迁移的取模分片扩容方案？

4.3 分库分表要解决哪些问题

之前说过，分库分表其实并不只是字面意义上的拆分数据，他还有一系列的问题需要解决。虽然数据分片解决了性能、可用性以及单点备份恢复等问题，但是分布式的架构在获得收益的同时，也引入了非常多新的问题。而这些，都是一个成熟的分库分表方案需要考虑的问题。

事务一致性问题
原本单机数据库有很好的事务机制能够帮我们保证数据一致性。但是分库分表后，由于数据分布在不同库甚至不同服务器，不可避免会带来分布式事务问题。
跨节点关联查询问题
在没有分库时，我们可以进行很容易的进行跨表的关联查询。但是在分库后，表被分散到了不同的数据库，就无法进行关联查询了。
这时就需要将关联查询拆分成多次查询，然后将获得的结果进行拼装。
跨节点分页、排序函数
跨节点多库进行查询时，limit分页、 order by排序等问题，就变得比较复杂了。需要先在不同的分片节点中将数据进行排序并返回，然后将不同分片返回的结果集进行汇总和再次排序。这时非常容易出现内存崩溃的问题。
主键避重问题
在分库分表环境中，由于表中数据同时存在不同数据库中，主键值平时使用的自增长将无用武之地，某个分区数据库生成的ID无法保证全局唯一。因此需要单独设计全局主键，以避免跨库主键重复问题。
公共表处理Ⅰ
实际的应用场景中，参数表、数据字典表等都是数据量较小，变动少，而且属于高频联合查询的依赖表。这一类表一般就需要在每个数据库中都保存一份，并且所有对公共表的操作都要分发到所有的分库去执行。
运维工作量
面对散乱的分库分表之后的数据，应用开发工程师和数据库管理员对数据库的操作都变得非常繁重。对于每一次数据读写操作，他们都需要知道要往哪个具体的数据库的分表去操作，这也是其中重要的挑战之一。

4.4 什么时候需要分库分表?

在阿里巴巴公布的开发手册中，建议MySQL单表记录如果达到500W这个级别，或者单表容量达到2GB，一般就建议进行分库分表。而考虑到分库分表需要对数据进行再平衡，所以如果要使用分库分表，就要在系统设计之初就详细考虑好分库分表的方案，这里要分两种情况。

一般对于用户数据这一类后期增长比较缓慢的数据，一般可以按照三年左右的业务量来预估使用人数，按照标准预设好分库分表的方案。

而对于业务数据这一类增长快速且稳定的数据，一般则需要按照预估量的两倍左右预设分库分表方案。并且由于分库分表的后期扩容是非常麻烦的，所以在进行分库分表时，尽量根据情况，多分一些表。最好是计算一下数据增量，永远不用增加更多的表。

另外，在设计分库分表方案时，要尽量兼顾业务场景和数据分布。在支持业务场景的前提下，尽量保证数据能够分得更均匀。

最后，一旦用到了分库分表，就会表现为对数据查询业务的灵活性有一定的影响，例如如果按userld进行分片，那按age来进行查询，就必然会增加很多麻烦。如果再要进行排序、分页、聚合等操作，很容易就扛不住了。这时候，都要尽量在分库分表的同时，再补充设计一个降级方案，例如将数据转存一份到ES，ES可以实现更灵活的大数据聚合查询。

4.5 常见的分库分表组件

由于分库分表之后，数据被分散在不同的数据库、服务器。因此对数据的操作也就无法通过常规方式完成，并且它还带来了一系列的问题。好在，这些问题不是所有都需要我们在应用层面上解决，市面上有很多中间件可供我们选择，我们来了解一下它。

shardingsphere官网地址: https://shardingsphere.apache.org/document/current/cn/overview/

Sharding-JDBC是当当网研发的开源分布式数据库中间件，他是一套开源的分布式数据库中间件解决方案组成的生态圈，它由Sharding-JDBC、Sharding-Proxy和Sharding-Sidecar (计划中）这3款相互独立的产品组成。他们均提供标准化的数据分片、分布式事务和数据库治理功能，可适用于如Java同构、异构语言、容器、云原生等各种多样化的应用场景。

mycat 官网地址: http://www.mycat.org.cn/
基于阿里开源的Cobar产品而研发，Cobar的稳定性、可靠性、优秀的架构和性能以及众多成熟的使用案例使得MYCAT一开始就拥有一个很好的起点，站在巨人的肩膀上，我们能看到更远。业界优秀的开源项目和创新思路被广泛融入到MYCAT的基因中，使得MYCAT在很多方面都领先于目前其他一些同类的开源项目，甚至超越某些商业产品。

MyCAT虽然是从阿里的技术体系中出来的，但是跟阿里其实没什么关系。

DBLE官网地址: https://opensource.actionsky.com/

该网站包含几个重要产品。其中分布式中间件可以认为是MyCAT的一个增强版，专注于MySQL的集群化管理。另外还有数据传输组件和分布式事务框架组件可供选择。

5. 课程内容总结

你可能感兴趣的:(性能调优MySQL,MongoDB,mysql,架构,数据库)

Hadoop框架及HDFS详细概述搬砖人_li 大数据技术栈专栏 hadoop hdfs 大数据
文章目录Hadoop概述一、Hadoop1、分布式和集群2、Hadoop框架2.1概述2.2版本更新2.3Hadoop架构详解2.4官方示例2.4.1圆周率练习2.4.2词频统计3、Hadoop的HDFS3.1特点3.2架构3.3副本3.4shell命令Hadoop概述一、Hadoop1、分布式和集群分布式:分布式的主要工作是分解任务，将职能拆解，多个人在一起做不同的事集群:集群主要是将同一个业务
MySQL之InnoDB统计数据多动手,勤思考后端
背景通过showtablestatus和showindex可以看到表和索引相关的统计信息，例如表中有多少条记录，索引里有多少重复的，就像我们平时统计表里的数据一共有多少条等等会通过一些聚合函数去做运算，这种运算好处是很准确，基本是实时的，但是带来的问题就是很慢，数据越大越慢，因此一些业务场景我们选择将一些统计数据存在一个字段里，通过准实时的计算更新这个字段，每次查询这个字段就可以了，这个带来的问题
go 语言的跨平台编译 wjhx golang golang
go语言的跨平台编译go提供了编译链工具，可以在一个开发平台上，编译出其它平台的可执行文件。默认情况下，是根据当前的机器生成的可执行文件，可以使用goenv查看编译环境。在跨平台时，需要修改三个环境变量GOOS:目标平台的操作系统（darwinfreebsdlinuxwindows）GOARCH目标平台的架构是32位或64位（386amd64arm）交叉编译不支持CGO所以要禁用它以下三种方式wi
MySQL必会知识精华6（组合WHERE子句）立黄昏粥可温数据库 mysql 数据库
我们的目标是：按照这一套资料学习下来，大家可以完成数据库增删改查的实际操作。同时轻松应对面试或者笔试题中MySQL相关题目。上篇文章我们先做一下数据库的where条件过滤的方法，都是单个条件的过滤。本篇文章主要介绍查询的组合WHERE子句的使用方法。1、AND操作符通过AND操作符来给where子句附加条件，没加一个条件就加一个AND。可以理解为并且的意思。如：SELECT*FROMcardcWH
SQL server 和 mysql 自动排序生成序列号 weixin_42029613 SQL mysql
mysql和sqlserver都是数据库有关的mysql适合小型的数据库开发，而且免费开源的，一般和PHP一起开发小型企业或者个人网站一类的应用sqlserver是微软开发的数据库软件，需要收费，适合开发中型企业的应用，比mysql数据库功能更强大一些。除此之外，当然还有Oracle、DB2数据库用于大型企业商业应用。sqlserver排序有四个函数分别为：row_number顺序生成序列号ran
mysql5.7 双向主从_docker mysql5.7主从复制搭建（双主双从）老铁爱金衫 mysql5.7 双向主从
1.1简单说明这里用了两台服务器，分别是161,和163,有条件可以用四台161服务器：1主1备(mysql-5.7-master-161mysql-5.7-slave-161)端口：3339和3340163服务器：1主1备(mysql-5.7-master-163mysql-5.7-slave-163)端口：3339和3340docker镜像mysql:5.71.2这分别构建容器拉取镜像：doc
Kubernetes服务网格实战:从理论到落地 ivwdcwso 运维 kubernetes 容器云原生 k8s 服务网格
1.引言在微服务架构日益复杂的今天,服务网格(ServiceMesh)技术应运而生,成为解决微服务通信、安全、可观测性等问题的有力工具。本文将深入探讨服务网格的概念、原理,并以Istio为例,展示如何在Kubernetes环境中实践服务网格。©ivwdcwso(ID:u012172506)2.什么是服务网格?服务网格是一个基础设施层,用于处理服务间通信,实现可靠的请求分发,同时提供可观察性、流量管
Node.js后端架构与TypeScript教程夏庭彭Maxine
Node.js后端架构与TypeScript教程项目地址:https://gitcode.com/gh_mirrors/no/nodejs-backend-architecture-typescript项目介绍该项目名为nodejs-backend-architecture-typescript，由GitHub用户janishar创建。项目旨在提供一个生产就绪的博客平台后端服务，类似于Medium
Java篮球联盟管理系统web篮球俱乐部论坛系统springboot/ssm代码编写 kirito学长-Java java spring boot 开发语言
Java篮球联盟管理系统web篮球俱乐部论坛系统springboot/ssm代码编写基于springboot(可改ssm)+html+vue项目开发语言：Java框架：springboot/可改ssm+vueJDK版本：JDK1.8（或11）服务器：tomcat数据库：mysql5.7（或8.0）数据库工具：Navicat/sqlyog开发软件：eclipse/idea依赖管理包：Maven代码+
深入理解Node.js_架构与最佳实践随风九天 Vue六脉神剑前端 node.js 架构
1.引言1.1什么是Node.jsNode.js简介：Node.js是一个基于ChromeV8引擎的JavaScript运行时，用于构建快速、可扩展的网络应用。Node.js的历史背景和发展：Node.js最初由RyanDahl在2009年发布，旨在解决I/O密集型应用的性能问题。随着时间的推移，Node.js社区不断壮大，提供了丰富的库和工具，使其成为构建现代Web应用的重要选择。1.2为什么选
J2EE源程序开发：Hibernate、Struts和Spring的整合实践 46497976464
本文还有配套的精品资源，点击获取简介：本项目通过整合Hibernate、Struts和Spring框架，构建了一个功能完善的在线投票系统，展示了J2EE应用程序开发中三层架构的设计模式。该系统利用了这三个框架的优势，提高了开发效率、代码复用性，并便于测试和维护。学习该项目的配置与实践，对J2EE开发者提升技术能力具有重要意义。1.J2EE三层架构设计模式在现代企业级应用开发中，J2EE架构模式扮演
J2EE实验报告四：Struts框架的使用红头隼 java 开发语言 intellij idea tomcat maven struts2
实验四Struts框架的使用一、实验目的：1.掌握Struts标签库的使用方法2.要求：使用Struts标签库实现常用Web项目的关键页面。二、实验仪器、设备1、硬件环境PC微机；2G以上内存；VGA显示格式2、软件环境WindowsXP以上操作系统，JDK，Tomcat服务器等三、实验内容与要求在数据库中建立表格T_CUSTOMER(ACCOUNT,PASSWORD,CNAME)，插入一些记录。
J2EE实验报告二：Servlet基础编程红头隼 java-ee servlet java maven intellij idea tomcat 开发语言
实验二Servlet基础编程一、实验目的：1.掌握如何创建Servlet。2.掌握Servlet的生命周期。3.掌握如何在Servlet中使用JSP页面中常用的内置对象。二、实验仪器、设备1、硬件环境PC微机；2G以上内存；VGA显示格式2、软件环境WindowsXP以上操作系统，JDK，Tomcat服务器等三、实验内容与要求1在数据库中建立表格T_BOOK(BOOKID,BOOKNAME,BOO
麒麟v10系统arm64架构自制openssh9.5p1的rpm包傅炯耘Shelley
麒麟v10系统arm64架构自制openssh9.5p1的rpm包【下载地址】麒麟v10系统arm64架构自制openssh9.5p1的rpm包本仓库提供了一个适用于麒麟v10系统arm64架构的自制OpenSSH9.5p1的RPM包。该RPM包理论上适用于所有arm64架构（aarch64）的系统项目地址:https://gitcode.com/open-source-toolkit/5b51a
B/S架构与C/S架构 clover小洪爱网络架构原理 C/S B/S
原文参考：https://baijiahao.baidu.com/s?id=1630321059488708362&wfr=spider&for=pcB/S和C/S都是随着互联网的发展而出现的一种网络结构模式，而其用的非常广泛，在我们生活中都很常见。那它们到底是什么呢？接下来就详细的介绍一下B/S和C/S。上图为C/S架构，下图为B/S架构1、C/S架构C是英文单词“Client”的首字母，即客户
Ollama能本地部署Llama 3等大模型的原因解析（ollama核心架构、技术特性、实际应用）周杰伦_Jay 大模型LLMs llama 架构 transformer 深度学习人工智能数据结构
文章目录前言1、Ollama的核心架构和技术能力1.1、高效模型加载和存储1.2、推理优化1.3、微调支持1.4、部署工具链2.、Llama3模型的技术特性2.1、模型架构2.2、模型性能3.、Ollama部署Llama3的实际应用3.1、医疗领域应用：医学文档分析4、Ollama部署Llama3的行业优势5、持续优化方向前言亲爱的家人们，创作很不容易，若对您有帮助的话，请点赞收藏加关注哦，您的关
neo4j 4.x新建数据库，并解决报错Unsupported administration command: CREATE DATABASE 呆萌的代Ma 图模型与知识图谱 database 数据库 neo4j
重要社区版本不支持命令createdatabasexxx，只有企业版可以！社区版本只允许同时打开一个数据库，当然你可以多开几个neo4j服务，当你打开成新的数据库后，除了新数据库和system，其他的数据库就无法访问啦，但是它们依旧存在哈解决方法首先进入安装目录，比如~/Software/neo4j-community-4.3.3，然后修改neo4j.conf文件：cdconfvimneo4j.c
Java 数据库连接池：HikariCP 与 Druid 的对比我码玄黄后端数据库 Java java 后端数据库
Java数据库连接池：HikariCP与Druid的对比数据库连接池：HikariCP1.卓越的性能表现HikariCP在数据库连接池领域以其卓越的性能脱颖而出。其字节码经过精心优化，减少了不必要的开销，使得连接获取和释放的速度极快。在高并发场景下，HikariCP能够以最小的延迟和资源消耗提供高效的连接池服务。例如，在电商平台中，HikariCP能够快速响应大量用户请求，确保数据库连接的高效性，
KaiwuDB 受邀亮相 2024 数博会 KaiwuDB 数据库 kaiwudb 数博会
8月28-30日，由国家数据局主办，贵州省人民政府承办的2024中国国际大数据产业博览会（简称“数博会”）在贵阳启幕。KaiwuDB受邀携一众产品亮相大会，重点展示了分布式多模数据库KaiwuDB2.0及其在物联网海量异构数据管理分析的落地应用，现场引来众多客户伙伴们的热烈关注。KaiwuDB主打面向AIoT场景提供以时序、关系数据引擎为核心，结合分布式、原生AI和云边端协同能力的数据智能产品。2
优化数据库的方法？思维导图代码示例（java 架构) 用心去追梦数据库 java 架构
优化数据库是一个复杂但至关重要的过程，旨在提高性能、确保数据一致性和增强系统的可靠性。以下是针对MySQL数据库的优化方法概述，包括思维导图结构和Java架构中的代码示例。数据库优化的方法架构设计优化规范化与反规范化：根据应用需求平衡数据冗余与查询效率。分库分表（Sharding）：将大表或高访问频率的数据分散到多个数据库实例中。读写分离：使用主从复制机制减轻主服务器的读压力。缓存机制：引入Red
Elasticsearch 是如何实现 Master 选举的？思维导图代码示例（java 架构) 用心去追梦 elasticsearch java 架构
Elasticsearch使用一个称为ZenDiscovery的机制（在7.x版本之前）或基于协调节点的选举算法（从7.x开始，尤其是引入了“Voting-onlynodes”之后）来实现Master节点选举。从Elasticsearch8.x开始，默认使用的是Quorum-basedelectionalgorithm，该算法旨在提高选举过程的可靠性和效率。主要概念MasterNode:管理集群范
Linux内存管理(Linux内存架构，malloc，slab的实现) 花落已飘 Linux内核分析 linux 架构 java
文章目录前言一、Linux进程空间内存分配二、malloc的实现机理三、物理内存与虚拟内存1.物理内存2.虚拟内存四、磁盘和物理内存区别五、页页的基本概念：分页管理的核心概念：Linux中分页的实现：总结：六、伙伴算法伙伴算法的核心概念：伙伴算法的工作原理：伙伴算法的优缺点：优点：缺点：伙伴算法的实现：例子：总结：前言本篇文章开始讲解Linux的内存管理，深入了解内存管理有助于我们深入Linux底
知识图谱检索增强的GraphRAG(基于Neo4j代码实现）大模型扬叔知识图谱 neo4j 人工智能 GraphRAG
前言图检索增强生成（GraphRAG）正逐渐流行起来，成为传统向量搜索方法的有力补充。这种方法利用图数据库的结构化特性，将数据以节点和关系的形式组织起来，从而增强检索信息的深度和上下文关联性。图在表示和存储多样化且相互关联的信息方面具有天然优势，能够轻松捕捉不同数据类型间的复杂关系和属性。而向量数据库在处理这类结构化信息时则显得力不从心，它们更擅长通过高维向量处理非结构化数据。在RAG应用中，结合
SQL 中的 JOIN：INNER、LEFT、RIGHT、FULL、Cross、Self 和 Natural Join 梓芮. SQL Server sql tsql sqlserver mssql 微软数据库 sql 数据库
在SQL中，JOIN操作用于根据相关列将两个或多个表中的数据组合在一起。JOIN是关系数据库中非常重要的概念，因为它允许我们从多个表中提取相关数据。本文将介绍SQL中的不同JOIN类型什么是JOIN？JOIN是一种SQL操作符，用于根据相关列将两个或多个表中的数据行组合在一起。在数据库设计中，数据通常分散在多个表中，通过JOIN操作可以将这些表中的数据组合起来，以便进行查询和分析。INNERJOI
SQL Server 数据库结构查询小马哒哒哒_PerfTest 【SQL Server】
SELECT(casewhena.colorder=1thend.nameelsenullend)表名,a.colorder字段序号,a.name字段名,(casewhenCOLUMNPROPERTY(a.id,a.name,'IsIdentity')=1then'√'else''end)标识,(casewhen(SELECTcount(*)FROMsysobjectsWHERE(namein(S
sql:MySql create FUNCTION,VIEW,PROCEDURE geovindu 数据库编程 Mysql
usegeovindu;#函数DELIMITER$$dropfunctionifexistsf_GetDepartmentName$$CREATEfunctionf_GetDepartmentName(didint)returnsnvarchar(400)begindeclarestrnvarchar(100);selectDepartmentNameintostrfromDepartmentLi
MySql:局域网和权限用户管理 geovindu 数据库编程
MySql5.6(XP)/5.7(win7)添加用户和设置局域访问权限操作.请在http://sourceforge.net/下载MySqlControlCenter(不是安装版本).usemysql;select*fromuser;updateusersetauthentication_string=password('0214')whereuser='geovindu';updateusers
sql:Mysql create view,function,procedure geovindu 数据库编程 Mysql sql
usetest;createdatabaseLiber;useLiber;#顯示數据庫20150210GeovinDu涂聚文SHOWDATABASES;droptableBookKindList;#书目录createtableBookKindList(BookKindIDINTNOTNULLAUTO_INCREMENT,#自动增加BookKindNamenvarchar(500)notnull,B
DeepSeek-R1全面超越OpenAI o1：开源大模型训练范式革新前端javascript
CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读人工智能在过去十年中的发展令人惊叹。其中，2017年Google发布的“AttentionIsAllYouNeed”论文奠定了神经网络架构的重要基础，推动了大规模语言模型（LLM）的突破。OpenAI早期专注于强化学习（RL），但在Transformer结构问世后，迅速调整方向，借助Google的开源研究开发出强大的LLM。然而，尽
使用Ollama本地化部署DeepSeek 大模型llm人工智能
1、Ollama简介Ollama是一个开源的本地化大模型部署工具，旨在简化大型语言模型（LLM）的安装、运行和管理。它支持多种模型架构，并提供与OpenAI兼容的API接口，适合开发者和企业快速搭建私有化AI服务。Ollama的主要特点包括：轻量化部署：支持在本地设备上运行模型，无需依赖云端服务。多模型支持：兼容多种开源模型，如LLaMA、DeepSeek等。高效管理：提供命令行工具，方便用户下载
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl