需求背景:mysql数据库中有一个表的数据(600多万)有一个字段的内容需要解密再通过另外一种加密方式进行加密再回存。通过java程序计算完成更新。
一条条计算更新。这里是将手机号解密,在通过另外一种方式回存。
算法步骤:
1、查询需要解密的数据总条数
2、循环查询1条数据,进行解密,加密,更新,commit。
public void updateOne() {
int n = 0;
n = getCount();
log.info("待密数据条数:" + n);
if (n > 0) {
for (int i = 0; i < n; i++) {
TmpMUser tmpMUser = getOne();
if (null != tmpMUser) {
String yphone = tmpMUser.getCellphoneSha();
log.info("原手机号:" + yphone);
if (!StringUtils.isEmpty(yphone)) {
yphone = yphone.replaceFirst("86-s4:", "");
String phone = SM4Util.sm4Decode(yphone, keyString);
String origPhone = SHAUtils.getSHA("86-" + phone);
log.info("解密出手机号:" + phone);
tmpMUser.setPhone(phone);
tmpMUserMapper.updateTmpMUser(tmpMUser.getRowId(), phone, origPhone);
tmpMUserMapper.commit();
}
}
log.info("已解密数据条数:" + i);
}
} else {
log.info("没有需要解密的数据");
}
}
存在的问题。
数据量太大,几秒钟才能操作完成一条。原因:每更新一条就commit,消耗数据库性能,第二,更新的条件没有索引,查找数据较慢。
改进,建索引,每200条commit一次。
/**
* 更新200条
*
*/
public void update200() {
int n = 0;
n = getCount();
log.info("待密数据条数:" + n);
if (n > 0) {
for (int i = 0; i < n / 200 + 200; i++) {
List tmpMUserList = get200();
if (CollectionUtils.isNotEmpty(tmpMUserList)) {
for (TmpMUser tmpMUser : tmpMUserList) {
String yphone = tmpMUser.getCellphoneSha();
log.info("原手机号:" + yphone);
if (!StringUtils.isEmpty(yphone)) {
yphone = yphone.replaceFirst("86-s4:", "");
String phone = SM4Util.sm4Decode(yphone, keyString);
String origPhone = SHAUtils.getSHA("86-" + phone);
log.info("解密出手机号:" + phone);
tmpMUser.setPhone(phone);
tmpMUserMapper.updateTmpMUser(tmpMUser.getRowId(), phone, origPhone);
}
}
tmpMUserMapper.commit();
}
log.info("已解密数据条数:" + 2 * i + "00");
}
} else {
log.info("没有需要解密的数据");
}
}
这里更新数据一定需要手动commit,如果没有commit更新是不生效的,所以优化这一步是关键。
优化完成,提升到每秒200条。
/**
* 提交事务
*/
@Update("")
public void commit();
单表优化
除非单表数据未来会一直不断上涨,否则不要一开始就考虑拆分,拆分会带来逻辑、部署、运维的各种复杂度。一般以整型值为主的表在千万级以下,字符串为主的表在五百万以下是没有太大问题的,而事实上很多时候MySQL单表的性能依然有不少优化空间,甚至能正常支撑千万级以上的数据量。
1字段
尽量使用TINYINT、SMALLINT、MEDIUM_INT作为整数类型而非INT,如果非负则加上UNSIGNED;
VARCHAR的长度只分配真正需要的空间;
使用枚举或整数代替字符串类型;
尽量使用TIMESTAMP而非DATETIME;
单表不要有太多字段,建议在20以内;
避免使用NULL字段,很难查询优化且占用额外索引空间;
用整型来存IP。
2索引
索引并不是越多越好,要根据查询有针对性的创建,考虑在WHERE和ORDER BY命令上涉及的列建立索引,可根据EXPLAIN来查看是否用了索引还是全表扫描;
应尽量避免在WHERE子句中对字段进行NULL值判断,否则将导致引擎放弃使用索引而进行全表扫描;
值分布很稀少的字段不适合建索引,例如“性别”这种只有两三个值的字段;
字符字段只建前缀索引;
字符字段最好不要做主键;
不用外键,由程序保证约束;
尽量不用UNIQUE,由程序保证约束;
使用多列索引时主意顺序和查询条件保持一致,同时删除不必要的单列索引。
3查询SQL
可通过开启慢查询日志来找出较慢的SQL;
不做列运算:SELECT id WHERE age + 1 = 10,任何对列的操作都将导致表扫描,它包括数据库教程函数、计算表达式等等,查询时要尽可能将操作移至等号右边;
sql语句尽可能简单:一条sql只能在一个cpu运算;大语句拆小语句,减少锁时间;一条大sql可以堵死整个库;
不用SELECT *;
OR改写成IN:OR的效率是n级别,IN的效率是log(n)级别,IN的个数建议控制在200以内;
不用函数和触发器,在应用程序实现;
避免%xxx式查询;
少用JOIN;
使用同类型进行比较,比如用'123'和'123'比,123和123比;
尽量避免在WHERE子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描;
对于连续数值,使用BETWEEN不用IN:SELECT id FROM t WHERE num BETWEEN 1 AND 5;
列表数据不要拿全表,要使用LIMIT来分页,每页数量也不要太大。
4引擎
目前广泛使用的是MyISAM和InnoDB两种引擎:
MyISAM
MyISAM引擎是MySQL 5.1及之前版本的默认引擎,它的特点是:
不支持行锁,读取时对需要读到的所有表加锁,写入时则对表加排它锁;
不支持事务;
不支持外键;
不支持崩溃后的安全恢复;
在表有读取查询的同时,支持往表中插入新纪录;
支持BLOB和TEXT的前500个字符索引,支持全文索引;
支持延迟更新索引,极大提升写入性能;
对于不会进行修改的表,支持压缩表,极大减少磁盘空间占用。
InnoDB
InnoDB在MySQL 5.5后成为默认索引,它的特点是:
支持行锁,采用MVCC来支持高并发;
支持事务;
支持外键;
支持崩溃后的安全恢复;
不支持全文索引。