视频地址 https://www.bilibili.com/video/BV1MZ4y1S741
最近接到一个任务:对一大批数据进行处理,先使用接口把数据拉取到本地,然后再写脚本进行处理,数据量大概有几百万,所以单线程就不满足了。
处理逻辑其实不重要,毕竟这个没有重用性,就单纯来说说这个多线程是如何来处理数据的,以及我在里面所踩的坑。
需要请求一个接口去拿数据,接口的参数有这三个
page
、pageSize
、projectId
,你可以理解这个接口就是一个列表的接口
一个接口,只要请求参数对了,那么结果应该就没问题了。即便是还有问题,那其实也不重要了,我们只是调用方。
所以我把每个请求的参数存入数据库,通过判断这个请求参数,来判断我们请求的数据是否有问题。(这个是在我拉取数据失败N次想到的办法)
yxx_request表
CREATE TABLE `yxx_request` (
`id` int(11) NOT NULL AUTO_INCREMENT COMMENT 'id',
`page` varchar(10) COLLATE utf8mb4_unicode_ci NOT NULL,
`page_size` varchar(10) COLLATE utf8mb4_unicode_ci NOT NULL,
`project_id` varchar(50) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT '项目ID',
`threadName` varchar(50) COLLATE utf8mb4_unicode_ci DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=50400 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci COMMENT='111';
下面就用代码模拟有50个不同的projectId
,每个projectId
下有50页数据。
伪代码如下:
public void xdxTestOne() {
System.out.println("开始了......");
final int pageCount = 50;
List<String> projectIds = new ArrayList<>();
for (int i = 0;i < 50; i++) {
projectIds.add(UUID.randomUUID().toString());
}
HashMap params = new HashMap();
params.put("pageSize", 100);
for (String projectId : projectIds) {
params.put("projectId", projectId);
for (int i = 1; i <= pageCount; i++) {
params.put("page", i);
System.out.println(JSON.toJSONString(params));
params.put("threadName", Thread.currentThread().getName());
yxxBatchDataMapper.insertRequest(params);
// TODO 通过接口去获取数据,然后存储到本地
}
}
System.out.println("结束了......");
}
insertRequest
INSERT INTO yxx_request (page, page_size, project_id, threadName)
VALUES (#{page}, #{pageSize}, #{projectId}, #{threadName})
上面的代码很简单,数据也没有任何问题,就不做展示了。
把上面的代码改造成多线程如下
public void xdxTestTwo() {
System.out.println("开始了2......");
final int pageCount = 50;
List<String> projectIds = new ArrayList<>();
for (int i = 0;i < 50; i++) {
projectIds.add(UUID.randomUUID().toString());
}
HashMap params = new HashMap();
params.put("pageSize", 100);
ThreadPoolExecutor threadPoolExecutor = new ThreadPoolExecutor(15, 15, 0, TimeUnit.SECONDS, new LinkedBlockingQueue<>());
for (String projectId : projectIds) {
params.put("projectId", projectId);
threadPoolExecutor.execute(() -> {
for (int i = 1; i <= pageCount; i++) {
params.put("page", i);
System.out.println(JSON.toJSONString(params));
params.put("threadName", Thread.currentThread().getName());
yxxBatchDataMapper.insertRequest(params);
}
});
}
System.out.println("结束了2......");
}
ThreadPoolExecutor 是线程池,不熟悉的小伙伴可以先看看这个 Java线程池详解
大家可以想象一下上面代码执行的结果,判断一下这样的改造是否有问题呢?
当然,既然我如此的问,那一定是有问题的,首先我们看看数据量,通过上面的描述我们是要模拟 50*50 的请求,那应该是有 2500 条请求才对的。
page , page_size,project_id, 这三个字段进行分组应该是唯一的,但现在却找到了多条数据
明显数据出了问题,这个问题,我排查了很久,其实这是多线程一个常见的问题:多线程共享一个变量,A线程改变了数据,但B线程还在使用, 解决的办法也很简单:把共享变量改成多例的
改造后的代码
public void xdxTestTwo() {
System.out.println("开始了2......");
final int pageCount = 50;
List<String> projectIds = new ArrayList<>();
for (int i = 0;i < 50; i++) {
projectIds.add(UUID.randomUUID().toString());
}
ThreadPoolExecutor threadPoolExecutor = new ThreadPoolExecutor(15, 15, 0, TimeUnit.SECONDS, new LinkedBlockingQueue<>());
for (String projectId : projectIds) {
threadPoolExecutor.execute(() -> {
HashMap params = new HashMap();
params.put("pageSize", 100);
params.put("projectId", projectId);
for (int i = 1; i <= pageCount; i++) {
params.put("page", i);
System.out.println(JSON.toJSONString(params));
params.put("threadName", Thread.currentThread().getName());
yxxBatchDataMapper.insertRequest(params);
}
});
}
System.out.println("结束了2......");
}
其实说白了这个问题的解决办法是很简单的,只是多线程共用了单例变量,但在写这些个代码还是遇到了很多的问题
上面代码我们是写好了,怎么运行它呢?因为我们现在都是基于SpringBoot开发,我想大家应该也会和我一样,直接写一个controller,然后一个http请求就完事了。
这看似没有任何问题,但实际存在大问题,我最开始就是这样做的,然后数据库一直存在重复的数据(共享变量也是导致数据重复的原因之一),后面我在方法的第一行打印了一个日志,发现这个方法被请求了多次
使用postman和浏览器都是相同的结果,应该是http的重试机制导致的。
解决的办法也有两个
这个上面已经解释了
字面意思,就是sql分页 LIMIT page, pageSize
,但现在我们写代码都早已习惯了各种分页插件,没有自己去写过,下面就是我传递的page, pageSize
正确的传参(还是在请教老大看出来的)
一般处理数据,可能会单独的去创建一些零时表,然后对这个表去进行增删改查操作,这时候我们经常会忘记给这个零时表加索引
操作数据库能批量
就批量,当然要注意数据量 500-1000条/次 还是ok的
能在本地就在本地跑,一般我们自己的电脑都是16G+,服务器除非是线上,测试环境都很小,我在测试环境开50个线程就挂机了,在本地就不会。
这里给处理数据的一些建议
关注我吧,一起学习、一起成长