多线程处理大数据量数据

最近公司需要一个新的需求,需要一个接口去跑数据。数据量还蛮大的,大约50-60万数据(一条一条执行),其中还涉及到与其他接口的交互,因此这些数据跑下来要耗时很久,因此设计了一个方案,使用多线程的方式进行处理。

方案1 

  每次重数据库表中取一定量的数据(自己按实际情况定义)放在线程池缓存队列里,启动10个线程去线程池里去取数据。(相当于生产者和消费者的关系),这里需要有一个触发点,当我缓存里没有数据时,需要再次从数据库中再次获取数据。

方案2 

  在数据库表中添加一个线程号字段,用来记录该条数据被哪条线程所执行,创建线程池,一次启动10个线程去数据库表中更新自己需要处理的数据(相当于占位符一样,先把数据拿过来),我每个线程每次取1000条数据(每条数据更新线程号+状态),数据库更新操作是原子性的,不会出现更新同一数据的情况,10个线程依次去执行逻辑操作,每个线程处理完自己所占用的1000条数据后,再去数据库取1000条数据,直到数据库中没有需要处理的数据,跳出线程循环。  因为涉及到多个线程异步处理数据,异步处理结束后需要统一处理一些逻辑。所有代码中我使用了线程池中的CountDownLatch计数器来调度主线程和子线程。

注:

线程池的概念是初始化线程池时在池中创建空闲的线程,一但有工作任务,可直接使用线程池中的线程进行执行工作任务,任务执行完成后又返回线程池中成为空闲线程。使用线程池可以减少线程的创建和销毁,提高性能。

举个例子:我是一个包工头,代表线程池,手底下有若干工人代表线程池中的线程。如果我没接到项目,那么工人就相当于线程池中的空闲线程,一但我接到了项目,我可以立刻让我手下的工人去工作,每个工人同一时间执行只执行一个工作任务,执行完了就去执行另一个工作任务,知道没有工作任务了,这时工人就可以休息了(原谅我让工人无休止的工作),也就是又变成了线程池中的空闲线程池。

队列作为一个缓冲的工具,当没有足够的线程去处理任务时,可以将任务放进队列中,以队列先进先出的特性来执行工作任务

逻辑代码如下

package com.macro.mall.component;



import org.apache.commons.collections.CollectionUtils;

import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.*;

public class ThreadPoolUtils {
    private ThreadPoolUtils(){}

    private static final ThreadPoolExecutor EXECUTOR =
            new ThreadPoolExecutor(10,10,0L, TimeUnit.MINUTES,new LinkedBlockingQueue<>());

    public static ThreadPoolExecutor getThreadPool(){
        return EXECUTOR;
    }

}

class ThreadPoolDemo {
    public static void main(String[] args) {
        //单例模式创建线程池
        ThreadPoolExecutor threadPool = ThreadPoolUtils.getThreadPool();
        //计数器设置为10个,用来调度主线程和子线程之间关系
        CountDownLatch downLatch = new CountDownLatch(10);
        for (int i = 0; i < 10; i++) {
            threadPool.submit(() -> {
                try {
                    while (true) {
                        //处理逻辑 先去数据库更新1000条数据
                        //查询数据,若查询出的数据为空,直接break
                        List datas = new ArrayList<>();
                        if (CollectionUtils.isEmpty(datas)) {
                            break;
                        }
                    }
                }finally {
                    downLatch.countDown();
                }
            });
        }

        try {
            //阻碍主线程,等所有子线程完成 再去执行下面操作
            downLatch.await();
            //处理逻辑
        } catch (Exception e) {
            Thread.interrupted();
            e.printStackTrace();
        }

    }
}

CountDownLatch是一个非常好用的多线程控制工具类,代码中调用CountDownLatch中的countdown方法就是通知CountDownLatch一个线程已经完成了任务,倒计时器可以减1,调用await方法即要求主线程等待所有的(代码中为10个线程)任务全部执行完成,待10个线程全部执行完成后,主线程才能继续执行。当然,我们也可以使用循环栅栏CyclicBarrier来实现,它比CountDownLatch要更加复杂且强大(感兴趣可自行查阅资料)。

 

你可能感兴趣的:(java知识)