我发现我不懂你了_JUC

    首先第一眼看到JUC是不是很惊喜很意外,没错我第一次看到别人写JUC这个缩写我也是同样的反应,JUC全称为java.util.concurrent包,基本上java当中多线程必须会面对的。

    今天要说的这个问题,其实是跟组内某大神一起排查问题的时候发现的一个问题,整个问题其实比较复杂,但是核心点和排查的关键我觉得合起来就下面两个部分:ThreadPoolExecutor和countdownlatch的理解是否到位。

业务背景

        1、拥有单个工作线程的线程池,如:ExecutorService executorService = Executors.newSingleThreadExecutor();

        2、线程池负责执行runable对象且该对象内部是一个从阻塞队列取任务进行消费的逻辑,消费完成后会countdownlatch.countDown()

        3、外部采用countdownlatch.await()的方式监控任务是否完成。


技术背景

    首先ThreadPoolExecutor这个大家肯定很熟悉,崩溃是面试别人或者被其他人面试都会遇到这个问题,然后基本上我们都会不加思考的回答出来整个任务submit的过程,如下图。

我发现我不懂你了_JUC_第1张图片
线程池提交任务过程

说明:考虑到的不合理的风控,这里只能说明此图来自互联网


我发现我不懂你了_JUC_第2张图片
threadPoolExecutor添加任务的过程

说明:这部分的源码是为了和上图进行呼应的。

1、但是很不幸在这个问题过程中,你知道这些问题还不足以让你分析解决问题,你需要进一步到了解到threadPoolExecutor内部的worker是如何进行工作的。

2、所以你需要看下面这张图,这张图才是threadPoolExecutor内部worker真正的执行过程。


我发现我不懂你了_JUC_第3张图片
threadPoolExecutor内部worker的工作逻辑

说明:

    1、threadPoolExecutor在创建新的worker对象的时候会绑定thread和task,没错就是上图中的task。

    2、内部for循环会判断是否有任务在执行或者说是否有任务待执行,这个需要重点看清楚是否有任务待执行的逻辑。


我发现我不懂你了_JUC_第4张图片
threadPoolExecutor中worker获取任务

说明:

    1、这里需要看清楚就是worker取任务就是去workQueue去取的,那么这个workQueue是什么呢,再回过去看看第一张图就知道了,就是我们提交任务的时候保存任务的那个Queue。

    2、这个队列是一个阻塞队列。


线上日志

我发现我不懂你了_JUC_第5张图片
服务异常的jstack日志

说明:

    1、注意标红色的部分日志,这部分线程阻塞在刚刚上面说到的worker在take任务部分,一开始没看懂这部分,后来分析以后发现这里实际上与我们的业务不符合的,我们的runAble对象是一个for循环,不会退出任务的,也就是说threadPoolExecutor里面的工作线程是不需要取任务的,因为有一个不会停止的任务在执行。


我发现我不懂你了_JUC_第6张图片
服务正常的jstack日志

说明:

    1、对比下正常业务的线程阻塞的地方,这个阻塞队列是我们上层代码逻辑的阻塞队列,说明worker在执行任务的时候在任务里面在等待待消费的任务。


由此得到

    1、上面的问题其实是我们代码逻辑经过比较复杂的逻辑导致任务线程异常退出了,所以才会有服务异常里面的日志情况,也就是说threadPoolExecutor里面的worker没有任务执行了,如果早一点了解到这个层面的问题,其实问题排查起来会快很多。

    2、java中线程池的工作线程最好自定义线程命名规则,方便排查问题,至于怎么重命名,线程池的创建线程池对象时,有一个参数是ThreadFactory类型,如果不传递,默认用的是DefaultFactory,我们可以自定义一个ThreadFactory然后作为参数传到进去,这个类里面就可以自定义线程池中创建的线程的名称。

    3、threadPoolExecutor需要了解任务的过程,也需要了解任务执行的过程,要不遇到问题还真不好排查。


另外问题

我发现我不懂你了_JUC_第7张图片
背景代码逻辑

说明:

    1、下面这个问题其实很简单,就是使用countdownlatch.await()如果超时会怎么样呢?看上面这段代码看上去是会抛异常。

    2、可是,真相是什么呢?毕竟真相只有一个呢。那么只有深入源码了。


我发现我不懂你了_JUC_第8张图片
countdownlatch.await

说明:

    1、这里是尝试获取锁,其实countdownlatch内部实现是依赖AQS的Sync的。


我发现我不懂你了_JUC_第9张图片
线程hang起部分逻辑

说明:

    1、从这里可以看出底层是通过LockSupport.parkNanos实现指定超时时间的等待,重点是如果线程超时且没有被中断,是不会抛异常的。


countdownlatch的结论

    没错,countdownlatch.await()其实在很多情况下超时了是不会抛出异常的。

    没错,countdownlatch.await()其实在很多情况下超时了是不会抛出异常的。

    没错,countdownlatch.await()其实在很多情况下超时了是不会抛出异常的。

你可能感兴趣的:(我发现我不懂你了_JUC)