分享多线程、线程池、hystrix

多线程的圣经:
分享多线程、线程池、hystrix_第1张图片

1、线程。

1.1、我们的程序跑在哪个线程里?是怎样执行请求的?

在不考虑自己写线程池的前提下。

假如就是一句最普通的xxModel.setName(“xx");到底是运行在哪里的?我们找调用它的一条链,我相信总有一次调用,是你找不到的了。可能是controller,可能是dubbo,总而言之是别的框架,调进来的。

这就是我总说的四大入口,controller,dubbo-server,mq-consumer和job。

注意:这里正好能显现出来,dubbo-server是等着别人来调,dubbo-client是调用别人;mq-consumer是等着别人来调,mq-producer是调用别人。

等着别人来调用,一定是占用了哪个端口(别抬杠),自己维护一个线程池,等着别人来调用或者自己的定时器。

dubbo-client或mq-producer,都是调用别人调出去,所以,假如是在一个controller里调用别人的dubbo-client,那么,这段代码就是在controller的线程池里的。

分享多线程、线程池、hystrix_第2张图片

2020-06-26 00:00:06.938
[http-nio-18000-exec-5][238afd4e-c1db-433a-a6e4-ae1005f9174a] INFO
o.u.c.c.c.monitor.visitor.impl.Slf4jMonitorVisitor.doNotifyControllerNormal:361

  • ControllerNormalExecute-[44],o.u.c.a.w.c.NotificationController.queryFirstList[POST]/api/v3/notification/queryFirstList,headers:{“x-request-id”:[“238afd4e-c1db-433a-a6e4-ae1005f9174a”],“content-length”:[“24”],“x-forwarded-proto”:[“https”],“accept-language”:[“zh”],“x-forwarded-port”:[“443”],“x-forwarded-for”:[“111.227.9.102”],“x-real-ip”:[“111.227.9.102”],“authorization”:[“token
    CmYRv6uHHQHUPGHdX3WCtLSR1586183530.825365”],“x-forwarded-host”:[“app.quanziapp.com”],“host”:[“app.quanziapp.com”],“x-original-uri”:[“/api/v3/notification/queryFirstList”],“x-channel”:[“Duodian”],“content-type”:[“application/json;
    charset=utf-8”],“x-scheme”:[“https”],“x-build-ts”:[“1593100805682”],“accept-encoding”:[“gzip”],“x-app-version”:[“Android
    Circles
    3.5.4”],“user-agent”:[“okhttp/3.14.4”]},jsonBody:{“identifier”:“sBbpv2j”},ret:{“body”:{“errorCode”:0,“interactNotification”:{“unReadCount”:0},“notifications”:[{“avatar”:“https://data.quanziapp.com/common/noti/uvw_helper.png”,“content”:“Vinki
    将你的话题标为了精华”,“createTime”:1592995153000,“producerId”:“kDLbPk”,“producerType”:“uvw_helper”,“theme”:2,“title”:“文文文科班
    小助手”,“uiType”:1,“unReadCount”:1,“unReadShowType”:1,“version”:1},{“producerId”:“nkDxkz”,“producerType”:“join_apply”,“title”:“加入申请”,“unReadCount”:0,“unReadShowType”:1},{“producerId”:“Vj7eB3”,“producerType”:“notification_helper”,“title”:“通知小助手”,“unReadCount”:0,“unReadShowType”:1},{“producerId”:“VjY9ja”,“producerType”:“find_chats”,“title”:“发现群聊”,“unReadCount”:0,“unReadShowType”:2},{“producerId”:“Wjv3k1”,“producerType”:“chat_helper”,“title”:“群聊助手”,“unReadCount”:0,“unReadShowType”:1},{“producerId”:“PkyekV”,“producerType”:“uvw_team”,“title”:“乌托邦�{�队”,“unReadCount”:0,“unReadShowType”:1}],“report”:false,“totalUnReadCount”:1},“headers”:{},“statusCode”:“OK”,“statusCodeValue”:200}

2020-06-26 00:00:04.445
[DubboServerHandler-10.1.1.21:20881-thread-199][31d5c14a-aef3-473e-8e0c-7932a96821de]
INFO
o.u.c.c.c.monitor.visitor.impl.Slf4jMonitorVisitor.doNotifyRpcServerNormal:268

  • DubboServerNormalExecute-[36],o.u.c.s.s.d.i.NotificationDubboServiceImpl.queryFirstList,params:[{“circleId”:40950,“clientType”:2,“userId”:209754}],ret:{“errorCode”:0,“interactNotification”:{“unReadCount”:0},“notifications”:[{“avatar”:“https://data.quanziapp.com/common/noti/uvw_helper.png”,“content”:“Vinki
    将你的话题标为了精华”,“createTime”:1592995153000,“producerId”:“31447”,“producerType”:“uvw_helper”,“theme”:2,“title”:“文文文科班
    小助手”,“uiType”:1,“unReadCount”:1,“unReadShowType”:1,“version”:1},{“producerId”:“3”,“producerType”:“join_apply”,“title”:“加入申请”,“unReadCount”:0,“unReadShowType”:1},{“producerId”:“7”,“producerType”:“notification_helper”,“title”:“通知小助手”,“unReadCount”:0,“unReadShowType”:1},{“producerId”:“5”,“producerType”:“find_chats”,“title”:“发现群聊”,“unReadCount”:0,“unReadShowType”:2},{“producerId”:“4”,“producerType”:“chat_helper”,“title”:“群聊助手”,“unReadCount”:0,“unReadShowType”:1},{“producerId”:“2”,“producerType”:“uvw_team”,“title”:“乌托邦�{�队”,“unReadCount”:0,“unReadShowType”:1}],“report”:false,“totalUnReadCount”:1}

2020-06-25 00:00:00.183 [ConsumeMessageThread_15][] INFO
o.u.c.s.s.listener.SendNotificationListenerImpl.consume:47 -
SendNotificationListenerImpl:�{建通知,
MessageID:0A010393000662E8F8627B98A0A02370,
MessageContent:{“notificationId”:5835717,“tableName”:“notifications”}

2020-06-26 02:00:00.038 [Thread-21][] INFO
org.uvw.circle.member.web.job.LiveJob.liveStatisticsJob:32 -
统计�{�播信息任务开始,time:Fri Jun 26 02:00:00 CST 2020,param: 2020-06-26
02:00:00.039 [Thread-21][] INFO
org.uvw.circle.member.web.job.LiveJob.liveStatisticsJob:45 -
统计�{�播信息任务dayCircleLiveStatistics,date:Thu Jun 25 02:00:00 CST 2020
2020-06-26 02:00:00.061 [Thread-21][] INFO
org.uvw.circle.member.web.job.LiveJob.liveStatisticsJob:47 -
统计�{�播信息任务,circleLiveStatistics,date:Thu Jun 25 02:00:00 CST 2020
2020-06-26 02:00:00.076 [Thread-21][] INFO
org.uvw.circle.member.web.job.LiveJob.liveStatisticsJob:49 -
统计�{�播信息任务结束,耗时:38ms

还是应该跟大家一起看一下日志,正好可以对比一下dubboServer.log和dubboClient.log。

问题:dubboServer.log里的所有线程一致吗?dubboClient.log里的所有线程一致吗?如果不一致,为什么?都有什么。

那么,假如我现在是个springmvc的程序,有3个对外的url,有1000个外部的http请求;假如现在启动了tomcat,就有n个http-8090-xxx的线程,每个线程都是一次响应一个http请求,这个请求执行完之前,时间片可能被剥夺走,但是不会响应下一个请求;这个http请求响应完了,响应下一个http请求,但是,是不是同一个url的,谁也说不出来。

思考:是不是访问一个url的100个请求,是并发的?

大家都说是这样,但是我翻了几乎所有的讲多线程的书,谁也没说是这样。

1.2、找找支持的理论。

粗粒度对象 or 细粒度对象。

粗粒度对象=单例,我们见到的大多数框架引用的对象,都是粗粒度对象,比如spring的bean,springmvc的controller,mq的consumer。

细粒度对象=自己new的,我们自己建立的数据库Model,JO这一类的。

要想证明是粗粒度对象还是细粒度对象太太太简单了,直接public无参构造方法打印一句话,运行个几分钟,保证是个请求打上,看看构造方法被调用几次就行了。

栈帧

方法内部变量?对象属性?方法参数?
分享多线程、线程池、hystrix_第3张图片

方法内部变量,在栈帧里,一定不会被多线程并发访问,是线程安全的。这个是唯一明确的。

对象属性和方法变量,就是一个有趣的抬杠了。因为,不明确,而是递归的向调用方看。

对象属性(non-static)跟对象的生命周期是一致的,因此,对象会不会被多线程并发的访问,就是对象属性是否线程安全了。假如,是controller对象,本身就是粗粒度的,当然会被多线程并发访问(上边加了synchronize则不会被并发访问),如果它里面有属性的话,肯定就会被多线程弄乱。假如,是service里新建的数据库Model对象的yy属性,这是细粒度的,但是,至少在这个方法里没有被多线程访问的可能,因为它的引用也在栈帧了。当然,可以继续抬杠,这个对象如果传出去了,不一定咋用的,不一定是线程安全的啊。

方法变量也是一样,它不在栈帧里,传进来也是一个引用。方法是啥样的?是一个粗粒度对象?粗粒度对象会被多线程引用?一个细粒度对象,是一个生命周期很短的对象?不会被多线程引用?传进来的方法变量来源于哪里?也是个对象的属性?

所以,方法内部变量,明确。对象属性和方法变量,必须具体情况具体分析,没有一句话的结论。

1.3、线程安全?

servlet,struts2的action,springmvc的controller。

https://www.cnblogs.com/smallSevens/p/8854016.html

分享多线程、线程池、hystrix_第4张图片
分享多线程、线程池、hystrix_第5张图片

1.4、ThreadLocal。

ThreadLocal,跟Thread绑定的Map,可以用来存任何东西。

可以在两个方法调用之间不用传参的唯一方法。(我见过懒人,一串的方法调用懒得传参,直接set/get-redis。。。)

但是,这是个大坑。大坑。大坑。

坑1:关联代码太隐蔽。

我们现在用线程池或hystix了,都会导致业务代码换了一个线程执行,这样,原来从ThreadLocal里能取到东西的代码,现在就取不到了。

假如,我们嫌半年前的一段代码太慢,想放到线程池里执行,正好有读ThreadLocal的,这样就读不到了。你还不好测,这个问题太隐蔽了。(写也一样)

坑2:ThreadLocal的set-remove时机,必须和Thread响应的请求正好一致。

从我们的一个实际问题出发,我们引用了traceId,就是往slf4j的MDC里放的,而slf4j的MDC就是ThreadLocal。

我刚刚上网查dubbo的traceId的时候,是类似于这篇文章。

https://my.oschina.net/dyyweb/blog/2979259

简单的把dubbo的provider和consumer处理成一样的了。

里面的逻辑都是,有别人传过来的就用别人传过来的,没有别人传过来的,就用自己新建的。

这个逻辑,放在dubbo的provider端,完全没问题,因为dubbo的provider端就是在自己的线程池里运行,这个线程池里的线程就是要响应dubbo被调用。所以dubbo请求的生命周期,等于现在ThreadLocal的生命周期。(这个表述很难,想不出来怎么表述)

但是,对于dubbo的consumer端,这个逻辑就不对了。consumer端是我调用别人,调用别人可能出现在controller里,可能出现在mq-consumer里。假如在controller里,controller的开始设置了traceId,当然没问题了,dubbo的consumer就读到了traceId;但是如果controller的开始没有设置traceId呢?这里就生成了新的traceId,那么之前的日志上就没有traceId,在grep traceId的时候,你就会丢掉前面的一部分日志;更可怕的是,这个traceId没有被remove,那么这个线程响应的下一个请求里在调用dubbo的consumer之前,traceId相当于用的是上一个请求的。。。

分享多线程、线程池、hystrix_第6张图片

对比一下代码。网上查到的。
分享多线程、线程池、hystrix_第7张图片

我们自己的。

服务方(等着别人调用我):先跟ThreadLocal取,没有就重新生成,放到dubbo上下文里,放到slf4j的MDC里;等dubbo调用完了就删除掉(大家想想,如果不删可以吗?)。

消费方(我调用别人):先跟slf4j的MDC取,如果有就放到dubbo上下文里,如果没有也不放(上一张图的核心就是在跟大家讲,调用出去的时候不能重新生成)。

这里不是专门在讲traceId是怎么用的,所以不是traceId的全部。只是用traceId举个例子,讲讲ThreadLocal的使用。

那么,回到ThreadLocal的使用。

我们在使用ThreadLocal的时候,有两条红线

A、ThreadLocal的set-remove时机,必须和线程响应请求的生命周期一致。刚进入这个请求set,这个请求临结束在finally里remove。

B、最好在业务代码里只从ThreadLocal里get,而不要再次set。如果真的需要跨线程池的话,直接把这个参数显示的传过去。或者说,业务代码里最好不要有直接get-set-remove,ThreadLocal的地方。因为出问题了,真查不出来。

最后,我们的PageHelper的分页插件踩了这两条红线了吗?通过我的封装,还踩这两条红线吗?

2、ThreadPoolExecutor。

我们为什么要使用线程池?前已述及,我们的程序是跑在多线程环境里的,controller就给你创造了多线程的环境。

controller的线程池给你提供了多个请求之间的并行化。但是请求内仍然是串行的,假如里面的代码分为四步,每步200ms,最终的TP99就是800ms。

我们自己写的线程池就是为了解决请求内的并行化,如果这四步之间没有前后关系的话,就让这四步再并行起来,那么TP99,可能就是205ms了。

所以,想想,rpc请求和http请求里,写线程池提速是正常的;但是,假如是没有特殊原因的要在mq-consumer里写线程池提速,降低TP99,就是比较二了。

降TP99是线程池的大多数时候的用处,还有另一种用处:让低速运行多份来match高速。

假如,我们想快速把mysql里的数据导入到redis里。那就是三部分东西,mysql->java->redis。很显然,一台java,不可能把redis的性能压满吧。mysql一次检索出一千条数据来,瓶颈不在mysql;redis基本的写法都是每次访问一条数据,网络i/o一次,这个时候java在等待,但是离把redis的读写打满还早呢。所以,瓶颈在于java串行访问redis,当然,可以通过pipeline去把100条redis命令合到一次i/o里,但是,毕竟打印单条日志不好打印,而且写法也不是常见的写法,所以不推荐写成pipeline;那,就只能在java端想办法来增大单台java对redis的压力了,方法就是用线程池去访问redis,直接十倍增redis的访问量。

其实,可以这样类比:

如果redis集群的总吞吐量低了,比如现在每秒只能处理3w条命令;但是,流量涨了要处理5w条了,怎么办?往redis及群里加分片。

如果java的总吞吐量低了,jvm对linux机器的影响,无非就是cpu负载,cpu-load和内存三部分,我刚刚说的java一直在等待,就是对前三部分压力都不大的时候,用线程池增加对外的访问量,就是在不太增加机器负载的前提下,降低总等待的绝对时间(这句话真不好解释)。

使用线程池,让本来运行在一个线程里的任务,跑到了多个线程里运行,一定是会增加cpu-load的。

讲一下cpu负载和cpu-load是两回事。

2.1、6个构造方法参数+方腾飞那张图1\2\3\4。

实际上有构造方法参数有7个,但是ThreadFactory只是给Thread命个名;其余的参数决定了任务如何执行。

核心线程数

最大线程数

存活时间

存活时间单位

阻塞队列

饱和策略

分享多线程、线程池、hystrix_第8张图片
分享多线程、线程池、hystrix_第9张图片
分享多线程、线程池、hystrix_第10张图片
分享多线程、线程池、hystrix_第11张图片
分享多线程、线程池、hystrix_第12张图片

以上的描述,最核心的是图9-2。可以看到,任务有四个去向,而且按顺序的是,核心线程数>阻塞队列>(最大线程数-核心线程数)>饱和策略。前三个去向都有自己的容量,自己的容量满了,继续向下走。

A、核心线程数。

最难设置的构造方法参数是核心线程数,如果核心线程数设置少了,则降低了并发度,造成tp99升高。

https://blog.csdn.net/longgeqiaojie304/article/details/93599706

分享多线程、线程池、hystrix_第13张图片

网上这种说法不对。这是某一本经典的书上对线程池设置的描述。但是,这个是执行任务型的,目标是提高吞吐量。我们在写job和mq-consumer的时候,当然也可以这么做。

但是,我们处理的绝大多数情况要保证的是TP99。所以,线程池的并发度,不能比它所在的controller或rpc低。因此,我们要关心的就是它所在的controller或rpc。在讲线程池的地方,没有讲的很正确的地方查到。反而是hystrix对线程池的核心线程数的设置我觉得讲的非常有道理。

分享多线程、线程池、hystrix_第14张图片

B、阻塞队列:

我们常用的就是LinkedBlockingQueue,双向链表阻塞队列,可以设置容量。

还需要大概知道两个(但是都不怎么常用):

SynchronousQueue,Executors.newCached用的是这个,本身没有容量,直接走到下一个阶段。

PriorityBlockingQueue,具有优先级。别的阻塞队列,出列的顺序跟入列的顺序绝对一样;这个可以设置出队列的顺序,可以让权重高的先执行,或者当定时器用。

C、饱和策略:

走到饱和策略,就相当于阶段1、2、3都已经满了。要根据情况选择,c端请求的可以选择DiscardOldestPolicy,但是job里的完全就可以选择CallerRunsPolicy。

走到饱和策略,就是我们的阶段1、2、3留的资源都不够了,所以一定要报警。

2.2、两个shortcut,以及对linux机器的伤害。

java内置了三个线程池,其实都是对六个构造方法参数的组合。

A、singleton用于任务的串行化,我们一般不太用。

分享多线程、线程池、hystrix_第15张图片

核心线程数和最大线程数都是1,自然,存活时间就没用了,阻塞队列用的是无限长的,因此,阶段1只能容纳一个任务,阶段2是无限长的,阶段3和4是走不到的。因为线程只有1个,所以所有的任务都是串行的。如果来了海量请求的话,就是慢慢排队,一个一个来,内存会被阻塞队列撑大;但是,cpu的负载和load都不会飚起来;tp99会延长很多。

注意:因为所有任务都是串行的,因此不用加锁。。。

B、fixed用于以固定的线程池大小来执行任务。

分享多线程、线程池、hystrix_第16张图片

与singleton非常类似,只是核心线程数和最大线程数都是外界指定的值,自然,空闲时间也没用了,阻塞队列用的也是无限长的,因此,阶段1能容纳n个任务,阶段2是无限长的,阶段3和4是走不到的。如果来了海量请求的话,也是慢慢排队,n个n个来,内存会被阻塞队列撑大;但是,cpu的负载和load都不会飚起来;tp99会延长很多。

C、cached用于来了之后尽快执行任务。

分享多线程、线程池、hystrix_第17张图片

核心线程数是0;最大线程数是Integer最大值,可以认为就是无限大;最大空闲时间是60s;阻塞队列是长度为0的同步队列,如果没有空闲线程,就来一个任务新建一个线程。阶段1的长度为0,阶段2的长度为0,阶段3的长度为无限大,不会走到阶段4。如果来了海量请求的话,每来一个请求就会新建一个线程,这样的话,每新建一个线程就会增加1M内存(线程的栈空间,可以减小设置为256k),内存彪了,这个jvm可能会OOM;新建了很多线程,如果业务内是强计算,就会让整个机器的cpu-load飚了,这就会让整个机器假死,可怕啊。它的好处是,来了任务就尽快执行,不会拖慢tp99。简单说,来了一波海量请求,用linux机器的资源硬抗,扛过去了就是扛过去了,扛不过去有可能整个机器假死。

2.3、阿里巴巴开发者手册里,关于线程池的描述。

分享多线程、线程池、hystrix_第18张图片

这里的4,就是咱们上面说的。

只说了让咱们自己建立线程池,但是没说怎么建立。其实,就是合理的设置阶段1、阶段2、阶段3、阶段4。

上面已经展示了,让阶段2和阶段3无限大,肯定都不是好事;同理,让阶段1无限大,跟让阶段3无限大是一样的,也不好;那么,就要让阶段1、阶段2、阶段3都是有限大的,让阶段4是无限大的。走到阶段4,代表了咱们前三个阶段的容量都不够了,是咱们设置小了。所以,走到阶段4,必须跟咱们的监控报警融合起来,不能无声无息的。

阶段2的大小,跟占用的内存大小相关;但是,多一个java对象占用的内存,比多一个线程占用的内存小的多,只要不是太大就没问题。整个2w没问题。

阶段1的大小的设置就比较讲究了。网上一些关于线程池核心线程数大小的设置,跟机器的cpu核心数有关系,这是对于那种任务型的程序,比如跑job,跑mqConsumer,跑kafka,这种应用关心的是吞吐量。但是,我们平时做的东西,应该是c端请求的响应,应该是关心tp99,响应时间。假如一段service里的代码,我们不把它放到自己的线程池里跑的时候,它的并发度是10个一起并发的话;我们把它放在了一个最大线程数只有5的线程池里运行,那么,肯定会把并发程度拉的更低,tp99更高。因此,核心线程数大小的设置其实是跟我们需要的并发度有关的,hystrix的异步化也是用的线程池,我们看hystrix里的描述。

2.4、错误理解代码示例。

A、没并发起来。

Future<A> fa = tpe.submit();
A a = fa.get();
Future<B> fb = tpe.submit();
B b = fb.get();
Future<C> fc = tpe.submit();
C c = fc.get();

B、超时时间是累加的。

Future<A> fa = tpe.submit();
Future<B> fb = tpe.submit();
A a = fa.get(300);
B b = fb.get(500);

C、设置超时时间。(京东的真实CaseStudy,必须详细讲)

https://blog.csdn.net/u011494923/article/details/86570565

这段代码没问题,能达到里面的代码最多运行1s。

但是,这段代码只是个例子,是跑在main方法里的,我们改到我们的代码里的时候,要改一改。线程池可以作为service的一个属性,也可以作为service方法里的一个方法本地变量。作为属性的话,如果还是用singleton的线程池,并发能力,明显比原来弱;作为方法本地变量的话,线程池不被主动调用shutdown,则不会完全被回收,流量大的话,迟早OOM。

TODO 这一块要详细看看shutdown。

2.5、自己心里有甘特图,ABCD。

线程池大多数时候,用来做并行化,降低TP99。在用线程池做并行优化之前,我们怎么评估大概能把tp99降低到多少呢?如果降低不了多少,这种手段就没什么用了。

Java已经优化了这么多年了,JIT及时编译技术等等,保证你在使用各种不同java代码写法的时候,不会有什么本质上的优化。

但是,只要是有网络调用,那就至少是几毫秒的开销。因此,我们在查看当前这个方法的tp99的时候,几乎就是关心mysql和rpc(redis的调用只要是不循环调用,不调用o(n)的命令,几乎就很少了)。把查询mysql和rpc作为一个一个任务,假设是A\B\C\D,在监控上查到这些任务的tp99。然后观察这些任务的关系,假如任务B的参数是任务A的返回值,那么任务A和B不能并发,只能是完成了任务A再执行任务B。画一个甘特图,把任务之间用箭头连起来,表达任务之间的关系,箭尾是先执行的任务,箭头是后执行的任务。这样就可以看明白,优化之后,tp99可以降低到什么程度了。

A a = sa.f();
B b = sb.f(a);
C c = sc.f();
D d = sd.f(b,c);
Future<A> fa = tpe.submit(()->sa.f());
Future<C> fc = tpe.submit(()->sc.f());
A a = fa.get();
Future<B> fb = tpe.submit(()->sb.f(a));
B b = fb.get();
C c = fc.get();
D d = sd.f(b,c);
这里不禁要问了,Fork-Join的代码,是要好写点吧。

分享多线程、线程池、hystrix_第19张图片

2.6、线程池的替代品。

除了使用线程池之外,当然还有其他好多方法,使用多线程。目的都是一致的,在某个请求单线程环境里,通过多线程并行化,降低总的执行时间。

CompletionService

Fork-Join

我没有深入研究过,因为类似的功能,线程池都能实现,所以没用过。

直接使用线程池,我能通过控制核心线程数,明确的控制它的并发程度,以上的两个能吗?我表示怀疑。

前些日子许博辰跟我一起查的,为啥同一个任务X在同一个时间,机器A和机器B都执行了。首先怀疑的是全局锁用错了。但是通过日志可以看到,机器A的任务X是准时执行的,但是机器B的任务X是过了设定时间20s之后才执行的。而机器A执行任务X又用不了20s。那么机器B在执行任务X的时候,自然是可以执行了。所以,问题不在全局锁上,而在于为什么机器B会押后20s执行任务X。查了一下日志,同一个时间点还有另一个任务Y要执行,任务Y执行了20s,因此,机器B上的任务Y和任务X,虽然定义在同一个时间点执行,但是,明显是串行执行的。这就激发了思考,它们两个在什么样的线程池内执行?上网一查,spring的定时任务执行,默认是只有一个线程,那么,当然是串行执行的。所以,按照网上的教程,重新指定了spring的定时任务线程池,就没这个问题了。通过这个例子,就是想印证一下【直接使用线程池,我能通过控制核心线程数,明确的控制它的并发程度;其它的方式,并发程度对我们来说是个黑盒】。

2.7、线程池的监控。

我们还是以c端用的线程池为例。

从报警的角度去想:C端用的线程池最好是并发能力,比实际需要的还强。进入阶段4一定要报警的,其实进入阶段2就应该报警。

从监控的角度去想:被线程池封装的是一个任务的执行,大概率是耗时的调用,很可能是rpc。而且,决定线程池的核心线程数的因素,就在于这个任务的qps和tp99。所以,监控线程池,要知道里面执行的任务的qps和tp99。

再有一定量的补充,任务在开始执行之前,又等了多长时间?最好也要监控一下。

所以,列出来的监控点是:A、每分钟进入阶段4的次数,B、每分钟任务执行的qps和tp99,C、阻塞队列的长度平均数,D、任务在执行前等待的时间长短的平均数(这个有点不好整)。

A、进入阶段4的次数,自己实现丢弃策略即可。自己实现=先上报自己的监控+父类的行为。
分享多线程、线程池、hystrix_第20张图片

B、线程池留给我们的监控点方法有三个:beforeExecute、afterExecute、terminated,这三个方法,都是protected且实现为空的,很明显就是留给我们子类进行监控用的。terminated是线程池关闭之前调用的,想想,其实可以用来检测RD的不规范行为,看看新建和关闭是否成对。beforeExecute和afterExecute可以认为就是aop,写代码来监控qps和tp99正合适。

C、阻塞队列的长度平均数。这个可以自己起个定时器,每分钟扫一下,但是,肯定不准,因为一分钟只扫一遍,谁知道是碰到多的时候,还是少的时候呢。多扫几次求平均肯定是好的。还有另一种做法,干脆就直接在beforeExecute里调用一下也行,但是,如果这一分钟真的有1000个任务等着执行,就是没有一个等到执行,那就没有这个数字了。两种方式,都不准确,都有不适用的情况,让我选的话,我还是选第二种做法。看监控,如果这个数长时间是0,可以适当降低核心线程数(降低也没有啥太实际的好处,省几M内存,不降低tp99);如果这个数长时间大于100,可以适当提高核心线程数(这个可以降低tp99)。

分享多线程、线程池、hystrix_第21张图片

D、任务在执行前等待的时间长短的平均数。B计算的是beforeExecute和afterExecute之间的时间的话。D计算的就是submit/execute到beforeExecute之间的时间了,这里execute和beforeExecute方法名字还真有歧义,execute是指把Runnable提交给线程池,beforeExecute是指真的执行前。execute真是发生在beforeExecute之前的。。。这样的话,就要重写execute方法了,说实话有点危险,感觉有点得不偿失了。这个需求是当时伟业提的,我硬着头皮做了,伟业也没说啥用着不对的。

从out的角度再去考虑,我们拿不到啥具体的信息,拿不到参数,能拿到返回值,只能拿到返回值又不知道是啥参数,对查问题也没啥用。因此,slf4j和mail的MonitorVisitor实际上没啥作用。但是,grafana作为统计展示用,还是需要的。因为我们实际上要看的就是各种次数和tp99。所以,没必要写到MonitorVisitor里了,直接调用GrafanaComponent即可。

2.8、高阶用法。

本来想讲一下在去哪碰到的,实时拿到五个对手的机票信息,也不知道这五个哪个先返回,哪个后返回,但是只要返回三个,就不等其他两个了。

想了想,这个不应该跟线程池混到一起,应该算是CountDownLatch的使用。线程池只算是CountDownLatch控制的多线程的载体。这么说的话,那就太多了,以后专题讲吧。

2.9、线程池 vs mq自接自发。

线程池,异步化,降低tp99。

Mq自接自发,异步化,降低tp99。

听起来感觉作用一样,但是,细细品一下,还是不一样的,不是替代的关系。

我们前面说的线程池异步化,都是用来在一个c端请求,通过并行化,来降低tp99。这些还都是在一个c端请求里的,要求总执行时间尽量短。但是,线程池的等待的任务是存在阻塞队列,存在内存里的,只要一重启就没了(Jvm的shutdownhook不是绝对可靠)。不安全。

Mq自接自发,数据是存在mq的服务器上,我们的服务重启也没关系。但是,引入了mq,就不一定啥时候给你发回来了,即使没有等待,也至少是秒级的延时。任务被再次触发的时机不可预知,但安全。

所以,也有一种说法叫mq自接自发是写必达的;但是,线程池异步化,不是写必达的,有可能因为重启丢任务。

使用线程池,可以等着返回值Future ft = tpe.submit(…);也可以不等着返回值tpe.execute(…);(这两个的区别在前面介绍api的部分都没有介绍,有点二)。但是,使用mq就相当于一定是没有返回值的。

说起来很虚,只能意会,不能言传。

下单分成很多步,扣减库存,使用优惠券,开不开发票,买不买取消险,这些都是要在当前这个c端请求内就要给个结论。这种请求是放线程池还是mq自接自发?

下单还有很多步,是否给新的优惠券,结算信息和对账信息发送给结算组,这些都可以不在这个c端请求内给个结论。这种请求是放线程池还是mq自接自发?

3、Hystrix。

3.1、纵观、概论。

hystrix,近两三年兴起,同时处理并行和熔断两件事,是做api项目的神器。

服务端,可以近似的分为api项目和服务项目两种,他们考虑东西的区别,很大,很大,很大。

服务项目,为别人提供更好的服务,考虑的更多的是,如何做好缓存(别看做好缓存只有四个字,可以说博大精深),幂等性,做好监控。

Api项目,是组合好别人的服务,考虑的更多的是,并行化(降低tp99),熔断(不把局部问题扩散到全部),做好监控(快速找到是谁的问题),不做缓存(不替下游做缓存是红线,因为人家是一个整体,可以通过mq或job来刷新缓存,如果api替下游做缓存了,只能靠c端请求定时失效来刷新缓存)。

https://github.com/Netflix/Hystrix/wiki

https://blog.csdn.net/a298804870/article/details/53427873

在通过第三方客户端访问(通常是通过网络)依赖服务出现高延迟或者失败时,为系统提供保护和控制【既保护自己又保护下游】

在分布式系统中防止级联失败【A->B->C】

快速失败(Fail fast)同时能快速恢复【快速失败指不调用下游了,快速恢复只不依赖人工操作】

优雅的服务降级机制

提供近实时的监控、报警和运维控制手段【无法和现有的监控报警手段融合,必须自己新作】

3.1.1、隔离。

使用hystrix之前:
分享多线程、线程池、hystrix_第22张图片

使用hystrix之后:
分享多线程、线程池、hystrix_第23张图片

感觉使用完了hystrix之后,区别就是把所有的调用(依赖),都放到单独的线程池里了。三个好处:并行化;可配置超时时间;一个调用的流量暴涨,不会影响别的地方。

3.1.2、熔断。

什么是熔断?如果我调用下游的时候,下游由于什么原因变得几乎所有的返回结果都超时,比如mysql被拖慢;那么,再不停的往上打请求,下游也会越来越慢,我也会越来越慢,这个时候还不如不把请求往上打了,等待下游恢复。

hystrix的熔断判断和恢复,都不靠人,而是自动判断。设置一个时间窗口,当这个时间窗口内的总请求量超过一定数量开始计算,当抛Exception或超时的请求数量,超过一个百分比的时候,则触发熔断;触发熔断后,大多数请求都不再请求第三方,而是走自己的fallback方法;触发熔断后,在每个时间窗口内,放行一个请求到第三方,如果正常返回,则结束熔断状态。

注意:不是所有的第三方请求都可以熔断,比如在下单中,酒店是否支持开发票,可以熔断,发生熔断的时候,返回不可以开发票就好了;但是,占用房型库存就不可以熔断了,不知道占用库存是否成功的时候,就没法判断是否可以下订单。

分享多线程、线程池、hystrix_第24张图片

TODO 说实话,我从来没真看明白过这个图。

The precise way that the circuit opening and closing occurs is as
follows:

  1. Assuming the volume across a circuit meets a certain threshold (HystrixCommandProperties.circuitBreakerRequestVolumeThreshold())…
  2. And assuming that the error percentage exceeds the threshold error percentage
    (HystrixCommandProperties.circuitBreakerErrorThresholdPercentage())…
  3. Then the circuit-breaker transitions from CLOSED to OPEN.
  4. While it is open, it short-circuits all requests made against that circuit-breaker.
  5. After some amount of time (HystrixCommandProperties.circuitBreakerSleepWindowInMilliseconds()),
    the next single request is let through (this is the HALF-OPEN state).
    If the request fails, the circuit-breaker returns to the OPEN state
    for the duration of the sleep window. If the request succeeds, the
    circuit-breaker transitions to CLOSED and the logic in 1. takes over
    again.

3.1.3、整体流程图。

分享多线程、线程池、hystrix_第25张图片

我们从这里面能看出点hystrix要用的东西;但是,并不是所有东西都要用的。

调用方式有两种,普通的 vs 观察者的,没见过用观察者的。

有缓存,刚刚已经说过,不能替下游做缓存,所以绝对不要用。

有熔断器判断。

执行起来有线程池和信号量两种,没见过用信号量的。

所以,看到这里,我们就明白了,用hystrix就用两件事情,并行化(内部是用线程池实现的),熔断。

3.2、配置。

https://github.com/Netflix/Hystrix/wiki/Configuration

Setter.withGroupKey(HystrixCommandGroupKey.Factory.asKey(e.getGroupKey()))
                .andCommandKey(HystrixCommandKey.Factory.asKey(e.getCommandKey()))
                .andThreadPoolKey(HystrixThreadPoolKey.Factory.asKey(e.getThreadPoolKey()))
                .andThreadPoolPropertiesDefaults(
                        //配置线程池
                        HystrixThreadPoolProperties.Setter()
                                .withCoreSize(e.getThreadPoolCoreSize())    //配置线程池里的线程数,设置足够多线程,以防未熔断却打满threadpool
                )
                .andCommandPropertiesDefaults(
                        //配置熔断器
                        HystrixCommandProperties.Setter()
                                .withCircuitBreakerEnabled(true)
                                .withCircuitBreakerRequestVolumeThreshold(e.getRequestVolumeThreshold())  //10S内有n次请求就开启熔断器
                                .withCircuitBreakerErrorThresholdPercentage(e.getBreakerPercent()) //失败率大于n%熔断
                                .withExecutionTimeoutInMilliseconds(e.getInvokeTimeOut()) //接口响应超时认为超时失败,计入失败率
                                .withCircuitBreakerSleepWindowInMilliseconds(e.getBreakerSleepTime()) //n毫秒尝试解除熔断
                )

最难的就是对核心线程数的设置,跟前面的线程池的核心线程数的设置一样,不再赘述。

3.3、api和具体设置。

Futrue<String> str = command.queue();//熔断+并行

String str = command.execute();//只熔断,不并行

只并行不熔断,直接用线程池就行了。

3.4、hystrix的监控。

hystrix=线程池+熔断

所以监控也从两方面下手。

A、线程池。

线程池,使用hystrix默认推荐的线程池,阶段1的大小等于设置的核心线程数,阶段2的长度可以设置,阶段3的长度为0,走入到阶段4,实际上就进入fallback了。

想办法监控阻塞队列的长度,没看到。因为从Hystrix的api里拿出来的是ExecutorService,不是ThreadPoolExecutor;用正常的方法没找到拿到BlockingQueue的api,这里只能先放弃了;如果给出一大票强转+反射肯定拿得到,但是这样好吗?

想办法监控进入到fallback里,是因为线程池拒绝的数量。

B、熔断。

监控进入fallback的数量,进入fallback有几种原因。好像是都有对应的方法。

A、熔断打开。

B、线程池reject。

C、执行失败。

D、执行超时。

分享多线程、线程池、hystrix_第26张图片

普通的情况,还是要监控QPS和TP99,这两个直接在myExecute上写就行了。

3.5、小技巧。

调试的时候直接触发熔断。如果不知道的话,很容易自己写抛Exception来触发熔断;实际上没有那么复杂,直接在新建Command的时候,设置CircuitBreakerForceOpen为true即可;注意在测试完设置回来(这个构造方法本身是标注为过时的)。

Command跟spring容器的关系。这个就是转化api的关系。因为Command的run方法是没有参数的,所以run方法里需要调用的Bean和参数,都要通过Command的构造方法传进去,这样就造成了Command不能作为spring的一个粗粒度bean进行管理。所以,我们平常都是每次调用都new一个,然后把要调用的bean的方法和参数传进来。可以通过以下的小技巧,把Command从但提出去的一个类,转变成匿名内部类,这样就可以任意使用当前类的spring的bean和其他的方法了。而且,代码还不会大批量改动。

分享多线程、线程池、hystrix_第27张图片

你可能感兴趣的:(java,多线程,java,多线程,线程池)