亿级网关janus性能优化与jvm调优实践分享

亿级网关janus性能优化与jvm调优实践

个人简介

蔡磊 在唯品会基础架构服务化团队,负责唯品会API Gateway/Reverse Proxy的设计与开发,性能调优与疑难杂症。

大纲

  1. janus背景介绍与技术选型
  2. 线程模型与优化
  3. netty深度调优与实践
  4. 性能瓶颈快速定位工具与方法论
  5. 高并发下的gc优化与排查,控制每月一次频率
  6. 通用计数器需求场景实现
  7. 一个有意思的gc问题
  8. 踩坑后的代码规范总结

janus网关背景

  • 定位:高性能,高可用,可扩展,可管理,可治理,安全的网关产品,作为所有流量的入口
  • 网关价值:中心化网关所能提供的所有统一控制。权限,安全,资源限制,防刷,聚合,熔断与重试,同机房路由,灰度导流等等
  • 底层技术选型,从servlet到akka到netty
  • 目前主要是ApiGateway 由于容器与功能复用,也做了部分反向代理

线程模型与优化

  • 经典的netty boss worker模型
  • 多个worker线程池共享:接入请求的worker与转发的http/rpc请求线程worker共用相同线程池
  • 一次转发的worker线程尽量不切换:接收请求的netty的worker与转发请求的worker在同一线程,减少切换,不会放入队列再出队
  • 插件化引入共享线程池+独立线程池模型
  • 性能数据介绍

netty深度调优与实践

  • 基于worker线程内共享,无锁化;安全共享处理各种非线程安全代码,全异步化
  • netty native epoll
  • bytebuf有解析请求时使用堆内对外对比
  • boss线程根据端口数来决定,
  • 重写netty handle的提前半解析优化
  • 重度使用netty InternalThreadLocalMap jdk7使用PlatformDependent工具
  • worker线程池合并
  • 一次请求过程worker线程不切换上下文

性能瓶颈快速定位工具与方法论

  • 没有魔法,尽可能的善用工具,识别优化最大价值点
  • 从系统底层监控到jvm层
  • 火焰图:系统函数调用+jvm方法栈消耗
  • jmc java自带分析工具
  • jmh 最好通读官方demo,避免写错误的使用

高并发下的gc优化与排查

  • 控制每月一次cms频率
  • 内存溢出问题各种踩坑:熔断与指标统计
  • log4j2升级2.6版本free gc
  • 源码无秘密:jdk7默认出发cms为什么是92%
  • kafka原生代码的指标采样导致old区晋升过快
  • 高io导致jvm停顿,gc日志放ramfs,并生产环境加入-XX:+PerfDisableSharedMem来避免生成perf
  • 重用对象减少垃圾对象数量

通用计数器实现方案

  1. 滑动窗口实现:时间轮+数组桶
  2. 提前清理vs使用时清理
  3. 清理对象复用 使用时清理:清理上次时间到当天时间,需要加锁,自旋锁清理
  4. 内存与性能:AtomicLong vs LongAdder
  5. 哪些场景可以用到(限流 防刷 熔断所有要计数的需求)

一个有意思的gc问题

  • 使用lru使用角度来谈gc问题选择
  • lru准确性,由于不够用,所以尽量大则准确,那么gc问题就来了
  • 跟着ygc随波逐流,释放对象,解决就要根据流量模型设置大小
  • 进一步抽象,所有能熬过ygc到老年代,并且存在反复创建的都有此问题,比如从各种链接池清理闲置链接

网关代码总结几条:

  • 尽可能复用对象,尽快释放对象
  • 参考netty代码实现技巧
  • 尽量无状态无锁,一定要有状态优先线程内共享其次cas
  • 了解你所写的每行代码内部逻辑,jmh测试度量(一个简单gson例子)

你可能感兴趣的:(亿级网关janus性能优化与jvm调优实践分享)