




  • 首先我们在svn上拉下来了一个最新版本的项目,然后导入到eclipse中配置好之后在tomcat中跑起来项目是能正常运行的.
    • 这个时候因为我们里面不是有个jeesite.properties配置文件嘛(它里面就写的是那个连接数据库用的jdbc.url、username、password\以及一些数据库连接池参数以及一些集成到spring框架上的比如redis、shiro等用到的一些参数,都在这个配置文件中配置着呢)。
    • 此时我们配置文件中配置的是localhost,也就是当地的数据库,此时他是正常的。
  • 但是当我们把jdbc.url换成39.105.60.166也就是我们阿里云数据库时,项目此时就报错了。
  • 然后我们初步判断是数据库满了或者说连接不上了(这是后面改好了的,这之前是占用100%)
  • 然后我们打开了pgAdmin 4 v2这个软件,在里面想连一下云数据库看一下里面的数据,结果在密码输入正确的情况下连不上云数据库(通过ip地址,也就是刚才的39.105.60.166),死活连接不上数据库,还报一个下面的错。
  • 在网上查了查,都说让改一些配置文件:postgresql.conf(在这个配置文件中设置一下在里面改一下listen.address=“*”,port=5432),pg_hba.conf中设置一下信用IP,然后在IPV4中添加一个ip,把本地的ip添加进去,以便数据库能访问到还是不行.
  • 到了第二天师兄师姐说不行咱问一问阿里云客服吧,然后和人家聊了聊最后把问题解决了,过程如下:
    给人家说的是:在我们没有改动的情况下云上的数据库突然连接不上了,然后把上面在报的错也就是:could not connect to server:Connection refused (0x0000274D/10061) is the server running on host “” and accepting TCP/IP connections on port 5432?,
[root@xhz ~]# netstat -ntlp
[root@xhz ~]# iptables -nL
  • 完了后查出来数据库服务没有启动(让我们查下环境部署核实下启动方式),用systemctl start postgresql-10.service这条命令重新启动下数据库服务。不过我们数据库重启失败了,不知道是自己操作原因还是怎么的,然后重启后重启失败报错。
  • 然后用journalctl -xe >>mysql.logs这个命令重定向到mysql.log这个文件中find / -name mysql.logs,这个命令也可以辅助用来找到mysql.log)。

netstat -antlpigrep 5432


  • 前言:vi /etc/my.cnf中指定了数据库错误日志位置及名称.log-error=/var/log/mariadb/mariadb.log(名字不一定就是这,就是个名字嘛,叫个error.log也行)
  • 除了这个错误日志还有一个慢查询日志用来记录SQL语句执行时间超过long_query_time这个变量定义的时长的查询语句。通过慢查询日志,可以查出哪些查询语句的执行效率很低,以便进行优化。
    • 对于数据库的日常管理工作,性能管理肯定会是占比最大的一块,一个好的性能分析工具会极大的提高数据库性能管理的效率,而 pt-query-digest 就是专门针对 MySQL 数据库慢查询日志的一个强力分析工具,相比于 mysqldumpslow ,其分析结果更加具体和完善。pt-query-digest 属于 Percona Toolkit 工具集中最常用的一种,号称 MySQL DBA 必备工具之一,其能够分析MySQL数据库的 slow log 、 general log 、 binary log 文件,同时也可以使用 show processlist 或从tcpdump 抓取的 MySQL 协议数据来进行分析
      • 一个博主关于pt-query-digest的文章,有一个使用例子
      • 一篇关于pt-query-digest工具分析最近一周的mysql-slow.log以及使用tcpdump抓包一段时间对该表的select语句的文章
  • 除了错误日志以及慢查询日志,还有二进制日志、中继日志、事务日志等等


  • 然后也可以总结一下,就是说,我们的项目是突然蹦了,在过程中我们也发现了有极个别线程会占用CPU快到100%。单节点在运行一段时间后,CPU 的使用会飙升,一旦飙升,一般怀疑某个业务逻辑的计算量太大,或者是触发了死循环(比如著名的 HashMap 高并发引起的死循环),但排查到最后其实是 GC 的问题
    • 那咱们一般咱们除了直接问题出现直接导致项目崩了,客户用不了了给咱们反馈回来了之外,肯定要通过什么监视工具、或者啥监视页面啥的监视到问题。所以,这里呢,一般有JVM性能分析神器-VisualVM,脱颖而出
      • 也可以看这一篇,这一篇也比较详细:VisualVM工具
    • 所以先进行如下排查,排查步骤如下
      • (1)使用 top 命令查询资源占用情况查找到使用 CPU 最多的某个进程记录它的 pid。使用 Shift + P 快捷键可以按 CPU 的使用率进行排序。
        • 也可以使用top -p PID命令,查询指定PID的资源占用情况
      • (2)再次使用 top 命令,加 -H 参数**,查看某个进程中使用 CPU 最多的某个线程**,记录线程的 ID。【top -Hp $pid
        • 也可以使用ps -mp PID -o THREAD,tid,time命令,查询该进程的线程情况
        • 也可以使用ps -mp PID -o THREAD,tid,time | sort -rn命令,将该进程下的线程按资源使用情况倒序展示:
      • (3)使用 printf 函数,将十进制的 tid 转化成十六进制printf %x $tid
        • 使用printf “%x\n” PID命令,将PID转为十六进制的TID,之所以需要将PID转为十六进制是因为在堆栈信息中,PID是以十六进制形式存在的。
      • (4)使用 jstack 命令,查看 Java 进程的线程栈jstack $pid >$pid.log
        • 使用jstack PID | grep TID -A 100命令,查询堆栈信息
        • 除此之外,我们还可以使用jinfo和jstat命令来查询 Java 进程的启动参数以及 GC 情况
          • 使用jinfo PID命令,查询启动参数
          • 使用jstat -gcutil PID 1000命令,查询 GC 情况:
      • (5)使用 less 命令查看生成的文件,并查找刚才转化的十六进制 tid,找到发生问题的线程上下文。less $pid.log
        • 我们在 jstack 日志搜关键字DEAD,以及中找到了 CPU 使用最多的几个线程id。可以看到问题发生的根源,是我们的堆已经满了,但是又没有发生 OOM,于是 GC 进程就一直在那里回收,回收的效果又非常一般,造成 CPU 升高应用假死。接下来的具体问题排查,就需要把内存 dump 一份下来,使用 MAT 等工具分析具体原因了
          • 基本概念:
          • MAT分析 dump文件:
            • 内存溢出排除方法思路:
              • 看GC日志 126719K->126719K(126720K) [回收前后内存大小不变或一直增长无减少波动,则可能有内存溢出问题]
              • 生成堆内存 heap dump(某个时间点jvm中所有活跃的对象的堆内存快照)
              • MAT查看: 过滤列举对象(传入或传出的对象引用)、分组排序显示
            • MAT分析dump具体步骤如下:
              • 1.MAT打开dump文件:MAT打开dump文件,生成分析报告: File > Open Heap Dump > Leak Suspects Report
                • 1.Overview:Overview概要信息,比如空间大小、类的数量、对象实例数量、类加载器等等
              • 2.Histogram :Overview > Actions > The Histogram (查看堆栈中java类对象[Objects]个数、[Shallow Heap]individual objects此类对象占用大小、[Retained Heap]关联对象占用大小)
              • 3.Dominator Tree:支配树,分析对象的引用关系。 对象内存占用&占比。dominate_tree -> 对象调用堆栈树-查找内存占用最高对象(Retained Heap倒叙排序) -> Paths to GC Roots -> exclude all phantom/weak/soft etc.reference(排除所有虚弱软引用) -查找GC Root线程-> 定位未释放内存代码段
                • Actions > dominator_tree (查看堆中内存占用最高的对象的线程调用堆栈) -> 对象调用堆栈树-查找内存占用最高对象(Retained Heap倒叙排序) -> Paths to GC Roots -> exclude all phantom/weak/soft etc.reference (排除所有虚弱软引用) -查找GC Root线程 -> 查找未释放的内存占用最高的代码逻辑段(很可能是产生内存溢出代码)
              • 4.Leak Suspects --自动分析内存溢出可疑点:MAT插件会给出一份可疑的分析报告,非常方便,我们只需结合源代码稍加分析到底哪个Problem才是引发问题真正原因所在。点点看 Details,若有问题你很容易发现你熟悉的代码段。
              • 5.OQL全称为Object Query Language,类似于SQL语句的查询语言,能够用来查询当前内存中满足指定条件的所有的对象。
              • 6.对比dump 堆栈文件:因为我们这个例子很简单,可以通过上面的方法来找到内存泄漏的原因,但是复杂的情况就需要通过对比hpof文件来进行分析了。
                • 使用步骤为:操作应用,生成第一个hpof文件。进行一段时间操作,再生成第二个hpof文件用MAT打开这两个hpof文件。将第一个和第二个hpof文件的Dominator Tree或者Histogram添加到Compare Basket中,之后选中2个文件对比即可
    • MAT:全称 Eclipse Memory Analysis Tools 是一个分析 Java堆数据的专业工具:jvm内存溢出/内存泄漏问题分析定位神器,可以计算出内存中对象的实例数量、占用空间大小、引用关系等,看看是谁阻止了垃圾收集器的回收工作,从而定位内存泄漏的原因
      • 什么时候会用到MAT?
        • OutOfMemoryError的时候,触发Full GC,但空间却回收不了,引发内存溢出
        • java应用服务器系统异常,比如load负载飙高,io异常,或者线程死锁等,都可能通过分析堆中的内存对象来定位原因
  • 线上故障排查经验:
    • bug分为系统级别和业务级别bug:
      • 如CPU爆满、服务不可用、甚至服务器宕机等都属于系统级别的bug,重点在于如何迅速解决。
        • 如果是CPU100%,那是由哪个线程,哪个类,甚至是哪个方法导致的?
          • CPU高负载,甚至100%,可以用perf来查看,perf是linux的性能分析工具,核心作用之一就是用来查看热点函数的分布情况。
          • 某一进程存在异常嫌疑,想快速知道它的状态?大部分情况下通过系统告警就可以知道大概问题所在。如发生消息堆积我们就该怀疑消息生产者和消费者的状态,这个时候就要具体去查看消息队列这一进程。可以使用一些轻量级的linux命令,如ps:ps -ef | grep xxx
          • vmstat是Virtual Meomory Statistics(虚拟内存统计)的缩写。它是一个用于监控内存和磁盘使用情况的工具,但是也可以用来查看CPU的一些指标,如中断次数等。使用它可以查看内存使用的详细信息和磁盘的读/写情况。
        • 若是业务流程正常但是部分服务性能拉跨,那么如何快速定位到问题在哪儿?
      • 业务级别bug
        • 出现了业务bug那就纯纯的是开发或测试的锅了。
          • bug确定后第一步一定是先看日志,只要你写需求的时候日志打的全,一般出现了问题日志或者告警都会第一时间推送。通过日志我们可以定位到bug对应代码的位置
          • 第二步就是:看数据,数据是业务应用的核心。若通过日志和页面表现查看到你的主流程是没有问题的,那么下一步就是要确定表的数据是否有问题,数据存在bug的表现会是各方面的,可能是用户反馈,也可能是流程错误,这要取决于你表的设计。我记得项目中有时候会由于下位机的缘故出现空数据,然后就会由于某条逻辑出现bug,系统就崩了【线上数据是重中之重,当你决定要修复数据,在处理之前一定要做好备份,这样起码可以保证事情不会变的更糟。一般情况下修改线上数据这种活都需要你写好SQL,然后经过leader审批再交给DBA来操作,一定不要干出删库跑路这种事哟。】
          • 假设验证了你数据是OK的,那么问题就极大可能出现在了代码层面。修改业务bug最重要的是要将bug点修改掉并且保证其它业务还能正常运行,这是牵一发而动全身的事情,否则bug只会越改越多。
    • 如果一个实例发生了问题,根据情况选择,要不要着急去重启。如果出现的CPU、内存飙高或者日志里出现了OOM异常。第一步是隔离,第二步是保留现场,第三步才是问题排查
      • 隔离:就是把你的这台机器从请求列表里摘除,比如把 nginx 相关的权重设成零
      • 现场保留:查看比如 CPU、系统内存等,通过历史状态可以体现一个趋势性问题,而这些信息的获取一般依靠监控系统的协作。
      • 保留信息:
        • 系统当前网络连接:ss -antp > $DUMP_DIR/ss.dump 2>&1。后续的处理,可通过查看各种网络连接状态的梳理,来排查 TIME_WAIT 或者 CLOSE_WAIT,或者其他连接过高的问题,非常有用
          • 使用 ss 命令而不是 netstat 的原因,是因为 netstat 在网络连接非常多的情况下,执行非常缓慢
        • 网络状态统计:netstat -s > $DUMP_DIR/netstat-s.dump 2>&1,它能够按照各个协议进行统计输出,对把握当时整个网络状态,有非常大的作用。
          • sar -n DEV 1 2 > $DUMP_DIR/sar-traffic.dump 2>&1,在一些速度非常高的模块上,比如 Redis、Kafka,就经常发生跑满网卡的情况。表现形式就是网络通信非常缓慢
        • 进程资源:lsof -p $PID > $DUMP_DIR/lsof-$PID.dump通过查看进程,能看到打开了哪些文件,可以以进程的维度来查看整个资源的使用情况,包括每条网络连接、每个打开的文件句柄。同时,也可以很容易的看到连接到了哪些服务器、使用了哪些资源。这个命令在资源非常多的情况下,输出稍慢,请耐心等待。
        • CPU 资源:主要用于输出当前系统的 CPU 和负载,便于事后排查。
        • I/O 资源:iostat -x > $DUMP_DIR/iostat.dump 2>&1。一般,以计算为主的服务节点,I/O 资源会比较正常,但有时也会发生问题,比如日志输出过多,或者磁盘问题等。此命令可以输出每块磁盘的基本性能信息,用来排查 I/O 问题。
        • 内存问题:free -h > $DUMP_DIR/free.dump 2>&1。free 命令能够大体展现操作系统的内存概况,这是故障排查中一个非常重要的点,比如 SWAP 影响了 GC,SLAB 区挤占了 JVM 的内存
        • 其他全局
        • 进程快照、dump 堆信息
          • kill -3 $PID:有时候,jstack 并不能够运行,有很多原因,比如 Java 进程几乎不响应了等之类的情况。我们会尝试 向进程发送 kill -3 信号,这个信号将会打印 jstack 的 trace 信息到日志文件中,是 jstack 的一个替补方案
          • gcore -o $DUMP_DIR/core P I D :对于 j m a p 无法执行的问题,也有替补,那就是 G D B 组件中的 g c o r e ,将会生成一个 c o r e 文件。我们可以使用如下的命令去生成 d u m p : PID:对于 jmap 无法执行的问题,也有替补,那就是 GDB 组件中的 gcore,将会生成一个 core 文件。我们可以使用如下的命令去生成 dump: PID:对于jmap无法执行的问题,也有替补,那就是GDB组件中的gcore,将会生成一个core文件。我们可以使用如下的命令去生成dump{JDK_BIN}jhsdb jmap --exe ${JDK}java --core $DUMP_DIR/core --binaryheap
        • 内存泄漏的现象

