系统的常见性能指标,(响应时间和吞吐量,平均负载,SLA)

系统的常见性能指标
1.基础的日志文件
最基础的,可以从日志文件了解程序
2.响应时间和吞吐量
常用的网站性能测试指标有:吞吐量、并发数、响应时间、性能计数器等。
吞吐量, 指单位时间内系统能处理的请求数量,体现系统处理请求的能力,这是目前最常用的性能测试指标。
并发数,指系统同时能处理的请求数量,反应了系统的负载能力。
响应时间,反应了系统的快慢,指执行一个请求从开始到最后收到响应数据所花费的总体时间。
QPS(每秒查询数)、TPS(每秒事务数)是吞吐量的常用量化指标,另外还有HPS(每秒HTTP请求数)。
可以用以下工具衡量以上指标,可以在主报告仪表板中将平均响应时间与昨天的甚至上周的直接进行对比。
你可以看到网络传输的百分比,测量HTTP完成请求需要多长时间
推荐工具:AppDynamics,New Relic,Ruxit
Linux中可以使用top或者uptime命令看到当前系统的负载及资源利用率情况。

3.平均负载
习惯上会把平均负载分为这三步测量,分别是第5分钟、第15分钟和最后1分钟。
要保证数量低于机器的内核数。一旦超过内核数,机器就会运行在压力状态下。
推荐工具:htop

4.错误率
根据HTTP传输总失败百分比
可以在日志文件中需找线索。你可以找到所有关于服务器状态的信息,包括堆栈跟踪、源代码和变量值。
推荐工具:Takipi

5.GC率和暂停时间
了解GC暂停频率和持续时间的关键是分析GC日志文件。
要分析它们,你需要收集GC日志和JVM参数。
你要注意观察不同指标之间的数据是如何相互影响的。
推荐工具:jClarity Censum,GCViewer

6.业务指标
应用程序的性能不完全取决于响应时间和错误率。业务指标也是一方面,例如收益、用户数。
推荐工具:Grafana,The ELK stack,Datadog,Librato

7.正常运行时间和服务运行状态
SLA:服务等级协议(简称:SLA,全称:service level agreement)。
是在一定开销下为保障服务的性能和可用性。
网站服务可用性SLA,9越多代表全年服务可用时间越长服务更可靠,停机时间越短,反之亦然。
互联网公司喊口号,我们今年一定要做到3个9、4个9的含义
1年 = 365天 = 8760小时
99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时
99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟
99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟
从以上看来,全年停机5.26分钟才能做到99.999%,即5个9。

你可能感兴趣的:(随笔)