web系统性能监测指标

系统优化的目的是最大限度的利用好服务器硬件资源提升资源利用率, 减少用户请求的响应时间,提高系统吞吐量,提高系统并发数 常用的网站性能测试指标有:吞吐量、并发数、响应时间、性能计数器等

一、响应时间

响应时间是一个系统最重要的指标之一,它的数值大小直接反应了系统的快慢。响应时间是指执行一个请求从开始到最后收到响应数据所花费的总体时间

二、吞吐量

吞吐量是指单位时间内系统能处理的请求数量,体现系统处理请求的能力,这是目前最常用的性能测试指标。
QPS(每秒查询数)、TPS(每秒事务数)是吞吐量的常用量化指标,另外还有HPS(每秒HTTP请求数)。
跟吞吐量有关的几个重要是:并发数、响应时间。
QPS(TPS),并发数、响应时间它们三者之间的关系是:
QPS(TPS)= 并发数/平均响应时间

使用工具:AppDynamics、New Relic、Ruxit
New Relic报告:Web传输百分比和吞吐量

三、性能计数器

性能计数器是描述服务器或操作系统性能的一些数据指标,如使用内存数、进程时间,在性能测试中发挥着“监控和分析”的作用,尤其是在分析统统可扩展性、进行新能瓶颈定位时有着非常关键的作用。
Linux中可以使用top或者uptime命令看到当前系统的负载及资源利用率情况。
资源利用率:指系统各种资源的使用情况,如cpu占用率为68%,内存占用率为55%,一般使用“资源实际使用/总的资源可用量”形成资源利用率
最大限度的利用好服务器硬件资源提升资源利用率,减少用户请求的响应时间,提高系统吞吐量,提高系统并发数

四、并发数

并发数是指系统同时能处理的请求数量,这个也是反应了系统的负载能力
并发连接数、请求数、并发用户数
并发连接数-SBC(Simultaneous Browser Connections)
并发连接数指的是客户端向服务器发起请求,并建立了TCP连接。每秒钟服务器链接的总TCP数量,就是并发连接数。
请求数-QPS(Query Per Second)/RPS(Request Per Second)
请求数有2个缩写,可以叫QPS也可以叫RPS。单位是每秒多少请求。Query=查询,也相当于请求。请求数指的是客户端在建立完连接后,向http服务发出GET/POST/HEAD数据包,服务器返回了请求结果后有两种情况:
· http数据包头包含Close字样,关闭本次TCP连接;
· http数据包头包含Keep-Alive字样,本次连接不关闭,可继续通过该连接继续向http服务发送请求,用于减少TCP并发连接数

五、平均负载

平均负载测量,分别是间隔时间(5分钟、10分钟、15分钟)各自测量。要保证数量低于机器的内核数。一旦超过内核数,机器就会运行在压力状态下

测量CPU使用率
内核的队列中有多少进程
队列中任务量测量

使用工具:htop

六、容错率

1、HTTP传输总失败百分比
2、特定传输的错误率
3、显示出代码方法的错误以及错误或异常出现的次数
4、服务器状态的信息,包括堆栈跟踪、源代码和变量值
使用工具:Takipi

七、GC率和暂停时间

异常行为垃圾收集器应用程序的吞吐量和响应时间采取深潜的主要原因之一。了解GC暂停频率和持续时间的关键是分析GC日志文件。要分析它们,你需要收集GC日志和JVM参数。你要注意观察不同指标之间的数据是如何相互影响的
使用工具:jClarity Censum、GCViewer

八、业务指标

业务指标,例如收益、用户数
使用工具:Grafana、The ELK stack、Datadog、Librato

九、日志数据量

日志随着时间增加而逐步增加,
使用logstash划分使用日志,并将它们发送并存储在Splunk、ELK或其他的日志管理工具中进行分析,
使用工具:Splunk、Sumo Logic、Loggly

十、正常运行时间服务运行状态

一段时间内的SKA。使用Pingdom的servlet功能进行运行状态检查。
我们可以查到应用程序的所有传输,包括数据库和S3。

SLA:服务等级协议(简称:SLA,全称:service level agreement:
是在一定开销下为保障服务的性能和可用性
对系统服务可用性的一个保证,就要不断的监控自己的服务,服务挂掉能及时恢复服务
1年 = 365天 = 8760小时
99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时
99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟
99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟

你可能感兴趣的:(web,性能,web,监测,系统运维)