云智慧透视宝PHP应用性能监控实现原理

云智慧 Neeke

 

一。PHP应用场景

自1994年创建以来,PHP早已由小家子气的Personal Home Page Tools”,演变为”PHP: Hypertext Preprocessor”,同时基于强大的可扩展性与敏捷迭代特性,基本已经成为互联网科技公司的必备语言,为推动互联网发展提供着源源不断的强大动力。

同时基于PHP的开源软件和开发框架(优秀如WordPress,Zend Framework,Laravel,Yaf,Hiphop等等)也在不断地发展,使得PHP也被除互联网公司之外的企业所大规模使用,而进入企业级应用开发语言之列。

二。用户监控需求

我们知道,PHP的门槛低迭代快使得很多项目,因为种种原因变得架构不清:

1.      开发者水平不足;

2.      项目是从外包团队接手;

3.      历史问题,积重难返;

4.      反正性能奇差,反正已经愈发不可控;

而要发现问题却又因为各种原因不可或很难调试,这些原因诸如:

1. 时间太久了,我也忘了怎么写的,要看代码

2. 因为数据不可造,逻辑无法到达,不能重现

3. 项目不是我所在的团队开发,架构以及代码,羞涩恶心。

105003_Y3AS_1792703.png

图1: PHP应用系统的执行模型

 

PHP的运行阶段可以大致分成三个阶段:

1.      Parse

2.      Compile

3.      Execute

其中Compile过程将会产生Op Code和Class Table,Function Table,然后交给Execute最终执行。Op Code是中间码,被Zend Engine调用执行。

不难看出,其实PHP与Java类似,都是产生中间码,运行在各自的虚机上,可是为什么PHP的性能较Java、.NET、Go而言差别这么大呢?

一句话讲,大家普遍认为的PHP是解释型语言其实是不严谨的,PHP不是不编译,而是每次执行都编译,除此之外最严重的问题即是较难实现并行运算(注意只说较难,使用PHP进行并行计算的方案不止一个)。基于Op Code的存在,已经诞生了大量cache工具扩展,可以有效提升PHP应用的执行性能,如OpCache,Apc,Apcu,Xcache等等。

对于使用PHP开发的网站接口应用系统而言,性能的瓶颈点会在什么地方呢?  做过PHP应用性能优化的朋友们都知道,递归循环资源操作资源释放等都是常见的瓶颈点,这些经常会造成阻塞或锁。

可以得出CPU 内存 各种I/O各种网络带宽等的消耗是性能瓶颈点中的重中之重,我们可以简单归结为:外部服务(如第三方API),资源读写,代码异常。

处理这些问题的通用作法是使用Xhprof,Xdebug或PHP-trace等工具来找出,并配合架构师或高级工程师经验来处理,方法包括单例事务按需加载短事务及时释放等等(对于大多数公司与开发人员来讲,碰到性能问题更多的作法是盲目的猜测与挠头).但这些方法有哪些不足呢?

一眼可知,只能在测试或生产环境,产生问题并明确之后进行处理.测试环境还好,但如果是生产环境,事后处理虽能补救,但大多数面对的都是因功能受损造成的投诉或更严重的业务损失。

能够在生产环境第一时间发现或规避可能的性能问题;准确记录已知或未知故障现场。这两点,则成为应用性能管理的迫切需求。

三。透视宝PHP监控实现原理

 105110_nrU9_1792703.png


图2 Hook运用示意

PHP运行支撑的Zend Engine早在设计过程中已经预留了丰富的Hook,可以有效干涉处理过程中的几个关键步骤。

云智慧透视宝PHPAgent的研发实现,当然不能影响应用系统原有的代码,那么最简单有效的方式必然是实现一个PHP扩展,PHPAgent利用了以下几个Hook:

1.            zend_compile_file & zend_compile_string

加载分析文件或字符串,本身就会造成非常大的IO,如果过多地执行加载,无疑会造成内存和CPU的消耗.通过这两个hook,可以取得文件名执行行数使用内存和CPU占用时间。

2.            zend_execute & zend_execute_internal

通过这两个hook的使用,我们可以准确地分析得出一个PHP应用中的类调用方法调用方法参数内存占用和CPU占用,加以分析,便可以准确得出应用系统运行过程中的方法运行栈,API调用地址,SQL语句,Cache Key以及Cache命中等关键信息。

3.            zend_throw_exception_hook

利用异常钩子,可以准确地得到应用系统运行过程中出现的异常信息,当然包括异常发生的类\方法位置,参数,异常code和异常message。

4.            zend_error_cb

错误钩子则更加直接,可以准确得到系统运行过程中出现的任何一个warning,代码错误或语法错误。

 105137_bezM_1792703.png


图3 PHPAgent注册与应用Hook流程

105153_Uknj_1792703.png

图4 zend_execute hook的应用示意(伪代码)

上图大致解释了我们是如何运用zend_execute hook进行数据采集的: 先取得方法名,同时通过规则过滤引擎,判断哪些是我们关注或不关注的(类\方法的黑白名单),然后通过AGENT_BEGIN宏记录方法开始时间,方法名,行数,内存起点与参数,在执行原有zend_execute之后,再通过AGENT_END宏记录结束时间,内存止点。

通过上述Hook的应用,已经可以得到我们所关注的指标数据: 类\方法执行顺序,执行时间,内存占用,接口\DB等资源连接,SQL语句和执行时间等。

经过严格的压力测试和生产环境部署实践,PHPAgent对原有应用系统的性能影响在5%以内.经过一些参数调配,可以将性能影响降到更低,这些参数包括:

1.      是否启动异常钩子

2.      是否启动错误钩子

3.      是否启用数据采样

4.      是否启用栈追踪

5.      是否使用黑白名单(URL\Header\Cookie\Request Params)

6.      是否启用UDP发送代理

7.      关注请求时间响应阈值

8.      关注方法时间响应阈值

四。透视宝PHPAgent监控部署流程

透视宝PHPAgent遵守SmartAgent插件规范,那么一切从SmartAgent的安装部署开始。

1、登录云智慧透视宝官网:https://www.toushibao.com/ ,点击页面右上角导航的“免费试用”,正确填写免费试用的申请信息后会弹出下面的对话框,同时激活邮件会自动发送到你的邮箱中,按照流程注册帐号即可。

105207_Fatk_1792703.png

2、注册成功后,登录透视宝,点击配置-应用,在配置页面中下载安装Smart Agent。安装成功后,Smart Agent会根据系统配置自动获取主机信息,大致两分钟后,您就可以在“主机→服务器”模块中查看该服务器的CPU、内存、网卡、磁盘及进程等性能数据。

105218_AkZF_1792703.png

3、如果要监控应用运行时代码、主机中服务和数据库性能数据,您需要进一步安装和配置Smart Agent提供的各种插件,这是因为Smart Agent实现了一种开放式的插件式结构,对每个运行时代码、服务和数据库的监控都是通过相应的插件来实现的。

105230_HDIX_1792703.png

3。Smart Agent在安装完成后,加载过程中自动发现你的应用组件,如果没有自动监测到PHP环境,也可以手动添加PHPAgent。如上图所示,点击“管理”入口,进入“插件管理”,点击页面下部的“添加服务”,选择PHPAgent后,点击创建

创建完毕后,点击“ON”(ON操作只是初始化用户的信息,以便以后采集到的信息能够正确的回传给该用户。)

4当然如果对于已经安装完成的PHPAgent也可以直接在此管理界面上方便地进行升级与降级操作

105244_6GuX_1792703.jpg

5安装过程脚本默认会使用whereisphp寻找系统内PHP进行安装

如果编译安装PHP,请赋脚本中APPD_PHP_PATH变量值到PHP bin目录,如: /usr/local/php-5.5.14/bin

执行PHPAgent/install.sh start安装命令。

6重启Web Server

安装开启PHP代码监控插件后,需要您手动重启web Server(apache\httpd\Php-fpm等软件)

7查看PHP应用数据

恭喜!此时配置已经完成,如果应用有正常访问进入,您就可以在应用模块中查看应用数据了。

105326_L7oU_1792703.jpg

 

 

五。透视宝PHP监控功能特点

在功能方面,透视宝无论是在PHP,还是其他如Java.NET等主流语言的监控上,都包括:查看执行最慢的10个元素,包括元素执行次数、持续时长和占用时长百分比;查看HTTP请求参数,包括请求的响应状态、链接页面、具体的请求参数及返回结果;查看代码执行堆栈的详细树状信息,包括每个方法的计算时间、总耗时和被调用的次数,您能直接看到特殊标识的最慢方法;查看涉及SQL语句的总耗时排序,包括SQL执行总耗时、执行次数和具体的查询语句;第三方API调用。

105341_uVP8_1792703.png

上图是PHPAgent发现的某应用的资源拓扑与请求响应概述

105353_XzCe_1792703.png

上图以散点柱饼图描述了某段时间内一个PHP应用的请求响应时间分布可以一眼看出有问题的请求是哪些

105406_IcIO_1792703.png

对于某一个单次请求事务的拓扑与代码运行栈可以准确地进行分析:

 

 

105417_6IC0_1792703.jpg

下面是对一个应用中PHPAgent发现的一段时间内对Mysql资源操作的分析

 

105430_Ivs9_1792703.jpg

 

 

 

105441_KSQb_1792703.jpg

 

基于某一个集群的应用,透视宝可以自动进行总拓扑的识别和描绘

 

105452_qsnv_1792703.jpg

 

 

当然,可以对已经识别的应用站点拓扑进行分组高亮。

 

 

105502_aRQk_1792703.jpg

 

 

105513_IWiL_1792703.jpg


你可能感兴趣的:(互联网,wordpress,开发者,开源软件,可扩展性)