前言
为什么考虑到多线程呢?--------为了有效率的解决并发问题;
那怎么将多线程应用结合到PHP应用解决并发问题的过程中呢?
--------那就要回想一下“HTTP请求响应过程了”,对PHP而言,一个典型的HTTP事务:客户端构造请求——》http守护进程监听到请求,php-fpm【针对php的fast-cgi】从在初始化时就启动的多个cgi解释器子进程中选择并连接到其中一个;此“幸运儿”解释器子进程负责处理请求,比如IO访问啦,数据库记录增删改查啦等等——》cgi解释子进程完成处理后将标准输出和错误信息从同一连接返回Web Server,Web Server将处理结果构造成响应体返送给客户端。
来,我们看看如上的发生过程,看看PHP代码层我们能做些什么?
事务的第一步:客户端并发访问,这只是问题的根源;第二步:服务器端的http守护进程监听请求,并从多进程模型的php-fpm选择子解释器进程处理请求,比如nginx服务器是要通过负载均衡,调整各种配置(nginx.conf, php-fpm.ini, php.ini)、这显然跟我们代码层也没什么关系;唯一可能有关系的地方就是子进程解释器解释代码逻辑的时候了,然而php-fpm是多进程单线程模型,被选中的Only One fast-cgi解释器子进程负责解释PHP代码逻辑,或者我们可以在“ Only One“的fast-cgi进程下搞些多线程做文章??;第三部Web Server将处理结果封装响应体,显然代码层在此也只能“望洋兴叹”了;
另一方面来讲,进程、线程本来就是底层操作系统的实现,比如常用于多线程的JAVA,它的解析过程【非解释过程】是跑在JVM上的,在设计之初就考虑到了多线程,它的“线程”实际上是一种封装抽象出来的概念,而PHP谁让它是靠解释器解释而非编译解析的呢?。
PHP多线程/多进程技术现状
1. curl_multi多线程请求URL
curl多用于跨域请求访问,当需要请求多个URL时,相较于for循环的curl_exec,我们可以使用curl_multi一类函数实现同时请求多个URL,类似多线程功能,据文档介绍:“Allows the processing of multiple cURL handles asynchronously(异步). tips: curl_multi_select—Wait for activity on any curl_multi connection。Blocks until there is activity on any of the curl_multi connections.
使用范例可参见:http://www.cnblogs.com/chunguang/p/5895160.html
代码实例片段如下:
2. pcntl_fork创建子进程
据文档介绍:pcntl_fork()function creates a child process that differs from the parent process only in its PID and PPID. 另当其被用于Web服务环境时可能会带来意外的结果。
至于上文提到的被用于Web服务环境时可能会带来意外的结果,插播一则“广告”,首先介绍下什么是“僵尸进程”。
进程调用exit之后,其并非马上就消失掉,而是留下一个称为“僵尸进程”(Zombie)的数据结构。在Linux进程的5种状态【运行,中断,不可中断(收到信号不唤醒和不可运行, 进程必须等待直到有中断发生),停止,僵死】中,僵尸进程是非常特殊的一种,它已经放弃了几乎所 有内存空间,没有任何可执行代码,也不能被调度,仅仅在进程列表中保留一个位置,记载该进程的退出状态等信息供其他进程收集。
所以,进程退出后,系统会把该进程的状态变成Zombie,然后给上一定的时间等着父进程来收集其退出信息,因为可能父进程正忙于别的事情来不及收集,所以,使用Zombie状态表示进程退出了,正在等待父进程收集信息中。如果需要清除这样的进程,那么需要清除其父进程,或是等很长的时间后被内核清除。因为 Zombie的进程还占着个进程ID号呢,这样的进程如果很多的话,不利于系统的进程调度。
pcntl中多进程并发控制的用例可参见:http://blog.csdn.net/lgg201/article/details/5996444。
接着说上面的意外结果,手册上有这么一段话:
Process Control support in PHP implements the Unix style of process creation, program execution, signal handling and process termination. Process Control should not be enabled within a web server environment and unexpected results may happen if any Process Control functions are used within a web server environment.
比如,曾经有人尝试过采用php提供的pcntl_fork + 管道的方式实现并行数据拉取与同步【http://www.cnblogs.com/bourneli/archive/2012/07/06/2579804.html】,据说标准输出(浏览器)全都给到fork出的子进程,导致主进程无任何输出,浏览器无法接收来自主进程的数据?
个人猜想:既然子进程和父进程的执行依赖于操作系统调度,完全可以依赖进程间通信或者维护个父子进程关系表结构啊,如果并行拉取的数据没有限定次序关系的话,直接将输出送到主进程,主进程判断是否还有其他子进程未将输出结果送回,而决定是否echo直接结束脚本,当然如果有次序要求,在子进程创建时记录附加标志信息就可以重排序了呀。
3. multi-threading pthreads扩展
pecl扩展,安装需要ZTS aka thread safety (线程安全模式),且只能用在CLI命令行环境下,不能在web server 环境下使用。
使用实例和范例可参见:
http://blog.csdn.net/gavin_new/article/details/65444190
http://masnun.com/2013/12/15/multithreading-in-php-doing-it-right.html
https://www.sitepoint.com/parallel-programming-pthreads-php-fundamentals/
4. swoole_client的异步模式
swoole开源项目实际上是一个网络通信和异步io的引擎,一个基础库。swoole一般也是基于cli下的脚本编程。
http://rango.swoole.com/8
代码示例:
5. yield socket_create
以同步方式书写的异步代码示例:
http://www.jb51.net/article/81245.htm
https://www.mullie.eu/parallel-processing-multi-tasking-php/