写在前面:以下都是在准备秋招时,发现自身对于线程/进程的理解太浅(虽然下面的理解也偏表面),于是查了一些资料以及结合自身理解所记录,且仅限于理论,结合实践还有漫漫长路…… 真正的理解势必需要结合操作系统的内核;若有描述不当还望指出;(不求有功但求无过…
一个程序至少有一个进程,一个进程至少有一个线程
在支持线程的系统中,系统CPU调用的基本单位为线程
每个线程都拥有其独立的TCB(线程控制块),包含线程id、线程状态、优先级、栈指针等,但一个进程的所有线程,共享该进程的一段内存空间,也即一个线程崩溃,会导致整个进程崩溃,因此多进程程序比多线程健壮
引入线程,是因为进程间的交互、进程创建与销毁开销较大,而线程的创建与销毁则能够一定程度上提高效率
上面提到,线程的创建与销毁时间大大缩短,但对于目前的网络服务器而言,有大量的任务是需要短时间内处理的,若将线程的执行过程分为三块:
则对于单个任务,真正有效时间为 T 2 T 1 + T 2 + T 3 \frac{T_2}{T_1+T_2+T_3} T1+T2+T3T2
也即T1、T3是浪费的,那么对于请求频繁但执行时间较短的任务,相当一部分时间被浪费
于是引入了线程池
通俗的讲,线程池相当于在任务开始之前,先预创建了一部分线程置于队列中(消耗一小部分内存,不消耗CPU资源),此后只要传入一个任务,则调用一个空闲线程进行处理,任务执行完毕后不销毁,而是返回空闲队列等待下一次调用
若任务数大于初始创建的线程数,则继续新建一部分数量的线程。当所有任务执行完毕,系统检测到大部分线程在一定时间内处于空闲状态,则线程池自动销毁一部分线程,也即回收了那部分内存资源
线程池的概念,更适用于上述所说,请求频繁但执行时间短,若类似传输文件,整个任务的执行时间远大于创建销毁线程的时间,则线程池的作用也就没那么大
更深入的理解可参考深入解析C++编程中线程池的使用
并发:一段时间间隔内同时发生
并行:同一时刻同时发生
因此,无论是单核还是多核,都是支持并发,也即支持多线程/多进程
而对于单核,或单CPU的各线程间,目前一般采用时间片轮转抢占式的方法进行线程调度
多进程的优点:更鲁棒,一个进程的崩溃,不会引起整个系统崩溃
不同维度下多线程与多进程的对比:
对比维度 | 多进程 | 多线程 | 总结 |
---|---|---|---|
数据共享、同步 | 数据共享复杂,需要用IPC; 数据是分开的,同步简单 |
因为共享进程数据,数据共享简单,因此导致同步复杂 | 各有优势 |
内存、CPU | 占用内存多,切换复杂,CPU利用率低 | 占用内存少,切换简单,CPU利用率高 | 线程占优 |
创建销毁、切换 | 创建销毁、切换复杂,速度慢 | 创建销毁、切换简单,速度很快 | 线程占优 |
编程、调试 | 编程简单,调试简单 | 编程复杂,调试复杂 | 进程占优 |
可靠性 | 进程间不会互相影响 | 一个线程挂掉将导致整个进程挂掉 | 进程占优 |
分布式 | 适应于多核、多机分布式; 一台机器不够,扩展到多台机器简单 |
适应于多核分布式 | 进程占优 |
细节与深入理解可参考
多线程与多进程的思考
多线程还是多进程的选择及区别
明确:
理解:
同步相当于发送消息后,未收到反馈前不做任何处理;异步则是发送完消息无论对方是否有response,直接发送下一个消息
从编程语言上来理解,比如有两个函数a和b,其中b以函数指针的形式作为形参传递给a,那么:
在理解同步异步时,经常还能看到“阻塞”一词,明确:阻塞与非阻塞描述的是进程/线程的状态,一般是对于IO而言,其与同步异步是两个不同层面的概念
借用阻塞等于同步,非阻塞等于异步这种说法有什么错误?中的一个例子来理解:
有两个进程A和B,其中A又包含两个线程,其一为主线程a1,用于处理一些任务,另一个a2用于发送/接收信息
现在A中有abcdefg这七个任务,其中b和d为heavy task,因此A决定让B来做b和d这两个任务,而A自己做acefg这五个
于是首先A的a2发送b和d给B,并从此开始监听是否有信息从B发送回;当B处理完成并把结果返回,则A的主线程才能开始使用这个结果
在整个过程中,若A在处理完acefg五个任务后,仍旧未收到B的返回值,则A的两个线程均处于阻塞,a2要一直监听,直至收到B的结果,整个流程才能继续进行下去;
但是,A在发送任务b给B后,自己仍旧可以执行cefg,这里不需要等待B的结果,因此A和B之间是异步的;若A必须等B返回任务b的结果后,自己才能进行c任务,然后发送d给B,等d 的结果返回才能执行efg,则此时A和B是同步的。
C++的常用函数可见linux基础——linux线程间通信及同步机制总结
最后还有一个微线程(协程),上述线程与进程的调度都是由CPU来实现,我们无法控制其何时切换;而微线程则是本质上的单线程,可以通过自己的代码来实现上下文切换,因此,需要在代码端明确允许进行切换的地方。