全文目录
- 线程概念
- 线程缺点
- 线程的如何看待进程内部的资源
- 进程vs线程
- 线程控制
- pthread库
- pthread_t
- 线程创建
- 线程等待
- 线程分离
- 线程退出
- 总结
- 线程互斥
- 互斥量接口
- 互斥量实现原理
- 总结
- 线程安全与可重入
- 常见的线程安全的情况
- 常见的不可重入情况
- 常见的可重入情况
- 可重入与线程安全联系
- 可重入与线程安全区别
- 死锁
- 死锁四个必要条件
- 避免死锁
- 线程同步
- 条件变量初始化与销毁
- 等待与唤醒
- 生产者消费者模型
一个地址空间称为一个程序,至少被一个PCB指向,每个PCB都叫做一个线程,在Linux下线程没有特定的数据结构,进程和线程都是被
task_struct
描述,但是在Windows下有特定的数据结构。
Linux中没有真正意义上的线程,是通过进程PCB数据结构来模拟线程的数据结构,素以Linux线程也叫做用户级线程
- 线程ID
- 一组寄存器(上下文数据)
- 栈(函数调用)
- errno
- 信号屏蔽字
- 调度优先级
进程的多个线程共享 同一地址空间,因此Text Segment、Data Segment都是共享的,如果定义一个函数,在各线程中都可以调用,如果定义一个全局变量,在各线程中都可以访问到,除此之外,各线程还共享以下进程资源和环境:
- 文件描述符表
- 每种信号的处理方式(SIG_IGN、SIG_DFL或者自定义的信号处理函数)
- 当前工作目录
- 用户id和组id
为什么说线程切换的成本比进程切换的成本更低?
- 进程切换虚拟地址需要切换,线程不需要
- 进程切换需要重新加载CPU缓存,线程不用
因为Linux中没有线程数据结构,所以并没有直接提供现成相关的接口,只提供了轻量化进程的接口,所以在用户层封装了一套线程库 —— pthread库
—— 原生线程库。
在使用的时候需要在包含头文件的基础上加上编译选项:
#include <pthread.h> # 头文件包含
-pthread # 编译选项
ps -aL # 查看线程系统中的线程的命令
C++中虽然有语言上的库thread
,但是底层还是通过pthread库实现的,还是要加上编译选项。
通过打印pthread_t
类型的变量,pthread_t
类型的线程ID,本质就是一个进程地址空间上的一个地址。
由于每个线程拥有独立的栈空间,但是又不能在地址空间对每个线程创建独立的栈空间,因为OS中是没有线程概念的,所以独立的栈空间只能由用户层来维护,也就是在pthread库中以结构体的形式来描述并组织。
所以
pthread_t
就是对应线程的结构体的起始地址。
每个新线程所谓的独立栈空间就是在共享区通过pthread库维护的数据结构来代替的,主线程使用的则是内核级的栈空间
线程的局部存储:
通过
__thread
修饰的全局变量可以让共享的全局变量,变成每个线程独有的。
每个线程都可以通过函数获取自身的线程ID:
pthread_self();
为什么需要等待线程退出:
- 已经退出的线程,其空间没有被释放,仍然在进程的地址空间内。
- 创建新的线程不会复用刚才退出线程的地址空间。
如果不关心线程的返回值,join是一种负担,这个时候,我们可以告诉系统,当线程退出时,自动释放线程资源。
int pthread_detach(pthread_t thread);
可以是线程组内其他线程对目标线程进行分离,也可以是线程自己分离:
pthread_detach(pthread_self());
joinable和分离是冲突的,即分离之后,不能再进行线程等待。
不能直接使用exit
函数退出,exit
是进程退出的函数。
新线程内部退出:
主线程取消新线程:
相关概念:
临界资源: 多线程执行流共享的资源就叫做临界资源
临界区: 每个线程内部,访问临界资源的代码,就叫做临界区
互斥: 任何时刻,互斥保证有且只有一个执行流进入临界区,访问临界资源,通常对临界资源起保护作用
原子性: 不会被任何调度机制打断的操作,该操作只有两态,要么完成,要么未完成
很多变量都需要在线程间共享,这样的变量称为共享变量,可以通过数据的共享,完成线程之间的交互。多个线程并发的操作共享变量,会带来一些问题。
一行代码在底层可能需要分多步来执行,比如对一个变量进行 --
操作 ticket--
:
--
操作并不是原子操作,而是对应三条汇编指令:
load :将共享变量ticket从内存加载到寄存器中
update : 更新寄存器里面的值,执行-1操作
store:将新值,从寄存器写回共享变量ticket的内存地
线程运行到任何一步时都有可能会被调度器调度,其上下文数据也会被带走,如果其他线程修改了该变量,就会导致下次回归的线程,同一个变量数据不一致问题。
解决方案:
- 代码必须要有互斥行为:当代码进入临界区执行时,不允许其他线程进入该临界区。
- 如果多个线程同时要求执行临界区的代码,并且临界区没有线程在执行,那么只能允许一个线程进入该临界区。
- 如果线程不在临界区中执行,那么该线程不能阻止其他线程进入临界区。
要做到这三点,本质上就是需要一把锁。Linux上提供的这把锁叫互斥量。
初始化互斥量:
pthread_mutex_t mutex = PTHREAD_MUTEX_INITIALIZER;
int pthread_mutex_init(pthread_mutex_t *restrict mutex,
const pthread_mutexattr_t *restrict attr);
参数:
mutex:要初始化的互斥量
attr:NULL
返回值:
成功返回0,失败返回错误码
销毁互斥量:
- 使用PTHREAD_ MUTEX_ INITIALIZER 初始化的互斥量不需要销毁
- 不要销毁一个已经加锁的互斥量
- 已经销毁的互斥量,要确保后面不会有线程再尝试加锁
int pthread_mutex_destroy(pthread_mutex_t *mutex);
返回值:
成功返回0,失败返回错误码
互斥量加锁和解锁:
int pthread_mutex_lock(pthread_mutex_t *mutex);
int pthread_mutex_unlock(pthread_mutex_t *mutex);
返回值:成功返回0,失败返回错误号
调用pthread_lock
时,可能会遇到以下情况:
- 互斥量处于未锁状态,该函数会将互斥量锁定,同时返回成功
- 发起函数调用时,其他线程已经锁定互斥量,或者存在其他线程同时申请互斥量,但没有竞争到互斥量, 那么
pthread_lock
调用会陷入阻塞(执行流被挂起),等待互斥量解锁。对于没有申请到互斥量的线程来说,正在访问临界资源的线程的行为是原子性的。
CPU上的寄存器空间是被所有执行流共享的,但是寄存器的内容是执行流私有的,也就是执行流的上下文数据。
站在汇编的角度上,只有一条汇编语句的指令,就是原子性的。
swap
或exchange
指令,该指令的作用是把寄存器和内存单元的数据相交换,由于只有一条指令,保证了原子性,即使是多处理器平台,访问内存的 总线周期也有先后,一个处理器上的交换指令执行时另一个处理器的交换指令只能等待总线周期。
lock
和 unlock
的伪代码:
通过
xchgb
命令,线程的上下文数据拿到了锁的内容,也就是共享资源变成了线程的私有资源,就表示申请锁成功。
加锁之后,对临界区代码的执行就是串行的(一次只能有一个执行流)
线程加锁之后再临界区中执行代码,也会被切换,但是因为其他线程无法申请到互斥量,所以也就无法进入临界区,保证了临界区中数据的一致性
多线程申请互斥量,说明需要看到同一个互斥量并且进行竞争,说明互斥量也是临界资源。所以为了保证互斥量的安全,申请和释放锁的行为是原子性的。
线程安全: 多个线程并发同一段代码时,不会出现不同的结果。常见对全局变量或者静态变量进行操作,并且没有锁保护的情况下,会出现该问题。
重入: 同一个函数被不同的执行流调用,当前一个流程还没有执行完,就有其他的执行流再次进入,我们称之为重入。一个函数在重入的情况下,运行结果不会出现任何不同或者任何问题,则该函数被称为可重入函数,否则,是不可重入函数。
malloc/free
函数,因为malloc
函数是用全局链表来管理堆的malloc
或者new
开辟出的空间死锁是指在一组进程中的各个进程均占有不会释放的资源,但因互相申请被其他进程所站用不会释放的资源而处于的一种永久等待状态。
成环状地申请对方锁,并不释放自己的锁。
多线程协作时,访问临界资源,需要先对临界资源进行检测,这也是访问临界资源,临界资源没有就绪,线程可能会频繁进行锁的申请和释放,并对临界资源做检测。这样就导致其他线程访问临界资源的比例下降了,可能会导致整体的效率下降。所以当临界资源不满足时,可以通过条件变量来让线程等待,并通过指定线程控制条件变量来协调多线程对临界资源的访问,提高效率。
条件变量: 控制线程在进行访问某个临界资源时,如果不满足条件只能等待条件满足,否则什么都做不了。
同步: 在保证数据安全的前提下,让线程能够按照某种特定的顺序访问临界资源,从而有效避免饥饿问题,叫做同步。
条件变量是实现同步的关键之一。
pthread_cond_t cond= PTHREAD_cond_INITIALIZER;
mutex: 等待是发生在临界资源检测之后,也就是当线程进行等待时就已经申请了锁,
传入的锁就是为了在调用成功是进行释放锁,防止死锁。
生产者消费者模式就是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯,而通过阻塞队列来进行通讯,所以生产者生产完数据之后不用等待消费者处理,直接扔给阻塞队列,消费者不找生产者要数据,而是直接从阻塞队列里取,阻塞队列就相当于一个缓冲区,平衡了生产者和消费者的处理能力。这个阻塞队列就是用来给生产者和消费者解耦的。
优点:
该模型就能很好解决线程同步问题,生产者进行生产并对消费者访问临界资源进行条件控制,消费者只进行访问同时对生产者对访问临界资源进行条件控制。
生产者和消费者模型对效率的提高体现在:当任意一方对临界资源进行访问时,并不影响其他线程做别的事情。