本章导读
阻塞和非阻塞I/O是设备访问的两种不同模式,驱动程序可以灵活地支持这两种用户空间对设备的访
问方式。
8.1节讲述了阻塞和非阻塞I/O的区别,并讲解了实现阻塞I/O的等待队列机制,以及在globalfifo设备驱
动中增加对阻塞I/O支持的方法,并进行了用户空间的验证。
8.2节讲述了设备驱动轮询(Poll)操作的概念和编程方法,轮询可以帮助用户了解是否能对设备进行
无阻塞访问。
8.3节讲解在globalfifo中增加轮询操作的方法,并使用select、epoll在用户空间进行了验证。
8.1 阻塞与非阻塞I/O
阻塞操作是指在执行设备操作时,若不能获得资源,则挂起进程直到满足可操作的条件后再进行操
作。被挂起的进程进入睡眠状态,被从调度器的运行队列移走,直到等待的条件被满足。而非阻塞操作的
进程在不能进行设备操作时,并不挂起,它要么放弃,要么不停地查询,直至可以进行操作为止。
驱动程序通常需要提供这样的能力:当应用程序进行read()、write()等系统调用时,若设备的资
源不能获取,而用户又希望以阻塞的方式访问设备,驱动程序应在设备驱动的xxx_read()、
xxx_write()等操作中将进程阻塞直到资源可以获取,此后,应用程序的read()、write()等调用才返
回,整个过程仍然进行了正确的设备访问,用户并没有感知到;若用户以非阻塞的方式访问设备文件,则
当设备资源不可获取时,设备驱动的xxx_read()、xxx_write()等操作应立即返回,read()、
write()等系统调用也随即被返回,应用程序收到-EAGAIN返回值。
如图8.1所示,在阻塞访问时,不能获取资源的进程将进入休眠,它将CPU资源“礼让”给其他进程。
因为阻塞的进程会进入休眠状态,所以必须确保有一个地方能够唤醒休眠的进程,否则,进程就真的“寿
终正寝”了。唤醒进程的地方最大可能发生在中断里面,因为在硬件资源获得的同时往往伴随着一个中
断。而非阻塞的进程则不断尝试,直到可以进行I/O。
图8.1 阻塞与非阻塞I/O
代码清单8.1和8.2分别演示了以阻塞和非阻塞方式读取串口一个字符的代码。前者在打开文件的时候
没有O_NONBLOCK标记,后者使用O_NONBLOCK标记打开文件。
代码清单8.1 阻塞地读串口一个字符
char buf;
fd = open("/dev/ttyS1", O_RDWR);
...
res = read(fd,&buf,1); /* 当串口上有输入时才返回 */
if(res==1)
printf("%c\n", buf);
代码清单8.2 非阻塞地读串口一个字符
char buf;
fd = open("/dev/ttyS1", O_RDWR| O_NONBLOCK);
...
while(read(fd,&buf,1)!=1)
continue; /* 串口上无输入也返回,因此要循环尝试读取串口 */
printf("%c\n", buf);
除了在打开文件时可以指定阻塞还是非阻塞方式以外,在文件打开后,也可以通过ioctl()和
fcntl()改变读写的方式,如从阻塞变更为非阻塞或者从非阻塞变更为阻塞。例如,调用fcntl(fd,
F_SETFL,O_NONBLOCK)可以设置fd对应的I/O为非阻塞。
8.1.1 等待队列
在Linux驱动程序中,可以使用等待队列(Wait Queue)来实现阻塞进程的唤醒。等待队列很早就作为
一个基本的功能单位出现在Linux内核里了,它以队列为基础数据结构,与进程调度机制紧密结合,可以
用来同步对系统资源的访问,第7章中所讲述的信号量在内核中也依赖等待队列来实现。
Linux内核提供了如下关于等待队列的操作。
1.定义“等待队列头部”
wait_queue_head_t my_queue;
wait_queue_head_t是__wait_queue_head结构体的一个typedef。
2.初始化“等待队列头部”
init_waitqueue_head(&my_queue);
而下面的DECLARE_WAIT_QUEUE_HEAD()宏可以作为定义并初始化等待队列头部的“快捷方式”。
DECLARE_WAIT_QUEUE_HEAD (name)
3.定义等待队列元素
DECLARE_WAITQUEUE(name, tsk)
该宏用于定义并初始化一个名为name的等待队列元素。
4.添加/移除等待队列
void add_wait_queue(wait_queue_head_t *q, wait_queue_t *wait);
void remove_wait_queue(wait_queue_head_t *q, wait_queue_t *wait);
add_wait_queue()用于将等待队列元素wait添加到等待队列头部q指向的双向链表中,而
remove_wait_queue()用于将等待队列元素wait从由q头部指向的链表中移除。
5.等待事件
wait_event(queue, condition)
wait_event_interruptible(queue, condition)
wait_event_timeout(queue, condition, timeout)
wait_event_interruptible_timeout(queue, condition, timeout)
等待第1个参数queue作为等待队列头部的队列被唤醒,而且第2个参数condition必须满足,否则继续
阻塞。wait_event()和wait_event_interruptible()的区别在于后者可以被信号打断,而前者不能。加上
_timeout后的宏意味着阻塞等待的超时时间,以jiffy为单位,在第3个参数的timeout到达时,不论condition
是否满足,均返回。
6.唤醒队列
void wake_up(wait_queue_head_t *queue);
void wake_up_interruptible(wait_queue_head_t *queue);
上述操作会唤醒以queue作为等待队列头部的队列中所有的进程。
wake_up()应该与wait_event()或wait_event_timeout()成对使用,而wake_up_interruptible()则
应与wait_event_interruptible()或wait_event_interruptible_timeout()成对使用。wake_up()可唤醒处于
TASK_INTERRUPTIBLE和TASK_UNINTERRUPTIBLE的进程,而wake_up_interruptible()只能唤醒处于
TASK_INTERRUPTIBLE的进程。
7.在等待队列上睡眠
sleep_on(wait_queue_head_t *q );
interruptible_sleep_on(wait_queue_head_t *q );
sleep_on()函数的作用就是将目前进程的状态置成TASK_UNINTERRUPTIBLE,并定义一个等待队
列元素,之后把它挂到等待队列头部q指向的双向链表,直到资源可获得,q队列指向链接的进程被唤
醒。
interruptible_sleep_on()与sleep_on()函数类似,其作用是将目前进程的状态置成
TASK_INTERRUPTIBLE,并定义一个等待队列元素,之后把它附属到q指向的队列,直到资源可获得(q
指引的等待队列被唤醒)或者进程收到信号。
sleep_on()函数应该与wake_up()成对使用,interruptible_sleep_on()应该与
wake_up_interruptible()成对使用。
代码清单8.3演示了一个在设备驱动中使用等待队列的模版,在进行写I/O操作的时候,判断设备是否
可写,如果不可写且为阻塞I/O,则进程睡眠并挂起到等待队列。
代码清单8.3 在设备驱动中使用等待队列
1static ssize_t xxx_write(struct file *file, const char *buffer, size_t count,
2 loff_t *ppos)
3{
4 ...
5 DECLARE_WAITQUEUE(wait, current); /* 定义等待队列元素 */
6 add_wait_queue(&xxx_wait, &wait); /* 添加元素到等待队列 */
7
8 /* 等待设备缓冲区可写 */
9 do {
10 avail = device_writable(...);
11 if (avail < 0) {
12 if (file->f_flags &O_NONBLOCK) { /* 非阻塞 */
13 ret = -EAGAIN;
14 goto out;
15 }
16 __set_current_state(TASK_INTERRUPTIBLE); /* 改变进程状态 */
17 schedule(); /* 调度其他进程执行 */
18 if (signal_pending(current)) { /* 如果是因为信号唤醒 */
19 ret = -ERESTARTSYS;
20 goto out;
21 }
22 }
23 } while (avail < 0);
24
25 /* 写设备缓冲区 */
26 device_write(...)
27 out:
28 remove_wait_queue(&xxx_wait, &wait); /* 将元素移出xxx_wait指引的队列 */
29 set_current_state(TASK_RUNNING); /* 设置进程状态为TASK_RUNNING */
30 return ret;
31}
读懂代码清单8.3对理解Linux进程状态切换非常重要,所以提请读者反复阅读此段代码(尤其注意其
中黑体的部分),直至完全领悟,几个要点如下。
1)如果是非阻塞访问(O_NONBLOCK被设置),设备忙时,直接返回“-EAGAIN”。
2)对于阻塞访问,会调用__set_current_state(TASK_INTERRUPTIBLE)进行进程状态切换并显示通
过“schedule()”调度其他进程执行。
3)醒来的时候要注意,由于调度出去的时候,进程状态是TASK_INTERRUPTIBLE,即浅度睡眠,
所以唤醒它的有可能是信号,因此,我们首先通过signal_pending(current)了解是不是信号唤醒的,如果
是,立即返回“-ERESTARTSYS”。
DECLARE_WAITQUEUE、add_wait_queue这两个动作加起来完成的效果如图8.2所示。在
wait_queue_head_t指向的链表上,新定义的wait_queue元素被插入,而这个新插入的元素绑定了一个
task_struct(当前做xxx_write的current,这也是DECLARE_WAITQUEUE使用“current”作为参数的原因)。
图8.2 wait_queque_head_t、wait_queque和task_struct之间的关系
8.1.2 支持阻塞操作的globalfifo设备驱动
现在我们给globalmem增加这样的约束:把globalmem中的全局内存变成一个FIFO,只有当FIFO中有
数据的时候(即有进程把数据写到这个FIFO而且没有被读进程读空),读进程才能把数据读出,而且读
取后的数据会从globalmem的全局内存中被拿掉;只有当FIFO不是满的时(即还有一些空间未被写,或写
满后被读进程从这个FIFO中读出了数据),写进程才能往这个FIFO中写入数据。
现在,将globalmem重命名为“globalfifo”,在globalfifo中,读FIFO将唤醒写FIFO的进程(如果之前
FIFO正好是满的),而写FIFO也将唤醒读FIFO的进程(如果之前FIFO正好是空的)。首先,需要修改设
备结构体,在其中增加两个等待队列头部,分别对应于读和写,如代码清单8.4所示。
代码清单8.4 globalfifo设备结构体
1struct globalfifo_dev {
2 struct cdev cdev;
3 unsigned int current_len;
4 unsigned char mem[GLOBALFIFO_SIZE];
5 struct mutex mutex;
6 wait_queue_head_t r_wait;
7 wait_queue_head_t w_wait;
8};
与globalfifo设备结构体的另一个不同是增加了current_len成员以用于表征目前FIFO中有效数据的长
度。current_len等于0意味着FIFO空,current_len等于GLOBALFIFO_SIZE意味着FIFO满。
这两个等待队列头部需在设备驱动模块加载函数中调用init_waitqueue_head()被初始化,新的设备
驱动模块加载函数如代码清单8.5所示。
代码清单8.5 globalfifo设备驱动模块加载函数
1static int __init globalfifo_init(void)
2{
3 int ret;
4 dev_t devno = MKDEV(globalfifo_major, 0);
5
6 if (globalfifo_major)
7 ret = register_chrdev_region(devno, 1, "globalfifo");
8 else {
9 ret = alloc_chrdev_region(&devno, 0, 1, "globalfifo");
10 globalfifo_major = MAJOR(devno);
11 }
12 if (ret < 0)
13 return ret;
14
15 globalfifo_devp = kzalloc(sizeof(struct globalfifo_dev), GFP_KERNEL);
16 if (!globalfifo_devp) {
17 ret = -ENOMEM;
18 goto fail_malloc;
19 }
20
21 globalfifo_setup_cdev(globalfifo_devp, 0);
22
23 mutex_init(&globalfifo_devp->mutex);
24 init_waitqueue_head(&globalfifo_devp->r_wait);
25 init_waitqueue_head(&globalfifo_devp->w_wait);
26
27 return 0;
28
29fail_malloc:
30 unregister_chrdev_region(devno, 1);
31 return ret;
32}
33module_init(globalfifo_init);
设备驱动读写操作需要被修改,在读函数中需增加唤醒globalfifo_devp->w_wait的语句,而在写操作
中唤醒globalfifo_devp->r_wait,如代码清单8.6所示。
代码清单8.6 增加等待队列后的globalfifo读写函数
1static ssize_t globalfifo_read(struct file *filp, char __user *buf,
2 size_t count, loff_t *ppos)
3{
4int ret;
5struct globalfifo_dev *dev = filp->private_data;
6DECLARE_WAITQUEUE(wait, current);
7
8mutex_lock(&dev->mutex);
9add_wait_queue(&dev->r_wait, &wait);
10
11while (dev->current_len == 0) {
12 if (filp->f_flags & O_NONBLOCK) {
13 ret = -EAGAIN;
14 goto out;
15 }
16 __set_current_state(TASK_INTERRUPTIBLE);
17 mutex_unlock(&dev->mutex);
18
19 schedule();
20 if (signal_pending(current)) {
21 ret = -ERESTARTSYS;
22 goto out2;
23 }
24
25 mutex_lock(&dev->mutex);
26}
27
28if (count > dev->current_len)
29 count = dev->current_len;
30
31if (copy_to_user(buf, dev->mem, count)) {
32 ret = -EFAULT;
33 goto out;
34} else {
35 memcpy(dev->mem, dev->mem + count, dev->current_len - count);
36 dev->current_len -= count;
37 printk(KERN_INFO "read %d bytes(s),current_len:%d\n", count,
38 dev->current_len);
39
40 wake_up_interruptible(&dev->w_wait);
41
42 ret = count;
43}
44 out:
45mutex_unlock(&dev->mutex);;
46 out2:
47remove_wait_queue(&dev->w_wait, &wait);
48set_current_state(TASK_RUNNING);
49return ret;
50}
51
52static ssize_t globalfifo_write(struct file *filp, const char __user * buf,
53 size_t count, loff_t *ppos)
54{
55struct globalfifo_dev *dev = filp->private_data;
56int ret;
57DECLARE_WAITQUEUE(wait, current);
58
59mutex_lock(&dev->mutex);
60add_wait_queue(&dev->w_wait, &wait);
61
62while (dev->current_len == GLOBALFIFO_SIZE) {
63 if (filp->f_flags & O_NONBLOCK) {
64 ret = -EAGAIN;
65 goto out;
66 }
67 __set_current_state(TASK_INTERRUPTIBLE);
68
69 mutex_unlock(&dev->mutex);
70
71 schedule();
72 if (signal_pending(current)) {
73 ret = -ERESTARTSYS;
74 goto out2;
75 }
76
77 mutex_lock(&dev->mutex);
78}
79
80if (count > GLOBALFIFO_SIZE - dev->current_len)
81 count = GLOBALFIFO_SIZE - dev->current_len;
82
83if (copy_from_user(dev->mem + dev->current_len, buf, count)) {
84 ret = -EFAULT;
85 goto out;
86} else {
87 dev->current_len += count;
88 printk(KERN_INFO "written %d bytes(s),current_len:%d\n", count,
89 dev->current_len);
90
91 wake_up_interruptible(&dev->r_wait);
92
93 ret = count;
94}
95
96 out:
97mutex_unlock(&dev->mutex);;
98 out2:
99remove_wait_queue(&dev->w_wait, &wait);
100set_current_state(TASK_RUNNING);
101return ret;
102}
globalfifo_read()通过第6行和第9行将自己加到了r_wait这个队列里面,但是此时读的进程并未睡
眠,之后第16行调用__set_current_state(TASK_INTERRUPTIBLE)时,也只是标记了task_struct的一个浅
度睡眠标记,并未真正睡眠,直到第19行调用schedule(),读进程进入睡眠。进行完读操作后,第40行
调用wake_up_interruptible(&dev->w_wait)唤醒可能阻塞的写进程。globalfifo_write()的过程与此类
似。
关注代码的第17行和69行,无论是读函数还是写函数,进入schedule()把自己切换出去之前,都主
动释放了互斥体。原因是如果读进程阻塞,实际意味着FIFO空,必须依赖写的进程往FIFO里面写东西来
唤醒它,但是写的进程为了写FIFO,它也必须拿到这个互斥体来访问FIFO这个临界资源,如果读进程把
自己调度出去之前不释放这个互斥体,那么读写进程之间就死锁了。所谓死锁,就是多个进程循环等待他
方占有的资源而无限期地僵持下去。如果没有外力的作用,那么死锁涉及的各个进程都将永远处于封锁状
态。因此,驱动工程师一定要注意:当多个等待队列、信号量、互斥体等机制同时出现时,谨防死锁!
现在回过来了看一下代码清单8.6的第12行和63行,发现在设备驱动的read()、write()等功能函数
中,可以通过filp->f_flags标志获得用户空间是否要求非阻塞访问。驱动中可以依据此标志判断用户究竟要
求阻塞还是非阻塞访问,从而进行不同的处理。
代码中还有一个关键点,就是无论读函数还是写函数,在进入真正的读写之前,都要再次判断设备是
否可以读写,见第11行的while(dev->current_len==0)和第62行的while(dev-
>current_len==GLOBALFIFO_SIZE)。主要目的是为了让并发的读或者并发的写都正确。设想如果两个读
进程都阻塞在读上,写进程执行的wake_up_interruptible(&dev->r_wait)实际会同时唤醒它们,其中先执
行的那个进程可能会率先将FIFO再次读空!
8.1.3 在用户空间验证globalfifo的读写
本书代码仓库的/kernel/drivers/globalfifo/ch8包含了globalfifo的驱动,运行“make”命令编译得到
globalfifo.ko。接着用insmod模块
# insmod globalfifo.ko
创建设备文件节点“/dev/globalfifo”,具体如下:
# mknod /dev/globalfifo c 231 0
启动两个进程,一个进程cat/dev/globalfifo&在后台执行,一个进程“echo字符串/dev/globalfifo”在前台
执行:
# cat /dev/globalfifo &
[1] 20910
# echo 'I want to be' > /dev/globalfifo
I want to be
# echo 'a great Chinese Linux Kernel Developer' > /dev/globalfifo
a great Chinese Linux kernel Developer
每当echo进程向/dev/globalfifo写入一串数据,cat进程就立即将该串数据显现出来,好的,让我们抱着
这个信念“I want to be a great Chinese Linux Kernel Developer”继续前行吧!
往/dev/globalfifo里面echo需要root权限,直接运行“sudo echo”是不行的,可以先执行:
baohua@baohua-VirtualBox://sys/module/globalmem$ sudo su
[sudo] password for baohua:
这段代码的密码也是“baohua”。之后再进行echo。
8.2 轮询操作
8.2.1 轮询的概念与作用
在用户程序中,select()和poll()也是与设备阻塞与非阻塞访问息息相关的论题。使用非阻塞I/O
的应用程序通常会使用select()和poll()系统调用查询是否可对设备进行无阻塞的访问。select()和
poll()系统调用最终会使设备驱动中的poll()函数被执行,在Linux2.5.45内核中还引入了epoll(),即
扩展的poll()。
select()和poll()系统调用的本质一样,前者在BSD UNIX中引入,后者在System V中引入。
8.2.2 应用程序中的轮询编程
应用程序中最广泛用到的是BSD UNIX中引入的select()系统调用,其原型为:
int select(int numfds, fd_set *readfds, fd_set *writefds, fd_set *exceptfds,
struct timeval *timeout);
其中readfds、writefds、exceptfds分别是被select()监视的读、写和异常处理的文件描述符集合,
numfds的值是需要检查的号码最高的fd加1。readfds文件集中的任何一个文件变得可读,select()返回;
同理,writefds文件集中的任何一个文件变得可写,select也返回。
如图8.3所示,第一次对n个文件进行select()的时候,若任何一个文件满足要求,select()就直接
返回;第2次再进行select()的时候,没有文件满足读写要求,select()的进程阻塞且睡眠。由于调用
select()的时候,每个驱动的poll()接口都会被调用到,实际上执行select()的进程被挂到了每个驱动
的等待队列上,可以被任何一个驱动唤醒。如果FDn变得可读写,select()返回。
图8.3 多路复用select()
timeout参数是一个指向struct timeval类型的指针,它可以使select()在等待timeout时间后若仍然没有
文件描述符准备好则超时返回。struct timeval数据结构的定义如代码清单8.7所示。
代码清单8.7 timeval结构体定义
1struct timeval {
2 int tv_sec; /* 秒 */
3 int tv_usec; /* 微秒 */
4};
下列操作用来设置、清除、判断文件描述符集合:
FD_ZERO(fd_set *set)
清除一个文件描述符集合;
FD_SET(int fd,fd_set *set)
将一个文件描述符加入文件描述符集合中;
FD_CLR(int fd,fd_set *set)
将一个文件描述符从文件描述符集合中清除;
FD_ISSET(int fd,fd_set *set)
判断文件描述符是否被置位。
poll()的功能和实现原理与select()相似,其函数原型为:
int poll(struct pollfd *fds, nfds_t nfds, int timeout);
当多路复用的文件数量庞大、I/O流量频繁的时候,一般不太适合使用select()和poll(),此种情
况下,select()和poll()的性能表现较差,我们宜使用epoll。epoll的最大好处是不会随着fd的数目增长
而降低效率,select()则会随着fd的数量增大性能下降明显。
与epoll相关的用户空间编程接口包括:
int epoll_create(int size);
创建一个epoll的句柄,size用来告诉内核要监听多少个fd。需要注意的是,当创建好epoll句柄后,它
本身也会占用一个fd值,所以在使用完epoll后,必须调用close()关闭。
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
告诉内核要监听什么类型的事件。第1个参数是epoll_create()的返回值,第2个参数表示动作,包
含:
EPOLL_CTL_ADD:注册新的fd到epfd中。
EPOLL_CTL_MOD:修改已经注册的fd的监听事件。
EPOLL_CTL_DEL:从epfd中删除一个fd。
第3个参数是需要监听的fd,第4个参数是告诉内核需要监听的事件类型,struct epoll_event结构如下:
struct epoll_event {
__uint32_t events; /* Epoll events */
epoll_data_t data; /* User data variable */
};
events可以是以下几个宏的“或”:
EPOLLIN:表示对应的文件描述符可以读。
EPOLLOUT:表示对应的文件描述符可以写。
EPOLLPRI:表示对应的文件描述符有紧急的数据可读(这里应该表示的是有socket带外数据到
来)。
EPOLLERR:表示对应的文件描述符发生错误。
EPOLLHUP:表示对应的文件描述符被挂断。
EPOLLET:将epoll设为边缘触发(Edge Triggered)模式,这是相对于水平触发(Level Triggered)来
说的。LT(Level Triggered)是缺省的工作方式,在LT情况下,内核告诉用户一个fd是否就绪了,之后用
户可以对这个就绪的fd进行I/O操作。但是如果用户不进行任何操作,该事件并不会丢失,而ET(Edge-
Triggered)是高速工作方式,在这种模式下,当fd从未就绪变为就绪时,内核通过epoll告诉用户,然后它
会假设用户知道fd已经就绪,并且不会再为那个fd发送更多的就绪通知。
EPOLLONESHOT:意味着一次性监听,当监听完这次事件之后,如果还需要继续监听这个fd的话,
需要再次把这个fd加入到epoll队列里。
int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);
等待事件的产生,其中events参数是输出参数,用来从内核得到事件的集合,maxevents告诉内核本次
最多收多少事件,maxevents的值不能大于创建epoll_create()时的size,参数timeout是超时时间(以毫秒
为单位,0意味着立即返回,-1意味着永久等待)。该函数的返回值是需要处理的事件数目,如返回0,则
表示已超时。
位于https://www.kernel.org/doc/ols/2004/ols2004v1-pages-215-226.pdf的文档《Comparing and Evaluating
epoll,select,and poll Event Mechanisms》对比了select、epoll、poll之间的一些性能。一般来说,当涉及的
fd数量较少的时候,使用select是合适的;如果涉及的fd很多,如在大规模并发的服务器中侦听许多socket
的时候,则不太适合选用select,而适合选用epoll。
8.2.3 设备驱动中的轮询编程
设备驱动中poll()函数的原型是:
unsigned int(*poll)(struct file * filp, struct poll_table* wait);
第1个参数为file结构体指针,第2个参数为轮询表指针。这个函数应该进行两项工作。
1)对可能引起设备文件状态变化的等待队列调用poll_wait()函数,将对应的等待队列头部添加到
poll_table中。
2)返回表示是否能对设备进行无阻塞读、写访问的掩码。
用于向poll_table注册等待队列的关键poll_wait()函数的原型如下:
void poll_wait(struct file *filp, wait_queue_heat_t *queue, poll_table * wait);
poll_wait()函数的名称非常容易让人产生误会,以为它和wait_event()等一样,会阻塞地等待某
事件的发生,其实这个函数并不会引起阻塞。poll_wait()函数所做的工作是把当前进程添加到wait参数
指定的等待列表(poll_table)中,实际作用是让唤醒参数queue对应的等待队列可以唤醒因select()而睡
眠的进程。
驱动程序poll()函数应该返回设备资源的可获取状态,即POLLIN、POLLOUT、POLLPRI、
POLLERR、POLLNVAL等宏的位“或”结果。每个宏的含义都表明设备的一种状态,如POLLIN(定义为
0x0001)意味着设备可以无阻塞地读,POLLOUT(定义为0x0004)意味着设备可以无阻塞地写。
通过以上分析,可得出设备驱动中poll()函数的典型模板,如代码清单8.8所示。
代码清单8.8 poll()函数典型模板
1 static unsigned int xxx_poll(struct file *filp, poll_table *wait)
2 {
3 unsigned int mask = 0;
4 struct xxx_dev *dev = filp->private_data; /* 获得设备结构体指针*/
5
6 ...
7 poll_wait(filp, &dev->r_wait, wait); /* 加入读等待队列 */
8 poll_wait(filp, &dev->w_wait, wait); /* 加入写等待队列 */
9
10 if (...) /* 可读 */
11 mask |= POLLIN | POLLRDNORM; /* 标示数据可获得(对用户可读)*/
12
13 if (...) /* 可写 */
14 mask |= POLLOUT | POLLWRNORM; /* 标示数据可写入*/
15 ...
16 return mask;
17}
8.3 支持轮询操作的globalfifo驱动
8.3.1 在globalfifo驱动中增加轮询操作
在globalfifo的poll()函数中,首先将设备结构体中的r_wait和w_wait等待队列头部添加到等待列表中
(意味着因调用select而阻塞的进程可以被r_wait和w_wait唤醒),然后通过判断dev->current_len是否等于0
来获得设备的可读状态,通过判断dev->current_len是否等于GLOBALFIFO_SIZE来获得设备的可写状态,
如代码清单8.9所示。
代码清单8.9 globalfifo设备驱动的poll()函数
1static unsigned int globalfifo_poll(struct file *filp, poll_table * wait)
2{
3 unsigned int mask = 0;
4 struct globalfifo_dev *dev = filp->private_data;
5
6 mutex_lock(&dev->mutex);;
7
8 poll_wait(filp, &dev->r_wait, wait);
9 poll_wait(filp, &dev->w_wait, wait);
10
11 if (dev->current_len != 0) {
12 mask |= POLLIN | POLLRDNORM;
13 }
14
15 if (dev->current_len != GLOBALFIFO_SIZE) {
16 mask |= POLLOUT | POLLWRNORM;
17 }
18
19 mutex_unlock(&dev->mutex);;
20 return mask;
21}
注意,要把globalfifo_poll赋给globalfifo_fops的poll成员:
static const struct file_operations globalfifo_fops = {
...
.poll = globalfifo_poll,
...
};
8.3.2 在用户空间中验证globalfifo设备的轮询
编写一个应用程序globalfifo_poll.c,以用select()监控globalfifo的可读写状态,这个程序如代码清单
8.10所示。
代码清单8.10 使用select监控globalfifo是否可非阻塞读、写的应用程序
1#define FIFO_CLEAR 0x1
2#define BUFFER_LEN 20
3void main(void)
4{
5 int fd, num;
6 char rd_ch[BUFFER_LEN];
7 fd_set rfds, wfds; /* 读/写文件描述符集 */
8
9 /* 以非阻塞方式打开/dev/globalfifo设备文件 */
10 fd = open("/dev/globalfifo", O_RDONLY | O_NONBLOCK);
11 if (fd != -1) {
12 /* FIFO清0 */
13 if (ioctl(fd, FIFO_CLEAR, 0) < 0)
14 printf("ioctl command failed\n");
15
16 while (1) {
17 FD_ZERO(&rfds);
18 FD_ZERO(&wfds);
19 FD_SET(fd, &rfds);
20 FD_SET(fd, &wfds);
21
22 select(fd + 1, &rfds, &wfds, NULL, NULL);
23 /* 数据可获得 */
24 if (FD_ISSET(fd, &rfds))
25 printf("Poll monitor:can be read\n");
26 /* 数据可写入 */
27 if (FD_ISSET(fd, &wfds))
28 printf("Poll monitor:can be written\n");
29 }
30 } else {
31 printf("Device open failure\n");
32 }
33}
在运行时可看到,当没有任何输入,即FIFO为空时,程序不断地输出Poll monitor:can be written,当
通过echo向/dev/globalfifo写入一些数据后,将输出Poll monitor:can be read和Poll monitor:can be written,
如果不断地通过echo向/dev/globalfifo写入数据直至写满FIFO,则发现pollmonitor程序将只输出Poll
monitor:can be read。对于globalfifo而言,不会出现既不能读,又不能写的情况。
编写一个应用程序globalfifo_epoll.c,以用epoll监控globalfifo的可读状态,这个程序如代码清单8.11所
示。
代码清单8.11 使用epoll监控globalfifo是否可非阻塞读的应用程序
1#define FIFO_CLEAR 0x1
2#define BUFFER_LEN 20
3void main(void)
4{
5 int fd;
6
7 fd = open("/dev/globalfifo", O_RDONLY | O_NONBLOCK);
8 if (fd != -1) {
9 struct epoll_event ev_globalfifo;
10 int err;
11 int epfd;
12
13 if (ioctl(fd, FIFO_CLEAR, 0) < 0)
14 printf("ioctl command failed\n");
15
16 epfd = epoll_create(1);
17 if (epfd < 0) {
18 perror("epoll_create()");
19 return;
20 }
21
22 bzero(&ev_globalfifo, sizeof(struct epoll_event));
23 ev_globalfifo.events = EPOLLIN | EPOLLPRI;
24
25 err = epoll_ctl(epfd, EPOLL_CTL_ADD, fd, &ev_globalfifo);
26 if (err < 0) {
27 perror("epoll_ctl()");
28 return;
29 }
30 err = epoll_wait(epfd, &ev_globalfifo, 1, 15000);
31 if (err < 0) {
32 perror("epoll_wait()");
33 } else if (err == 0) {
34 printf("No data input in FIFO within 15 seconds.\n");
35 } else {
36 printf("FIFO is not empty\n");
37 }
38 err = epoll_ctl(epfd, EPOLL_CTL_DEL, fd, &ev_globalfifo);
39 if (err < 0)
40 perror("epoll_ctl()");
41 } else {
42 printf("Device open failure\n");
43 }
44}
上述程序第25行epoll_ctl(epfd,EPOLL_CTL_ADD,fd,&ev_globalfifo)将globalfifo对应的fd加入到
了侦听的行列,第23行设置侦听读事件,第30行进行等待,若15秒内没有人写/dev/globalfifo,该程序会打
印No data input in FIFO within 15seconds,否则程序会打印FIFO is not empty。
8.4 总结
阻塞与非阻塞访问是I/O操作的两种不同模式,前者在暂时不可进行I/O操作时会让进程睡眠,后者则
不然。
在设备驱动中阻塞I/O一般基于等待队列或者基于等待队列的其他Linux内核API来实现,等待队列可
用于同步驱动中事件发生的先后顺序。使用非阻塞I/O的应用程序也可借助轮询函数来查询设备是否能立
即被访问,用户空间调用select()、poll()或者epoll接口,设备驱动提供poll()函数。设备驱动的
poll()本身不会阻塞,但是与poll()、select()和epoll相关的系统调用则会阻塞地等待至少一个文件
描述符集合可访问或超时。