注:原发表在 Hadoop技术论坛

io_submit、io_setup和io_getevents和LINUX上的AIO系统调用。这有一个非常特别注意的地方——传递给io_setup的aio_context参数必须初始化为0,在它的man手册里其实有说明,但容易被忽视,我就犯了这个错误,man说明如下:

完整示例如下:// 包含必须头文件

 
    
  1. #include   
  2. #include   
  3. #include   
  4. #include   
  5. #include   
  6. #include   
  7. #include   
  8. #include   
  9. #include   
  10.  
  11. int main()  
  12. {  
  13.         io_context_t ctx;  
  14.         unsigned nr_events = 10;  
  15.         memset(&ctx, 0, sizeof(ctx));  // It's necessary,这里一定要的  
  16.         int errcode = io_setup(nr_events, &ctx);  
  17.         if (errcode == 0)  
  18.                 printf("io_setup success\n");  
  19.         else 
  20.                 printf("io_setup error: :%d:%s\n", errcode, strerror(-errcode));  
  21.  
  22.         // 如果不指定O_DIRECT,则io_submit操作和普通的read/write操作没有什么区别了,将来的LINUX可能  
  23.         // 可以支持不指定O_DIRECT标志  
  24.         int fd = open("./direct.txt", O_CREAT|O_DIRECT|O_WRONLY, S_IRWXU|S_IRWXG|S_IROTH);  
  25.         printf("open: %s\n", strerror(errno));  
  26.  
  27.         char* buf;  
  28.         errcode = posix_memalign((void**)&buf, sysconf(_SC_PAGESIZE), sysconf(_SC_PAGESIZE));  
  29.         printf("posix_memalign: %s\n", strerror(errcode));  
  30.  
  31.         strcpy(buf, "hello xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx");  
  32.  
  33.         struct iocb *iocbpp = (struct iocb *)malloc(sizeof(struct iocb));  
  34.         memset(iocbpp, 0, sizeof(struct iocb));  
  35.  
  36.         iocbpp[0].data           = buf;  
  37.         iocbpp[0].aio_lio_opcode = IO_CMD_PWRITE;  
  38.         iocbpp[0].aio_reqprio    = 0;  
  39.         iocbpp[0].aio_fildes     = fd;  
  40.  
  41.         iocbpp[0].u.c.buf    = buf;  
  42.         iocbpp[0].u.c.nbytes = page_size;//strlen(buf); // 这个值必须按512字节对齐  
  43.         iocbpp[0].u.c.offset = 0; // 这个值必须按512字节对齐  
  44.  
  45.         // 提交异步操作,异步写磁盘  
  46.         int n = io_submit(ctx, 1, &iocbpp);  
  47.         printf("==io_submit==: %d:%s\n", n, strerror(-n));  
  48.  
  49.         struct io_event events[10];  
  50.         struct timespec timeout = {1, 100};  
  51.         // 检查写磁盘情况,类似于epoll_wait或select 
  52.         n = io_getevents(ctx, 1, 10, events, &timeout);  
  53.         printf("io_getevents: %d:%s\n", n, strerror(-n));  
  54.  
  55.         close(fd);  
  56.         io_destroy(ctx);  
  57.         return 0;  
  58. }  
  59.  
  60.  
  61. 测试环境:Linux 2.6.16,SUSE Linux Enterprise Server 10 (x86_64)  
  62.  
  63. struct iocb {  
  64.        /* these are internal to the kernel/libc. */  
  65.        __u64   aio_data;       /* data to be returned in event\'s data */用来返回异步IO事件信息的空间,类似于epoll中的ptr。  
  66.        __u32   PADDED(aio_key, aio_reserved1); /* the kernel sets aio_key to the req # */  
  67.        /* common fields */  
  68.        __u16   aio_lio_opcode; /* see IOCB_CMD_ above */  
  69.        __s16   aio_reqprio;      // 请求的优先级  
  70.        __u32   aio_fildes;        //  文件描述符  
  71.        __u64   aio_buf;           // 用户态缓冲区  
  72.        __u64   aio_nbytes;      // 文件操作的字节数  
  73.        __s64   aio_offset;       // 文件操作的偏移量  
  74.  
  75.        /* extra parameters */  
  76.        __u64   aio_reserved2;  /* TODO: use this for a (struct sigevent *) */  
  77.        __u64   aio_reserved3;  
  78. }; /* 64 bytes */  
  79.  
  80. struct io_event {  
  81.        __u64           data;          /* the data field from the iocb */ // 类似于epoll_event中的ptr  
  82.        __u64           obj;            /* what iocb this event came from */ // 对应的用户态iocb结构体指针  
  83.        __s64           res;            /* result code for this event */ // 操作的结果,类似于read/write的返回值  
  84.        __s64           res2;          /* secondary result */  
  85. };  

 

系统调用功能原型io_setup为当前进程初始化一个异步IO上下文int io_setup(unsigned nr_events,aio_context_t *ctxp);io_submit提交一个或者多个异步IO操作int io_submit(aio_context_t ctx_id,long nr, struct iocb **iocbpp);io_getevents获得未完成的异步IO操作的状态int io_getevents(aio_context_t ctx_id, long min_nr, long nr, struct io_event *events, struct timespec *timeout);io_cancel取消一个未完成的异步IO操作int io_cancel(aio_context_t ctx_id, struct iocb *iocb, struct io_event *result);io_destroy从当前进程删除一个异步IO上下文int io_destroy(aio_context_t ctx);