紧接着上篇的文件描述符,我们要继续讲解文件描述符,通过文件描述符讲解重定向的原理,再用所学的知识自己模拟实现一下C语言中fopen等文件操作,讲解一下缓冲区,最后再完善一下我们之前实现的shell。目标已经确定,接下来就要搬好小板凳,准备开讲了…
上一篇我们已经讲述了文件操作的内核中实现的映射关系,并且画了图理解了一遍。
创建struct file
,初始化内部属性,函数指针指向对应方法,将这个对象的struct file
地址填到,进程对应的文件描述表里面,分配一个指针数组没有被占用的下标,将数字下标返回。
那么这些下标fd都是如何分配的呢?
我们接下来做个小实验,将1号文件关掉,再创建一个文件,看其文件的fd是什么:
#include
#include
#include
#include
#include
int main()
{
close(1);
int fd = open("log.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);
if(fd < 0)
{
perror("open");
return 0;
}
fprintf(stdout, "打开文件成功,fd : %d\n", fd);
fflush(stdout);
return 0;
}
我们显示一开始关闭了0号文件:
我们看到了fd为0,这就说明了,内核中struct file* fd array[]
数组中0号下标是log.txt的文件的fd。
我们关闭了0号,关了之后0号又被打开,指向了别的文件。
结论:
从头遍历数组fd array[]
,找到一个最小的,没有被使用的下标,分配给新的文件!!
在之前学习Linux基础指令时,我们学过重定向操作,向指定文本中写入或追加文件内容。
而现在我们在了解文件内核基本结构之后,我们就可以理解重定向的本质了。
一堆的数据,都是内核数据结构,只有OS有权限,必定提供对应的接口~
dup函数:
dup函数的作用是创建一个新的文件描述符,该描述符是原始文件描述符的副本。
dup函数返回新的文件描述符,如果复制成功,则返回的文件描述符与oldfd具有相同的值和属性。如果复制失败,则返回-1,并设置errno来指示错误的原因。
我们要弄清楚谁是谁的一份拷贝,一定是oldfd拷贝给了newfd(newfd的内容是oldfd的一份拷贝),最后两个都是oldfd,别弄反了~
#include
#include
#include
#include
#include
int main()
{
int fd = open("log.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);
if(fd < 0)
{
perror("open");
return 1;
}
//本来1号位置的指针,被覆盖成了3号位置的指针
int ret = dup2(fd, 1); //fd = 3, 1
if(ret > 0) close(fd);
printf("ret : %d\n", ret);
//本来应该要往显示器打印,最终却变成了向指定文件打印 -- 重定向的原理
fprintf(stdout, "打开文件成功, fd: %d\n", fd);
//暂时不做解释,后面再说 -- 和缓冲区有关
fflush(stdout);
close(fd);
return 0;
}
追加重定向:
输入重定向:
int main()
{
int fd = open("log.txt", O_RDONLY);
if(fd < 0)
{
perror("open");
return 1;
}
char line[64];
//输入定向
dup2(fd, 0);
while(fgets(line, sizeof(line), stdin) != NULL)
{
printf("%s", line);
}
close(fd);
return 0;
}
从log.txt
文件内容通过fgets
按行读取,读取完之后再用循环体将内容打印出来。
注意:
总结:
如果我们要进行重定向,上层只认0, 1, 2, 3, 4, 5这样的fd,我们可以在OS内部, 通过一定的方式调整数组的特定下标的内容(指向),我们就可以完成重定向操作!
上述代码结果我们已经看了,如果我们关闭的是1号文件呢?
int main()
{
close(1);
//根据fd的分配规则,新的fd值一定是1
int fd = open("log.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);
if(fd < 0)
{
perror("open");
return 1;
}
//printf -> stdout -> 1 -> 虽然不再指向对应的显示器了,但是已经指向了log.txt的底层struct file对象!
printf("fd : %d\n", fd);
fflush(stdout);
close(fd);
return 0;
}
printf -> stdout -> 1 -> 虽然不再指向对应的显示器了,但是已经指向了log.txt的底层struct file对象!
既然是向log.txt写入,我们运行之后,来看一下log.txt中的结果:
文件中并没有内容,这就是因为缓冲区的存在,我们需要用到fflush(stdout);
来刷新一下缓冲区,不然就不会显示。
有个疑问:
- 为什么在进程结束之后缓冲区的内容没有直接刷新到 log.txt 文件当中呢?
- 在我们之前的学习中知道,进程结束就会将缓冲区的内容刷新到显示器上。
- 因为之前都是向显示器刷新,stdout并没有被关闭,1号没有分配新的fd。
- 对于标准输出流 stdout,当进程正常结束时,缓冲区的内容通常会被刷新到1号文件中。
- 没有刷新到 log.txt 文件的原因:
- 当进程正常终止时,操作系统会负责清理和关闭打开的文件描述符,包括标准输出流。
- 所以最后一行的close(fd)会关闭文件描述符1,导致标准输出流被关闭。
- 在关闭之前,操作系统会尝试将缓冲区中的内容刷新到对应的文件中。
- 在进程结束之前,缓冲区的内容会被刷新到 stdout(标准输出流)中。
- 然而在关闭标准输出流之前,缓冲区的内容并没有被刷新到文件中,因此最终没有将内容写入文件。
- 而将close(fd)去掉则会刷新到log.txt这个文件里,因为在关闭文件之前就刷新了。
正确做法:
为了确保缓冲区的内容被正确刷新到文件中,可以在关闭文件描述符之前进行一次输出操作,或者显式地使用
fflush(stdout)
函数来手动刷新缓冲区。这样可以保证在关闭文件描述符之前,缓冲区的内容会被刷新到文件中。
总之,在进程正常终止前,操作系统会尽力将缓冲区的内容刷新到stdout,但不能保证一定成功。因此,最好使用fflush函数或其他相关函数来确保缓冲区的内容被刷新到文件中。
FILE
指针是一个指向 FILE 结构体的指针,该结构体包含了有关文件的信息和状态。FILE
指针,程序可以对文件进行读取、写入和定位等操作。FILE
对应的语言级别的缓冲区!既然缓冲区在
FILE
内部,在C语言中,而我们每一次打开一个文件,都要有一个FILE*
会返回!
是不是意味着,每一个文件都有一个fd和属于它自己的与语言级别缓冲区!是的!!
#include
#include
#include
#include
#include
#include
int main()
{
//printf没有立即刷新的原因,是因为有缓冲区的存在
//数据被暂存在了缓冲区里面,当进程退出时,数据才被刷新
//首先printf内部就是封装了write
printf(" hello printf"); // stdout -> 1
fprintf(stdout, " hello fpritnf");
fputs(" hello fputs", stdout);
//write可是立即刷新的!printf -> write
//那么这个缓冲区在哪里?? -- 只能是C语言提供的,是个语言级别的缓冲区
//那么这个缓冲区不在那里?? -- 一定不在write内部!
//那么我们曾经谈论的缓冲区,不是内核级别的
const char* msg = " hello write";
write(1, msg, strlen(msg));
//close(1);
sleep(5);
close(stdout->_fileno);
return 0;
}
因为这些函数底层调用
write
函数就失败了。
为什么会出现等几秒钟才刷新出来的现象?
那么这个缓冲区在哪里??
那么这个缓冲区不在那里??
fprintf、fputs和printf
这三个接口都是C语言提供的,都有一个公共参数 — stdout。printf也有只是没有写出来而已。stdout是FILE结构体的指针。
根据文件类型来决定刷新策略。
下面程序的可执行程序test
,重定向到log.txt
文件中,那么log.txt文件中的内容是什么?
#include
#include
#include
#include
#include
#include
int main()
{
const char* str1 = "hello printf\n";
const char* str2 = "hello fprintf\n";
const char* str3 = "hello fputs\n";
const char* str4 = "hello write\n";
//C库函数
printf(str1);
fprintf(stdout, str2);
fputs(str3, stdout);
//系统接口
write(1, str4, strlen(str4));
//是调用完了上面的代码,才执行的fork()
fork();
return 0;
}
log.txt
所以不会立即刷新而变成了全缓冲。FILE
内部维护的,属于父进程内部的数据区域!有了之前的知识储备,我们可以封装系统调用接口,模拟一个缓冲区,来模拟实现C语言的文件操作接口的:
#include
#include
#include
#include
#include
#include
#include
#include
#define NUM 1024
//定义三种缓冲区刷新方式
#define NONE_FLUSH 0x0
#define LINE_FLUSH 0x1
#define FULL_FLUSH 0x2
typedef struct _MyFILE
{
int _fileno;
char _buffer[NUM];
int _end;
int _flags; //fflush method -- 刷新方式
} MyFILE;
MyFILE* my_fopen(const char* filename, const char* method)
{
assert(filename);
assert(method);
//默认以读的方式打开
int flags = O_RDONLY;
if(strcmp(method, "r") == 0)
{}
else if(strcmp(method, "r+") == 0)
{}
else if(strcmp(method, "w") == 0)
{
flags = O_WRONLY | O_CREAT | O_TRUNC;
}
else if(strcmp(method, "w+") == 0)
{}
else if(strcmp(method, "a") == 0)
{
flags = O_WRONLY | O_CREAT | O_APPEND;
}
else if(strcmp(method, "a+") == 0)
{}
int fileno = open(filename, flags, 0666);
if(fileno < 0)
{
return NULL;
}
MyFILE*fp = (MyFILE *)malloc(sizeof(MyFILE));
if(fp == NULL) return fp;
memset(fp, 0, sizeof(MyFILE));
fp->_fileno = fileno;
fp->_flags |= LINE_FLUSH;
fp->_end = 0;
return fp;
}
void my_fflush(MyFILE* fp)
{
assert(fp);
if(fp->_end > 0)
{
write(fp->_fileno, fp->_buffer, fp->_end);
fp->_end = 0;
syncfs(fp->_fileno);
}
}
void my_fwrite(MyFILE* fp, const char* start, int len)
{
assert(fp);
assert(start);
assert(len > 0);
//abcde123
//写入到缓冲区里面 -- 每次都像结尾开始写
strncpy(fp->_buffer + fp->_end, start, len); //将数据写入到缓冲区了
fp->_end += len;
if(fp->_flags & NONE_FLUSH)
{}
else if(fp->_flags & LINE_FLUSH)
{
if(fp->_end > 0 && fp->_buffer[fp->_end - 1] == '\n')
{
//仅仅是写入到内核中
write(fp->_fileno, fp->_buffer, fp->_end);
fp->_end = 0;
//真正把数据刷到磁盘上
syncfs(fp->_fileno);
}
}
else if(fp->_flags & FULL_FLUSH)
{}
}
void my_fclose(MyFILE* fp)
{
my_fflush(fp);
close(fp->_fileno);
free(fp);
}
int main()
{
MyFILE* fp = my_fopen("log.txt", "w");
if(fp == NULL)
{
printf("my_fopen error\n");
return 1;
}
const char* s = "hello my 111\n";
my_fwrite(fp, s, strlen(s));
printf("消息立即刷新");
sleep(3);
const char* ss = "hello my 222";
my_fwrite(fp, ss, strlen(ss));
printf("写入了一个不满足刷新条件的字符串\n");
sleep(3);
const char* sss = "hello my 333";
my_fwrite(fp, sss, strlen(sss));
printf("写入了一个不满足刷新条件的字符串\n");
sleep(3);
const char* ssss = " end\n";
my_fwrite(fp, ssss, strlen(ssss));
printf("写入了一个满足刷新条件的字符串\n");
sleep(3);
const char* sssss = "-aaaaaaa\n";
my_fwrite(fp, sssss, strlen(sssss));
printf("写入了一个不满足刷新条件的字符串\n");
fork();
//模拟进程退出 -- 代码父进程执行一遍,子进程执行一遍
my_fclose(fp);
return 0;
}
把数据写到内核里,并不代表就是把数据写到硬件上了。 如果非要写到硬件上就要加上一个接口sync。
之前在学习进程程序替换的时候,我们模拟实现过一个shell【实现简易shell-复习传送门】。
没改进之前会出现的情况:
我们要对输入的命令做检查,对重定向操作符做单独处理。
单独加一个函数:
void CheckDir(char* commands)
{
assert(commands);
//[start, end)
char* start = commands;
//指向的是字符串最后的那个'\0'
char* end = commands + strlen(commands);
//ls -a -l>log.txt
while(start < end)
{
if(*start == '>')
{
if(*(start + 1) == '>')
{
//ls -a -l>>log.txt -- 追加
*start = '\0';
start += 2;
g_redir_flag = APPEND_REDIR;
DROP_SPACE(start);
g_redir_filename = start;
break;
}
else
{
//ls -a -l > log.txt -- 输出重定向
*start = '\0';
start++;
DROP_SPACE(start);
g_redir_flag = OUTPUT_REDIR;
g_redir_filename = start;
break;
}
}
else if(*start == '<')
{
//输入重定向
*start = '\0';
start++;
DROP_SPACE(start);
g_redir_flag = INPUT_REDIR;
g_redir_filename = start;
break;
}
else
{
start++;
}
}
}
其他的一些操作:
—— 不影响!!
PCB
一样不受程序替换的影响标准输出和标准错误对应的都是显示器,虽然大家都是打印的是在一个显示器上,但是依旧是通过不同文件描述符打印的,要做到互不干扰。
#include
#include
int main()
{
//stdout
printf("hello printf 1\n");
fprintf(stdout, "hello fprintf 1\n");
fputs("hello fputs 1\n", stdout);
//stderr
fprintf(stderr, "hello fprintf 2\n");
fputs("hello fputs 2\n", stderr);
perror("hello perror 2");
//cout
std::cout << "hello cout 1" << std::endl;
//cerr
std::cerr << "hello cerr 2" << std::endl;
}
上述重定向的指令是将往显示器中打印的数据重定向到
stdout.txt
中去,但是我们可以看到依旧有内容显示在了显示器上。原因是虽然stdout
和stderr
都是向显示器打印但是,他们是有着不同的文件描述符,重定向只是重定向了一个文件而已。
当重定向的时候,只是对1号文件描述符重定向了,和2号没关系。
这样做的意义是什么:
补充:
连续重定向:
stdout. txt
当中。stderr.txt
文件当中。
既然有了上面的写法,那么我们就不禁思考原来我们的写法是否也可以改一下:
./a. out 1> stdout.txt 2> stderr.txt
其实这才是标准写法,只是我们之前将1给省略了。
将所有东西混合打印:
./a.out > all.txt 2>&1
“./a.out > all.txt 2>&1” 是一个用于命令行的重定向语法,它表示将程序 “./a.out” 的标准输出和标准错误输出都重定向到文件 “all.txt” 中。
具体解释如下:
>
:表示重定向符号,用于将输出重定向至指定文件。- “all.txt”:是重定向输出的目标文件名,这里是指定为 “all.txt”。
2>&1
:是将标准错误输出重定向到标准输出的语法。“2” 表示标准错误输出的文件描述符,“&1” 则表示标准输出的文件描述符。所以,2>&1
的意思是将标准错误输出重定向到与标准输出相同的位置。
综上所述,“./a.out > all.txt 2>&1” 执行的效果是将程序 “./a.out” 的标准输出和标准错误输出都追加到文件 “all.txt” 中。注意,如果 “all.txt” 文件不存在,会自动创建;如果存在,则会将输出内容追加到文件末尾。
这种方式在日志记录和调试时很常见,可以将程序的所有输出信息保存到一个文件中,方便查看和分析。
原因是,在我们之前学习C语言的时候,就学过C语言有一个全局变量,记录最近一次C库函数调用失败的原因!
当库函数使用的时候,发生错误会把errno这个全局的错误变量设置成为本次执行库函数产生的错误码,errno是C语言提供的一个全局变量,可以直接使用放在errno. h的文件中。
代码演示:
#include
#include
#include
#include
#include
#include
using namespace std;
void my_perror(const char* info)
{
//根据错误码描述的信息
fprintf(stderr, "%s: %s\n", info, strerror(errno));
}
int main()
{
//fopen: C库函数
int fd = open("log.txt", O_RDONLY);//必定失败的
if(fd < 0)
{
//perror("open");
my_perror("my open");
return 1;
}
return 0;
}
上述打开文件肯定是错误的。