✨个人主页: Yohifo
所属专栏: Linux学习之旅
每篇一句: 图片来源
操作环境: CentOS 7.6 阿里云远程服务器
- Good judgment comes from experience, and a lot of that comes from bad judgment.
- 好的判断力来自经验,其中很多来自糟糕的判断力。
Linux
系统主要分为 内核(kernel)
和 外壳(shell)
,普通用户是无法接触到内核的,因此实际在进行操作时是在和外壳程序打交道,在 shell
外壳之上存在 命令行解释器(bash)
,负责接收并执行用户输入的指令,本文模拟实现的就是一个 简易版命令行解释器
在模拟实现前,先得了解 bash
的本质
bash
也是一个进程,并且是不断运行中的进程
证明:常显示的命令输入提示符就是 bash
不断打印输出的结果
输入指令后,bash
会创建子进程,并进行程序替换
证明:运行自己写的程序后,可以看到当前进程的 父进程
为 bash
此时可以断定神秘的 bash
就是一个运行中的进程,因为进程间具有独立性,因此可以同时存在多个 bash
,这也是多用户登录 Linux
可以同时使用 bash
的重要原因
系统自带的 bash
是一个庞然大物,我们只需根据其本质,实现一个简易版 bash
就行了
bash
需要帮我们完成命令解释+程序替换的任务,因此它至少要具备以下功能:
进程相关知识都已经在前面介绍过了,本文着重介绍的是其他步骤及细节
抛开指令接收、切割、替换时的细节,简易版 bash
代码基本框架如下:
#include
#include
#include
#include
#include
#include
#include
//指令分割函数
void split(char* argv[ARGV_SIZE], char* ps)
{}
int main()
{
//这是一个始终运行的程序:bash
while(1)
{
//打印提示符
printf("[User@myBash default]$ "); //可以自定义,跟着标准走
fflush(stdout); //手动清空缓冲区
//读取指令
//指令分割
//子进程进行程序替换
pid_t id = fork();
if(id == 0)
{
//直接执行程序替换,这里使用 execvp
execvp(); //具体细节先忽略
exit(168); //替换失败后返回,这个值可以自定义 [0, 255]
}
//父进程等待子进程终止,回收僵尸进程
int status = 0;
waitpid(id, &status, 0); //在等待队列中阻塞
if(WIFEXITED(status))
{
//假如程序替换失败
//关于打印的错误信息:也可以自定义,格式跟着标准走
if(WEXITSTATUS(status) == 168)
printf("%s: Error - %s\n", argv[0], "The directive is not yet defined");
}
else //如果子进程被异常终止,打印相关信息
printf("process run fail! [code_dump]:%d [exit_signal]:%d\n", (status >> 7) & 1, status & 0x7F); //子进程异常终止的情况
}
return 0;
}
这只是简易版 bash
的基本框架,其他细节将会在后续补充完整
核心内容主要为 读取
、切割
、替换
这三部分,逐一实现,首先从指令读取开始
读取指令前,首先要清楚待读取命令可能有多长
ls -a -l
长度不超过 10
1024
#define COM_SIZE 1024
char command[COM_SIZE]; //缓冲区
得到缓冲区后,就得考虑什么是指令?如何读取指令?
Linux
中的大部分指令由 指令 [选项]
构成,在 指令
和 [选择]
间有空格scanf
无法正常读取指令,因为空格会触发输入缓冲区刷新fgets
逐行读取,可以读取到空格//读取指令
//因为有空格,所以需要逐行读取
fgets(command, COM_SIZE, stdin);
assert(command); //不能输入空指令
(void)command; //防止在 Release 版本中出错
command[strlen(command) - 1] = '\0'; //将最后一个字符 \n 变成 \0
注意: 可能存在读取失败的情况,assert
断言解决;因为 fgets
也会把最后的 '\n'
读进去,为了避免出错,手动置为 '\0'
获得指令后,就需要将指令进行分割
就像伐木后需要再次分割利用一样,指令也需要经过分割才能利用~
为何要分割指令?
argv
表,这张表由 指令
、选项
、NULL
构成如何分割指令?
C语言
提供了字符串分割函数 strtok
,可以直接使用指令分割后呢?
argv
表中,供后续程序替换使用argv
表实际为一个指针数组,可以存储字符串如 command
一样,表 argv
也需要考虑大小,这里设置为 64
,实际使用时也就分割为四五个指令段
#define ARGV_SIZE 64
//指令分割
//将连续的指令分割为 argv 表
char* argv[ARGV_SIZE]; //指针数组
split(argv, command);
利用 strtok
实现指令分割函数 split()
#define DEF_CHAR " " //预设分割项,需为字符串
void split(char* argv[ARGV_SIZE], char* ps)
{
assert(argv && ps);
//调用 C语言 中的 strtok 函数分割字符串
int pos = 0;
argv[pos++] = strtok(ps, DEF_CHAR); //有空格就分割
while(argv[pos++] = strtok(NULL, DEF_CHAR)); //不断分割
argv[pos] = NULL; //确保安全
}
注意: 指令分割结束后,需要在添加 argv
表结尾 NULL
获得实际可用的 argv
表后,就可以开始子进程程序替换操作了
这里使用的是函数 execvp
,理由:
v
表示 vector
,正好和我们的 argv
表对应p
为 path
,可以根据 argv[0]
(指令),在 PATH
中寻找该程序并替换当然也可以使用 execve
系统级替换函数
//子进程进行程序替换
pid_t id = fork();
if(id == 0)
{
//直接执行程序替换,这里使用 execvp
execvp(argv[0], argv);
exit(168); //替换失败后返回
}
注意: 程序替换成功后,exit(168)
语句不会执行
将 基本框架
+ 核心内容
合并编译后,得到了这样一个程序:
动图Gif
可以看到,bash
的基本雏形已经形成,不过还存在一些不足,比如 ls
命令显示文件无高亮、cd
命令无法切换、环境变量无法添加至子进程等,这些问题都可以通过特殊处理避免
对特殊情况进行处理,使 myBash
更加完善
系统中的 bash
在面对 ls
等文件显示指令时,不仅会显示内容,还会将特殊文件做颜色高亮处理,比如在我的环境下,可执行文件显示为绿色
实现原理
--color=auto
语句,即可实现高亮
处理这个问题很简单,在指令分割结束后,判断是否为 ls
,如果是,就在 argv
表后尾插入语句 --color=auto
即可
//特殊处理
//颜色高亮处理,识别是否为 ls 指令
if(strcmp(argv[0], "ls") == 0)
{
int pos = 0;
while(argv[pos++]); //找到尾
argv[pos - 1] = (char*)"--color=auto"; //添加此字段
argv[pos] = NULL; //结新尾
}
argv
表中的元素类型为 char*
,所以在尾插语句时,需要进行类型转换内建命令是比较特殊的命令,不同于普通命令直接进行程序替换,内建命令需要进行特殊处理,比如 cd
命令调用系统级接口 chdir
让 父进程(myBash)
进行目录间的移动
首先实现不同目录间的切换
切换的本质:令当前 bash
移动至另一个目录下,不能直接使用 子进程
,因为需要移动的是 父进程(bash)
对于当前的 myBash
来说,cd
没有丝毫效果,因为此时 指令会被拆分后交给子进程处理,这个方向本身就是错误的
特殊情况特殊处理,同 ls
高亮一样,对指令进行识别,如果识别到 cd
命令,就直接调用 chdir
函数令当前进程 myBash
移动至指定目录即可(不必再创建子进程进行替换)
//目录间移动处理
if(strcmp(argv[0], "cd") == 0)
{
//直接调用接口,然后 continue 不再执行后续代码
if(strcmp(argv[1], "~") == 0)
chdir("/home"); //回到家目录
else if(strcmp(argv[1], "-") == 0)
chdir(getenv("OLDPWD"));
else if(argv[1])
chdir(argv[1]); //argv[1] 中就是路径
continue; //终止此次循环
}
注意: 如果路径为空,不进行操作;如果路径为 ~
,回到家目录;cd -
指令依赖于 OLDPWD
这个环境变量,直接拿来用即可
export
添加环境变量,添加的是父进程 myBash
的环境变量,而非子进程,需要特殊处理
解决方法:
putenv
函数添加至环境变量表为何不能直接通过 putenv
添加至环境变量表中?
argv[1]
中的内容是不断变化的,不能直接使用bash
中需要用户自己维护错误体现:直接使用 putenv(argv[1])
,导致第一次添加可能成功,但第二次添加后,第一次的环境变量会被覆盖
正确解法是借助缓冲区 myEnv
#define COM_SIZE 1024
#define ARGV_SIZE 64
char myEnv[ARGV_SIZE][COM_SIZE]; //二维数组
int env_pos = 0; //专门维护此缓冲区
注意: 此缓冲区定义在循环之外
char myEnv[COM_SIZE][ARGV_SIZE]; //大小与前面有关
int env_pos = 0; //专门维护缓冲区
//这是一个始终运行的程序:bash
while(1)
{
//…… 省略部分代码
//环境变量相关
if(strcmp(argv[0], "export") == 0)
{
if(argv[1])
{
strcpy(myEnv[env_pos], argv[1]);
putenv(myEnv[env_pos++]);
}
continue; //一样需要提前结束循环
}
}
除了 export
需要特殊处理外,env
查看环境变量表也需要特殊处理,因为此时的 env
查看的是 父进程(myBash)
的环境变量表,因此不需要将指令交给 子进程
处理
//注意:此函数实现于主函数外
void showEnv()
{
extern char** environ; //使用当前进行的环境变量表
int pos = 0;
for(; environ[pos]; printf("%s\n", environ[pos++]));
}
//环境变量表
if(strcmp(argv[0], "env") == 0)
{
showEnv(); //调用函数,打印父进程的环境变量表
continue; //提前结束本次循环
}
完善后,env
指令显示的才是正确进程的环境变量表
echo
命令也属于内建命令,其能实现很多功能,比如:查看环境变量
、查看最近一个进程的退出码
、输出重定向
等,其中前两个实现比较简单,最后一个需要 基础IO
相关知识,后续更新补上
查看环境变量
echo
指令查看环境变量时,指令长这样 echo $环境变量
,可以先判断 argv[1][0]
是否为 $
,如果是,就直接根据 argv[1][1]
获取环境变量信息并打印即可
代码实现如下
//echo 相关
//只有 echo $ 才做特殊处理(环境变量+退出码)
if(strcmp(argv[0], "echo") == 0 && argv[1][0] == '$')
{
if(argv[1] && argv[1][0] == '$')
printf("%s\n", getenv(argv[1] + 1));
continue;
}
echo
还能查看退出码:echo $?
,对上述程序进行改造即可实现
退出码从何而来?
echo $?
指令使用即可int exit_code = 0; //保存退出码的全局变量
代码实现:
//echo 相关
//只有 echo $ 才做特殊处理(环境变量+退出码)
if(strcmp(argv[0], "echo") == 0 && argv[1][0] == '$')
{
if(argv[1] && argv[1][0] == '$')
{
if(argv[1][1] == '?')
printf("%d\n", exit_code);
else
printf("%s\n", getenv(argv[1] + 1));
}
continue;
}
2023.3.28
更新,新增重定向内容,修复部分问题
重定向的本质:关闭默认输出/输入流,打开新的文件流,从其中写入/读取数据
重定向的三种情况:
echo 字符串 > 文件
向文件中写入数据,写入前会先清空内容echo 字符串 >> 文件
向文件中追加数据,追加前不会先清空内容可执行程序 < 文件
从文件中读取数据给可执行程序所以实现重定向的关键在于判断指令中是否含有 >
、>>
、<
这三个字符,如果有,就具体问题具体分析,完成重定向
具体实现步骤:
'\0‘
,其后半部分不参与指令分割dup2
函数进行标准流的替换关于系统级文件打开函数 open
的更多信息这篇文章中有介绍 《Linux基础IO【文件理解与操作】》
open
函数的打开选项
O_RDONLY //只读
O_WRONLY | O_CREAT | O_TRUNC //只写
O_WRONLY | O_CREAT | O_APPEND //追加
标准流交换函数 dup2
//给参数1传打开文件后的文件描述符,给参数2传递待关闭的标准流
//读取:关闭0号流
//写入、追加:关闭1号流
int dup2(int oldfd, int newfd);
下面是具体代码实现
//在读取指令后,就进行判断:是否需要重定向
//重定向
//在获取指令后进行判断
//如果成立,则获取目标文件名 filename
char *filename = checkDir(command);
//枚举类型,用于判断不同的文件打开方式
enum redir
{
REDIR_INPUT = 0, //读取
REDIR_OUTPUT, //写入
REDIR_APPEND, //追加
REDIR_NONE //空
}redir_type = REDIR_NONE; //创建对象 redir_type,默认为 NONE
//检查是否出现重定向符
char* checkDir(char* command)
{
//从右往左遍历,遇到 > >> < 就置为 '\0'
size_t end = strlen(command); //与返回值相匹配
char* ps = command + end; //为了避免出现无符号-1,这里采取错位的方法
while(end != 0)
{
if(command[end - 1] == '>')
{
if(command[end - 2] == '>')
{
command[end - 2] = '\0';
redir_type = REDIR_APPEND;
return ps;
}
command[end - 1] = '\0';
redir_type = REDIR_OUTPUT;
return ps;
}
else if(command[end - 1] == '<')
{
command[end - 1] = '\0';
redir_type = REDIR_INPUT;
return ps;
}
//如果不是空格,就可以更新 ps指向
if(*(command + end - 1) != ' ')
ps = command + end - 1;
end--;
}
return NULL; //如果没有重定向符,就返回空
}
//子进程进行程序替换
pid_t id = fork();
if(id == 0)
{
//判断是否需要进行重定向
if(redir_type == REDIR_INPUT)
{
int fd = open(filename, O_RDONLY);
dup2(fd, 0); //更改输入,读取文件 filename
}
else if(redir_type == REDIR_OUTPUT)
{
int fd = open(filename, O_WRONLY | O_CREAT | O_TRUNC, 0666);
dup2(fd, 1); //写入
}
else if(redir_type == REDIR_APPEND)
{
int fd = open(filename, O_WRONLY | O_CREAT | O_APPEND, 0666);
dup2(fd, 1); //追加
}
//直接执行程序替换,这里使用 execvp
execvp(argv[0], argv);
exit(168); //替换失败后返回
}
具体效果(A.txt 为空,B.txt 已存在内容,程序 a.out 可以读取字符串并输出):
注意: 当前实现的重定向只是最简单的标准流替换,实际重定向更加复杂
本次实现的 myBash
如下所示,拷贝编译运行后,即可使用
#include
#include
#include
#include
#include
#include
#include
#include
#include
#define COM_SIZE 1024
#define ARGV_SIZE 64
#define DEF_CHAR " "
void split(char* argv[ARGV_SIZE], char* ps)
{
assert(argv && ps);
//调用 C语言 中的 strtok 函数分割字符串
int pos = 0;
argv[pos++] = strtok(ps, DEF_CHAR); //有空格就分割
while(argv[pos++] = strtok(NULL, DEF_CHAR)); //不断分割
argv[pos] = NULL; //确保安全
}
void showEnv()
{
extern char** environ; //使用当前进行的环境变量表
int pos = 0;
for(; environ[pos]; printf("%s\n", environ[pos++]));
}
//枚举类型,用于判断不同的文件打开方式
enum redir
{
REDIR_INPUT = 0,
REDIR_OUTPUT,
REDIR_APPEND,
REDIR_NONE
}redir_type = REDIR_NONE; //创建对象 redir_type,默认为 NONE
//检查是否出现重定向符
char* checkDir(char* command)
{
//从右往左遍历,遇到 > >> < 就置为 '\0'
size_t end = strlen(command); //与返回值相匹配
char* ps = command + end; //为了避免出现无符号-1,这里采取错位的方法
while(end != 0)
{
if(command[end - 1] == '>')
{
if(command[end - 2] == '>')
{
command[end - 2] = '\0';
redir_type = REDIR_APPEND;
return ps;
}
command[end - 1] = '\0';
redir_type = REDIR_OUTPUT;
return ps;
}
else if(command[end - 1] == '<')
{
command[end - 1] = '\0';
redir_type = REDIR_INPUT;
return ps;
}
//如果不是空格,就可以更新 ps指向
if(*(command + end - 1) != ' ')
ps = command + end - 1;
end--;
}
return NULL; //如果没有重定向符,就返回空
}
int main()
{
char myEnv[COM_SIZE][ARGV_SIZE]; //大小与前面有关
int env_pos = 0; //专门维护缓冲区
int exit_code = 0; //保存退出码的全局变量
//这是一个始终运行的程序:bash
while(1)
{
char command[COM_SIZE]; //存放指令的数组(缓冲区)
//打印提示符
printf("[User@myBash default]$ ");
fflush(stdout);
//读取指令
//因为有空格,所以需要逐行读取
fgets(command, COM_SIZE, stdin);
assert(command); //不能输入空指令
(void)command; //防止在 Release 版本中出错
command[strlen(command) - 1] = '\0'; //将最后一个字符 \n 变成 \0
//重定向
//在获取指令后进行判断
//如果成立,则获取目标文件名 filename
char *filename = checkDir(command);
//指令分割
//将连续的指令分割为 argv 表
char* argv[ARGV_SIZE];
split(argv, command);
//特殊处理
//颜色高亮处理,识别是否为 ls 指令
if(strcmp(argv[0], "ls") == 0)
{
int pos = 0;
while(argv[pos++]); //找到尾
argv[pos - 1] = (char*)"--color=auto"; //添加此字段
argv[pos] = NULL; //结尾
}
//目录间移动处理
if(strcmp(argv[0], "cd") == 0)
{
//直接调用接口,然后 continue 不再执行后续代码
if(strcmp(argv[1], "~") == 0)
chdir("/home"); //回到家目录
else if(strcmp(argv[1], "-") == 0)
chdir(getenv("OLDPWD"));
else if(argv[1])
chdir(argv[1]); //argv[1] 中就是路径
continue; //终止此次循环
}
//环境变量相关
if(strcmp(argv[0], "export") == 0)
{
if(argv[1])
{
strcpy(myEnv[env_pos], argv[1]);
putenv(myEnv[env_pos++]);
}
continue; //一样需要提前结束循环
}
//环境变量表
if(strcmp(argv[0], "env") == 0)
{
showEnv(); //调用函数,打印父进程的环境变量表
continue; //提前结束本次循环
}
//echo 相关
//只有 echo $ 才做特殊处理(环境变量+退出码)
if(strcmp(argv[0], "echo") == 0 && argv[1][0] == '$')
{
if(argv[1] && argv[1][0] == '$')
{
if(argv[1][1] == '?')
printf("%d\n", exit_code);
else
printf("%s\n", getenv(argv[1] + 1));
}
continue;
}
//子进程进行程序替换
pid_t id = fork();
if(id == 0)
{
//判断是否需要进行重定向
if(redir_type == REDIR_INPUT)
{
int fd = open(filename, O_RDONLY);
dup2(fd, 0); //更改输入,读取文件 filename
}
else if(redir_type == REDIR_OUTPUT)
{
int fd = open(filename, O_WRONLY | O_CREAT | O_TRUNC, 0666);
dup2(fd, 1); //写入
}
else if(redir_type == REDIR_APPEND)
{
int fd = open(filename, O_WRONLY | O_CREAT | O_APPEND, 0666);
dup2(fd, 1); //追加
}
//直接执行程序替换,这里使用 execvp
execvp(argv[0], argv);
exit(168); //替换失败后返回
}
//父进程等待子进程终止
int status = 0;
waitpid(id, &status, 0); //在等待队列中阻塞
exit_code = WEXITSTATUS(status);
if(WIFEXITED(status))
{
//假如程序替换失败
if(exit_code == 168)
printf("%s: Error - %s\n", argv[0], "The directive is not yet defined");
}
else
printf("process run fail! [code_dump]:%d [exit_signal]:%d\n", (status >> 7) & 1, status & 0x7F); //子进程异常终止的情况
}
return 0;
}
以上就是本次关于 简易版 bash 模拟实现
的全部内容了,相信你在看完本文后,也能手搓出一个简易版 bash
如果你觉得本文写的还不错的话,期待留下一个小小的赞,你的支持是我分享的最大动力!
如果本文有不足或错误的地方,随时欢迎指出,我会在第一时间改正
相关文章推荐
Linux进程控制【进程程序替换】
Linux进程控制【创建、终止、等待】
===============
Linux进程学习【进程地址】
Linux进程学习【环境变量】
Linux进程学习【进程状态】
Linux进程学习【基本认知】