■正则表达式定义
●正则表达式,又称正规表达式、常规表达式
●使用字符串来描述、匹配一系列符合某个规则的字符串
●正则表达式组成
◆普通字符
大小写字母、数字、标点符号以及一些其他符号
◆元字符
在正则表达式中具有特殊意义的专用字符
■正则表达式层次
●基础正则表达式
●扩展正则表达式
■Linux中文本处理工具
●grep
●egrep
●sed
●awk
■基础正则表达式是常用的正则表达式部分
■除了普通字符外,常见以下元字符
●\:转义字符,\!、\n
●^:匹配字符串开始的位置
^a ^the ^#
●$:匹配字符串结束的位置
word$
●.:匹配除\n、\r之外的任意一个字符
go.d g..d
●*:匹配前面子表达式0次或多次
goo*d go.*d
●[list]:匹配list表中的一个字符
go[ola]d [abc] [a-z] [A-Z0-9]
●[^list]:匹配任意不在list表中的一个字符
[^a-z] [^0-9] [^A-Z0-9]
●\{n,m\}:匹配前面的子表达式n到m次,\{n\} \{n,\} \{n,m\}三种格式
go\{z\}d go\{2,3\}d go\{2,\}d
■文本处理工具,读取文本内容,根据指定的条件进行处理,如删除、替换、添加等
■可在无交互的情况下实现相当复杂的文本处理操作
■被广泛应用于Shell脚本,以完成自动化处理任务
■工作原理
读取——执行——显示
●sed -n ‘p’ 123.txt ##输出##
●sed -n ‘p;n’ 123.txt ##输出奇数行##
●sed -n ‘n;p’ 123.txt ##输出偶数行##
●sed -n ‘3p’ 123.txt ##输出第3行##
●sed -n ‘3,5p’ 123.txt ##输出第3-5行##
●sed -n ‘1,5{p;n}’ 123.txt ##输出第1-5行的奇数行##
●sed -n ‘10,$ {n;p}’ 123.txt ##输出第10行至文件尾的偶数行##
●sed -n ‘/the/p’ 123.txt ##输出包含the的奇数行##
●sed -n ‘4,/the/p’ 123.txt ##输出从第4行至第一个包含the的行##
●sed -n ‘/the/=’ 123.txt ##输出包含the的行所在的行号,等于(=)用来输出行号##
●sed -n ‘/[0-9]$/p’ 123.txt ##输出以数字结尾的行##
●sed -n ‘/^PI/p’ 123.txt ##输出以PI开头的行##
●sed -n ‘/
■awk 选项 ‘模式或条件 {编辑指令}’ 文件 1 文件 2 … //过滤并输出文件中符合条件的内容
■awk -f 脚本文件 文件 1 文件 2 … //从脚本中调用编辑指令,过滤并输出内容
■awk 包含几个特殊的内建变量(可直接用)如下所示:
●FS:指定每行文本的字段分隔符,默认为空格或制表位。
●NF:当前处理的行的字段个数。
●NR:当前处理的行的行号(序数)。
● 0 : 当 前 处 理 的 行 的 整 行 内 容 。 ● 0:当前处理的行的整行内容。 ● 0:当前处理的行的整行内容。●n:当前处理行的第 n 个字段(第 n 列)。
●FILENAME:被处理的文件名。
●RS:数据记录分隔,默认为\n,即每行为一条记录。
■按行输出文本
●awk ‘{print}’ test.txt //输出所有内容,等同于 cat test.txt
●awk ‘{print KaTeX parse error: Expected 'EOF', got '}' at position 2: 0}̲' test.txt //输出…/{print}’ /etc/passwd //输出以 nologin 结尾的行
●awk 'BEGIN {x=0};//bin/bash / x + + ; E N D p r i n t x ′ / e t c / p a s s w d / / 统 计 以 / b i n / b a s h 结 尾 的 行 数 , 等 同 于 g r e p − c " / b i n / b a s h /{x++};END {print x}' /etc/passwd //统计以/bin/bash 结尾的行数,等同于 grep -c "/bin/bash /x++;ENDprintx′/etc/passwd//统计以/bin/bash结尾的行数,等同于grep−c"/bin/bash" /etc/passwd
●awk ‘BEGIN{RS=""};END{print NR}’ /etc/squid/squid.conf
//统计以空行分隔的文本段落数
■按字段输出文本
●awk ‘{print $3}’ test.txt //输出每行中(以空格或制表位分隔)的第 3 个字段
●awk ‘{print $1,$3}’ test.txt //输出每行中的第 1、3 个字段
●awk -F “:” ‘$2==""{print}’ /etc/shadow //输出密码为空的用户的shadow 记录
●awk ‘BEGIN {FS=":"}; $2==""{print}’ /etc/shadow
//输出密码为空的用户的shadow 记录
●awk -F “:” ‘$7~"/bash"{print $1}’ /etc/passwd
//输出以冒号分隔且第 7 个字段中包含/bash 的行的第 1 个字段
●awk ‘($1~“nfs”)&&(NF==8){print $1,$2}’ /etc/services
//输出包含 8 个字段且第 1 个字段中包含 nfs 的行的第 1、2 个字段
●awk -F “:” ‘($7!="/bin/bash")&&( 7 ! = " / s b i n / n o l o g i n " ) p r i n t ′ / e t c / p a s s w d / / 输 出 第 7 个 字 段 既 不 为 / b i n / b a s h 也 不 为 / s b i n / n o l o g i n 的 所 有 行 ■ 通 过 管 道 、 双 引 号 调 用 S h e l l 命 令 ● a w k − F : ′ / b a s h 7!="/sbin/nologin"){print}' /etc/passwd //输出第 7 个字段既不为/bin/bash 也不为/sbin/nologin 的所有行 ■通过管道、双引号调用 Shell 命令 ●awk -F: '/bash 7!="/sbin/nologin")print′/etc/passwd//输出第7个字段既不为/bin/bash也不为/sbin/nologin的所有行■通过管道、双引号调用Shell命令●awk−F:′/bash/{print | “wc -l”}’ /etc/passwd
//调用wc -l 命令统计使用 bash 的用户个数,等同于 grep -c “bash$” /etc/passwd
●awk ‘BEGIN {while (“w” | getline) n++ ; {print n-2}}’
//调用w 命令,并用来统计在线用户数
●awk ‘BEGIN { “hostname” | getline ; print $0}’
//调用hostname,并输出当前的主机名
■sort [选项] 参数
■常用的选项
●-f:忽略大小写;
●-b:忽略每行前面的空格;
●-M:按照月份进行排序;
●-n:按照数字进行排序;
●-r:反向排序;
●-u:等同于 uniq,表示相同的数据仅显示一行;
●-t:指定分隔符,默认使用[Tab]键分隔;
●-o <输出文件>:将排序后的结果转存至指定文件;
●-k:指定排序区域。
■示例
●[root@localhost ~]# sort /etc/passwd #将/etc/passwd 文件中的账号进行排序#
●[root@localhost ~]# sort -t ‘:’ -rk 3 /etc/passwd #将/etc/passwd 文件中第三列进行反向排序#
●[root@localhost ~]# sort -t ‘:’ -k 3 /etc/passwd -o user.txt
●[root@localhost ~]# cat user.txt #将/etc/passwd 文件中第三列进行排序,并将输出内容保存至 user.txt 文件中#
■命令语法格式
uniq [选项] 参数
■常用选项
●-c:进行计数;
●-d:仅显示重复行;
●-u:仅显示出现一次的行
■示例1
●[root@localhost ~]# cat testfile
●[root@localhost ~]# uniq testfile #删除 testfile 文件中的重复行#
■示例2
●[root@localhost ~]# uniq -c testfile #删除 testfile 文件中的重复行,并在行首显示该行重复出现的次数#
■示例3
●[root@localhost ~]# uniq -d testfile #查找 testfile 文件中的重复行#
■tr 具体的命令语法格式
tr [选项] [参数]
■常用选项
●-c:取代所有不属于第一字符集的字符;
●-d:删除所有属于第一字符集的字符;
●-s:把连续重复的字符以单独一个字符表示;
●-t:先删除第一字符集较第二字符集多出的字符。
■示例1
●[root@localhost ~]# echo “KGC” | tr ‘A-Z’ ‘a-z’
kgc ##将输入字符由大写转换为小写##
●[root@localhost ~]# echo “thissss is a text linnnnnnne.” | tr -s ‘sn’
this is a text line. ##压缩输入中重复的字符##
●[root@localhost ~]# echo ‘hello world’ | tr -d ‘od’
hell wrl ##删除字符串中某些字符##