Linux 文本处理三剑客:
grep:文本过滤工具
sed:文本编辑器
awk:文本报告生成器,Linux上的awk 实现gawk
grep:
作用:文本搜索工具,根据用户指定的“模式(pattern)”逐行去搜索目标文本,打印匹配到的 行;
模式:由正则表达式的元字符及文本字符所编写的过滤条件;
元字符:字符不表示其字面意义,而用于表示通配或控制功能;
分两类:
基本正则表达式:BRE
扩展正则表达式:ERE
grep [OPTIONS] PATTERN [FILE...]:
选项:
--color=auto:对匹配到的串做高亮显示;
-v:显示模式匹配不到行;
-i: 忽略字符大小写;
-o: 仅显示能够被模式匹配到的串本行;
-q: 静默模式;
-c:打印匹配到的行
-l;查找不包含匹配项的行
-n:打印包含匹配项的行
-E:使用扩展的正则表达式
基本正则表达式的元字符:
字符匹配:
.: 匹配任意单个字符;
[]:匹配指定范围内的任意单个字符;
[^]:匹配指定范围内的任意单个字符;
[:alnum:] 代表英文大小写字元及数字,亦即 0-9, A-Z, a-z
[:alpha:] 代表任何英文大小写字元,亦即 A-Z, a-z
[:upper:] 代表大写字元,亦即 A-Z
[:lower:] 代表小写字元,亦即 a-z
[^] 匹配范围以外的
次数匹配:用于要指定其次数的字符的后面;
*: 任意次;
\?:0或1次;
grep "x\?y"
\+:1或多次;
\{m\}:精确限制为m次;
\{m,n\}: 至少m次,至多n次,[m,n]
\{0,n\}:至多n次;
\{m,\}:至少m次;
.*: 匹配任意长度的任意字符;
位置锚定:
^: 行首锚定;用于模式的最左侧;
$: 行尾锚定;用于模式的最右侧;
\<, \b: 词首锚定;用于表示单词的模式的左侧;
\>, \b:词尾锚定;用于表示单词的模式的右侧;
^$: 空白行;
分组:\(\)
\(PATTERN\) "\(ab\)*c"
后向引用:分组的小括号中的模式匹配到的内容,会在执行过程中被正则表达式引擎记录下来,并保存内置的变量中;(保存在内置变量中\1,\2、、、、\n)因此可以被引用。
\1: 为被引用的内容,模式中自左而右,由第一个左括号以及与之对应的右括号内的内容
\2: 为被引用的内容,模式中自左而右,由第二个左括号以及与之对应的右括号内的内容
后向引用:使用变量引用前面的分组括号中的模式所匹配到的字符;
扩展的正则表达式:
grep家庭有三个命令:
grep:基本正则表达式
-E: 扩展正则表达式
-F:不支持正则表达式
egrep:扩展正则表达式
fgrep:不支持正则表达式
扩展正则表达式的元字符:
字符匹配:
.: 任意单个字符
[]:
[^]:范围以外的
次数匹配:
*:任意次
?: 0次或1次;
+: 1次以上;
{m}: 精确匹配m次;
{m,n}: 至少m次,至多n次;
锚定:
^: 锚定行首
$: 锚定行尾
\<, \b :同正规正则表达式
\>, \b
分组:()
后向引用:\1, \2, ...
或者:
a|b
C|cat: 不表示Cat或cat,而表示C或cat;
要写成(C|c)at
练习:
1、显示/etc/passwd文件中以bash结尾的行
[root@test1 tmp]# grep "bash$" /etc/passwd root:x:0:0:root:/root:/bin/bash amandabackup:x:33:6:Amanda user:/var/lib/amanda:/bin/bash postgres:x:26:26:PostgreSQL Server:/var/lib/pgsql:/bin/bash canshan:x:500:500:canshan:/home/canshan:/bin/bash Oralce:x:3001:3001::/home/nicai:/bin/bash duanshui:x:3002:3002::/home/duanshui:/bin/bash centos:x:3003:3003::/home/centos:/bin/bash user1:x:3004:3004::/home/user1:/bin/bash
2、显示/etc/passwd文件中的两位数或三位数
[root@test1 tmp]# grep "[[:digit:]]\{2,3\}" passwd mail:x:8:12:mail:/var/spool/mail:/sbin/nologin uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin operator:x:11:0:operator:/root:/sbin/nologin games:x:12:100:games:/usr/games:/sbin/nologin gopher:x:13:30:gopher:/var/gopher:/sbin/nologin ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin nobody:x:99:99:Nobody:/:/sbin/nologin dbus:x:81:81:System message bus:/:/sbin/nologin usbmuxd:x:113:113:usbmuxd user:/:/sbin/nologin rpc:x:32:32:Rpcbind Daemon:/var/cache/rpcbind:/sbin/nologin abrt:x:173:173::/etc/abrt:/sbin/nologin vcsa:x:69:69:virtual console memory owner:/dev:/sbin/nologin rtkit:x:499:497:RealtimeKit:/proc:/sbin/nologin avahi-autoipd:x:170:170:Avahi IPv4LL Stack:/var/lib/avahi-autoipd:/sbin/nologin apache:x:48:48:Apache:/var/www:/sbin/nologin saslauth:x:498:76:Saslauthd user:/var/empty/saslauth:/sbin/nologin rpcuser:x:29:29:RPC Service User:/var/lib/nfs:/sbin/nologin nfsnobody:x:65534:65534:Anonymous NFS User:/var/lib/nfs:/sbin/nologin postfix:x:89:89::/var/spool/postfix:/sbin/nologin ricci:x:140:140:ricci daemon user:/var/lib/ricci:/sbin/nologin haldaemon:x:68:68:HAL daemon:/:/sbin/nologin gdm:x:42:42::/var/lib/gdm:/sbin/nologin ntp:x:38:38::/etc/ntp:/sbin/nologin tomcat:x:91:91:Apache Tomcat:/usr/share/tomcat6:/sbin/nologin memcached:x:497:495:Memcached daemon:/var/run/memcached:/sbin/nologin amandabackup:x:33:6:Amanda user:/var/lib/amanda:/bin/bash pulse:x:496:494:PulseAudio System Daemon:/var/run/pulse:/sbin/nologin piranha:x:60:60::/etc/sysconfig/ha:/sbin/nologin sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin postgres:x:26:26:PostgreSQL Server:/var/lib/pgsql:/bin/bash luci:x:141:141:luci high availability management application:/var/lib/luci:/sbin/nologin dovecot:x:97:97:Dovecot IMAP server:/usr/libexec/dovecot:/sbin/nologin dovenull:x:495:491:Dovecot's unauthorized user:/usr/libexec/dovecot:/sbin/nologin tcpdump:x:72:72::/:/sbin/nologin canshan:x:500:500:canshan:/home/canshan:/bin/bash Oralce:x:3001:3001::/home/nicai:/bin/bash duanshui:x:3002:3002::/home/duanshui:/bin/bash centos:x:3003:3003::/home/centos:/bin/bash user1:x:3004:3004::/home/user1:/bin/bash
3、显示`netstat -tan`命令结果中以‘LISTEN’后跟0个、1个或者多个空白字符结尾的行
[root@test1 tmp]# netstat -tan |grep -E 'LISTEN[[:space:]]*$' tcp 0 0 0.0.0.0:40355 0.0.0.0:* LISTEN tcp 0 0 0.0.0.0:111 0.0.0.0:* LISTEN tcp 0 0 0.0.0.0:22 0.0.0.0:* LISTEN tcp 0 0 127.0.0.1:631 0.0.0.0:* LISTEN tcp 0 0 127.0.0.1:25 0.0.0.0:* LISTEN tcp 0 0 127.0.0.1:6010 0.0.0.0:* LISTEN tcp 0 0 127.0.0.1:6011 0.0.0.0:* LISTEN tcp 0 0 :::111 :::* LISTEN tcp 0 0 :::22 :::* LISTEN tcp 0 0 :::44054 :::* LISTEN tcp 0 0 ::1:631 :::* LISTEN tcp 0 0 ::1:25 :::* LISTEN tcp 0 0 ::1:6010 :::* LISTEN tcp 0 0 ::1:6011 :::* LISTEN
4、添加用户bash、testbash、basher以及nologin用户(nologin用户的shell为/sbin/nologin);而后找出/etc/passwd文件中用户名与其shell名相同的行
[root@test1 tmp]# useradd bash [root@test1 tmp]# useradd testbash [root@test1 tmp]# useradd basher [root@test1 tmp]# useradd -s /sbin/nologin nologin [root@test1 tmp]# grep "^\(\<[[:alnum:]].*\>\).*\1$" passwd sync:x:5:0:sync:/sbin:/bin/sync shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown halt:x:7:0:halt:/sbin:/sbin/halt bash:x:3005:3005::/home/bash:/bin/bash nologin:x:3008:3008::/home/nologin:/sbin/nologin
5、显示当前系统上root、centos或者user1用户的默认shell和UID (请事先创建这些用户,若不存在)
注:有点不明白为什么要用egrep
6、找出/etc/rc.d/init.d/functions文件中某单词(单词中间可以存在下划线)后面跟着一组小括号的行
7、使用echo输出一个路径,而后egrep找出其路径基名;进一步的使用egrep取出其目录\
注:这个不是太明白,有参考其他同学
10、找出ifconfig命令执行结果中1-255之间的数字