文本过滤
- 正则表达式 —Linux Shell 脚本编程(5)—文本过滤(正则表达式)
- grep 命令 —Linux Shell 脚本编程(6)—文本过滤(grep命令)
- find命令 —Linux Shell 脚本编程(7)—文本过滤(find命令)
- awk
- sed
- 合并与分割(sort、uniq、join、cut、paste、split)
find命令用来在指定目录下查找文件。任何位于参数之前的字符串都将被视为欲查找的目录名。
如果使用该命令时,不设置任何参数,则find命令将在当前目录下查找子目录与文件。并且将查找到的子目录和文件全部进行显示。
遍历大文件系统时,要放在后台执行
- path:所查找的目录路径。.来表示当前目录,用/来表示系统根目录。
- -print: find命令将匹配的文件输出到标准输出。
- -exec: find命令对匹配的文件执行该参数所给出的shell命令。相应命令的形式为’command’ { } \;,注意{ }和\;之间的空格。
- -ok: 和-exec的作用相同,只不过以一种更为安全的模式来执行该参数所给出的shell命令,在执行每一个命令之前,都会给出提示,让用户来确定是否执行。
-amin<分钟>:查找在指定时间曾被存取过的文件或目录,单位以分钟计算;
-anewer<参考文件或目录>:查找其存取时间较指定文件或目录的存取时间更接近现在的文件或目录;
-atime<24小时数>:查找在指定时间曾被存取过的文件或目录,单位以24小时计算;
-cmin<分钟>:查找在指定时间之时被更改过的文件或目录;
-cnewer<参考文件或目录>查找其更改时间较指定文件或目录的更改时间更接近现在的文件或目录;
-ctime<24小时数>:查找在指定时间之时被更改的文件或目录,单位以24小时计算;
-daystart:从本日开始计算时间;
-depth:从指定目录下最深层的子目录开始查找;
-expty:寻找文件大小为0 Byte的文件,或目录下没有任何子目录或文件的空目录;
-exec<执行指令>:#假设find指令的回传值为True,就执行该指令;
-false:将find指令的回传值皆设为False;
-fls<列表文件>:此参数的效果和指定“-ls”参数类似,但会把结果保存为指定的列表文件;
-follow:排除符号连接;
-fprint<列表文件>:此参数的效果和指定“-print”参数类似,但会把结果保存成指定的列表文件;
-fprint0<列表文件>:此参数的效果和指定“-print0”参数类似,但会把结果保存成指定的列表文件;
-fprintf<列表文件><输出格式>:此参数的效果和指定“-printf”参数类似,但会把结果保存成指定的列表文件;
-fstype<文件系统类型>:只寻找该文件系统类型下的文件或目录;
-gid<群组识别码>:查找符合指定之群组识别码的文件或目录;
-group<群组名称>:#查找符合指定之群组名称的文件或目录;
-help或——help:在线帮助;
-ilname<范本样式>:#此参数的效果和指定“-lname”参数类似,但忽略字符大小写的差别;
-iname<范本样式>:此参数的效果和指定“-name”参数类似,但忽略字符大小写的差别;
-inum:查找符合指定的inode编号的文件或目录;
-ipath<范本样式>:此参数的效果和指定“-path”参数类似,但忽略字符大小写的差别;
-iregex<范本样式>:此参数的效果和指定“-regexe”参数类似,但忽略字符大小写的差别;
-links<连接数目>:查找符合指定的硬连接数目的文件或目录;
-iname<范本样式>:指定字符串作为寻找符号连接的范本样式;
-ls:假设find指令的回传值为Ture,就将文件或目录名称列出到标准输出;
-maxdepth<目录层级>:设置最大目录层级;
-mindepth<目录层级>:设置最小目录层级;
-mmin<分钟>:查找在指定时间曾被更改过的文件或目录,单位以分钟计算;
-mount:此参数的效果和指定“-xdev”相同;
-mtime<24小时数>:查找在指定时间曾被更改过的文件或目录,单位以24小时计算;
-name<范本样式>:指定字符串作为寻找文件或目录的范本样式;
-newer<参考文件或目录>:查找其更改时间较指定文件或目录的更改时间更接近现在的文件或目录;
-nogroup:找出不属于本地主机群组识别码的文件或目录;
-noleaf:不去考虑目录至少需拥有两个硬连接存在;
-nouser:找出不属于本地主机用户识别码的文件或目录;
-ok<执行指令>:此参数的效果和指定“-exec”类似,但在执行指令之前会先询问用户,若回答“y”或“Y”,则放弃执行命令;
-path<范本样式>:指定字符串作为寻找目录的范本样式;
-perm<权限数值>:查找符合指定的权限数值的文件或目录;
-print:假设find指令的回传值为Ture,就将文件或目录名称列出到标准输出。格式为每列一个名称,每个名称前皆有“./”字符串;
-print0:假设find指令的回传值为Ture,就将文件或目录名称列出到标准输出。格式为全部的名称皆在同一行;
-printf<输出格式>:假设find指令的回传值为Ture,就将文件或目录名称列出到标准输出。格式可以自行指定;
-prune:不寻找字符串作为寻找文件或目录的范本样式;
-regex<范本样式>:指定字符串作为寻找文件或目录的范本样式;
-size<文件大小>:查找符合指定的文件大小的文件;
-true:将find指令的回传值皆设为True;
-typ<文件类型>:只寻找符合指定的文件类型的文件;
-uid<用户识别码>:查找符合指定的用户识别码的文件或目录;
-used<日数>:查找文件或目录被更改之后在指定时间曾被存取过的文件或目录,单位以日计算;
-user<拥有者名称>:查找符和指定的拥有者名称的文件或目录;
-version或——version:显示版本信息;
-xdev:将范围局限在先行的文件系统中;
-xtype<文件类型>:此参数的效果和指定“-type”参数类似,差别在于它针对符号连接检查。
$ find ~ -name "*.txt" -print
#用~作为path参数,波浪号~代表了你的$HOME目录。
$ find ./home/jianliu -name "*.txt" -print
jianliu@ubuntu:~$ find ~ -name "*.txt" -print
/home/jianliu/num1.txt
/home/jianliu/mylog.txt
/home/jianliu/partation.txt
/home/jianliu/.config/libreoffice/4/user/uno_packages/cache/log.txt
/home/jianliu/aa/names.txt
/home/jianliu/aa/student_data.txt
/home/jianliu/aa/test.txt
/home/jianliu/aa/test0.txt
/home/jianliu/num2.txt
/home/jianliu/test0.txt
$ find . -print
jianliu@ubuntu:~/bb$ find . -print
.
./b4.c
./b1.c
./4.c
./aa
./aa/a1.c
./1.c
./b3.c
./2.c
./5.c
./1.c~
jianliu@ubuntu:~/bb$ find /etc -name "host*" -print
/etc/init/hostname.conf
find: `/etc/polkit-1/localauthority': Permission denied
/etc/host.conf
/etc/hosts.deny
/etc/hosts.allow
find: `/etc/ssl/private': Permission denied
find: `/etc/cups/ssl': Permission denied
/etc/hostname
/etc/hosts
/etc/avahi/hosts
jianliu@ubuntu:~/aa$ find . -name "*.txt" -o -name "*.pdf"
./names.txt
./p1.pdf
./p2.pdf
./student_data.txt
./test.txt
./test0.txt
jianliu@ubuntu:~/aa$ find . \( -name "*.txt" -o -name "*.pdf" \)
./names.txt
./p1.pdf
./p2.pdf
./student_data.txt
./test.txt
./test0.txt
jianliu@ubuntu:~/aa$ find . -iname "test0.txt"
./TEST0.txt
./test0.txt
jianliu@ubuntu:~/aa$ find -path "*bb*"
./bb2
./bb
./bb/b4.c
./bb/b1.c
./bb/4.c
./bb/aa
./bb/aa/a1.c
./bb/1.c
./bb/b3.c
./bb/2.c
./bb/5.c
./bb/1.c~
./1bb
./3bb4
jianliu@ubuntu:~/aa$ find . -path "*bb"
./bb
./1bb
jianliu@ubuntu:~/aa$ find . -regex ".*\(\.txt\|\.pdf\)$"
./names.txt
./p1.pdf
./p2.pdf
./TEST0.txt
./student_data.txt
./test.txt
./test0.txt
#5同上,忽略大小写
jianliu@ubuntu:~/aa$ find . -iregex ".*\(\.txt\|\.pdf\)$"
./names.txt
./p3.PDF
./p1.pdf
./p2.pdf
./test4.TXT
./TEST0.txt
./student_data.txt
./test.txt
./test0.txt
否定参数
#找出/home/jianliu/aa/下不是以.txt结尾的文件
jianliu@ubuntu:~/aa$ find . ! -name "*.txt"
.
./shell02.sh
./p3.PDF
./shell01.sh
./rd_file
./student_data.txt~
./b4.c
./p1.pdf
./b1.c
./test0.sh
./p2.pdf
./test4.TXT
./a1.c
./shell03.sh
./test.sh
./bb2
./b3.c
./shell11.sh
命令格式: find . -type 类型参数
类型参数列表:
f 普通文件
l 符号连接
d 目录
c 字符设备
b 块设备
s 套接字
p Fifo
#向下最大深度限制为3
jianliu@ubuntu:~/aa$ find . -maxdepth 3 -type d
.
./bb2
./bb
./bb/aa
./bb/aa/cc
./1bb
./3bb4
#搜索出深度距离当前目录至少2个子目录的所有文件
jianliu@ubuntu:~/aa$ find . -mindepth 2 -type d
./bb/aa
./bb/aa/cc
格式: find path -type f 时间戳
UNIX/Linux文件系统每个文件都有三种时间戳:
- 访问时间(-atime/天,-amin/分钟): 用户最近一次访问时间。
- 修改时间(-mtime/天,-mmin/分钟):文件最后一次修改时间。
- 变化时间(-ctime/天,-cmin/分钟): 文件数据元(例如权限等)最后一次修改时间。
#搜索最近七天内被访问过的所有文件
find . -type f -atime -7
#搜索恰好在七天前被访问过的所有文件
find . -type f -atime 7
#搜索超过七天内被访问过的所有文件
find . -type f -atime +7
#搜索访问时间超过10分钟的所有文件
find . -type f -amin +10
#找出比file.log修改时间更长的所有文件
find . -type f -newer file.log
- b —— 块(512字节)
- c —— 字节
- w —— 字(2字节)
- k —— 千字节
- M —— 兆字节
- G —— 吉字节
#----搜索大于10KB的文件----------------------
find . -type f -size +10k
jianliu@ubuntu:~/aa$ find . -type f -size +2k
./test.txt
./app2
#搜索小于10KB的文件-------------------------
find . -type f -size -10k
#搜索等于10KB的文件-------------------------
find . -type f -size 10k
jianliu@ubuntu:~/aa$ find . -type f -size 94c
./hello.c
删除当前目录下所有.txt文件
find . -type f -name "*.txt" -delete
#当前目录下搜索出权限为755的文件
jianliu@ubuntu:~/aa$ find . -type f -perm 755
./shell02.sh
./shell01.sh
#-rwxr-xr-x 1 jianliu jianliu 109 Oct 6 19:15 shell01.sh
#-rwxr-xr-x 1 jianliu jianliu 109 Oct 6 19:15 shell02.sh
#找出当前目录下权限不是644的php文件
find . -type f -name "*.php" ! -perm 644
找出当前目录用户tom拥有的所有文件
find . -type f -user tom
找出当前目录用户组sunk拥有的所有文件
find . -type f -group sunk
#找出当前目录下所有jianliu的文件,并把所有权更改为用户root
jianliu@ubuntu:~/aa/bb$ sudo find . -type f -user jianliu -exec chown root {} \;
jianliu@ubuntu:~/aa/bb$ ls -l
total 20
-r-xr-xr-x 1 root jianliu 80 Oct 3 05:49 1.c
-rw-rw-r-- 1 root jianliu 0 Oct 3 05:49 1.c~
lrwxrwxrwx 1 jianliu jianliu 3 Oct 7 20:04 2.c -> 1.c
-r-xr-xr-x 1 root jianliu 80 Oct 3 05:49 4.c
-r-xr-xr-x 1 root jianliu 80 Oct 3 05:49 5.c
drwxrwxr-x 3 jianliu jianliu 4096 Oct 16 21:14 aa
-rw-rw-r-- 1 root jianliu 79 Oct 3 05:17 b1.c
lrwxrwxrwx 1 jianliu jianliu 4 Oct 7 20:04 b3.c -> b1.c
lrwxrwxrwx 1 jianliu jianliu 4 Oct 7 20:04 b4.c -> b1.c
#上例中,{} 用于与-exec选项结合使用来匹配所有文件,然后会被替换为相应的文件名。
#{} 与\之间有一个空格!!
#找出home目录下所有的.txt文件并删除
jianliu@ubuntu:~/aa/bb$ find $HOME/. -name "*.txt" -ok rm {} \;
< rm ... /home/jianliu/./num1.txt > ? y
#上例中,-ok和-exec行为一样,不过它会给出提示,是否执行相应的操作。
#查找当前目录下所有.txt文件并把他们拼接起来写入到all.txt文件中
jianliu@ubuntu:~/aa$ find . -type f -name "*.txt" -exec cat {} \;> ../all.txt
#将30天前的.log文件移动到old目录中
find . -type f -mtime +30 -name "*.log" -exec cp {} old \;
#找出当前目录下所有.txt文件并以“File:文件名”的形式打印出来
jianliu@ubuntu:~/aa$ find . -type f -name "*.txt" -exec printf "File: %s\n" {} \;
File: ./names.txt
File: ./TEST0.txt
File: ./student_data.txt
File: ./bb/aa/cc/t4.txt
File: ./bb/all.txt
File: ./test.txt
File: ./test0.txt
#因为单行命令中-exec参数中无法使用多个命令,以下方法可以实现在-exec之后接受多条命令
-exec ./text.sh {} \;
#text.sh 为脚本文件!!
$ find . -type d | sort
jianliu@ubuntu:~$ find ./aa -type d | sort
./aa
./aa/1bb
./aa/3bb4
./aa/bb
./aa/bb2
./aa/bb/aa
./aa/bb/aa/cc
jianliu@ubuntu:~$ find ./aa -type f -size 0 -exec ls -l {} \;
-rw-rw-r-- 1 jianliu jianliu 0 Oct 16 19:50 ./aa/p3.PDF
-r--r--r-- 1 jianliu jianliu 0 Oct 7 20:25 ./aa/rd_file
-rw-rw-r-- 1 jianliu jianliu 0 Oct 16 07:29 ./aa/student_data.txt~
-rw-rw-r-- 1 jianliu jianliu 0 Oct 16 19:23 ./aa/p1.pdf
-rw-rw-r-- 1 jianliu jianliu 0 Oct 16 19:23 ./aa/p2.pdf
-rw-rw-r-- 1 jianliu jianliu 0 Oct 16 19:50 ./aa/test4.TXT
-rw-rw-r-- 1 jianliu jianliu 0 Oct 11 07:59 ./aa/shell03.sh
-rw-rw-r-- 1 jianliu jianliu 0 Oct 11 07:59 ./aa/shell11.sh
-rw-rw-r-- 1 jianliu jianliu 0 Oct 16 19:29 ./aa/TEST0.txt
-rw-rw-r-- 1 root jianliu 0 Oct 16 21:14 ./aa/bb/aa/cc/t4.txt
-rw-rw-r-- 1 root jianliu 0 Oct 3 05:49 ./aa/bb/1.c~
-rwxrwxr-x 1 jianliu jianliu 0 Oct 10 05:26 ./aa/exe.app
-rw-rw-r-- 1 jianliu jianliu 0 Oct 7 23:16 ./aa/efile
-rwxrwxr-x 1 jianliu jianliu 0 Oct 10 05:49 ./aa/names.txt~
-rw-rw-r-- 1 jianliu jianliu 0 Oct 11 07:59 ./aa/shell10.sh
find . -path "./sk" -prune -o -name "*.txt" -print
jianliu@ubuntu:~/aa$ find . -path "./bb" -prune -o -name "*.txt" -print
./names.txt
./TEST0.txt
./student_data.txt
./test.txt
./test0.txt
find . -empty
在使用find命令的-exec选项处理匹配到的文件时,find命令将所有匹配到的文件在一起传递给exec执行。但有些系统对能够传递给exec的命令长度有限制,这样在find命令运行几分钟后,就会出现溢出错误。错误信息通常为”参数列太长“或者”参数列溢出“。这就是xargs命令的用处所在。
find命令把匹配到的文件传递给xargs命令,而xargs命令每次只获取一部分文件而不是全部,不像-exec选项那样。这样它可以先处理最先获取的一部分文件,然后处理下一批,并如此继续下去。
在有些系统中,使用-exec选项会为处理每一个匹配到的文件而发起一个相应的进程,并非将匹配到的文件全部作为参数一次执行;这样在有些情况下就会出现进程过多,系统性能下降的问题,因而效率不高;
而使用xargs命令则只有一个进程。另外,在使用xargs命令时,究竟是一次获取所有的参数,还是分批取得参数,以及每一次获取参数的数目都会根据该命令的选项及系统内核中相应的可调参数来确定。
#在当前目录下查找所有用户具有读、写和执行权限的文件,并收回相应的写权限
$ ls -l
drwxrwxrwx 2 sam adm 4096 10月 30 20:14 file6
-rwxrwxrwx 2 sam adm 0 10月 31 01:01 http3.conf
-rwxrwxrwx 2 sam adm 0 10月 31 01:01 httpd.conf
#chmod o-w中的o表示其他组。
$ find . -perm -7 -print | xargs chmod o-w
$ ls -l
drwxrwxr-x 2 sam adm 4096 10月 30 20:14 file6
-rwxrwxr-x 2 sam adm 0 10月 31 01:01 http3.conf
-rwxrwxr-x 2 sam adm 0 10月 31 01:01 httpd.conf
#用grep命令在所有的普通文件中搜索hostname这个词
$ find . -type f -print | xargs grep "hostname"
./httpd1.conf:# different IP addresses or hostnames and have them handled by the
./httpd1.conf:# VirtualHost: If you want to maintain multiple domains/hostnames on your
#用grep命令在当前目录下的所有普通文件中搜索hostnames这个词
$ find . -name \* -type f -print | xargs grep "hostnames"
./httpd1.conf:# different IP addresses or hostnames and have them handled by the
./httpd1.conf:# VirtualHost: If you want to maintain multiple domains/hostnames on your
####---------------
#注意,在上面的例子中, \用来取消find命令中的*在shell中的特殊含义。