linux系统正则表达式和grep过滤编辑器

正则和grep过滤

  • 正则表达式
    • 正则表达式基本元字符
    • 正则表达式扩展元字符
      • 判断使用正则
      • 过滤使用扩展元字符正则
    • 语法实例
    • 常用的正则表达式
      • 校验数字的表达式
      • 校验字符的表达式
      • 特殊需求表达式
  • grep过滤编辑器
    • 返回值
    • 参数

正则表达式

正则表达式(Regular Expression, RE)是一种字符模式, 用于在查找过程中匹配指定的字符. 在大多数程序里, 正则表达式都被置于两个正斜杠之间;

例如/l[oO]ve/就是由正斜杠界定的正则表达式, 它将匹配被查找的行中任何位置出现的相同模式. 在正则表达式中,元 字符是最重要的概念

元字符使正则表达式具有处理能力。所谓元字符就是指ß那些在正则表达式中具有特殊意义的专用字符,可以用来规定 其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。

正则表达式:/正则表达式/ (两边的//叫做正则的边界)

正则表达式基本元字符

^:行首定位符
$:行尾定位符

.:匹配任意单个字符
*:匹配前导符0-n次
.*:任意多个字符

[]:匹配指定范围内的一个字符
[-]:匹配指定范围内的一个字符,连续的范围
[^]:匹配不在指定组内的字符

\:用来转译元字符,脱意符(''  ""  \)转义符转译的是右侧字符

\<:词首定位符     //定位词首
\>:词尾定位符     //定位词尾

():集合字符,匹配稍后使用的字符的标签,用法:\(..\)

x\{m\}:前方x字符重复m次
x\{m,\}:前方x字符重复m次以上
x\{m,n\}:前方x字符重复m-n次

\(\) :匹配后的标签,匹配判断,通常在vim编辑器里面使用

正则表达式扩展元字符

判断使用正则

判断时候进行字符判断时可以使用:
= 等于 != 不等于  =~ 匹配

使用正则判断需要
[[ 判断条件 ]]

[[ $num1 =~ ^[0-9]+$ ]]  //判断输入是不是数字
[[ $num1 =~ ^[0-9]{长度}+$ ]]     //判断输入是不是数字,并且符合长度
[[ $num1 =~ ^[0-9]{长度,长度}+$ ]]     //判断输入是不是数字,并且在长度之间

过滤使用扩展元字符正则

过滤时使用egrep或者grep -e

+:匹配1-n个前导字符

?:匹配0-1个前导字符

a|b:匹配a或b

():组字符,括号外与括号里面进行组合进行过滤

x{m}:x字符重复m次
x{m,}:x字符至少重复m次
x{m,n}:x字符重复m-n次

[ \t]:tab按键

语法实例

. - 除换行符以外的所有字符。
^ - 字符串开头。
$ - 字符串结尾。
\d,\w,\s - 匹配数字、字符、空格。
\D,\W,\S - 匹配非数字、非字符、非空格。
[abc] - 匹配 a、b 或 c 中的一个字母。
[a-z] - 匹配 a 到 z 中的一个字母。
[^abc] - 匹配除了 a、b 或 c 中的其他字母。
aa|bb - 匹配 aa 或 bb。
? - 0 次或 1 次匹配。
* - 匹配 0 次或多次。
+ - 匹配 1 次或多次。
{n} - 匹配 n次。
{n,} - 匹配 n次以上。
{m,n} - 最少 m 次,最多 n 次匹配。
(expr) - 捕获 expr 子模式,以 \1 使用它。
(?:expr) - 忽略捕获的子模式。
(?=expr) - 正向预查模式 expr。
(?!expr) - 负向预查模式 expr。

常用的正则表达式

校验数字的表达式

数字:1*$

n位的数字:^\d{n}$

至少n位的数字**:^\d{n,}$**

m-n位的数字:^\d{m,n}$

零和非零开头的数字:^(0|[1-9][0-9]*)$

非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$

带1-2位小数的正数或负数:^(-)?\d+(.\d{1,2})$

正数、负数、和小数:^(-|+)?\d+(.\d+)?$

有两位小数的正实数:2+(.[0-9]{2})?$

有1~3位小数的正实数:3+(.[0-9]{1,3})?$

校验字符的表达式

汉字:4{0,}$

长度为3-20的所有字符:^.{3,20}$

由26个英文字母组成的字符串:5+$

由26个大写英文字母组成的字符串:6+$

由26个小写英文字母组成的字符串:7+$

由数字和26个英文字母组成的字符串:8+$

中文、英文、数字包括下划线:9+$

特殊需求表达式

Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*.\w+([-.]\w+)*$

域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+.?

InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+.)+[\w-]+(/[\w-./?%&=]*)?$

手机号码:^(13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}$

国内电话码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}

身份证号(15位、18位数字),最后一位是校验位,可能为数字或字符X:(\d{15}$)|(^\d{18}$)|(\d{17}(\d|X|x)$)

帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):10[a-zA-Z0-9_]{4,15}$

密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):11\w{5,17}$

日期格式:^\d{4}-\d{1,2}-\d{1,2}

一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])$

一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$

钱的输入格式:

1. 有四种钱的表示形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]\*$

2. 这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式:^(0|[1-9][0-9]\*)$

3. 一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:^(0|-?[1-9][0-9]\*)$

4. 这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧。下面我们要加的是说明可能的小数部分:^[0-9]+(.[0-9]+)?$

5. 必须说明的是,小数点后面至少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的:^[0-9]+(.[0-9]{2})?$

6. 这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$

7. 这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})\*(.[0-9]{1,2})?$

8. 1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})\*)(.[0-9]{1,2})?$

9. 备注:这就是最终结果了,别忘了"+"可以用"*"替代如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里

grep过滤编辑器

查找文档内容,常与正则搭配使用

grep:正常搜索
						
egrep:支持扩展正则
\w:所有字母数字
\W:所有数字字母以外字符,称为非字符
\b:词边界
		
fgrep:不支持正则

pgrep:检索进程PID号码

返回值

0:寻找成功
1:没有寻找的字符
2:寻找字符的地址不对

参数

-q:静默
-v:去反
-R:在目录下所有的文件内递归搜索查询的内容
-o:只看查询的关键字
-B2:前两行
-A2:后两行
-C2:上下两行
-l:只找文件名
-n:带行号

  1. 0-9 ↩︎

  2. 0-9 ↩︎

  3. 0-9 ↩︎

  4. \u4e00-\u9fa5 ↩︎

  5. A-Za-z ↩︎

  6. A-Z ↩︎

  7. a-z ↩︎

  8. A-Za-z0-9 ↩︎

  9. \u4E00-\u9FA5A-Za-z0-9_ ↩︎

  10. a-zA-Z ↩︎

  11. a-zA-Z ↩︎

你可能感兴趣的:(linux,shell,linux,正则表达式,编辑器)