十七拾

正则表达式及文本处理三剑客（grep、sed、awk）

一、正则表达式

1、正则表达式的概述

1.1 正则表达式的概念和作用

1.2 正则表达式支持的语言

1.3 正则表达式的优缺点

1.4 正则表达式的分类

1.4.1 基本正则表达式（BRE）：

1.4.2 扩展正则表达式（ERE）：

1.4.3 区别

1.5 帮助命令

2、基础正则表达式

2.1 字符匹配

2.1.1 元字符点

2.1.2 字符组

2.2 匹配次数

2.3 位置锚定

2.4 分组或其他

2.4.1 分组

2.4.2 或者

2.4.3 非打印字符

3、扩展正则表达式

3.2 字符匹配

3.2 匹配次数

3.3 位置锚定

2.4 分组或其他

二、文本处理三剑客之grep

1、grep用法

2、grep案例

2.1 匹配qq号

2.2 匹配邮箱

2.3 匹配手机号

2.4 查询 /etc/passwd 文件中有 root 的行

2.5 将非#开头和非空白行的文本写入到其他文本

2.6 匹配行首和行尾单词相同的行

2.7 多个模式条件匹配

2.8 提取出字符串中的所有数字

2.9 统计文件单词个数

三、文本处理三剑客之sed

1、sed概述

1.1 sed概念

1.2 sed工作原理

1.3 sed优缺点

2、sed基本用法

3、sed搜索替换

4、sed分组查找替换

5、sed变量查找

6、使用sed工具修改配置文件

6.1 直接修改httpd的80端口

6.2 修改网卡名

7、sed高级用法（了解）

四、文本处理三剑客之awk

1、awk的概述

2、awk基本用法

2.1 awk基本格式和执行流程

2.2 基本打印用法（动作 print）

2.3 常见的内置变量

2.5 模式PATTERN

2.6 awk结合数组运用

2.7 条件判断（if）

2.8 循环（for、while）

2.9 awk脚本（了解）

五、案例

1、统计当前主机的连接状态

2、统计当前连接主机数

3、过滤主机ip地址

4、提取13:01到14:02之间的日志

5、提取下图ip地址及时间

6、提取host.txt主机名再放回host.txt文件

7、提取以数字形式显示/etc/passwd的权限

8、统计/etc/fstab文件中每个文件系统类型出现的次数

一、正则表达式

1、正则表达式的概述

1.1 正则表达式的概念和作用

REGEXP（Regular Expressions）由一类特殊字符及文本字符所编写的模式，其中有些字符（元字符）不表示字符字面意义，而表示控制或通配的功能，类似于增强版的通配符功能，但与通配符不同，通配符功能是用来处理文件名，而正则表达式是处理文本内容

可用于匹配、搜索和替换文本。通过使用一系列的字符和元字符，以及特定的语法规则，正则表达式可以帮助你找到符合特定模式的文本

1.2 正则表达式支持的语言

vim, less,grep,sed,awk, nginx,mysql

1.3 正则表达式的优缺点

优点：

强大的模式匹配能力：正则表达式能够描述复杂的字符串模式，包括匹配特定字符、重复次数、字符集合等，使其可以用于强大的模式匹配和搜索
灵活性：正则表达式可以适应不同的文本模式，可以通过简洁而灵活的语法来描述各种匹配规则
广泛支持：正则表达式在许多编程语言和工具中得到广泛支持，可以在不同平台和环境下使用
文本处理和数据提取：正则表达式广泛用于文本处理、数据提取、文本替换等方面，能够快速、高效地进行字符串操作

缺点：

复杂性：正则表达式的语法相对复杂，有一定的学习曲线，特别是在处理复杂模式时，编写和理解正则表达式可能会有一定的困难
易读性：一些复杂的正则表达式可能难以阅读和理解，特别是对于不熟悉正则表达式的人来说，维护和修改这样的正则表达式可能会有困难
性能：一些复杂的正则表达式可能会导致性能问题，特别是在大型文本上进行匹配时，需要谨慎设计正则表达式以避免性能瓶颈

1.4 正则表达式的分类

1.4.1 基本正则表达式（BRE）：

使用元字符时需在其前面添加反斜线转义：\? 、 \+ 、 \{ 、 \} 、 \| 、 $ 和 $
grep sed默认使用基础正则表达式

1.4.2 扩展正则表达式（ERE）：

使用元字符时不需要在其前面添加反斜线转义：? 、 + 、 { 、 } 、 | 、 ( 和 )
grep -E、sed -r、egrep、awk扩展正则表达式

1.4.3 区别

元字符的区别：

基本正则表达式中需要使用反斜杠转义的方式来匹配特殊字符，比如代表分组，\{ \}代表重复次数，而|或+等特殊字符需要使用反斜杠转义
扩展正则表达式中通常不需要使用反斜杠转义来匹配特殊字符，比如()代表分组，{}代表重复次数，|或+等特殊字符不需要转义

重复操作符的区别：

基本正则表达式中+和?等重复操作符不具备特殊含义，需要使用反斜杠转义来表示它们的特殊含
扩展正则表达式中+和?等重复操作符可以直接使用，具有特殊含义

1.5 帮助命令

#可以使用 man 手册帮助
man 7 regex

2、基础正则表达式

元字符

预订好且具有特殊含义的符号，这些符号能够进行通配

2.1 字符匹配

2.1.1 元字符点

.   	匹配任意单个字符，可以是一个汉字

r[.]t     在[ ]内的 . 代表原来的意思

2.1.2 字符组

[ ]      	匹配指定范围内的任意单个字符
如：[0-9]     只匹配0~9范围内的任意单个数字
    [0-59]    表示匹配0~5和9而不是0~59
    [a-z]     只匹配a~z范围内的任意单个小写字母   
    [a-zA-Z]  只匹配a~z或A~Z范围内的任意单个字母

[^] 	    匹配指定范围外的任意单个字符，即取反。
注意 ^ 在括号内，在括号外代表行首，如：[^abcd]     匹配除a b c d外的其他所有字符

[[:alnum:]]= [0-9a-zA-Z] 	   匹配字母和数字
[[:alpha:]]= [a-zA-Z]	       代表任何英文大小写字符
[[:lower:]]=[a-z]	           小写字母
[[:upper:]]=[A-Z]       	   大写字母
[:blank:] 	   空白字符（空格和制表符）
[:space:] 	   水平和垂直的空白字符（比[:blank:]包含的范围广）
[:cntrl:] 	   不可打印的控制字符（退格、删除、警铃...）
[:digit:] 	   十进制数字
[:xdigit:]	   十六进制数字
[:graph:]      可打印的非空白字符
[:print:] 	   可打印字符
[:punct:]      匹配所有标点符号， ! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` {
[:graph:]      图形字符，即能展现字符颜色的符号，等价于 [:alnum:] + [:punct:]

特殊元字符在中括号中的匹配：
想要在中括号中匹配 ^ ,需将其放在中括号的非开头位置，如[a^]
想要在中括号中匹配 - ,需将其放在开头位置或结尾位置，如[abc-]  [-abc]
想要在中括号中匹配 ] ,需将其放在开头位置或结尾位置，如[abc]]  []abc]
想要匹配上面2个或三个元字符，如[]^]  [-^]  []-]  []^-]

2.2 匹配次数

* 		匹配前面的字符任意次，包括 0 次
.* 		任意长度的任意字符
\? 		匹配其前面的字符 0 或 1 次，即：可有可无
\+ 		匹配其前面的字符至少 1 次，即：>=1
\{n\} 	匹配前面的字符 n 次
\{m,n\} 匹配前面的字符至少 m 次，至多 n 次
\{,n\} 	匹配前面的字符至多 n 次，<=n
\{n,\} 	匹配前面的字符至少 n 次

2.3 位置锚定

位置锚定可以用于定位出现的位置

^	行首锚定，用于模式的最左侧
$	行尾锚定，用于模式的最右侧
^$	空行
^[[:space:]]*$	空行或包含空白字符的行
^PATTERN$ 	    用于模式匹配整行
\< 或 \b 	    匹配单词边界，表示锚定词首，其后面的字符必须作为单词首部出现
\> 或 \b        匹配单词边界，表示锚定词尾，其前面的字符必须作为单词尾部出现
\     匹配整个单词

2.4 分组或其他

2.4.1 分组

()    将多个字符捆绑在一起，当作一个整体处理，如：\(root\)+

2.4.2 或者

a\|b	    # a 或 b  
C\|cat	    # C 或 cat  
\(C\|c\)at	# Cat 或 cat

2.4.3 非打印字符

\n	匹配换行符
\r	匹配回车符
\t	匹配制表符
\w  匹配单词字符，相当于[a-zA-Z0-9_]
    单词字符包括字母、数字和下划线
\W  匹配非单词字符，相当于[^a-zA-Z0-9_]
\s  匹配空白字符
\S  匹配非空白字符
\d  匹配数字
\D  匹配非数字

3、扩展正则表达式

扩展正则表达式的元字符用法与基础正则表达式的元字符用法相差不大，区别在于扩展正则表达式不需要使用转义符，而基础正则表达式需要使用转义符

3.2 字符匹配

.   	匹配任意单个字符，可以是一个汉字
r[.]t   在[ ]内的 . 代表原来的意思 点
[ ]      	匹配指定范围内的任意单个字符
如：[0-9]     只匹配0~9范围内的任意单个数字
    [0-59]    表示匹配0~5和9而不是0~59
    [a-z]     只匹配a~z范围内的任意单个小写字母   
    [a-zA-Z]  只匹配a~z或A~Z范围内的任意单个字母

[^] 	    匹配指定范围外的任意单个字符，即取反。
注意 ^ 在括号内，在括号外代表行首，如：[^abcd]     匹配除a b c d外的其他所有字符

[[:alnum:]]= [0-9a-zA-Z] 	   匹配字母和数字
[[:alpha:]]= [a-zA-Z]	       代表任何英文大小写字符
[[:lower:]]=[a-z]	           小写字母
[[:upper:]]=[A-Z]       	   大写字母
[:blank:] 	   空白字符（空格和制表符）
[:space:] 	   水平和垂直的空白字符（比[:blank:]包含的范围广）
[:cntrl:] 	   不可打印的控制字符（退格、删除、警铃...）
[:digit:] 	   十进制数字
[:xdigit:]	   十六进制数字
[:graph:]      可打印的非空白字符
[:print:] 	   可打印字符
[:punct:]      匹配所有标点符号， ! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` {
[:graph:]      图形字符，即能展现字符颜色的符号，等价于 [:alnum:] + [:punct:]

3.2 匹配次数

* 		匹配前面的字符任意次，包括 0 次
.* 		任意长度的任意字符
? 		匹配其前面的字符 0 或 1 次，即：可有可无
+ 		匹配其前面的字符至少 1 次，即：>=1
{n} 	匹配前面的字符 n 次
{m,n}   匹配前面的字符至少 m 次，至多 n 次
{,n} 	匹配前面的字符至多 n 次，<=n
{n,} 	匹配前面的字符至少 n 次

3.3 位置锚定

^	行首锚定，用于模式的最左侧
$	行尾锚定，用于模式的最右侧
^$	空行
^[[:space:]]*$	空行或包含空白字符的行
^PATTERN$ 	    用于模式匹配整行
\< 或 \b 	    匹配单词边界，表示锚定词首，其后面的字符必须作为单词首部出现
\> 或 \b        匹配单词边界，表示锚定词尾，其前面的字符必须作为单词尾部出现
\     匹配整个单词

2.4 分组或其他

()	分组

| 	或者
a|b 	  # a 或 b
C|cat 	  # C 或 cat
(C|c)at   # Cat 或 cat

\n	匹配换行符
\r	匹配回车符
\t	匹配制表符
\w  匹配单词字符，相当于[a-zA-Z0-9_]
    单词字符包括字母、数字和下划线
\W  匹配非单词字符，相当于[^a-zA-Z0-9_]
\s  匹配空白字符
\S  匹配非空白字符
\d  匹配数字
\D  匹配非数字

二、文本处理三剑客之grep

1、grep用法

grep 是一个强大的文本搜索工具，它可以在文件中查找特定模式的文本，并将包含这些模式的行进行筛选

grep  [选项]……  查找条件  源文件

-m	匹配指定次数后停止
-v	显示不被模式匹配到的行，取反
-i	忽略字符大小写
-n	显示行号
-c	统计匹配的行数
-o	仅显示匹配到的字符串
-q	静默模式，不输出任何信息
-e	实现多个选项间的逻辑 or 关系，如：grep -e "yellow" -e "red" file
-w	匹配整个单词
-E	使用扩展正则表达式，相当于 egrep
-F	不支持正则表达式，相当于 fgrep
-r	递归目录，但不处理软链接
-R	递归目录，但处理软链接
-f file	根据模式文件处理
-A n	after, 后 n 行
-B n	before, 前 n 行
-C n	context, 前后各 n 行

2、grep案例

2.1 匹配qq号

[root@localhost ~]#grep -Eo "\b[0-9]{6,12}\b" 1.txt

2.2 匹配邮箱

[root@localhost ~]#grep -Eo "[0-9a-zA-Z_]+@[0-9a-zA-Z_]+\.[0-9a-zA-Z_]+" 1.txt
[root@localhost ~]#grep -Eo "[[:alnum:]_-]+@[[:alnum:]_]+\.[[:alnum:]_]+" 1.txt

2.3 匹配手机号

[root@localhost ~]#grep -Eo "\b1[3456789][0-9]{9}\b" 1.txt

2.4 查询 /etc/passwd 文件中有 root 的行

[root@localhost ~]#grep "root" /etc/passwd

2.5 将非#开头和非空白行的文本写入到其他文本

[root@localhost ~]#grep -Ev "^(#|$)" /etc/profile > 1.txt

2.6 匹配行首和行尾单词相同的行

[root@localhost ~]#grep "^\(.*\)\>.*\<\1$" /etc/passwd
[root@localhost ~]#grep -Eo "^(.*)\>.*\<\1$" /etc/passwd

2.7 多个模式条件匹配

#多个匹配条件之间的关系为或者
[root@localhost ~]#grep -e "root" -e "/bin/bash" /etc/passwd

2.8 提取出字符串中的所有数字

[root@localhost ~]#echo "Yd$C@M05MB%9&Bdh7dq+YVixp3vpw"|grep -o [0-9]

2.9 统计文件单词个数

[root@localhost data]#cat /etc/fstab |grep -Eo "\b[[:alpha:]]+\b"|wc -l
[root@localhost data]#cat /etc/fstab |grep -Eo "\b[[a-zA-Z]]+\b"|wc -l

三、文本处理三剑客之sed

1、sed概述

1.1 sed概念

sed 是一个流式文本编辑器，用于对文本进行替换、删除、插入等操作
可在无交互的情况下实现相当复杂的文本处理操作
被广泛应用于 Shell 脚本，以完成自动化处理任务

1.2 sed工作原理

读取：sed 从输入流（文件、管道、标准输入）中读取一行内容并存储到临时的缓冲区中（又称模式空间，pattern space）
执行：默认情况下，所有的 sed 命令都在模式空间中顺序地执行，除非指定行的地址，否则 sed 命令将会在所有的行上依次执行
显示：发送修改后的内容到输出流。在发送数据后，模式空间将会被清空

1.3 sed优缺点

优点

灵活强大的文本处理能力： sed 提供了丰富的文本处理命令和正则表达式支持，可以完成各种复杂的文本操作，如查找、替换、删除、插入等。它的功能强大且灵活，能够满足众多文本处理需求
高效处理大型文件： sed 是基于流处理的工具，逐行读取和处理文本，因此在处理大型文件时非常高效，不会占用过多的内存和系统资源。这使得它适用于处理大量文本数据
支持批量处理： sed 可以通过简单的命令一次性对多行文本进行处理，因此非常适合批量处理文本数据。它可以轻松地应用于一组文件或整个目录中的文件
跨平台支持： sed 是一个跨平台的工具，可在不同的操作系统上（如Linux、UNIX、macOS等）使用。这使得它在各种环境中都能发挥作用，具有广泛的适用性。

缺点

命令语法较复杂： sed 的命令语法相对较复杂，特别是对于初学者来说可能会有一定的学习曲线。对于一些复杂的处理任务，也可能需要深入了解正则表达式和高级命令才能灵活应用
只能处理单行文本： sed 是基于行的文本处理工具，因此无法直接处理多行文本。它只能处理当前行，对于需要跨行操作的任务，可能会显得不够方便
修改文件会覆盖原始数据： sed 默认情况下会直接修改文件内容，而不是将处理结果输出到标准输出。这意味着如果不小心操作，可能会不可逆地修改原始数据。因此，在使用 -i 选项时应格外小心
不支持用户交互： sed 是一条命令行工具，通常在批处理环境下使用，并不支持与用户进行实时交互。这对于需要实时响应用户输入或交互的任务可能会有所不便

2、sed基本用法

（1）格式

sed  [option]...  'script;script;...'  [input  file...]
sed  [选项]       '自身脚本命令语法'    支持标准输入的文件

自身脚本命令语法=地址+脚本操作命令

（2）选项

常用选项	说明
-n	不输出模式空间内容到屏幕，即不自动打印
-e	多点编辑，如sed -n -e '/^r/p' -e'/^b/p' /etc/passwd 输出以r和以b开头的文本行
-f FILE	从指定文件中读取编辑脚本
-r, -E	使用扩展正则表达式
-i.bak	备份源文件为以".bak“结尾的文件（文件后缀名可随意），并源文件处继续编辑

（3）自身脚本命令语法

自身脚本命令语法=地址+脚本操作命令

①地址

地址		说明
无地址	空格	对全文进行处理，如sed ' ' /etc/fstab=cat /etc/fstab 查看文件内容
单地址	#（数字）	指定的行，如sed -n '2p' /etc/passwd 只打印指定的第二行
	$	最后一行，如sed -n '$p' /etc/passwd 只删除打印的最后一行（对源文件无影响）
	/pattern/	被此处模式所能够匹配到的每一行，正则表达式
地址范围	m,n	从第 m 行到第 n 行 sed -n '1,3p' /etc/passwd 只打印文件内容的第1到第3行
	m,+n	从第 m 行到第 m+n 行 sed -n '1,+4p' /etc/passwd 只打印文件内容的第1到第5行
	/pat1/,/pat2/	第一个正则表达式和第二个正则表达式之间的行如sed -n '/^r/,/^f/p' /etc/passwd 打印以r开头的行到以f开头的行中间的所有行
	#,/pat/	从#行为开始找到 pat为止如sed -n '3,/^f/p' /etc/passwd 打印第三行到以b开头的行中间的所有行
	/pat/,#	找到#号个pat为止如sed -n '/^r/,3' /etc/passwd 打印以r开头的行到第三行中间的所有行
步进	1~2	奇数行，第一个数为起始行后一个数字为前进步数 cat -n /etc/passwd \| sed -n "1~2p" 只打印文件里的奇数行内容
步进	2~2	偶数行，第一个数为起始行后一个数字为前进步数 cat -n /etc/passwd \| sed -n "2~2p" 只打印文件里的偶数行内容

②脚本操作命令

脚本操作命令	说明
a	增加，在当前行下面增加一行指定内容，支持使用 \n 实现多行追加
i	插入，在选定行上面插入一行指定内容
c	替换，将选定行替换为指定内容
d	删除，删除选定的行
w file	保存模式匹配的行至指定文件
r file	读取指定文件的文本至模式空间中匹配到的行后
p	打印当前模式空间内容，追加到默认输出之后。如果同时指定行，表示打印指定行；如果不指定行，则表示打印所有内容
Ip	忽略大小写输出
!	模式空间中匹配行取反处理
=	为模式空间中的行打印行号

注：

以上的操作其实是对输出内容的修改，其实对源文件本身没有影响，如果想修改源文件，需启用 -i 选项

3、sed搜索替换

脚本操作命令	说明
s	替换，替换指定字符，格式 s/文件旧内容/替换的内容/修饰符
y	y字符转换，和 s 用法类似，但只能替换大小写
g	行内全局替换
p	显示替换成功的行
I或者i	忽略大小写
w file	将替换成功的行保存至文件中

[root@localhost ~]#sed 's/root/admin/g' /etc/passwd

[root@localhost ~]#sed 's/r..t/&er/g' /etc/passwd

4、sed分组查找替换

[root@localhost ~]#echo 123xyzabc |sed -r 's/123(xyz)abc/\1/'
[root@localhost ~]#echo 123xyzabc |sed -r 's/(123)(xyz)(abc)/\1\2/'
[root@localhost ~]#echo 123xyzabc |sed -r 's/(123)(xyz)(abc)/\3\2\1/'

5、sed变量查找

#先定义变量再用sed命令调用该变量值
root@localhost ~]#name=root
[root@localhost ~]#sed -nr "/$name/p" /etc/passwd    
[root@localhost ~]#sed -nr '/'$name'/p' /etc/passwd  #两单引号也可以查询

6、使用sed工具修改配置文件

sed可以用于修改配置文件，它可以从标准输入或文件中读取文本，并对其进行编辑和转换

6.1 直接修改httpd的80端口

[root@localhost ~]#grep "Listen" /etc/httpd/conf/httpd.conf
[root@localhost ~]#port=8080
[root@localhost ~]#sed -ri 's/^Listen 80/Listen '$port'/' /etc/httpd/conf/httpd.conf

6.2 修改网卡名

[root@localhost ~]#cat /etc/default/grub
[root@localhost ~]#sed -ri.bak '/^GRUB_CMDLINE_LINUX/s#(.*)"#\1 net.ifnames=0"#' /etc/default/grub
#使用分组替换，（.*)指得是 “号前面的所有，即在“号前，quiet后添加 net.ifnames=0（注意空格）
[root@localhost ~]#grep GRUB_CMDLINE_LINUX  /etc/default/grub

#其他方法
[root@localhost ~]#sed -ri.bak '/^GRUB_CMDLINE_LINUX/s#"$#net.ifnames=0"#' /etc/default/grub 
#直接将"号替换成"$#net.ifnames=0"


#修改完配置文件，注意重新生成grub配置文件
[root@localhost ~]#grub2-mkconfig -o /boot/grub2/grub.cfg

7、sed高级用法（了解）

sed 中除了模式空间之外还支持保持空间（Hold Space），利用此空间，可以将模式空间中的数据临时保存至保持空间，从而后续接着处理，实现更为丰富的功能

P	打印模式空间开端至 \n 内容，并追加到默认输出之前
h	把模式空间中的内容覆盖至保持空间中
H	把模式空间中的内容追加至保持空间中
g	从保持空间取出数据覆盖至模式空间
G	从保持空间取出内容追加至模式空间
x	把模式空间中的内容与保持空间中的内容进行互换
n	读取匹配到的行的下一行覆盖至模式空间
N	读取匹配到的行的下一行追加至模式空间
d	删除模式空间中的行，也可以叫剪切
D	如果模式空间包含换行符，则删除直到第一个换行符的模式空间中的文本，并不会读取新的输入行，而使用合成的模式空间重新启动循环。如果模式空间不包含换行符，则会像发出 d 命令那样启动正常的新循环

[root@localhost ~]#sed -n 'N;p'  #奇数行
[root@localhost ~]#sed -n 'n;p'  #偶数行
[root@localhost ~]#sed -n 'n;P'  #偶数行

#将第一行和第二行合并成一行并指定分隔符
[root@localhost ~]#seq 10 | sed 'N;s/\n//'
[root@localhost ~]#seq 10 | sed 'N;s/\n/:/'

[root@localhost ~]#sed -n '1!G;h;$!d'    #倒序

四、文本处理三剑客之awk

1、awk的概述

awk是一个功能强大的编辑工具，逐行读取输入文本，默认以空格或tab键作为分隔符作为分隔，并按模式或者条件执行编辑命令。用于从文件、管道或标准输入中读取文本，并根据用户指定的模式和操作进行处理

文本提取和转换： 可以用 awk 提取文件中的特定字段或行，并对其进行转换和格式化。
数据分析和报告生成： 可以利用 awk 对结构化数据进行分析，并生成报告、统计信息或汇总数据。
文本格式化和处理： 可以使用 awk 对文本进行格式化、排序、过滤和合并等操作。
自定义文本处理： 可以编写自定义的 awk 脚本来实现特定的文本处理逻辑，满足特定的需求

2、awk基本用法

2.1 awk基本格式和执行流程

awk [options]   'program' var=value   file…
      选项         语法      值       文件，支持标准输入、输出
awk         'pattern { action }'      input_file

注：

语法program通常是被放在单引号中，可分为pattern和action：
pattern：用于匹配输入文本的模式。可以使用正则表达式或字符串进行匹配。如果省略模式，则默认匹配所有行
action：对数据进行处理的操作，放在{}内指明，在满足模式的情况下要执行的动作。可以是单个命令或多个命令组合。如果省略动作，则默认打印整行。处理动作常见print、printf

①一定是单引号： '模式或条件{操作}'

② {}外指定条件，{}内指定操作

③ 内建变量不能使用双引号括起来，不然系统会把它当成字符串

执行流程：

① 执行BEGIN{action;… }{print}语句块中的语句
② 从文件或标准输入(stdin)读取一行，然后执行pattern{ action;… }语句块，它逐行扫描文件，
从第一行到最后一行重复这个过程，直到文件全部被读取完毕
③ 当读至输入流末尾时，执行END{action;…}语句块
BEGIN语句块在awk开始从输入流中读取行之前被执行，这是一个可选的语句块，比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中
END语句块在awk从输入流中读取完所有的行之后即被执行，比如打印所有行的分析结果这类信息汇总都是在END语句块中完成，它也是一个可选语句块
pattern语句块中的通用命令是最重要的部分，也是可选的。如果没有提供pattern语句块，则默认执行{ print }，即打印每一个读取到的行，awk读取的每一行都会执行该语句块

常用选项	说明
-F "分隔符"	指明输入时用到的字段分隔符
-f	指定调用脚本
-v var=value	变量赋值

2.2 基本打印用法（动作 print）

print item1,item2, ...

逗号做分隔符，用 {} 包起来
输出的 item 可以是字符串，也可是数值，当前记录的字段、变量或 awk 的表达式
如省略 item，相当于 print $0

[root@localhost ~]#awk ''      #program为空，没有效果
[root@localhost ~]#awk '{print}' /etc/passwd    #输出/etc/passwd文件所有内容
相当于cat /etc/passwd 和sed  ' '  /etc/passwd

[root@localhost ~]#awk -F: '{print $1,$7}' /etc/passwd
[root@localhost ~]#awk -F: '{print $1":"$7}' /etc/passwd
[root@localhost ~]#awk -F: '{print $1","$7}' /etc/passwd

2.3 常见的内置变量

内置变量	说明
NR	当前处理的行的行号（序数）
NF	当前处理的行的字段个数
FS	指定每行文本的字段分隔符，默认为空格或制表位与 “ -F ” 作用相同
OFS	输出内容的列分隔符
RS	行分隔符，awk从文件中读取资料时，将根据RS的定义把资料切割成许多条记录，而awk一次仅读入一条记录进行处理。预设值是"\n"
$0	当前处理的行的整行内容
$n	当前处理行的第n个字段（第n列）
FILENAME	被处理的文件名

（1）NR:行号

当前处理的行的行号（序数）

[root@localhost ~]#awk -F: '{print $1,NR}' /etc/passwd
[root@localhost ~]#awk -F: '{print NR,$1}' /etc/passwd

[root@localhost ~]#awk 'NR==2{print $1}' /etc/passwd
[root@localhost ~]#awk 'NR==1,NR==3{print}' /etc/passwd
[root@localhost ~]#awk 'NR==1||NR==3{print}' /etc/passwd
[root@localhost ~]#awk 'NR>=3 && NR<=6{print NR,$0}' /etc/passwd
[root@localhost ~]#seq 10|awk 'NR>5 && NR<10'

#如何打印普通用户及其uid
[root@localhost ~]#awk -F: '$3>1000{print $3,$1}' /etc/passwd|sort -n

（2）NF

当前处理的行的字段个数

[root@localhost ~]#awk -F: '{print NF}' /etc/passwd
[root@localhost ~]#awk -F: '{print $NF}' /etc/passwd
[root@localhost ~]#awk -F: '{print $(NF-2)}' /etc/passwd

（3）FS

指定每行文本的字段分隔符，默认为空格或制表位，与 “ -F ” 作用相同

[root@localhost ~]#awk -F: '{print $1":"$3}' /etc/passwd
[root@localhost ~]#awk -v FS=':' '{print $1FS$3}' /etc/passwd

（4）OFS

输出内容的列分隔符

[root@localhost ~]#awk -v FS=':' -v OFS='==' '{print $1,$3}' /etc/passwd

（5）RS

行分隔符，awk从文件中读取资料时，将根据RS的定义把资料切割成许多条记录，而awk一次仅读入一条记录进行处理。预设值是"\n"

[root@localhost ~]#echo $PATH | awk -v RS=":" '{print $1}'

（6）$0

当前处理的行的整行内容

[root@localhost ~]#awk -F: '{print $0}' /etc/passwd

（7） FILENAME

显示处理的文件名

[root@localhost ~]#awk -F: 'NR==2{print FILENAME}' /etc/passwd

2.5 模式PATTERN

（1）模式为空

如果模式为空表示每一行都匹配成功，相当于没有额外条件

如：awk -F: '{print $1,$3}' /etc/passwd

（2）正则匹配

/regular expression/：仅处理能够模式匹配到的行，需要用/ /括起来

[root@localhost ~]#ifconfig ens33|awk '/netmask/{print}'
[root@localhost ~]#awk '/^root/{print}' /etc/passwd

（3）line ranges：行范围

不支持使用行号，但是可以使用变量NR间接指定行号加上比较操作符或者逻辑关系

算术操作符
x+y, x-y, x*y, x/y, x^y, x%y
-x：转换为负数
+x：将字符串转换为数值

比较操作符：
==, !=, >, >=, <, <=

逻辑操作符
与：&&，并且关系
或：||，或者关系
非：!，取反

模式匹配符：
~  左边是否和右边匹配，包含关系
!~ 是否不匹配

$n (><==)	用于对比数值
$n~"字符串"	代表第n个字段，包含某个字符串的作用
$n!~"字符串"	代表第n个字段，不好含某个字符串的作用
$n=="字符串"	代表第n个字段为某个字符串的作用
$n!="字符串"	代表第n个字段不为某个字符串的作用
$NF	代表最后一个字段

#输出第七个字段包含“bash”所在行的第一个字段和最后一个字段
[root@localhost ~]#awk -F: '$7~"bash"{print $1,$NF}' /etc/passwd

#输出第七个字段不包含“nologin”所在行的第一个字段和最后一个字段
[root@localhost ~]#awk -F: '$7!~"nologin"{print $1,$NF}' /etc/passwd

#指定第六个字段为/home/dh,第七个字段为/bin/bash,输出满足这些条件的所在行
[root@localhost ~]#awk -F: '($6=="/home/dh")&&($7=="/bin/bash"){print $0}' /etc/passwd

（4）/pat1/,/pat2/

pat代表正则表达式，pat1到pat2 表示从正则表达式1到正则表达式2

#打印以r开头的行到以b开头的行中间的所有行
[root@localhost ~]#awk '/^r/,/^f/' /etc/passwd

（5）关系表达式

在awk中，关系表达式用于比较两个值，并返回一个布尔值（真或假）。这些表达式通常用于控制流程和过滤数据，关系表达式结果为“真”才会被处理。

真：结果为非0值，非空字符串

假：结果为空字符串或0

[root@localhost ~]#echo 123 | awk '1{print}'     #1 允许打印
[root@localhost ~]#echo 123 | awk '0{print}'     #0 不允许打印

[root@localhost ~]# seq 5 | awk 'n++'
[root@localhost ~]# seq 5 | awk '!n++'
[root@localhost ~]# seq 5 | awk '!0'        #全部打印

[root@localhost ~]# seq 5 | awk 'i=!i'      #打印奇数行
[root@localhost ~]# seq 5 | awk '!(i=!i)'   #打印偶数行

（6） BEGIN END

BEGIN{}：仅在开始处理文件中的文本之前执行一次

END{}：仅在文本处理完成之后执行一次

[root@localhost ~]#awk -F: 'BEGIN {print "USERID USER"} {print $3,$1}' /etc/passwd
[root@localhost ~]#awk -F: '{print $3,$1} END{print "USERID USER"}' /etc/passwd
[root@localhost ~]#awk -F: 'BEGIN {print "USERID USER"} {print $3","$1} END{print "END FILE"}' /etc/passwd

#支持运算
[root@localhost ~]#awk 'BEGIN {print 2*2}'
[root@localhost ~]#awk 'BEGIN {print 6/2}'
[root@localhost ~]#awk 'BEGIN {print 6+2}'

2.6 awk结合数组运用

在awk中，数组是一种非常有用的数据结构，用于存储和操作数据。awk中的数组是关联数组，也就是说它们可以使用字符串作为索引。

awk数组特性：

①awk的数组是关联数组(即key/value方式的hash数据结构)，索引下标可为数值(甚至是负数、小数等)，也可为字符串

在内部，awk数组的索引全都是字符串，即使是数值索引在使用时内部也会转换成字符串
awk的数组元素的顺序和元素插入时的顺序很可能是不相同的

②awk数组支持数组的数组

（1）awk中定义数组打印

可以使用数组的索引来访问和修改数组元素的值

[root@localhost ~]#awk 'BEGIN{a[0]=10;a[1]=20;a[2]=30;print a[0]}'
[root@localhost ~]#awk 'BEGIN{a[0]=10;a[1]=20;a[2]=30;print a[2]}'

（2）数组长度

awk提供了 length() 函数来获取数组的元素个数，它也可以用于获取字符串的字符数量。还可以获取数值转换成字符串后的字符数量

[root@localhost ~]#awk 'BEGIN{name["a"]="lcc";name["b"]="xz";name["c"]="dh";for(i in name)print name[i];print length(name)}'

（3）遍历数组

使用for循环来迭代数组中的元素

for(var in array)  {for-body}

awk 'BEGIN{name["a"]="zhangsan";name["b"]="lisi";name["c"]="wangwu";for(i in name)print name[i]}'

（4）awk打印文件内容去重统计

①去重打印数组

[root@localhost ~]#x=(10 10 10 20 30 20 30 20 40 10 30 10)
[root@localhost ~]#echo ${x[@]}|awk -v RS=' ' '!a[$1]++'

②处理文件去重统计

原理：将文件的字段内容变为定义的数组下标，对其进行匹配读取累加（只有遇到完全一致的才会累加），此时重复的次数在for循环的作用下成为了数组对应下标的元素，所以输出该下标和元素（就等同于输出重复的字段内容以及统计的重复次数）

[root@localhost ~]#cat 1.txt 
[root@localhost ~]#awk '!a[$0]++' 1.txt

[root@localhost ~]#cat 1.txt 
[root@localhost ~]#awk '{a[$1]++};END{for(i in a){print i,a[i]}}' 1.txt

2.7 条件判断（if）

在awk中，条件判断通常用于控制程序的流程，以便根据特定条件执行不同的操作。条件判断通常与if语句结合使用

awk  选项  '模式 {actions}' 
#条件判断写在 actions里

if语句：awk的if语句也分为单分支、双分支和多分支

单分支为if(判断条件){执行语句}
双分支为if(判断条件){执行语句}else{执行语句}
多分支为if(判断条件){执行语句}else if(判断条件){执行语句}else if(判断条件){执行语句}else if(判断条件){执行语句}

[root@localhost ~]# awk -F: '{if($3>=1000){print $3,$1}else{print $1}}' /etc/passwd

2.8 循环（for、while）

在awk中，可以使用循环语句来重复执行一组操作，直到满足特定条件为止。awk支持for循环和while循环

awk  选项  '模式 {actions}' 
#循环语句写在 actions里

#condition为条件；statement为语句
for(expr1;expr2;expr3) {statement;…}
for(variable assignment;condition;iteration process) {for-body}
for(var in array) {for-body}

#计算1+2+3……+99+100的总和
[root@localhost ~]#awk 'BEGIN{sum=0;for(i=1;i<=100;i++){sum+=i};print sum}'

2.9 awk脚本（了解）

#!/bin/awk -f
{if($3>=1000){print $3,$1}}

五、案例

1、统计当前主机的连接状态

[root@localhost ~]#ss -nta | grep -v '^State' |cut -d" " -f1|sort |uniq -c
[root@localhost ~]#ss -nta|awk 'NR!=1{State[$1]++};END{for(i in State){print State[i],i}}'
[root@localhost ~]#ss -nat|awk 'NR!=1{print $1}' | sort |uniq -c

2、统计当前连接主机数

[root@localhost ~]#ss -nt |tail -n +2|tr -s " "|cut -d " " -f5|cut -d ":" -f1 |sort|uniq -c
[root@localhost ~]#ss -nt|awk -F "[ :]+" 'NR!=1{print $6}'|sort|uniq -c
[root@localhost ~]#ss -nt|awk "-F[ :]+" 'NR!=1{a[$6]++};END{for(i in a){print a[i],i}}'

3、过滤主机ip地址

[root@localhost ~]#ifconfig ens33|grep netmask|tr -s " "|cut -d " " -f3
[root@localhost ~]#ifconfig ens33 | sed -rn '2s/.*inet (.*) netmask.*/\1/p'
[root@localhost ~]#ifconfig ens33 | sed -rn '2s/.*inet ([0-9.]+) .*/\1/p'
[root@localhost ~]#ifconfig ens33 | awk '/netmask/{print $2}'

4、提取13:01到14:02之间的日志

[root@localhost log]#sed -nr '/Jan 31 13:00:01/,/Jan 31 14:00:02/p' /var/log/messages
[root@localhost log]#awk '/Jan 31 13:00:01/,/Jan 31 14:00:02/{print $0}' /var/log/messages

5、提取下图ip地址及时间

[root@localhost data]#cat log.txt |sed -nr 's/(.*) - - \[(.*) \+.*/\1  \2/p'
[root@localhost data]#cat log.txt |awk -F"[[ ]" '{print $1,$5}'
[root@localhost data]#cat log.txt |awk -F"[[ ]+" '{print $1,$4}'

6、提取host.txt主机名再放回host.txt文件

[root@localhost data]#cat host.txt |awk -F"[ .]+" '{print $2}' >> host.txt
[root@localhost data]#cat host.txt |cut -d "." -f1 |tr -d "[0-9 ]"  >> host.txt
[root@localhost data]#cat host.txt |sed -nr 's/.* (.*)\.(.*)\.(.*)/\1/p'  >> host.txt

7、提取以数字形式显示/etc/passwd的权限

[dh@localhost ~]$stat /etc/passwd|awk -F"[(/]" 'NR==4{print $2}'
[dh@localhost ~]$stat /etc/passwd|sed -nr '4s/.*\(([0-9]{4}).*/\1/p'
[dh@localhost ~]$stat /etc/passwd|grep "权限"|cut -d ")" -f1|cut -d"(" -f2|cut -d"/" -f1

8、统计/etc/fstab文件中每个文件系统类型出现的次数

[root@localhost ~]#cat /etc/fstab |awk '/^[^#]/{print $3}'|sort|uniq -c
[root@localhost ~]#grep -Ev "^(#|$)" /etc/fstab|awk '{print $3}'|sort -n|uniq -c
[root@localhost ~]#cat /etc/fstab |awk '/^[^#]/{a[$3]++};END{for(i in a){print a[i],i}}'

你可能感兴趣的:(正则表达式)

第六：Python+ selenium自动化测试（练习一）卢卡平头哥 python selenium 开发语言
一.练习场景1.在某网页上有些字段或者关键字等信息是感兴趣的1.1.希望将其摘取出来，进行其他操作。但是这些字段可能在网页的不同地方2.例如：需要在关于百度页面-联系我们，摘取全部的邮箱二.思路拆分1.首先需要得到当前页面的source内容，就像打开页面，右键-查看页面源代码2.找出规律，通过正则表达式去摘取匹配的字段，存储到字典或者列表3.循环打印字典或列表中内容，用for语句实现三.实现相关方
正则表达式概述出门撞大运正则表达式
在编程中，处理字符串是一项常见且重要的任务。而正则表达式，作为一种强大的字符串匹配工具，能帮助我们高效地完成各种复杂的字符串处理需求。无论是数据验证、文本搜索与替换，还是日志分析等场景，正则表达式都能大显身手。今天，我们就来全面了解一下正则表达式。一、什么是正则表达式正则表达式，又称正规表示法、常规表示法（英语：RegularExpression，在代码中常简写为regex、regexp或RE），
运维打铁: Shell 脚本自动化任务编写与优化懂搬砖运维打铁原力计划运维 ruby 自动化
文章目录思维导图一、基础编写1.变量与数据类型2.控制结构if-else语句for循环3.函数定义二、高级特性1.正则表达式2.文件处理3.远程操作三、性能优化1.代码结构优化2.资源管理3.并发处理总结思维导图Shell脚本自动化任务编写与优化基础编写高级特性性能优化变量与数据类型控制结构函数定义正则表达式文件处理远程操作代码结构优化资源管理并发处理一、基础编写1.变量与数据类型在Shell脚本
【LeetCode 3136. 有效单词】解析
目录LeetCode中国站原文原始题目题目描述示例1：示例2：示例3：提示：讲解化繁为简：如何优雅地“盘”逻辑判断题第一部分：算法思想——“清单核对”与“一票否决”第二部分：代码实现——清晰的逻辑翻译实现一：常规判断逻辑实现二：使用正则表达式（一行代码的“炫技”）第三部分：总结LeetCode中国站原文https://leetcode.cn/problems/valid-word/原始题目题目描述
selenium后续！！ paid槮 selenium 测试工具
小项目案例:实现批量下载网页中的资源根据15.3.2小节中的返回网页内容可知,用户只有获取了网页中的图片url才可以将图片下载到*在使用selenium库渲染网页后,可直接通过正则表达式过滤出指定的网页图片，从而实现批量下载接下来以此为思路来实现一个小项目案例。项目任务实现批量下载人民邮电出版社官网中与Python相关的图书封面图片。项目实步骤步骤1，获取人民邮电出版社官网中与Python相关的图
SpringBoot日志脱敏：敏感信息保护全面指南 Clf丶忆笙 spring boot 后端 java 日志脱敏
文章目录一、日志脱敏概述与核心概念1.1什么是日志脱敏1.2为什么需要日志脱敏1.3常见需要脱敏的敏感信息类型1.4脱敏技术核心原理二、SpringBoot基础日志脱敏实现2.1基于正则表达式的简单脱敏2.2在SpringBoot中集成基础脱敏2.3基础实现的优缺点分析三、基于注解的高级脱敏方案3.1自定义脱敏注解3.2实现自定义JSON序列化器3.3在实体类中应用脱敏注解3.4测试与验证四、Sp
【Python练习】035. 编写一个函数，实现简单的文本搜索功能视睿从零开始学习机器人 python 开发语言机器人算法人工智能
035.编写一个函数，实现简单的文本搜索功能035.编写一个函数，实现简单的文本搜索功能示例代码代码解释测试结果注意事项多种实现方法方法一：使用字符串内置方法方法二：使用正则表达式方法三：使用列表推导式方法四：使用KMP算法方法五：使用第三方库035.编写一个函数，实现简单的文本搜索功能示例代码importredefsimple_text_search(text,pattern):"""在文本中搜
数据安全审计平台的三大关键技术：日志分析、行为监测与智能告警 KKKlucifer 安全算法
在数字化浪潮中，数据安全审计是企业守护核心资产的“瞭望塔”。通过日志分析、行为监测、智能告警三大技术，数据安全审计平台构建起“全流程监控-异常识别-快速响应”的闭环，为数据安全筑牢防线。以下从技术原理、实践价值与行业应用展开解析。日志分析：数据安全的“DNA图谱”1.多源日志融合技术实现：通过Agent采集操作系统、数据库、网络设备等200+日志源，利用正则表达式、NLP技术解析非结构化日志（如“
LeetCode Top100特训九筒- LeetCode 算法力扣
更新中……两数相加盛水最多的容器电话号码的字母组合删除链表的倒数第N个结点字母异位词分组寻找两个正序数组的中位数合并区间不同路径（与最小路径和类似）正则表达式匹配颜色分类单词搜索只出现一次的数字合并K个升序链表接雨水移除元素最长有效括号不同的二叉搜索树验证二叉搜索树对称二叉树从前序与中序遍历序列构造二叉树最长连续序列排序链表乘积最大子数组编辑距离最小栈最小覆盖子串计算右侧小于当前元素的个数柱状图中
Python正则表达式实战指南 Monkey的自我迭代 mysql 数据库 java python
一正则表达式库正则表达式是文本处理中不可或缺的强大工具，Python通过re模块提供了完整的正则表达式支持。本文将详细介绍re模块中最常用的match()、search()和findall()函数，以及贪婪模式与非贪婪模式的区别，帮助读者掌握Python中正则表达式的核心用法。1.re.match()函数：从字符串开头匹配re.match()是正则表达式最基本的函数之一，它尝试从字符串的起始位置匹
C语言正则表达式使用详解
标准的C和C++都不支持正则表达式，但有正则表达式的函数库提供这功能.C语言处理正则表达式常用的函数有regcomp()、regexec()、regfree()和regerror()。使用正则表达式步骤：1)编译正则表达式regcomp()2)匹配正则表达式regexec()3)释放正则表达式regfree()4)获取regcomp或者regexec产生错误，获取包含错误信息的字符串函数声明如下：
正则表达式基本用法（notepad++）丨封尘绝念斩丨正则表达式
1.启动Notepad++并打开一个文本文件。点击菜单栏的"搜索"，然后选择"查找"或"替换"。2.学习基本的匹配字符："."表示匹配任意字符。"\d"表示匹配数字字符。"\w"表示匹配字母、数字和下划线字符。"\s"表示匹配空白字符。"[abc]"表示匹配字符"a"、"b"或"c"中的任意一个。3.学习特殊字符和量词："^"表示匹配字符串的开头。"$"表示匹配字符串的结尾。"*"表示匹配前面的字
正则表达式-元字符及描述 dianaixun1635 java scala javascript ViewUI
元字符描述\将下一个字符标记符、或一个向后引用、或一个八进制转义符。例如，“\\n”匹配\n。“\n”匹配换行符。序列“\\”匹配“\”而“\(”则匹配“(”。即相当于多种编程语言中都有的“转义字符”的概念。^匹配输入字行首。如果设置了RegExp对象的Multiline属性，^也匹配“\n”或“\r”之后的位置。$匹配输入行尾。如果设置了RegExp对象的Multiline属性，$也匹配“\n”
notepad++正则表达式痞子IT 嵌入式开发语言 xml c语言
notepad++正则表达式使用笔记：1.查找空行：^\s*\r\n2.排除以（开头的行：^(?!（).*$3.查找第二行以A-D开头的情况：(\r\n)(^[A-D])4.查找不含有helloworld的行：^(?!.*helloworld).*$5.查找不以com结尾的字符串：^.*?(?|"']|"[^"]*"|'[^']*')*?(?:/>|>.*?)11.查找非换行空白：(\s)(?)及
爬虫-数据解析打酱油的； python自动化+爬虫爬虫
1.解析概述特性re(正则表达式)bs4(BeautifulSoup)xpath(lxml)pyquery本质文本模式匹配HTML/XML解析器(DOM树操作)XML路径语言(节点导航)jQuery式CSS选择器(封装lxml)学习曲线陡峭中等中等简单(熟悉jQuery/CSS)灵活性极高(处理任意文本)高(容错好，DOM操作)高(路径、轴、谓词)高(jQuery语法)可读性差(模式复杂时难懂)好
爬虫-正则表达式打酱油的； python自动化+爬虫爬虫 python
在线正则表达式测试OSCHINA.NET在线工具,ostools为开发设计人员提供在线工具，提供jsbin在线CSS、JS调试，在线JavaAPI文档,在线PHPAPI文档,在线Node.jsAPI文档,LessCSS编译器，MarkDown编译器等其他在线工具https://tool.oschina.net/regex/
2025B卷 - 华为OD机试七日集训第5期 - 按算法分类，由易到难，循序渐进，玩转OD 哪吒搬砖工逆袭Java架构师华为od 算法华为OD机试 2025B卷 java
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第5期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、逻辑分析第3天、逻辑分析第4天、字符串处理第5天、正则表达式第6天、深度优先搜索dfs第7天、深度优先搜索dfs六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605
字符串的模糊匹配方法介绍超级土豆粉前端 javascript typescript html
字符串的模糊匹配方法介绍目录字符串的模糊匹配方法介绍一、编辑距离（LevenshteinDistance）复杂度分析二、Jaro-Winkler距离复杂度分析三、最长公共子序列（LCS）复杂度分析四、模糊搜索（FuzzySearch）复杂度分析五、正则表达式复杂度分析六、第三方库复杂度分析总结在日常开发和数据处理中，我们经常会遇到需要判断两个字符串是否“相似”或“接近”的场景，这时就需要用到字符串
Python词法分析器：从概念到实践凡狗蛋
本文还有配套的精品资源，点击获取简介：Python词法分析器是编程语言处理的关键环节，负责将源代码解析为有意义的标记或符号序列。本简介详细介绍了词法分析、正则表达式、分词、词法规则、词法分析器生成器以及编译原理等核心概念，并展示了如何使用Python内置的re模块和第三方库ply实现词法分析器，为进一步理解编程语言的工作原理和构建自定义编程语言打下基础。1.词法分析器的作用与目的词法分析器是编译器
如何记住js的正则表达式 HebyH_ javascript 正则表达式数据库
正则表达式（RegularExpressions）是处理字符串的强大工具，但确实需要一些记忆和练习才能掌握。以下是一些帮助你记忆JavaScript正则表达式的方法和常用模式：1.基础结构记忆法记住正则表达式的基本结构：/pattern/flags-斜杠包围模式，后面可跟标志例如：/hello/gi-匹配"hello"，全局且不区分大小写2.常用元字符记忆口诀"点星加问，花括号量".匹配任意单个字
正则表达式虎皮辣椒小怪兽 Linux 正则表达式
文章目录一、什么是正则表达式二、第一类正则三、第二类正则一、什么是正则表达式正则表达式（RegularExpression）是用于匹配字符串模式的工具。它可以高效地实现字符串的搜索、替换、验证等操作二、第一类正则元字符：指那些在正则表达式中具有特殊意义的专用字符，如：点(.)星(*)问号(?)等。前导字符：即位于元字符前面的字符abc*或aooo.1、.任意单个字符，除了换行符[root@loca
python爬虫正则表达式使用说明 yuwinter Python python 爬虫正则表达式
Python爬虫和正则表达式是自动化网络数据提取中常用的两种技术。本文将详细介绍如何使用Python编写爬虫，结合正则表达式提取网页中的数据。一、基础知识点1.安装必要库爬虫通常需要使用库来处理HTTP请求和解析网页，常用库有：requests：用于发送HTTP请求，获取网页内容。re：Python自带的正则表达式库，用于模式匹配和提取数据。BeautifulSoup（可选）：如果你需要更高级的网
python：正则表达式符号初于青丝mc终于白发 python相关正则表达式 python pycharm
本次给大家带来的是python中的正则表达式符号的复习呀，还记得清楚嘛^^？匹配零次或一次前面的分组*匹配零次或多次前面的分组+匹配一次或多次前面的分组{n}匹配n次前面的分组{n，}匹配n次或更多次前面的分组{，m}匹配零次或m次前面的分组{n，m}匹配至少n次，至多m次前面的分组{n，m}？、*？、+？对前面的分组进行非贪心匹配^spam意味着字符串必须以spam开始spam$意味着字符串必须
Python：正则表达式慕婉0307 python基础知识点正则表达式
正则表达式是处理文本数据的强大工具，Python通过re模块提供了完整的正则表达式功能。本文将详细介绍Python正则表达式的使用方法，包括基础语法、高级技巧和re模块API的详细解析。一、正则表达式基础1.1什么是正则表达式正则表达式(RegularExpression)是一种用于匹配字符串中字符组合的模式，可以用于搜索、替换和验证文本数据。1.2Python中的re模块Python通过内置的r
正则表达式咸鱼时日翻身正则表达式
是指定一组与之匹配的字符串，限定符号a*a出现0或者多次a+a出现1次或者多次a？a出现0次或者1次a{2,5}出现在2到5次之间或运算法（cat|dog）匹配cat或者dog字符类[abz]+表示匹配的字符只能是中括号中的字母如果使用了^则为取反符号元字符、/d代表数字字符/w代表英文字符数字加上下划线/s代表tab和换行符其中/加大写的DWS则表示取反符号.表示任意字符不包括换行符号^a匹配行
深入理解 grep 命令：从基础匹配到正则表达式的全面指南线条1 正则表达式 java 数据库
一、grep命令概述在Linux系统中，grep（GlobalRegularExpressionPrint）是一个强大的文本搜索工具，它能够使用正则表达式在文本文件中查找匹配的行，并将这些行输出。从系统管理员到开发人员，grep都是日常工作中不可或缺的工具，广泛应用于日志分析、代码搜索、数据过滤等场景。二、grep基础匹配用法1.普通文本匹配命令格式：grep"pattern"filename示例
Python网络数据采集的方法蚂蚁ai Python零基础 Python python 开发语言
听说还有很多小伙伴还不知道网络数据采集的方法，让我来看看都有谁，不说话我就点名了。我把教程分享在下面了，需要的小伙伴自己领取。（https://jq.qq.com/?_wv=1027&k=kYtMeTfp）一般情况下以下四种方式都是可以匹配到结果的，只是复杂程度不一致，根据情况进行选择。◾正则re的使用◾bs4的使用◾xpath◾PyQuery①Re（RegularExpression正则表达式）
python 海象运算符_python := 海象运算符伶邪 python 海象运算符
最近在做算法题越来越发现python写法真的挺好用的记下来map(lambdax:sum(x))中lambda代表匿名函数re.findall(r'0+|1+',s)是正则表达式:=海象运算符转if(n:=len(a))>10:print(f"Lististoolong({n}elements,expected10:print(f"Lististolong({len(a)}elements,exp
python := 海象运算符 challenge-linge it it
参考视频教程:**体系课-Go+Python双语言混合开发盯紧技术先机抓紧高薪机遇**最近在做算法题越来越发现python写法真的挺好用的记下来map(lambdax:sum(x))中lambda代表匿名函数re.findall(r’0+|1+’,s)是正则表达式:=海象运算符转背景：python3.8正式版最近更新了，其中PEP572中的海象运算符获得正式python版本的支持.我看了官网的文档
正则表达式
运用正则表达式进行爬虫就是把想要得到的信息爬取出来贪婪爬取和非贪婪爬取replace(正则表达式,新的内容)符合正则表达式的被替换成新的内容(返回值是String)split(正则表达式)按照正则表达式规则切割字符串(返回值是String[]),遍历数组就可以得到了分组其实就是把内容分组,然后用组号代替内容复制,这样就不用多写几遍练习:其实正则表达式不用背,以后要用的时候直接右键选择插件下载的选择
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

正则表达式及文本处理三剑客（grep、sed、awk）

一、正则表达式

1、正则表达式的概述

1.1 正则表达式的概念和作用

1.2 正则表达式支持的语言

1.3 正则表达式的优缺点

1.4 正则表达式的分类

1.4.1 基本正则表达式（BRE）：

1.4.2 扩展正则表达式（ERE）：

1.4.3 区别

1.5 帮助命令

2、基础正则表达式

2.1 字符匹配

2.1.1 元字符点

2.1.2 字符组

2.2 匹配次数

2.3 位置锚定

2.4 分组或其他

2.4.1 分组

2.4.2 或者

2.4.3 非打印字符

3、扩展正则表达式

3.2 字符匹配

3.2 匹配次数

3.3 位置锚定

2.4 分组或其他

二、文本处理三剑客之grep

1、grep用法

2、grep案例

2.1 匹配qq号

2.2 匹配邮箱

2.3 匹配手机号

2.4 查询 /etc/passwd 文件中有 root 的行

2.5 将非#开头和非空白行的文本写入到其他文本

2.6 匹配行首和行尾单词相同的行

2.7 多个模式条件匹配

2.8 提取出字符串中的所有数字

2.9 统计文件单词个数

三、文本处理三剑客之sed

1、sed概述

1.1 sed概念

1.2 sed工作原理

1.3 sed优缺点

2、sed基本用法

3、sed搜索替换

4、sed分组查找替换

5、sed变量查找

6、使用sed工具修改配置文件

6.1 直接修改httpd的80端口

6.2 修改网卡名

7、sed高级用法（了解）

四、文本处理三剑客之awk

1、awk的概述

2、awk基本用法

2.1 awk基本格式和执行流程

2.2 基本打印用法（动作 print）

2.3 常见的内置变量

2.5 模式PATTERN

2.6 awk结合数组运用

2.7 条件判断（if）

2.8 循环（for、while）

2.9 awk脚本（了解）

五、案例

1、统计当前主机的连接状态

2、统计当前连接主机数

3、过滤主机ip地址

4、 提取13:01到14:02之间的日志

5、提取下图ip地址及时间

6、提取host.txt主机名再放回host.txt文件

7、提取以数字形式显示/etc/passwd的权限

8、 统计/etc/fstab文件中每个文件系统类型出现的次数

你可能感兴趣的:(正则表达式)

4、提取13:01到14:02之间的日志

8、统计/etc/fstab文件中每个文件系统类型出现的次数