每日一卷哈

Linux系统Shell脚本-----------正则表达式、grep、 sed

一、正则表达式

1.前言

正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。在Linux中也就是代表我们定义的模式模板，Linux工具可以用它来过滤文本。

Linux的工具（如sed编辑器或者gawk程序）能够在处理数据时使用正则表达式对数据进行模式匹配，如果数据符合匹配的要求，那么就会进入下一步处理；如果数据不符合匹配的要求，就会被过滤掉。

通配符功能是用来处理文件名，而正则表达式是处理文本内容中字符。

正则表达式被很多程序和开发语言所广泛支持：vim, less,grep,sed,awk, nginx,mysql 等

主要用来匹配字符串（命令结果，文本内容）

2.正则表达式介绍

1、正则表达式---通常用于判断语句中，用来检查某一字符串是否满足某一格式

2、正则表达式是由普通字符与元字符组成

3、普通字符包括大小写字母、数字、标点符号及一些其他符号

4、元字符是指在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符或表达式)在目标对象中的出现模式

3.正则表达式类型

基本正则表达式 (BRE :basic regular expression)
扩展正则表达式 (ERE:xtended regular expression)
编程语言支持的高级正则表达式

man 7 regex
可以使用 man手册帮助

基本正则表达式、扩展正则表达式的区别是不用写 \ (意思是转义)

grep sed 默认使用基础正则表达式
grep -E、 sed -r、 egrep、 awk 扩展正则表达式

4.正则表达式特点

元字符:预定义好的具有特殊含义的符号，这些符号能够进行通配

写正则表达式不难

可读性非常的差

二、基本正则表达式

1.元字符（字符匹配）

普通字符包括大小写字母、数字、标点符号及一些其他符号。
元字符是指在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符( 即位于元字符前面的字符)在目标对象中的出现模式。

元字符：

注册用户数字字母组成 20字符

\	转义字符，可以把一些特殊的符号转换成普通的符号字符，还可以把一些普通字符转换成特殊功能，例：\!、\n、\$等
^	表示匹配字符串开始的位置，匹配行首例如： ^a ^the ^# ^[a-z]
$	表示匹配字符串结束的位置，例: word$
^$	匹配空行
.	匹配除\n之外的任意的一个字符，表示任意单个字符例: go.d、 g…d
*	匹配前面子表达式0次或者多次，例: good、go.d
.*	前面字符可以出现无数次，一到正无穷次，但出现0次，不能匹配；最少出现一次
[ ]	匹配[ ]中包含的任一字符,单个字符
[^]	匹配指定范围外的任意单个字符,示例：[^zhou] [^a.z] [a.z]

[^] 匹配指定范围外的任意单个字符,示例：[^zhou] [^a.z] [a.z]
[:alnum:] 字母和数字
[:alpha:] 代表任何英文大小写字符，亦即 A-Z, a-z
[:lower:] 小写字母,示例:[[:lower:]],相当于[a-z]
[:upper:] 大写字母
[:blank:] 空白字符（空格和制表符）
[:space:] 包括空格、制表符 (水平和垂直)、换行符、回车符等各种类型的空白,比[:blank:]包含的范围广
[:cntrl:] 不可打印的控制字符（退格、删除、警铃...）
[:digit:] 十进制数字
[:xdigit:]十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号
\w #匹配单词构成部分，等价于[_[:alnum:]]
\W #匹配非单词构成部分，等价于[^_[:alnum:]]
\S     #匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\s     #匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意Unicode 正则表达式会匹配全角空格符

. 在方框中只代表 .

. 不在方框中代表单个字符

[^] 匹配指定范围外的任意单个字符,示例： [^a.z] [a.z]

标准格式需要加 ' ' 或者 " "

abc 匹配字符串”abc"，普通字符的匹配

[abcde ...] 匹配中括号内的任意单个字符
a[xyz]b axb、ayb、azb，不能匹配aab amb

\n ：匹配换行符
\t ：匹配制表符
\w ：匹配单词字符 [a-zA-Z0-9_]
\W ：匹配非单词字符 [^a-zA-Z0-9_]
\s ：匹配空白字符
\S ：匹配非空白字符
\d ：匹配数字
\D ：匹配非数字
. 表示匹配任意单个字符

字符组：

普通中括号包围的字符组:表示某单个字符匹配中括号内的任一字符即匹配成功

x[abc]z:可以匹配包含”xaz” 、 "xbz"、"xcz"的字符串

取反表示法：中括号内开头使用^，表示只要不是中括号中的字符就匹配

x[^abc]z :可匹配包含"xdz"、“xez"等的字符串，但不能匹配包含"xaz”、“xbz”、“xcz”的字符串

范围表示法:

[a-z]:代表任一单个小写字母
[^a-z]:只要单个非小写字母的其它任一单个字符
[A-Z]:代表任一单个大写字母
[0-9]:代表任一单个数字

注:[0-59]   表示匹配0 、1、2、3、4、5、9 而不是0到59中间的数值

[a-z0-9A-Z]:代表任一字母或数字
[a-z0-9A-Z_]:代表任一字母、数字或下划线，即匹配单词字符 (word)
[A-z]或[a-Z]”: 建议不要使用这种横跨大小写字母的范围表达式，不同地方表达的含义不同,甚至有些按照字典顺序排序时，[a-d] 不是等价于abcd，而是等价于aBbCcDd。如果想要等价于abcd，应将locale环境设置为LC_ALL=C

特殊元字符在中括号中的匹配:
想要在中括号中匹配 ^ 需将其放在中括号的非开头位置，如 [a^]

想要在中括号中匹配 - 需将其放在开头位置或结尾位置，如 [abc-] 、 [-abc]

2.表示次数

*           #匹配前面的字符任意次，包括0次，贪婪模式：尽可能长的匹配
.*          #任意长度的任意字符  不包括0次     
\?          #匹配其前面的字符出现0次或1次,即:可有可无
\+          #匹配其前面的字符出现最少1次,即:肯定有且 >=1 次
\{n\}       #匹配前面的字符n次
\{m,n\}     #匹配前面的字符至少m次，至多n次
\{,n\}      #匹配前面的字符至多n次,<=n
\{n,\}      #匹配前面的字符至少n次

* 匹配前面子表达式出现0次或者多次

.* 任意长度的任意字符不包括0次至少出现1次

\? 匹配其前面的字符出现0次或1次,即:可有可无

\+ 匹配其前面的字符出现最少1次, 即:肯定有且 >=1 次

\{n\} 匹配前面的字符n次

\{m,n\} 匹配前面的字符至少m次，至多n次

\{n,\} 匹配前面的字符至少n次

\{,n\} 匹配前面的字符最多n次

3.位置锚定

^ #行首锚定, 用于模式的最左侧
$ #行尾锚定，用于模式的最右侧
^PATTERN$ #用于模式匹配整行 （单独一行  只有root）
^$ #空行   
^[[:space:]]*$ #  空白行    tab   换行  回车


\< 或 \b        #词首锚定，用于单词模式的左侧(连续的数字，字母，下划线都算单词内部)
\> 或 \b        #词尾锚定，用于单词模式的右侧
\     #匹配整个单词

\root\

4.分组或其他

分组：( ) 将多个字符捆绑在一起，当作一个整体处理，如：(root)+

后向引用：分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中，这些变量的命名

方式为: \1, \2, \3, ... 分组

\1 表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符

或者
或者：\|

三、扩展正则表达式（表示字符相差不大）

grep -E

egrep 默认使用的是扩展正则表达式

表示次数

* 匹配前面字符任意次
? 表示匹配前面的子表达式0或者1次
+ 表示匹配前面的子表达式1次以上（1次或多次）
{n} 匹配n次
{m,n} 至少m，至多n次
{,n} 匹配前面的字符至多n次,<=n，n可以为0
{n,} 匹配前面的字符至少n次,<=n，n可以为0

表示分组

( )
将括号里的内容看成一个整体

| 以或的方式匹配字符串

+ 表示匹配前面的子表达式1次以上（1次或多次）

？表示匹配前面的子表达式0或者1次

分组：() 将多个字符捆绑在一起，当作一个整体处理，如：$root$+
后向引用：\1, \2, ...

| 或者
a|b #a或b
C|cat #C或cat
(C|c)at #Cat或cat

实验：

匹配 qq号（一般qq号5到12位）

匹配手机号（一般11位）

匹配邮箱

四、grep

格式： grep [选项]… 查找条件目标文件

grep 默认使用基础正则表达式

-m #匹配#次后停止匹配到 #行停止

-v 显示不被pattern匹配到的行,即取反

-i 忽略字符大小写

-n 显示匹配的行号

-c 统计匹配的行数，统计匹配到的行数

-o 仅显示匹配到的字符串

-q 静默模式，不输出任何信息写脚本用哦

面试题： -A -B -C 这三个选项

-A #after, 后#行

-B #before, 前#行

-C #context, 前后各#行

-e 实现多个选项间的逻辑or关系如：grep –e ‘cat ' -e ‘dog' file

-w 匹配整个单词

-E 使用ERE，相当于egrep

-f file 根据模式文件，处理两个文件相同内容把第一个文件作为匹配条件 grep -f a b
-r 递归目录，但不处理软链接开始搜索目录
-R 递归目录，但处理软链接

面试题：

统计当前主机的连接状态 ss -nta | grep -v '^State' |cut -d" " -f1|sort |uniq -c

统计当前连接主机数 ss -nt |tr -s " "|cut -d " " -f5|cut -d ":" -f1 |sort|uniq -c

五、sed

sed 即 Stream EDitor，和 vi 不同，sed是行编辑器

Sed是从文件或管道中读取一行，处理一行，输出一行；再读取一行，再处理一行，再输出一行，直到最后一行。每当处理一行时，把当前处理的行存储在临时缓冲区中，称为模式空间（PatternSpace），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。一次处理一行的设计模式使得sed性能很高，sed在读取大文件时不会出现卡顿的现象。如果使用vi命令打开几十M上百M的文件，明显会出现有卡顿的现象，这是因为vi命令打开文件是一次性将文件加载到内存，然后再打开。Sed就避免了这种情况，一行一行的处理，打开速度非常快，执行速度也很快

1.sed概述

sed是一种流编辑器，流编辑器会在编辑器处理数据之前基于预先提供的一组规则来编辑数据流。
sed编辑器可以根据命令来处理数据流中的数据，这些命令要么从命令行中输入，要么存储在一个命令文本文件中。

2.sed的工作流程

sed 的工作流程主要包括读取、执行和显示三个过程∶

读取∶ sed 从输入流（文件、管道、标准输入）中读取一行内容并存储到临时的缓冲区中（又称模式空间，pattern space）
执行：默认情况下，所有的sed 命令都在模式空间中顺序地执行，除非指定了行的地址，否则sed 命令将会在所有的行上依次执行。
显示∶发送修改后的内容到输出流。在发送数据后，模式空间将会被清空。在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完。

在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完
注意∶ 默认情况下所有的sed命令都是在模式空间内执行的，因此输入的文件并不会发生任何变化，除非是用重定向存储输出。

3.sed与vi的区别

vi命令打开文件是一次性将文件加载到内存，然后再打开。

Sed就避免了这种情况，一行一行的处理，打开速度非常快，执行速度也很快。

4.基本用法

sed [option]... 'script;script;...' [input  file...]
     选项         自身脚本语法         支持标准输入管道

5.sed脚本语法及命令

单引号中间需要写脚本；脚本格式如下：

'地址+命令' 组成

地址：

1. 不给地址：对全文进行处理（比如行号）
2. 单地址：
   #：指定的行，$：最后一行
   /pattern/：被此处模式所能够匹配到的每一行，正则表达式
3. 地址范围：
   #,#     #从#行到第#行，3，6 从第3行到第6行
   #,+#   #从#行到+#行，3,+4 表示从3行到第7行
   /pat1/,/pat2/    第一个正则表达式和第二个正则表达式之间的行
   #,/pat/  从#号行为开始找到 pat为止 
   /pat/,#  找到#号个pat为止
4. 步进：~
     1~2 奇数行
     2~2 偶数行
sed -n 'n;p' testfile1		#打印偶数行
ed -n '2,${n;p}' testfile1

不给地址：对全文进行处理（比如行号）

命令

p 打印当前模式空间内容，追加到默认输出之后
Ip 忽略大小写输出
d 删除模式空间匹配的行，并立即启用下一轮循环
a [\]text 在指定行后面追加文本，支持使用\n实现多行追加
i [\]text 在行前面插入文本
c [\]text 替换行为单行或多行文本
w file 保存模式匹配的行至指定文件   seq 10 |sed -n '2wa.txt'
r file 读取指定文件的文本至模式空间中匹配到的行后    seq 10|sed '2r /etc/issue'
= 为模式空间中的行打印行号   sed '2=' /etc/passwd      sed -n -e '=;p' /etc/passwd
! 模式空间中匹配行取反处理seq 10 |sed -n '1~2!p'
q           结束或退出sed     seq 10 | sed '3q'

①sed脚本语法：地址+sed自己脚本命令，地址即范围例如全文或第一行，第一行至第三行等范围

②sed脚本命令：

p 打印当前模式空间内容使用时关闭自动打印功能结合 -n 选项使用

q 结束或退出sed

d 删除模式空间匹配的行，并立即启用下一轮循环

a [\]text 在指定行后面追加文本，支持使用\n实现多行追加

i [\]text 在行前面插入文本

c [\]text 替换行为单行或多行文本

= 为模式空间中的行打印行号

w file（文件）保存模式匹配的行至指定文件

r file 读取指定文件的文本至模式空间中匹配到的行后

地址范围：

不给地址：对全文进行处理（比如行号）

#,# #从#行到第#行

/pat1/,/pat2/ 第一个正则表达式和第二个正则表达式之间的行

步进：~
1~2 奇数行
2~2 偶数行

高级用法：

sed -n 'n;p' testfile1 #打印偶数行
ed -n '2,${n;p}' testfile1

面试题：

如何打印一段时间间的日志

有一段时间本机访问量过高，如何查看日志提取出访问量前十的信息：

1.使用提取命令 (cut、awk、sed) 提取出ip地址的那一列

2使用sort按数字排序，将相同的地址整合到一起
3使用uniq -c统计出数量
4.使用sort 数字数字倒序排序
5.最后用head 取前十

6.sed选项

常用选项：

-n 不输出模式空间内容到屏幕，即不自动打印
-e 多点编辑[root@www data]#sed -n -e '/^r/p'  -e'/^b/p' /etc/passwd
-f FILE 从指定文件中读取编辑脚本
-r, -E 使用扩展正则表达式
-i.bak 备份文件并原处编辑

-i.bak 备份文件并原处编辑

-n 不输出模式空间内容到屏幕，即不自动打印，关闭自动打印

7.sed查找替换使用

s/pattern/string/修饰符 查找替换,支持使用其它分隔符，可以是其它形式：s@@@，s###
替换修饰符：
g 行内全局替换
p 显示替换成功的行
w   /PATH/FILE 将替换成功的行保存至文件中
I,i   忽略大小写

格式：sed '/可使用正则表达式选择范围/' s/查找内容/替换内容/g

g表示全文，固定格式的///可以用###等符号替换

注意：查找内容可使用正则表达式，替换内容不可使用正则表达式

-i选项备份selinux配置文件后缀加.bak 在config文件中找到SELINUX=enforcing修改为SELINUX=disabled，g表示所有搜索到的内容都替换。

分组替换：

只有扩展正则表达式才可以实现分组替换

分组后向引用

( )内的按顺序标为123 ，引用时\1调用第一个()的内容，\n表示调用第n个()的内容。

.*表示任意长度字符不管是什么字符

\1 表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符

-n选项关闭自动打印，-r 选项开启扩展正则表达式

's///'查找替换标准格式。三个()括起来的内容分别表示元素123，调用时改变调用顺序打印即可改变内容顺序

取ip地址

方法一：

ifconfig ens33 |sed -nr 's/.*inet (.*) netmask.*/\1/p'

#查看ens33的网卡信息传给sed处理，-n选项关闭自动打印，-r选项开启扩展正则表达式
's///'查找替换标准格式，.*inet 表示以inet为止的前面所有字符 (.*) 括号表示使用反向引用
.*表示该处的任意字符 netmask.*表示以netmask开头后面的所有字符。\1表示反向引用第一个()的
内容，p表示打印出来。

方法二：

ifconfig ens33|sed -rn '2s/.*inet ([0-9.]+) .*/\1/p'

8.变量

使用sed查询是可以直接调用变量，注意必须用“ ”号或者俩个双引号，单引号不识别变量

下回分析

修改端口

修改网卡

变量

提取版本号

提取网卡名

提取0644

你可能感兴趣的:(正则表达式)

SpringBoot日志脱敏：敏感信息保护全面指南 Clf丶忆笙 spring boot 后端 java 日志脱敏
文章目录一、日志脱敏概述与核心概念1.1什么是日志脱敏1.2为什么需要日志脱敏1.3常见需要脱敏的敏感信息类型1.4脱敏技术核心原理二、SpringBoot基础日志脱敏实现2.1基于正则表达式的简单脱敏2.2在SpringBoot中集成基础脱敏2.3基础实现的优缺点分析三、基于注解的高级脱敏方案3.1自定义脱敏注解3.2实现自定义JSON序列化器3.3在实体类中应用脱敏注解3.4测试与验证四、Sp
【Python练习】035. 编写一个函数，实现简单的文本搜索功能视睿从零开始学习机器人 python 开发语言机器人算法人工智能
035.编写一个函数，实现简单的文本搜索功能035.编写一个函数，实现简单的文本搜索功能示例代码代码解释测试结果注意事项多种实现方法方法一：使用字符串内置方法方法二：使用正则表达式方法三：使用列表推导式方法四：使用KMP算法方法五：使用第三方库035.编写一个函数，实现简单的文本搜索功能示例代码importredefsimple_text_search(text,pattern):"""在文本中搜
数据安全审计平台的三大关键技术：日志分析、行为监测与智能告警 KKKlucifer 安全算法
在数字化浪潮中，数据安全审计是企业守护核心资产的“瞭望塔”。通过日志分析、行为监测、智能告警三大技术，数据安全审计平台构建起“全流程监控-异常识别-快速响应”的闭环，为数据安全筑牢防线。以下从技术原理、实践价值与行业应用展开解析。日志分析：数据安全的“DNA图谱”1.多源日志融合技术实现：通过Agent采集操作系统、数据库、网络设备等200+日志源，利用正则表达式、NLP技术解析非结构化日志（如“
LeetCode Top100特训九筒- LeetCode 算法力扣
更新中……两数相加盛水最多的容器电话号码的字母组合删除链表的倒数第N个结点字母异位词分组寻找两个正序数组的中位数合并区间不同路径（与最小路径和类似）正则表达式匹配颜色分类单词搜索只出现一次的数字合并K个升序链表接雨水移除元素最长有效括号不同的二叉搜索树验证二叉搜索树对称二叉树从前序与中序遍历序列构造二叉树最长连续序列排序链表乘积最大子数组编辑距离最小栈最小覆盖子串计算右侧小于当前元素的个数柱状图中
Python正则表达式实战指南 Monkey的自我迭代 mysql 数据库 java python
一正则表达式库正则表达式是文本处理中不可或缺的强大工具，Python通过re模块提供了完整的正则表达式支持。本文将详细介绍re模块中最常用的match()、search()和findall()函数，以及贪婪模式与非贪婪模式的区别，帮助读者掌握Python中正则表达式的核心用法。1.re.match()函数：从字符串开头匹配re.match()是正则表达式最基本的函数之一，它尝试从字符串的起始位置匹
C语言正则表达式使用详解
标准的C和C++都不支持正则表达式，但有正则表达式的函数库提供这功能.C语言处理正则表达式常用的函数有regcomp()、regexec()、regfree()和regerror()。使用正则表达式步骤：1)编译正则表达式regcomp()2)匹配正则表达式regexec()3)释放正则表达式regfree()4)获取regcomp或者regexec产生错误，获取包含错误信息的字符串函数声明如下：
正则表达式基本用法（notepad++）丨封尘绝念斩丨正则表达式
1.启动Notepad++并打开一个文本文件。点击菜单栏的"搜索"，然后选择"查找"或"替换"。2.学习基本的匹配字符："."表示匹配任意字符。"\d"表示匹配数字字符。"\w"表示匹配字母、数字和下划线字符。"\s"表示匹配空白字符。"[abc]"表示匹配字符"a"、"b"或"c"中的任意一个。3.学习特殊字符和量词："^"表示匹配字符串的开头。"$"表示匹配字符串的结尾。"*"表示匹配前面的字
正则表达式-元字符及描述 dianaixun1635 java scala javascript ViewUI
元字符描述\将下一个字符标记符、或一个向后引用、或一个八进制转义符。例如，“\\n”匹配\n。“\n”匹配换行符。序列“\\”匹配“\”而“\(”则匹配“(”。即相当于多种编程语言中都有的“转义字符”的概念。^匹配输入字行首。如果设置了RegExp对象的Multiline属性，^也匹配“\n”或“\r”之后的位置。$匹配输入行尾。如果设置了RegExp对象的Multiline属性，$也匹配“\n”
notepad++正则表达式痞子IT 嵌入式开发语言 xml c语言
notepad++正则表达式使用笔记：1.查找空行：^\s*\r\n2.排除以（开头的行：^(?!（).*$3.查找第二行以A-D开头的情况：(\r\n)(^[A-D])4.查找不含有helloworld的行：^(?!.*helloworld).*$5.查找不以com结尾的字符串：^.*?(?|"']|"[^"]*"|'[^']*')*?(?:/>|>.*?)11.查找非换行空白：(\s)(?)及
爬虫-数据解析打酱油的； python自动化+爬虫爬虫
1.解析概述特性re(正则表达式)bs4(BeautifulSoup)xpath(lxml)pyquery本质文本模式匹配HTML/XML解析器(DOM树操作)XML路径语言(节点导航)jQuery式CSS选择器(封装lxml)学习曲线陡峭中等中等简单(熟悉jQuery/CSS)灵活性极高(处理任意文本)高(容错好，DOM操作)高(路径、轴、谓词)高(jQuery语法)可读性差(模式复杂时难懂)好
爬虫-正则表达式打酱油的； python自动化+爬虫爬虫 python
在线正则表达式测试OSCHINA.NET在线工具,ostools为开发设计人员提供在线工具，提供jsbin在线CSS、JS调试，在线JavaAPI文档,在线PHPAPI文档,在线Node.jsAPI文档,LessCSS编译器，MarkDown编译器等其他在线工具https://tool.oschina.net/regex/
2025B卷 - 华为OD机试七日集训第5期 - 按算法分类，由易到难，循序渐进，玩转OD 哪吒搬砖工逆袭Java架构师华为od 算法华为OD机试 2025B卷 java
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第5期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、逻辑分析第3天、逻辑分析第4天、字符串处理第5天、正则表达式第6天、深度优先搜索dfs第7天、深度优先搜索dfs六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605
字符串的模糊匹配方法介绍超级土豆粉前端 javascript typescript html
字符串的模糊匹配方法介绍目录字符串的模糊匹配方法介绍一、编辑距离（LevenshteinDistance）复杂度分析二、Jaro-Winkler距离复杂度分析三、最长公共子序列（LCS）复杂度分析四、模糊搜索（FuzzySearch）复杂度分析五、正则表达式复杂度分析六、第三方库复杂度分析总结在日常开发和数据处理中，我们经常会遇到需要判断两个字符串是否“相似”或“接近”的场景，这时就需要用到字符串
Python词法分析器：从概念到实践凡狗蛋
本文还有配套的精品资源，点击获取简介：Python词法分析器是编程语言处理的关键环节，负责将源代码解析为有意义的标记或符号序列。本简介详细介绍了词法分析、正则表达式、分词、词法规则、词法分析器生成器以及编译原理等核心概念，并展示了如何使用Python内置的re模块和第三方库ply实现词法分析器，为进一步理解编程语言的工作原理和构建自定义编程语言打下基础。1.词法分析器的作用与目的词法分析器是编译器
如何记住js的正则表达式 HebyH_ javascript 正则表达式数据库
正则表达式（RegularExpressions）是处理字符串的强大工具，但确实需要一些记忆和练习才能掌握。以下是一些帮助你记忆JavaScript正则表达式的方法和常用模式：1.基础结构记忆法记住正则表达式的基本结构：/pattern/flags-斜杠包围模式，后面可跟标志例如：/hello/gi-匹配"hello"，全局且不区分大小写2.常用元字符记忆口诀"点星加问，花括号量".匹配任意单个字
正则表达式虎皮辣椒小怪兽 Linux 正则表达式
文章目录一、什么是正则表达式二、第一类正则三、第二类正则一、什么是正则表达式正则表达式（RegularExpression）是用于匹配字符串模式的工具。它可以高效地实现字符串的搜索、替换、验证等操作二、第一类正则元字符：指那些在正则表达式中具有特殊意义的专用字符，如：点(.)星(*)问号(?)等。前导字符：即位于元字符前面的字符abc*或aooo.1、.任意单个字符，除了换行符[root@loca
python爬虫正则表达式使用说明 yuwinter Python python 爬虫正则表达式
Python爬虫和正则表达式是自动化网络数据提取中常用的两种技术。本文将详细介绍如何使用Python编写爬虫，结合正则表达式提取网页中的数据。一、基础知识点1.安装必要库爬虫通常需要使用库来处理HTTP请求和解析网页，常用库有：requests：用于发送HTTP请求，获取网页内容。re：Python自带的正则表达式库，用于模式匹配和提取数据。BeautifulSoup（可选）：如果你需要更高级的网
python：正则表达式符号初于青丝mc终于白发 python相关正则表达式 python pycharm
本次给大家带来的是python中的正则表达式符号的复习呀，还记得清楚嘛^^？匹配零次或一次前面的分组*匹配零次或多次前面的分组+匹配一次或多次前面的分组{n}匹配n次前面的分组{n，}匹配n次或更多次前面的分组{，m}匹配零次或m次前面的分组{n，m}匹配至少n次，至多m次前面的分组{n，m}？、*？、+？对前面的分组进行非贪心匹配^spam意味着字符串必须以spam开始spam$意味着字符串必须
Python：正则表达式慕婉0307 python基础知识点正则表达式
正则表达式是处理文本数据的强大工具，Python通过re模块提供了完整的正则表达式功能。本文将详细介绍Python正则表达式的使用方法，包括基础语法、高级技巧和re模块API的详细解析。一、正则表达式基础1.1什么是正则表达式正则表达式(RegularExpression)是一种用于匹配字符串中字符组合的模式，可以用于搜索、替换和验证文本数据。1.2Python中的re模块Python通过内置的r
正则表达式咸鱼时日翻身正则表达式
是指定一组与之匹配的字符串，限定符号a*a出现0或者多次a+a出现1次或者多次a？a出现0次或者1次a{2,5}出现在2到5次之间或运算法（cat|dog）匹配cat或者dog字符类[abz]+表示匹配的字符只能是中括号中的字母如果使用了^则为取反符号元字符、/d代表数字字符/w代表英文字符数字加上下划线/s代表tab和换行符其中/加大写的DWS则表示取反符号.表示任意字符不包括换行符号^a匹配行
深入理解 grep 命令：从基础匹配到正则表达式的全面指南线条1 正则表达式 java 数据库
一、grep命令概述在Linux系统中，grep（GlobalRegularExpressionPrint）是一个强大的文本搜索工具，它能够使用正则表达式在文本文件中查找匹配的行，并将这些行输出。从系统管理员到开发人员，grep都是日常工作中不可或缺的工具，广泛应用于日志分析、代码搜索、数据过滤等场景。二、grep基础匹配用法1.普通文本匹配命令格式：grep"pattern"filename示例
Python网络数据采集的方法蚂蚁ai Python零基础 Python python 开发语言
听说还有很多小伙伴还不知道网络数据采集的方法，让我来看看都有谁，不说话我就点名了。我把教程分享在下面了，需要的小伙伴自己领取。（https://jq.qq.com/?_wv=1027&k=kYtMeTfp）一般情况下以下四种方式都是可以匹配到结果的，只是复杂程度不一致，根据情况进行选择。◾正则re的使用◾bs4的使用◾xpath◾PyQuery①Re（RegularExpression正则表达式）
python 海象运算符_python := 海象运算符伶邪 python 海象运算符
最近在做算法题越来越发现python写法真的挺好用的记下来map(lambdax:sum(x))中lambda代表匿名函数re.findall(r'0+|1+',s)是正则表达式:=海象运算符转if(n:=len(a))>10:print(f"Lististoolong({n}elements,expected10:print(f"Lististolong({len(a)}elements,exp
python := 海象运算符 challenge-linge it it
参考视频教程:**体系课-Go+Python双语言混合开发盯紧技术先机抓紧高薪机遇**最近在做算法题越来越发现python写法真的挺好用的记下来map(lambdax:sum(x))中lambda代表匿名函数re.findall(r’0+|1+’,s)是正则表达式:=海象运算符转背景：python3.8正式版最近更新了，其中PEP572中的海象运算符获得正式python版本的支持.我看了官网的文档
正则表达式
运用正则表达式进行爬虫就是把想要得到的信息爬取出来贪婪爬取和非贪婪爬取replace(正则表达式,新的内容)符合正则表达式的被替换成新的内容(返回值是String)split(正则表达式)按照正则表达式规则切割字符串(返回值是String[]),遍历数组就可以得到了分组其实就是把内容分组,然后用组号代替内容复制,这样就不用多写几遍练习:其实正则表达式不用背,以后要用的时候直接右键选择插件下载的选择
Java 正则表达式你都会上树？ Java java 正则表达式
基本语法元字符转义号\\限定符符号含义*指定前面内容可以出现0次及以上+指定前面内容可以出现1次及以上。至少会出现一次?指定前面内容可以出现0次或一次{n}指定前面的内容只能出现n次{n,}指定前面内容至少出现n次{n,m}指定前面内容至少出现n次但不多于m次选择匹配符符号解释|逻辑或的含义，符号两边内容有一个成立即可|分组组合和反向引用符分组常用分组构造形式说明(pattern)非命名捕获。捕获
ORACLE数据库转国产阿里OceanBase数据库
1.BLOB类型修改将接口内oracle.sql.BLOB改为java.sql.Blob2.REGEXP_LIKE判断函数正则表达式中字符转义问题OB的正则表达式使用的是标准的Linux模式,oracle是黑盒子,在处理部分转义符([]+)的时候,Oracle无需使用转义符,OB务必使用转义符,加/转义处理,例如在regexp_like(t.xx,’^(+|[0-9]+)$’)改为regexp_l
Oracle 进阶语法实战：从多维分析到数据清洗的深度应用(第四课) AI、少年郎 oracle 数据库
在《Oracle树形统计再进阶》(第三课)基础上，我们跳出传统SQL聚合框架，探索Oracle特有的高级语法特性，包括多维分析神器MODEL子句、数据清洗利器正则表达式、PL/SQL存储过程优化，以及基于执行计划的查询调优技巧。这些技术能解决传统方法难以处理的复杂场景，如动态列生成、不规则数据清洗、批量数据处理等。一、MODEL子句：多维数据建模与动态透视业务场景：动态生成各部门全年度各季度请假类
Qt 各种功能学习笔记栈不收 qt 学习笔记
目录1.Qt关于数据库1.1Qt链接数据库1.2将数据库的模型显示在控件中2.Qt关于控件2.1用正则表达式设置输入框只能输入正浮点数2.2设置QDateTimeEdit的时间格式和设置为当前时间1.Qt关于数据库1.1Qt链接数据库基础教学：使用Qt链接MySql数据库_qt连接mysql_栈不收的博客-CSDN博客需要注意的问题：在链接MySQL的时候，首先要确保MySQL已经安装成功在目录Q
【实战演练】运维工程师初试必胜指南：解析公司笔试真题与技巧分享江湖有缘运维工程师面试专栏运维服务器 Linux 面试求职
【实战演练】运维工程师初试必胜指南：解析公司笔试真题与技巧分享一、填空题1.第1题：修改网卡IP地址2.第2题：基本文件相关命令解释3.第3题：新建用户4.第4题：设置文件权限5.第5题：路由协议RIP6.第6题：ping命令相关7.第7题：创建目录8.第8题：正则表达式9.第9题：列出文件10.第10题：如何查看系统信息11.第11题：重命名文件12.第12题：修改用户密码13.第13题：如何向
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

( )	将括号里的内容看成一个整体
\|	以或的方式匹配字符串
+	表示匹配前面的子表达式1次以上（1次或多次）
？	表示匹配前面的子表达式0或者1次

Linux系统Shell脚本-----------正则表达式 、grep、 sed