etmonitor

Regular Expressions (1) ---- What is Regular Expressions?

正则表达式是常见常忘，所以还是记下来比较保险，于是就有了这篇笔记。

希望对大家会有所帮助。J

1．什么是正则表达式.............................................................................................................................................................. 2

2．正则表达式的起源............................................................................................................................................................. 2

3. 正则表达式使用祥解........................................................................................................................................................ 3

3.1基本语法.............................................................................................................................................................................. 3

3.1.1普通字符..................................................................................................................................................................... 3

3.1.2非打印字符................................................................................................................................................................. 3

3.1.3特殊字符..................................................................................................................................................................... 3

3.1.4字符集........................................................................................................................................................................... 4

3.1.5在字符集中使用元字符............................................................................................................................................. 5

3.1.6预定义字符集.............................................................................................................................................................. 5

3.1.7 限定符........................................................................................................................................................................... 6

3.1.8定位符........................................................................................................................................................................... 6

3.1.9 “.”元字符...................................................................................................................................................................... 7

3.1.10用 “|”表示选择.......................................................................................................................................................... 8

3.1.11用 “（）”表示分组.................................................................................................................................................. 8

3.1.12 “?”的补充说明.......................................................................................................................................................... 8

3.1.13给正则表达式添加注释......................................................................................................................................... 8

3.1.14操作符的运算优先级............................................................................................................................................... 8

3.2 高级话题............................................................................................................................................................................... 9

3.2.1反向引用..................................................................................................................................................................... 9

3.2.2在正则表达式中指定模式option........................................................................................................................... 9

3.2.3 Lookaround断言..................................................................................................................................................... 10

4. 正则表达式基本语法索引............................................................................................................................................ 11

5. 正则表达式高级语法索引.............................................................................................................................................. 15

6. 参考资料................................................................................................................................................................................. 17

7. 推荐工具................................................................................................................................................................................. 17

1．什么是正则表达式

简单的说，正则表达式是一种可以用于文字模式匹配和替换的强有力的工具。是由一系列普通字符和特殊字符组成的能明确描述文本字符串的文字匹配模式。

正则表达式并非一门专用语言，但也可以看作是一种语言，它可以让用户通过使用一系列普通字符和特殊字符构建能明确描述文本字符串的匹配模式。除了简单描述这些模式之外，正则表达式解释引擎通常可用于遍历匹配，并使用模式作为分隔符来将字符串解析为子字符串，或以智能方式替换文本或重新设置文本格式。正则表达式为解决与文本处理有关的许多常见任务提供了有效而简捷的方式。

正则表达式具有两种标准：

· 基本的正则表达式(BRE – Basic Regular Expressions)

· 扩展的正则表达式(ERE – Extended Regular Expressions)。

ERE包括BRE功能和另外其它的概念。

正则表达式目前有两种解释引擎：

· 基于字符驱动(text-directed engine)

· 基于正则表达式驱动(regex-directed engine)

Jeffery Friedl把它们称作DFA和NFA解释引擎。

约定：

为了描述起来方便，在本文中做一些约定：

1. 本文所举例的所有表达时都是基于NFA解释引擎的。

2. 正则表达式，也就是匹配模式，会简写为Regex。

3. Regex的匹配目标，也就是目标字符串，会简写为String。

4. 匹配结果用会用黄色底色标识。

5. 用1/+1=2 括起来的表示这是一个regex。

6. 举例会用以下格式：

Regex	Target String	Description
test	This is a test	会匹配test，testcase等

2．正则表达式的起源

正则表达式的“祖先”可以一直上溯至对人类神经系统如何工作的早期研究。Warren McCulloch 和 Walter Pitts 这两位神经生理学家研究出一种数学方式来描述这些神经网络。

1956 年, 一位叫 Stephen Kleene 的美国数学家在 McCulloch 和 Pitts 早期工作的基础上，发表了一篇标题为“神经网事件的表示法”的论文，引入了正则表达式的概念。正则表达式就是用来描述他称为“正则集的代数”的表达式，因此采用“正则表达式”这个术语。

随后，发现可以将这一工作应用于使用Ken Thompson 的计算搜索算法的一些早期研究，Ken Thompson是Unix 的主要发明人。正则表达式的第一个实用应用程序就是 Unix 中的qed 编辑器。从那时起直至现在正则表达式都是基于文本的编辑器和搜索工具中的一个重要部分。具有完整语法的正则表达式使用在字符的格式匹配方面上，后来被应用到熔融信息技术领域。自从那时起，正则表达式经过几个时期的发展，现在的标准已经被ISO(国际标准组织)批准和被Open Group组织认定。

3. 正则表达式使用祥解

最简单的正则表达式相信大家都已熟悉并且经常使用，那就是文字字符串。特定的字符串可通过文字本身加以描述；像 test这样的Regex模式可精确匹配输入的字符串”test”，但是它也可以匹配this is a testcase，这就不是我们想要得结果。

当然，使用正则表达式匹配等于它自身的精确字符串是没有价值的实现，不能体现正则表达式的真正作用。但是，假如要查找的不是test，而是所有以字母 t 开头的单词，或所有4个字母的单词，那该怎么办？这超出了文字字符串的合理范围。所以我们才需要深入地研究正则表达式。

3.1基本语法

虽然正则表达式并非一门专用语言，但它也有一些特殊的规定，也可以称之为基本语法。

正则表达式是由普通字符（例如字符 a 到 z）以及特殊字符（称为元字符）组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。

构造正则表达式的方法和创建数学表达式的方法一样。也就是用多种元字符与操作符将小的表达式结合在一起来创建更大的表达式。

可以通过在一对分隔符之间放入表达式模式的各种组件来构造一个正则表达式。

3.1.1普通字符

由所有那些未显式指定为元字符的打印和非打印字符组成。这包括所有的大写和小写字母字符，所有数字，所有标点符号以及一些符号。

3.1.2非打印字符

非打印字符也是普通字符，单独列出来便于参考。

Symbol	Description
/cx	匹配由x指明的控制字符。例如， /cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 'c' 字符。
/f	匹配一个换页符。等价于 /x0c 和 /cL。
/n	匹配一个换行符。等价于 /x0a 和 /cJ。
/r	匹配一个回车符。等价于 /x0d 和 /cM。
/s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ /f/n/r/t/v]。
/S	匹配任何非空白字符。等价于 [^ /f/n/r/t/v]。
/t	匹配一个制表符。等价于 /x09 和 /cI。
/v	匹配一个垂直制表符。等价于 /x0b 和 /cK。

Regex中可以使用非打印字符。/t会匹配一个tab字符(ASC||)，/r 会匹配一个回车(0x0D)，/n 会匹配一个换行符(0x0A)。应该注意的是：Windows使用/r/n表示一行的结束，而UNIX使用/n 。

同样，我们可以在Regex中使用16进制的ASCⅡ码或者ANSI标准码。在拉丁语中，版权符号的代码是0xA9，所以我们也可以这样来匹配版权符号 /xA9 。另外一个匹配tab的写法是：/x09 。但是注意，第一位的“0”必须去掉。

3.1.3特殊字符

特殊字符也叫做元字符，保留字符（Metacharactor），在Regex中表示特殊的意义，大部分的意思在不同的上下文中的意义是不同的，这里只列出最普遍的意义。

特殊字符共有11个：

Symbol	Description
$	匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性，则 $ 也匹配 '/n' 或 '/r'。要匹配 $ 字符本身，请使用 /$。
( )	标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符，请使用 /( 和 /)。
*	匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 /*。
+	匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 /+。
.	匹配除换行符 /n之外的任何单字符。要匹配 .，请使用 /。
[	标记一个中括号表达式的开始。要匹配 [，请使用 /[。
?	匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 ? 字符，请使用 /?。
/	将下一个字符标记为或特殊字符、或原义字符、或反向引用、或八进制转义符。例如， 'n' 匹配字符 'n'。'/n' 匹配换行符。序列 '//' 匹配 "/"，而 '/(' 则匹配 "("。
^	匹配输入字符串的开始位置，除非在方括号表达式中使用，此时它表示不接受该字符集合。要匹配 ^ 字符本身，请使用 /^。
{	标记限定符表达式的开始。要匹配 {，请使用 /{。
\|	指明两项之间的一个选择。要匹配 \|，请使用 /\|。

在元字符前加 / 转义符，可以把特殊字符当作普通字符来使用。

比如：如要要匹配 1+1=2 ，正确的正则表达式应该为1/+1=2。否则， + 会被当作特殊字符对待。

除了特殊字符，所有的其他字符都不应该加 / 。因为 / 也是一个特殊字符。/ 和普通字符组合在一起也可以创造一种特殊的意义。比如 /d 表示匹配所有的数字。

作为程序员，单引号和双引号不是特殊字符会也许让我们感到很惊讶。但这是正确的。因为我们在编程的时候，编程语言会知道引号之间的哪些字符表示特殊意义，编译器在把字符串x传递给regex解释引擎之前，会把它们处理成regex。比如，在C#中，如果我们要匹配 1/+1=2 ，在程序中我们要这样写： “1//+1=2” ，C#编译器会把 “//” ，处理为一个“/” 。同样，如果要匹配 C:/Temp ，首先，正则表达式要这样写 C://Temp，然后在程序中我们应该这样写：“ C:temp”。

3.1.4字符集

字符集描述了一组字符，Regex解释器会认为匹配字符集中的一个字符就可以认为匹配成功。

字符集用[ ]括起来即可。

比如gr[ae]y就可以匹配gray或者grey。

字符集只能匹配一个字符，gr[ae]y就不能和graey匹配。字符集中的字符顺序是任意的，得到的结果都是唯一的。

可以在字符集中用连字符“-”来表示一个范围。[0-9]的结果和[0123456789]的匹配结果都是相同的。字符集中的范围可以有多种。比如[0-9a-fA-F]表示匹配所有的16进制，包括大小写。也可以把范围和单个字符组合在一起用,[0-9a-fxA-FX]表示匹配所有的16进制或者一个字符X。字符集的顺序不会影响结果。

在字符集的开始标志“[”后面加上一个“^”符号，表示否定，表示匹配除字符集中定义的字符以外的所有字符。包括非打印字符和行结束符。

注意：字符集匹配的一个字符，而不是一个位置。所以。q[^u]的意义不是“q后面的字符不是u”。而是“q后面的字符可以是除了u以外的所有字符”。

q[^u]不会和Iraq匹配。

但是会和Iraq is a country匹配，因为q后面的空格字符是一个“不是u的字符”。

3.1.5在字符集中使用元字符

字符集中的元字符只能是 ‘]’, ‘/’, ‘^’, 和 ‘-‘ 。

其他元字符在字符集中都失去了特殊意义，表示的只是一个普通字符。也不需要用加“/”。

比如：

匹配一个“*”或者“+”，用[*+]就足够了。即使给他们加上“/”，regex解释器也会把他们忽略掉。

四种特殊字符的处理：

在字符集中要表示“]”，“^”和“-”需要在后面加上转义符“/”，来表示它们代表的分别是普通字符“]”，“^”和“-”。

也可以把它们放在一个不能表示特殊意义的位置，后一个方法比较好，因为他们不会影响可读性。

“^”

要想匹配一个“^”，可以把它放在除了紧跟“[”的任意一个位置。

Regex	String	Description
[x^]	A string with x and ^.	匹配x或者“^”

“]”

可以把“]”放在紧跟着“[”的位置，或者使用否定字符集。

Regex	String	Description
[]x]	A string with x and ]	匹配x或者“]”
[^]x]	A string with x and ]	匹配除了x和”] ”以外的所有字符

“/”

要想把“/”当作一个普通字符来匹配，而不是一个特殊字符，必须把“/”再用一个“/”括起来。

Regex	String	Description
[//x]	A string with x and /	匹配x或者“/”

“-”

连字符可以放在紧跟着“[”的后面，或者正好“]”的前面，或者紧跟着“^”的后面。

Regex	String	Description
[-x]	A string with x and -	匹配x或者“-”
[x-]	A string with x and -	匹配x或者“-”

3.1.6预定义字符集

因为很多字符集是经常使用的，所以Regex解释器预定义了一些常用字符集：

Regex	Meaning	Description
/d	[0-9]	所有数字
/w	[a-zA-Z]	表示所有的字符，和文化字体有关
/s	[ /t/r/n]	空格，回车和tab。和文化字体有关

预订一字符集可以既可以用在字符集里面，也可以用在字符集外面。

Regex	String	Description
/s/d	1+2=3	匹配后面紧跟着一个数字的空白符
[/s/d]	1+2=3	匹配一个单独的字符或者一个数字或者一个空白符

[/da-fA-F]和[0-9a-fA-F]的匹配结果是一样的。

同样，在预定义字符集前面加一个“^”符号表示否定。它们也有预先定义好的表示：

Regex	Meaning	Description
/D	[^/d]	非数字
/W	[^/w]	非字符，和文化字体有关
/S	[^/s]	非空格，回车和tab。和文化字体有关

在“[]”使用否定预订一字符集时要特别心。[/D/S]不等于[/^d/s]。[/^d/s]会匹配除了数字和空白符以外的所有字符。而[/D/S]会匹配要么不是一个数字，要么是空白符。因为数字不是空白符，空白符也不是数字，所以[/D/S]会匹配任意的字符。

3.1.7 限定符

限定符提供了一种简单方法，用于指定在模式中允许特定字符或字符集自身重复出现的次数。限定符始终引用限定符前（左边）的模式，通常是单个字符，除非使用括号创建模式组。

限定符有*或+或?或{n}或{n,}或{n,m}共6种。

Symbol	Description	Description
?	0次获1次
*	0次或n次
+	1次或n次
{min, max}	最少min次，最多max次	Max必须大于等于min。
{min，<不指定> }	最少min次，或者n次
{min}	精确的重复min次

在字符集后面使用 “?”，”*”，”+”，表示重复。会重复整个的字符集，而不是重复匹配的那个字符。

Regex	String	意义
[0-9]+	846，111	匹配数字
([0-9))+	846，111	匹配数字相同的数字

[0-9]+会匹配846，也会匹配111。

如果想要重复的只是匹配的那个字符，而不是整个字符集，则必须使用“反向引用”。

([0-9])/1+ 只会匹配111，而不会匹配846。

（第二部分高级话题会讲道）

如果目标string是 811116。则1111会被匹配。如果不想这样，则需要使用

lookahead和lookbehind。

（第二部分高级话题会讲道）

3.1.8定位符

到现在为止，我们已经熟悉了普通字符、特殊字符（元字符）和字符集。在这两种情况下，Regex匹配的都是一个字符。

定位符是另外一种，它不匹配字符，相反，它匹配的是一个位置。

定位符有几种：

Regex	Function	Description
^	第一个字符之前的位置	包含换行符
$	最后一个字符后面的位置	包含换行符
/A	总是匹配string的第一个位置	不包含换行符
/Z	总是匹配string的最后一个位置	不包含换行符

Regex	String	意义
^	Abc	匹配A之前的位置
$	Abc	匹配c后面的位置
^A	Abc	匹配A
^b	Abc	不能匹配
c$	Abc	匹配c
A$	Abc	不能匹配

词的边界

还有一种定位符匹配的是一个词（word）的边界。用/b表示。

词（word）是由可以组成词的字符组成（“word characters”），“word characters”就是可以组成词的字符，不包括非打印字符和回车换行。

有四种不同的位置被认为是词的边界：

第一个字符之前的位置，如果第一个字符是一个“word character”。
最后一个字符之后的位置，如果最后一个字符是一个“word character”。
介于词和非词之间的紧跟着词的位置。
介于非词和词之间的紧跟着非词的位置

所有的word characters都可以用/w来表示。

所有的non-word characters都可以用/W来表示。

/b匹配一个词的边界。

/B表示一个非词的边界的位置，它能匹配任意一个不是次的边界的位置。

3.1.9 “.”元字符

在正则表达式中，“.”是用的最多的一个元字符，同时，它也是最容易用错的一个。所以我们单独来讲。

“.”几乎匹配任何字符。唯一的一个例外是换行符。

这个例外存在是有历史原因的。第一个用正则表达式的工具是基于换行符的。它从文件中读取一行字符，然后用去匹配。因为在这些工具中，string中永远不可能有换行符，所以“.”也永远不会和换行符匹配。

现代的工具可以用正则表达式去和很大的一个string甚至整个文件去匹配。所以现在的Regex解释器都含有一个选项，激活以后就可以让“.”去匹配所有的字符，包括换行符。

“.”是一个非常强大的元字符。它可以让我们偷懒。但是我们要慎重的使用。我们看一个例子：

我们要匹配一个mm/dd/yy的格式的日期。但是我们可以让用户指定日期的分割符。一个简单的Regex是：/d/d./d/d./d/d这个看起来可以实现。它会很好的匹配04/09/07。问题是： 04409407也会被匹配。因为第三个4和第五个4都会被“.”匹配。这不是我们想要得结果。

/d/d[-/.]/d/d[-/.]/d/d是一个比上面的好的一个方法，用户可以指定“-”,“.”,“/”作为日期的分割符。因为“.”在字符集中不表示一个特殊字符，所以我们不需要在“.”之前加”/”。

但这个方法还不完美，它会匹配 99/99/99 , [0-1]/d[-/.][0-3]/d[-/.]/d/d也许会好一些。虽然它仍旧会匹配19/39/99, 。方法够用就好了，不必追求完美，如果这个是用来验证用户需求，可能还需要改进，如果只是用来分析一段code,或许已经足够了。

如果我们要匹配一段带双引号的字符串。听起来很容易，我们可以在两个双引号之间放任意多个任意字符。Regex可能会这么写：“.*”，这个会匹配put a “string” between double quotes.结果是对的，但是如果去匹配“"string one” and “string two””则得到的结果会是　“string one” and “string two” 。这不是我们要的结果。

所以这里我们可以用否定字符集来代替“[^”/r/n]*”

3.1.10用 “|”表示选择

前面已经讲过，用字符集可以匹配很多字符其中的一个，替换的作用稍有不同。

如果需要匹配 cat 或者 dog，可以这样写：cat|dog，也可以添加很多：cat|dog|mouse|fish。

但是注意：“|”是正则表达式中优先级最低的操作符。Regex解释器在匹配的时候，要么匹配“|”左边的所有，要么匹配“|”右边的所有。

3.1.11用 “（）”表示分组

可以使用圆括号来限制选择的范围。

上面的例子，如果想要限制替换，可以使用“（）”符号。

比如：

如果我们要匹配整个词而不是一个词的一部分。Regex可以这样写：/b(cat|dog)/b。

这告诉regex解释器先去寻找一个边界，然后要么是cat，要么是dog，然后在去寻找一个边界。如果忽略掉括号，regex解释器会这样来匹配：要么是cat跟在一个边界的后面，要么是dog后面有一个边界。

3.1.12 “?”的补充说明

“？”除了表示重复之外，还表示可选。

例如：colou?r，会匹配color和colour。

用括号括起来的表示这組是一个可选的项目。

例如：Nov(ember)?会匹配Nov和November。

用“？”标记起来，等于告诉regex解释器有两种选项：要么匹配括起来的，要么不匹配。但是，Regex解释器总会首先去匹配括起来的部分，只有当这个失败了，才会当做忽略处理。

效果就是，如果用Feb 23(rd)?去匹配Today is Feb 23^rd, 2004，结果总是Feb 23^rd，而不是Feb 23。

“？”也称作“懒元字符”,因为它总是尽可能的少的去匹配。

3.1.13给正则表达式添加注释

可以这样给正则表达式添加注释：

（?#comment here）

3.1.14操作符的运算优先级

Symbol	Function	Memo
/	转义符
(), (?:), (?=), []	括号
*, +, ?, {n}, {n,}, {n,m}	限定符
^, $, /anymetacharacter	定位符
\|	或

3.2 高级话题

这里会讨论一些稍微复杂一些的主题，比如backreference（反向引用），lookround，ifelsethen等等。

3.2.1反向引用

（）除了把regex括起来以外，还可以创建反向引用。对一个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到一个临时缓冲区中，所捕获的每个子匹配都按照在正则表达式模式中从左至右所遇到的内容存储。存储子匹配的缓冲区编号从 1 开始，连续编号直至最大 99 个子表达式。每个缓冲区都可以使用 '/n' 访问，其中 n 为一个标识特定缓冲区的一位或两位十进制数。
　　可以使用非捕获元字符 '?:', '?=', or '?!' 来忽略对相关匹配的保存。

例如：

Set(Value)?会匹配Set和SetValue。第一种情况下，/1的反向引用会是空，因为set没有匹配value。第二种情况下，/1的反向引用的值会变为value。

如果不想创建反向引用，可以使用特殊符号“：”，比如Set(?:Value)?。

使用反向引用

例如：我们要匹配一个html标记，和两个标记之间的内容。

我们可以这样写：<([A-Z][A-Z0-9]*)[^>]*>.*?。

首先创建一个[A-Z][A-Z0-9]的引用，然后后面用到这个引用。

注意：引用中不能引用自己。

正则表达式一个最重要的特性就是将匹配成功的模式的某部分进行存储供以后使用这一能力。请回想一下，对一个正则表达式模式或部分模式两边添加圆括号将导致这部分表达式存储到一个临时缓冲区中。可以使用非捕获元字符 '?:', '?=', or '?!' 来忽略对这部分正则表达式的保存。

所捕获的每个子匹配都按照在正则表达式模式中从左至右所遇到的内容存储。存储子匹配的缓冲区编号从 1 开始，连续编号直至最大 99 个子表达式。每个缓冲区都可以使用 '/n' 访问，其中 n 为一个标识特定缓冲区的一位或两位十进制数。

反向引用一个最简单，最有用的应用是提供了确定文字中连续出现两个相同单词的位置的能力。请看下面的句子：

Is is the cost of of gasoline going up up?

根据所写内容，上面的句子明显存在单词多次重复的问题。如果能有一种方法无需查找每个单词的重复现象就能修改该句子就好了。下面的正则表达式就可以实现这一功能。

/b([a-z]+) /1/b

在这个示例中，子表达式就是圆括号之间的每一项。所捕获的表达式包括一个或多个字母字符，即由[a-z]+ 所指定的。该正则表达式的第二部分是对前面所捕获的子匹配的引用，也就是由附加表达式所匹配的第二次出现的单词。'/1'用来指定第一个子匹配。单词边界元字符确保只检测单独的单词。如果不这样，则诸如 "is issued" 或 "this is" 这样的短语都会被该表达式不正确地识别。

3.2.2在正则表达式中指定模式option

可以在正则表达式中指定匹配模式

Symbol	Function	Memo
i	区分大小写	前面加“-”表示关闭选项
s	单行模式匹配
M	多行模式匹配

语法为(?ism)

可以只对表达式的一部分使用模式，有效范围为从这个位置起直到碰到下一个模式符为止。

也可以在前面加上“-”表示关闭这个选项。

比如(?i-sm)，表示区分大小写，关闭单行模式，打开多行模式。

3.2.3 Lookaround断言

Perl5新引进了一种构造，分别为Lookahead和Lookbeehind。它们也被称作“0宽度断言”。说它们是“0宽度”是因为它们和定位符差不多，都匹配的是一行或一个词的开始或结束。不同的地方是Lookahaed和Lookbehind匹配的是一个字符，而不是一个位置，但是却返回的不是匹配的字符结果，而是返回匹配的结果：匹配还是不匹配。这也是为什么称作它们是“断言”。它们不关心匹配结果是什么，它们只用来断言这个匹配结果有没有可能。

正向和反向的Lookahead

正向Lookahead的语法为：（?=Regex）

反向Lookahead的语法为：（?!Regex）

前面我们的例子q[^u]表示的意义是：‘q’后面的字符可以是除了u以外的所有字符”。但是，如果我们要得到的结果是：‘q’后面不是’u’，注意，不是：’q’后面的字符不是’u’。（q后面可以什么也没有，而字符集必须匹配一个字符），在这种情况下，我们就必须使用反向lookahead断言。可以这样写：q(?!u)。它的匹配结果就是: ‘q’后面不是’u’。

正向lookahead断言q(?=u)匹配的结果就是：‘q’后面是’u’。

重要：

可以在lookahead中使用任何合法的正则表达式，但是在lookbehind中就不可以。

Lookahead虽然被（）括起来，但它并不创建反向引用。如果想要把断言中的匹配结果存起来，必须单独使用（），像这样：(?=(regex))。

正向和反向的Lookbehind

正向Lookbehind的语法为：（?<=Regex）

反向Lookbehind的语法为：（?）

用’<’来区分是Lookahead还是Lookbehind。

Lookbehind和lookahead有作用是相同的，但是它作用在string后面。它告诉Regex解释器暂时跳过lookbehind，先去匹配lookbehind后面的是否匹配，如果后面的匹配了，才去检查lookbehind中的断言。

(?会匹配：’b’前面不是’a’。它不会匹配cab，但是会匹配一个单独的’b’或者bed、debt。

(?<=a)会匹配cab，但是不会匹配bed和debt。

重要：

不可以在Lookbehind中就不可以。

Lookbehind必须是定长的。所以‘?’‘*’‘+’不可以使用。

4. 正则表达式基本语法索引

Regular Expression Basic Syntax Reference

Characters
Character	Description	Example
Any character except `[/^$.\|?*+()`	All characters except the listed special characters match a single instance of themselves.	`a` matches `a`
`/` (backslash) followed by any of `[/^$.\|?*+()`	A backslash escapes special characters to suppress their special meaning.	`/+` matches `+`
`/xFF` where FF are 2 hexadecimal digits	Matches the character with the specified ASCII/ANSI value, which depends on the code page used. Can be used in character classes.	`/xA9` matches `©` when using the Latin-1 code page.
`/n`, `/r` and `/t`	Match an LF character, CR character and a tab character respectively. Can be used in character classes.	`/r/n` matches a DOS/Windows CRLF line break.
Character Classes or Character Sets [abc]
Character	Description	Example
`[` (opening square bracket)	Starts a character class. A character class matches a single character out of all the possibilities offered by the character class. Inside a character class, different rules apply. The rules in this section are only valid inside character classes. The rules outside this section are not valid in character classes, except `/n`, `/r`, `/t` and `/xFF`
Any character except `^-]/` add that character to the possible matches for the character class.	All characters except the listed special characters.	`[abc]` matches `a`, `b` or `c`
`/` (backslash) followed by any of `^-]/`	A backslash escapes special characters to suppress their special meaning.	`[/^/]]` matches `^` or `]`
`-` (hyphen) except immediately after the opening `[`	Specifies a range of characters. (Specifies a hyphen if placed immediately after the opening `[`)	`[a-zA-Z0-9]` matches any letter or digit
`^` (caret) immediately after the opening `[`	Negates the character class, causing it to match a single character not listed in the character class. (Specifies a caret if placed anywhere except after the opening `[`)	`[^a-d]` matches `x` (any character except a, b, c or d)
`/d`, `/w` and `/s`	Shorthand character classes matching digits 0-9, word characters (letters and digits) and whitespace respectively. Can be used inside and outside character classes	`[/d/s]` matches a character that is a digit or whitespace
`/D`, `/W` and `/S`	Negated versions of the above. Should be used only outside character classes. (Can be used inside, but that is confusing).)	`/D` matches a character that is not a digit
Dot
Character	Description	Example
`.` (dot)	Matches any single character except line break characters /r and /n. Most regex flavors have an option to make the dot match line break characters too.	`.` matches `x` or (almost) any other character
Anchors
Character	Description	Example
`^` (caret)	Matches at the start of the string the regex pattern is applied to. Matches a position rather than a character. Most regex flavors have an option to make the caret match after line breaks (i.e. at the start of a line in a file) as well.	`^.` matches `a` in `abc/ndef`. Also matches `d` in "multi-line" mode.
`$` (dollar)	Matches at the end of the string the regex pattern is applied to. Matches a position rather than a character. Most regex flavors have an option to make the dollar match before line breaks (i.e. at the end of a line in a file) as well. Also matches before the very last line break if the string ends with a line break.	`.$` matches `f` in `abc/ndef`. Also matches `c` in "multi-line" mode.
`/A`	Matches at the start of the string the regex pattern is applied to. Matches a position rather than a character. Never matches after line breaks.	`/A.` matches `a` in `abc`
`/Z`	Matches at the end of the string the regex pattern is applied to. Matches a position rather than a character. Never matches before line breaks, except for the very last line break if the string ends with a line break.	`./Z` matches `f` in `abc/ndef`
`/z`	Matches at the end of the string the regex pattern is applied to. Matches a position rather than a character. Never matches before line breaks.	`./z` matches `f` in `abc/ndef`
Word Boundaries
Character	Description	Example
`/b`	Matches at the position between a word character (anything matched by `/w`) and a non-word character (anything matched by `[^/w]` or `/W`) as well as at the start and/or end of the string if the first and/or last characters in the string are word characters.	`./b` matches `c` in `abc`
`/B`	Matches at the position between two word characters (i.e the position between `/w/w`) as well as at the position between two non-word characters (i.e. `/W/W`).	`/B./B` matches `b` in `abc`
Alternation
Character	Description	Example
`\|` (pipe)	Causes the regex engine to match either the part on the left side, or the part on the right side. Can be strung together into a series of options.	`abc\|def\|xyz` matches `abc`, `def` or `xyz`
`\|` (pipe)	The pipe has the lowest precedence of all operators. Use grouping to alternate only part of the regular expression.	`abc(def\|xyz)` matches `abcdef` or `abcxyz`
Quantifiers
Character	Description	Example
`?` (question mark)	Makes the preceding item optional. Greedy, so the optional item is included in the match if possible.	`abc?` matches `ab` or `abc`
`??`	Makes the preceding item optional. Lazy, so the optional item is excluded in the match if possible. This construct is often excluded from documentation because of its limited use.	`abc??` matches `ab` or `abc`
`*` (star)	Repeats the previous item zero or more times. Greedy, so as many items as possible will be matched before trying permutations with less matches of the preceding item, up to the point where the preceding item is not matched at all.	`".*"` matches `"def" "ghi"` in `abc "def" "ghi" jkl`
`*?` (lazy star)	Repeats the previous item zero or more times. Lazy, so the engine first attempts to skip the previous item, before trying permutations with ever increasing matches of the preceding item.	`".*?"` matches `"def"` in `abc "def" "ghi" jkl`
`+` (plus)	Repeats the previous item once or more. Greedy, so as many items as possible will be matched before trying permutations with less matches of the preceding item, up to the point where the preceding item is matched only once.	`".+"` matches `"def" "ghi"` in `abc "def" "ghi" jkl`
`+?` (lazy plus)	Repeats the previous item once or more. Lazy, so the engine first matches the previous item only once, before trying permutations with ever increasing matches of the preceding item.	`".+?"` matches `"def"` in `abc "def" "ghi" jkl`
`{n}` where n is an integer >= 1	Repeats the previous item exactly n times.	`a{3}` matches `aaa`
`{n,m}` where n >= 1 and m >= n	Repeats the previous item between n and m times. Greedy, so repeating m times is tried before reducing the repetition to n times.	`a{2,4}` matches `aa`, `aaa` or `aaaa`
`{n,m}?` where n >= 1 and m >= n	Repeats the previous item between n and m times. Lazy, so repeating n times is tried before increasing the repetition to m times.	`a{2,4}` matches `aaaa`, `aaa` or `aa`
`{n,}` where n >= 1	Repeats the previous item at least n times. Greedy, so as many items as possible will be matched before trying permutations with less matches of the preceding item, up to the point where the preceding item is matched only n times.	`a{2,}` matches `aaaaa` in `aaaaa`
`{n,}?` where n >= 1	Repeats the previous item between n and m times. Lazy, so the engine first matches the previous item n times, before trying permutations with ever increasing matches of the preceding item.	`a{2,}?` matches `aa` in `aaaaa`

5. 正则表达式高级语法索引

Regular Expression Advanced Syntax Reference

Grouping and Backreferences
Syntax	Description	Example
`(regex)`	Round brackets group the regex between them. They capture the text matched by the regex inside them that can be reused in a backreference, and they allow you to apply regex operators to the entire grouped regex.	`(abc){3}` matches `abcabcabc`. First group matches `abc`.
`(?:regex)`	Non-capturing parentheses group the regex so you can apply regex operators, but do not capture anything and do not create backreferences.	`(?:abc){3}` matches `abcabcabc`. No groups.
`/1` through `/9`	Substituted with the text matched between the 1st through 9th pair of capturing parentheses. Some regex flavors allow more than 9 backreferences.	`(abc\|def)=/1` matches `abc=abc` or `def=def`, but not `abc=def` or `def=abc`.
Modifiers
Syntax	Description	Example
`(?i)`	Turn on case insensitivity for the remainder of the regular expression. (Older regex flavors may turn it on for the entire regex.)	`te(?i)st` matches `teST` but not `TEST`.
`(?-i)`	Turn off case insensitivity for the remainder of the regular expression.	`(?i)te(?-i)st` matches `TEst` but not `TEST`.
`(?s)`	Turn on "dot matches newline" for the remainder of the regular expression. (Older regex flavors may turn it on for the entire regex.)
`(?-s)`	Turn off "dot matches newline" for the remainder of the regular expression.
`(?m)`	Caret and dollar match after and before newlines for the remainder of the regular expression. (Older regex flavors may apply this to the entire regex.)
`(?-m)`	Caret and dollar only match at the start and end of the string for the remainder of the regular expression.
`(?i-sm)`	Turns on the options "i" and "m", and turns off "s" for the remainder of the regular expression. (Older regex flavors may apply this to the entire regex.)
`(?i-sm:regex)`	Matches the regex inside the span with the options "i" and "m" turned on, and "s" turned off.	`(?i:te)st` matches `TEst` but not `TEST`.
Atomic Grouping and Possessive Quantifiers
Syntax	Description	Example
`(?>regex)`	Atomic groups prevent the regex engine from backtracking back into the group (forcing the group to discard part of its match) after a match has been found for the group. Backtracking can occur inside the group before it has matched completely, and the engine can backtrack past the entire group, discarding its match entirely. Eliminating needless backtracking provides a speed increase. Atomic grouping is often indispensable when nesting quantifiers to prevent a catastrophic amount of backtracking as the engine needlessly tries pointless permutations of the nested quantifiers.	`x(?>/w+)x` is more efficient than `x/w+x` if the second x cannot be matched.
`?+`, `*+`, `++` and `{m,n}+`	Possessive quantifiers are a limited yet syntactically cleaner alternative to atomic grouping. Only available in a few regex flavors. They behave as normal greedy quantifiers, except that they will not give up part of their match for backtracking.	`x++` is identical to `(?>x+)`
Lookaround
Syntax	Description	Example
`(?=regex)`	Zero-width positive lookahead. Matches at a position where the pattern inside the lookahead can be matched. Matches only the position. It does not consume any characters or expand the match. In a pattern like `one(?=two)three`, both `two` and `three` have to match at the position where the match of `one` ends.	`t(?=s)` matches the second `t` in `streets`.
`(?!regex)`	Zero-width negative lookahead. Identical to positive lookahead, except that the overall match will only succeed if the regex inside the lookahead fails to match.	`t(?!s)` matches the first `t` in `streets`.
`(?<=text)`	Zero-width positive lookbehind. Matches at a position to the left of which text appears. Since regular expressions cannot be applied backwards, the test inside the lookbehind can only be plain text. Some regex flavors allow alternation of plain text options in the lookbehind.	`(?<=s)t` matches the first `t` in `streets`.
`(?`	Zero-width negative lookbehind. Matches at a position if the text does not appear to the left of that position.	`(?` matches the second `t` in `streets`.
Continuing from The Previous Match
Syntax	Description	Example
`/G`	Matches at the position where the previous match ended, or the position where the current match attempt started (depending on the tool or regex flavor). Matches at the start of the string during the first match attempt.	`/G[a-z]` first matches `a`, then matches `b` and then fails to match in `ab_cd`.
Conditionals
Syntax	Description	Example
`(?(?=regex)then\|else)`	If the lookahead succeeds, the "then" part must match for the overall regex to match. If the lookahead fails, the "else" part must match for the overall regex to match. Not just positive lookahead, but all four lookarounds can be used. Note that the lookahead is zero-width, so the "then" and "else" parts need to match and consume the part of the text matched by the lookahead as well.	`(?(?<=a)b\|c)` matches the second `b` and the first `c` in `babxcac`
Comments
Syntax	Description	Example
`(?#comment)`	Everything between `(?#` and `)` is ignored by the regex engine.	`a(?#foobar)b` matches `ab`

6. 参考资料

正则表达式库 http://www.regexlib.com/

正则表达式 Blog http://blogs.regexadvice.com/

Mastering Regular Expressions (O'Reilly)，作者 Jeffrey Friedl http://www.regex.info/

.NET 正则表达式参考

http://msdn.microsoft.com/library/en-us/cpref/html/frlrfSystemTextRegularExpressions.asp

Jscript 正则表达式语法

http://www.msdn.microsoft.com/library/en-us/script56/html/js56jsgrpRegExpSyntax.asp

正则表达式信息 http://www.regular-expressions.info/

7. 推荐工具

本文所有的例子都是在EditPad Pro下验证的。

这个工具做的很好，有语法检查和高亮显示功能，对写出正确的表达式很有帮助。极力推荐J

下载地址：http://www.editpadpro.com/

另一个工具是：The Regulator.

这个工具是针对。NET平台的，用的是.NET实现的正则表达式类库。如果要在.NET中验证表达式，这个工具不可或缺。

下载地址：http://royo.is-a-geek.com/iserializable/regulator/

也可以在这里找到：//xafile/Share/Public/Bond/Regex

你可能感兴趣的:(正则表达式)

Kate文本编辑器 v24.12.9013 开源高级文本代码编辑器 SSASASA11 编辑器
链接：https://pan.quark.cn/s/5577e74ab648Kate是一个可以跨平台使用的免费高级文本编辑器，支持标签页、代码高亮、显示行号、显示缩略图的滚动条、多文件查找、横向或者纵向显示多个视图等众多高级特性。软件功能1、双击当前标签页创建新标签页。2、支持启用/禁用自动换行。3、强大的多文件查找和替换功能。利用这个功能可以一键查找/替换所有已打开的文本中的内容。支持正则表达式
python 自动化数据提取之正则表达式_python 正则提取(2) m0_60607245 程序员 python 学习面试
一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具工具都帮大家整理好了，安装就可直接上手！三、最新Python学习笔记当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理
deepseek_各个版本django特性终是蝶衣梦晓楼 django 数据库 python
以下是Django2.0至5.0的主要区别总结，按版本特性分类说明：1.Django2.0的主要变化Python支持仅支持Python3.4+，不再兼容Python2.x。路由系统弃用url()，引入path()和re_path()替代，path()默认不支持正则表达式，但提供内置转换器（如）进行参数类型匹配。支持更简洁的URL配置语法（例如path('articles//',views.year
正则表达式regex GotoMeiben 正则表达式
工具网站：RegExr:Learn,Build,&TestRegEx正则表达式（RegularExpression,Regex）是一种强大的字符串匹配工具，广泛用于文本搜索、数据处理和输入验证等场景。无论是Python、Java、JavaScript还是Shell脚本，Regex都是不可或缺的技能。本文将深入介绍正则表达式的各种用法，包括：基本匹配（字母、数字）特殊符号^$\b量词{}*+?字符类
xml:schema详解 yippeelyl Android java
XMLSchema详解博客分类：XMLXML数据结构正则表达式Struts什么是Schema？在计算机软件中，Schema这个词在不同的应用中有不同的含义，可以翻译为：架构、结构、规则、模式等。在XML中，Schema指的是定义和描述XML文档的规则，翻译为模式。XMLSchema与DTD的比较我们看例4-3所示的XML文档。例4-3employee.xml张三26zhangsan@sunxin.
shell编程之sed 小吃饱了 linux 运维服务器
1、sed工作原理sed是一种流编辑器，它是文本处理中非常有用的工具，能够完美的配合正则表达式使用，处理时，把当前处理的行存储在临时缓冲区中，称为模式空间，接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变。2、sed基本语法sedOPTIONS…[SCRIPT][INPUTFILE…]常用的选项：-n，--qui
Java(JavaEE)学习线路图太阳上的雨天 JAVA JAVA
Java学习线路图Java教程Java教程Java简介Java开发环境配置Java基础语法Java对象和类Java基本数据类型Java变量类型Java修饰符Java运算符Java循环结构Java分支结构JavaNumber类JavaCharacter类JavaString类JavaStringBuffer和StringBuilder类Java数组Java日期和时间Java正则表达式Java方法Ja
Go语言标准库之regexp aaronthon Golang
regexp是go支持正则表达式的相关内置模块。一、引入import"regexp"二、使用2.1regexp.MatchString使用正则表达式匹配字符串match,_:=regexp.MatchString("H(.*)!","Helloworld!")fmt.Println(match)//true2.2regexp.Match使用正则表达式匹配字符串match,_:=regexp.Mat
【Golang】golang中 regexp.MustCompile与regexp.MatchString的区别小镇学者 Golang golang mysql 开发语言
在Go语言中，regexp.MustCompile和regexp.MatchString都是regexp包中用于处理正则表达式的函数，但它们的功能和使用场景有所不同，下面为你详细介绍。功能概述regexp.MustCompile：用于将正则表达式字符串编译成一个*regexp.Regexp对象。如果编译过程中出现错误，它会触发一个panic。regexp.MatchString：用于检查一个字符串
c/c++获取当前路径及创建多级路径（windows与linux通用-跨系统）繁星璀璨G C/C++程序 windows linux
获取当前路径因为要使能windows与linux通用，所以windows下必须把“\”替换为“/”，此处使用正则表达式替换#include#ifdef_WIN32#include#else#include#include#endifstringgetCurrentPath(){charbuf[1024]="";stringpath=string();#ifdef_WIN32getcwd(buf,s
python正则表达式快速入门_Python 正则表达式入门 weixin_39955938 python正则表达式快速入门
本文主要为没有使用正则表达式经验的新手入门所写。转载请写明出处引子首先说正则表达式是什么？正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语：RegularExpression，在代码中常简写为regex、regexp或RE)，计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那
python正则表达式必知必会的基础豆子前端 python基础 python 正则表达式
文章目录正则表达式re.match()和re.search()SRE_Matchobjectre.match()re.search()（重点）re.flags小结re.sub()re.split()re.findall()re.fullmatch()re.compile()小结方法分类注意细节正则表达式网站参考资料正则表达式本文主要讲的是正则表达式在python中的简单使用，只介绍关键的几个方法函
JAVA基础知识总结（2025速通）三剑走偏锋o.O java 开发语言
文章目录前言final关键字1、修饰属性或者局部变量【掌握】2、方法【掌握】3、类【掌握】4、应用场景【理解】1、常量2、修饰属性3、修饰局部变量4、修饰方法5、修饰类Object类详解1、常用方法【掌握】2、了解的方法【了解】3、学习反射之后要掌握的方法【了解】4、学习线程之后要掌握的方法【了解】字符串处理类1、java.lang.String类的使用【掌握】2、正则表达式【了解】3、Strin
正则化（Regularization）和正则表达式（Regular Expression）区别 Dontla 正则表达式
文章目录1.**正则化（Regularization）**2.**正则表达式（RegularExpression）**关键区别为什么名字相近？正则化（Regularization）和正则表达式（RegularExpression）不是同一个概念，它们是两个完全不同的术语，应用于不同的领域。1.正则化（Regularization）领域：机器学习/统计学。定义：正则化是一种用于防止模型过拟合（Ove
正则表达式匹配一次 zzyh123456 正则表达式 mysql 数据库
下面是一个概念性的示例，说明如何使用正则表达式来找到文本中的URL，并假设我们将基于这个URL的存在来构思一篇文章。正则表达式示例首先，定义正则表达式来匹配URL：regexhttps:\/\/www\.naquan\.com\/这个正则表达式会匹配字符串https://www.51969.com/。假设的Python脚本假设你有一个Python脚本，它使用正则表达式来查找文本中的URL，并基于这
爬虫快速上手之正则表达式总结 Athena945 python 正则表达式正则表达式 python
目录一、正则表达式二、查找相关方法三、re.Match类的使用四、re.compile()方法的使用五、正则修饰符六、标点符号的特殊意义七、字母的特殊含义八、正则替换九、贪婪模式和非贪婪模式十、正则表达式小结一、正则表达式1、概念正则表达式是一个特殊的字符序列，通常被用来检索、替换那些符合某个模式（规则）的文本；在python中需要通过正则表达式对字符串进行匹配的时候，可以使用re模块实现全部的正
Python学习心得-正则表达式 NKUer_there python python
#这是一个示例Python脚本。#按⌃R执行或将其替换为您的代码。#按双击⇧在所有地方搜索类、文件、工具窗口、操作和设置。#正则表达式学习心得importre#importre是必要的操作#正则表达式用以匹配文本regex1=r'\d\d\d-\d\d\d-\d\d\d\d'#或者等效为regex2=r'\d{3}-\d{3}-\d{4}'#利用re模块compile创建regex对象，即所谓的正
python字符串与正则表达式的应用上机小学生的拼搏高级程序语言
一、实验目的和要求目的：①了解字符串编码规则②掌握字符串索引③掌握字符串操作④掌握正则表达式二、实验数据记录、处理及结果分析（1）上课练习题，检查字符串是否合法，长度8-16位，支持大小写当输入内容为Helloworld#123764356788时：当输入内容为Helloworld#6788时：程序段为：importredefchecklen(pwd):returnlen(pwd)>=8andle
Python--正则表达式索然无味io Python安全开发 python 正则表达式开发语言 windows 网络安全安全 web安全
1.日志打印与终端颜色控制1.1使用loguru打印日志fromloguruimportloggerlogger.debug("调试信息")logger.info("普通信息")logger.warning("警告信息")logger.error("错误信息")logger.success("成功信息")1.2终端颜色控制（Colorama）Colorama库用于控制终端输出的颜色和样式。字体颜色
Assembly语言的正则表达式夏梓蕙包罗万象 golang 开发语言后端
Assembly语言的正则表达式：深入解析引言在计算机科学领域，正则表达式（RegularExpressions，简称为Regex）被广泛应用于字符串处理和模式匹配。它是一种高效的文本处理工具，能够帮助开发者在复杂字符串中找出特定模式。随着编程语言和开发环境的不断演进，正则表达式的实现也逐步渗透到了不同的语言之中，包括低级且强大的Assembly语言。本文将深入探讨Assembly语言中的正则表达
Python正则懒大王爱吃狼 python python 开发语言 Python基础学习 python学习
正则表达式（RegularExpressions，简称regex）是一种强大的文本处理工具，可以用于搜索、替换和解析字符串。Python的re模块提供了对正则表达式的支持。以下是一些基本用法和示例：导入re模块首先，你需要导入Python的re模块：importre基本匹配匹配单个字符.匹配除换行符以外的任意单个字符。[]匹配括号内的任意一个字符。例如[abc]匹配a、b或c。[^...]匹配不在
选择开发代码审计工具的编程语言需要结合具体场景和技术需求，不同语言在性能、生态、开发效率等方面各有优劣 rockmelodies python 代码复审网络安全安全架构
选择开发代码审计工具的编程语言需要结合具体场景和技术需求，不同语言在性能、生态、开发效率等方面各有优劣。以下是主要语言的对比及适用场景：1.Python优势：快速开发：语法简洁，适合快速搭建原型或小型工具。文本处理：正则表达式和字符串操作能力极强，适合模式匹配（如漏洞规则扫描）。丰富生态：有Bandit、Semgrep（部分组件）等成熟工具的底层支持，可直接调用现成的安全分析库。跨语言支持：通过抽
一个财务做的python代码--PDF发票文件信息提取宾不可 pdf python 职场和发展
一、引言（我为什么做）随着国家不断推行数字发票，现在工作中越来越多的电子发票被收取和开具。这给财务人员高效登记大量发票信息提供了充足的环境。日常中，手动从每张发票中提取关键信息并录入Excel表格不仅耗时费力，还容易出错。本文提出了一种基于Python的自动化解决方案，该方案利用pdfplumber库从PDF格式的电子发票中提取文本信息，并结合正则表达式进行信息匹配和清洗，最后将整理好的数据自动写
15. MySql高级之常用SQL技巧☆ 喵先生呢 #MySql高级 mysql
文章目录MySql高级之常用SQL技巧☆1.SQL执行顺序2.正则表达式使用3.MySQL常用函数3.1数字函数3.2字符串函数3.3日期函数3.4聚合函数☆MySql高级之常用SQL技巧☆1.SQL执行顺序编写顺序selectdistinctfromjoinONwheregroupbyhavingorderbylimit执行顺序fromonjoinwheregroupbyhavingselect
正则表达式匹配空值 wukurua 正则表达式正则表达式
.{0}可匹配空值例如:port=(.{0})可匹配port=，匹配结果为：这个方法适用于这个字段不一定有值，例如有时port=80，有时port=，这时候就可以这样写:port=(.{0}|\d+)把空值放在前面，先判断是否为空完再判断是否满足值，避免出现因为优先匹配值而忽略了空值的判断，例如：port=(.*|.{0})去匹配port=824413，结果为：与本意相违背。
Rasa：开源的机器学习框架 Indra_ran 开源机器学习人工智能 linux centos 运维
一、Rasa简介Rasa是一套用来构建基于上下文的AI小助手和聊天机器人框架。分为两个主要的模块：NLU：自然语言理解模块，实现意图识别以及槽值的提取，将用户的输入转化为结构性数据，在训练过程中，为了提高从用户信息的实体识别能力，采用了预先训练的实体提取器Pre-trainedEntityExtractors，正则表达式Regexes，同义词Synonyms等RasaCore：对话管理模块，也是一
第一天：爬虫介绍朱剑君 Python爬虫训练营爬虫 python
每天上午9点左右更新一到两篇文章到专栏《Python爬虫训练营》中，对于爬虫有兴趣的伙伴可以订阅专栏一起学习，完全免费。键盘为桨，代码作帆。这趟为期30天左右的Python爬虫特训即将启航，每日解锁新海域：从Requests库的浪花到Scrapy框架的深流，从反爬迷雾中的破局到数据清洗的澄澈。我们拆解网页结构如同解读星图，让XPath与正则表达式化作导航罗盘。每个深夜的代码调试，终将凝结成破晓时的
第三天：爬取数据-urllib库. 朱剑君 Python爬虫训练营 python 爬虫
每天上午9点左右更新一到两篇文章到专栏《Python爬虫训练营》中，对于爬虫有兴趣的伙伴可以订阅专栏一起学习，完全免费。键盘为桨，代码作帆。这趟为期30天左右的Python爬虫特训即将启航，每日解锁新海域：从Requests库的浪花到Scrapy框架的深流，从反爬迷雾中的破局到数据清洗的澄澈。我们拆解网页结构如同解读星图，让XPath与正则表达式化作导航罗盘。每个深夜的代码调试，终将凝结成破晓时的
微信小程序开发中的表单验证与数据提交大黄鸭duck. 微信小程序 notepad++小程序
微信小程序开发中的表单验证与数据提交是一个很重要的部分，保证用户输入的数据的准确性和合法性。下面我将为您详细讲解如何进行表单验证和数据提交。一、表单验证在微信小程序开发中，我们可以使用正则表达式来进行表单验证。正则表达式是一种用来匹配字符串的强大工具，可以方便地进行数据的校验。引入正则表达式在小程序开发中，可以使用内置的正则表达式函数，比如RegExp。我们可以通过创建一个正则表达式对象，然后使用
Notepad++ 中删除所有以 “pdf“ 结尾的行秃小弟 notepad++
Notepad++中删除所有以“pdf”结尾的行操作步骤1.打开文件：在Notepad++中打开你需要处理的文本文件。2.打开查找和替换对话框：按快捷键Ctrl+F，打开“查找和替换”对话框。3.启用正则表达式模式：在对话框的底部，找到“搜索模式”部分，勾选“正则表达式”（Regularexpression）。4.输入正则表达式：在“查找内容”框中，输入以下正则表达式以匹配以“pdf”结尾的行：.
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n