正则表达式高级讲解

文/余晟

环视结构（look-around）

分析日志（或普通数据文件），恐怕是大家在日常工作中经常遇到的问题，正则表达式应当是理所当然的选择，简单的正则表达式应用，大家应该都会，即使暂时不熟悉，查查资料也能解决。但是，有时候情况复杂，看起来正则表达式往往“束手无策”，其实事实并非如此。在这篇文章中，我们通过一个具体的例子，来讲解正则表达式的高级技巧。

事情源于朋友的一封来信：

“最近我遇到个小问题：公司让我处理日志文件，说实话我还真是巧，本来没有打算学正则，要是没有正则可能我这次还不知道怎么处理。简单说一下，主要任务是逐行读取数据，对每行内容进行分析，第一行是字段名，其余是日志内容，行与行之间没有联系，每行中字段内容用逗号隔开（但前两个字段和最后两个字段没有引号包围），逗号中的数据内容是用引号包围起来的，因为在生成日志的时候，没有考虑到在引号中的数据会存在逗号，所以无法整齐用切割函数类似split()的函数以逗号进行分割。所以我想了一个办法：把引号中的逗号全部换成别的符号，这样就可以切割了，我想了个正则表达式『("[^"]*")』，用它来找出引号字段，然后将其中的逗号替换掉，再处理。不知道有没有其它更好的办法？”

示例：

2007-11-6 0:41:37,15,"58.47.136.198","Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NETCLR .1.4322)","gzzstresw,jgubrmkizefns55","","/ShowData.aspx","?db=cecdb&id=h17753&p=","大发财集团有限公司","http://www.somehost.net/somepath/07002.html","d1,浏览免费数据","","db=cecdb&dt=data&id=h17753&p=0",0,0

在这行数据中，共有两个字段包含引号且其中有逗号，它们分别是：

gzzstresw,jgubrmkizefns55

d1,浏览免费数据

类似的任务，许多读者应该都遇到过；类似的问题，或许大家都经历过——应用正则表达式时，有没有更好的办法？答案是：有，我们可以只用一个正则表达式，一个函数，实现完美的切分！

在详细的讲解之前，我们先罗列问题的特征：

1. 每行数据分为许多字段，以逗号分隔

2. 有的字段以引号包围，有的没有引号

3. 有引号的字段不可能出现在这一行的开头和结尾

4. 引号包围的字段中，可能存在逗号（补充一点，逗号不可能紧挨引号，而且这样的字段中逗号只有一个）

了解了这个问题，我们就可以着手考虑如何应用正则表达式了。我们知道，正则表达式的应用方式，通常有三大类：查找、替换和切分。查找，也叫提取、搜索，是从文本中提取具有某种结构特征的字符串；替换，类似于替换，是操作文本中具有某种结构特征的字符串，不过替换的字符串根据被替换字符串的内容动态生成；切分，是先在文本中进行查找，找到所有（或部分）具有某种结构特征的字符串，以它们为分隔符，将文本切分开来。针对这个具体的问题，我们最先想到的操作就是：切分。

如果使用切分，则作为切分符的逗号必须满足下面两个要求之一：

1. 之前和之后都是引号；

2. 不在引号字段之内。

针对第一个要求，选择的逗号之前和之后都必须有引号，写成正则表达式就是『(?<="),(?=")』，在这里我们使用了如今大多数正则表达式系统都支持环视（look-around）结构，用来规定需要查找的文本之前和之后的文本特征。其中的『(?<="),(?=")』称为逆序环视（look-behind）结构，表示逗号之前（左侧）必须出现一个引号，『(?<="),(?=")』是顺序环视（look-ahead）结构，表示逗号之后（右侧）必须出现一个引号。在这里，『(?<=")』和『(?=")』都是正则表达式预先定义的特殊结构，它们非常形象，大家在使用时可以按照具体的要求，把引号替换成自己需要的子表达式；

第二点要求逗号不能在引号字段内，如何判断逗号是否在引号字段内呢？我们不妨这样想：如果逗号在引号字段内，那么它与之前（左边）的第一个逗号（或者行开头位置）之间，必然存在引号（因为引号字段内不可能存在多于一个的逗号）。也就是说，我们要寻找的逗号与它之前的第一个逗号之间，不容许存在引号。仍然使用环视结构，我们得到这样一个正则表达式『(?<=(,|^)[^"]+),』。其中『(?<=(,|^)),』对应之前的逗号或是行开头位置，而『(?<=(,|^)[^"]+),』表示两个逗号（或行开头与逗号）之间的字符不能是引号，否则就会匹配失败。这个表达式能够找到的逗号，应该就是我们需要的逗号了。

最后，因为这两个要求是“或（or）”的关系，我们使用多选分支将它们并列起来，最终得到的表达式就是『((?<="),(?=")| (?<=(,|^)[^"]+),)』。

事情到这里就结束了吗？答案是否定的。虽然我们的思路正确，表达式的格式和结构也没问题，但问题并没有解决，因为在大多数语言和系统中，逆序环视结构中出现的子表达式必须有确定的长度（有的系统中可以使用量词『?』，但无法使用『*』和『+』），只有.NET是个例外，也就是说，这种方法只有在.NET系统中才有现实意义（使用.NET的程序员这下该高兴了）。

那么，是否存在其他途径呢？我们知道，在进行日志分析时，除了切分，还有一种常用的操作，就是查找——在日志中迭代应用正则表达式进行查找，依次提取出需要的字段。下面我们尝试使用查找来解决这个问题。

如果使用查找，我们需要总结出字段的公共特征，这样，就能保证每次迭代，都能找到一个字段——无论它是有引号包围，还是没有引号包围的。

同样，我们首先还是分情况考虑（注意，因为逗号只是分隔符，所以我们提取的字段中不应该包含逗号，另外，也不应当包含引号）：

1. 如果是没有引号包围的字段，可能以上一个逗号之后的位置，或行开头位置为起点，以下一个逗号之前的位置，或者行结束位置为终点，并且，之中不能包含引号或逗号；

2. 如果是引号包围的字段，则以引号为起点，以引号为终点，之中不能包含引号。补充一点，为了保证匹配的准确性，我们把条件设置得更强一些，开头的引号之前必须还有一个逗号，结尾的引号之后必须还有一个逗号，在实际应用正则表达式时，将条件设置得更强一些，保证正确性，是一个好习惯。

先来考虑第一种情况，对起点和终点的判断，都可以以环视结构来进行，判断起点的表达式是『(?<=(,|^))』，这里的逆序环视结构中，又出现了不定长度的表达式，在某些系统中无法编译通过，但这种简单的情况，我们有办法突破限制，即将表达式改写为『((?<=,)|(?<=^))』，判断终点的表达式『(?=(,|$))』，不包含引号或逗号的表达式『[^",]+』的联合，就得到了第一种情况对应的表达式『((?<=,)|(?<=^))[^",]+(?=(,|$))』；对应第二种情况的表达式非常容易，是『(?<=,")[^"]+(?= ",)』。

同样，两种情况是“或（or）”的关系，我们使用多选分支将它们并列起来，最终得到的表达式就是『(((?<=,)|(?<=^))[^",]+(?=(,|$))|(?<=,")[^"]+(?= ",))』。

在Java和Python语言中，这个正则表达式（注意，是这个正则表达式，不是这个字符串，编译时我们还需要转义，这个问题会在下一节文章详细谈到）都可以编译通过，没有问题。

好了，到这里，这个问题已经解决完毕，解决问题的思路和步骤，有兴趣的朋友可以再推敲推敲，在最后，我们详细介绍环视功能：相信我，它很有用，但知道的人并不多。

环视（look-around）用来检查某个位置两侧的文本，但不会把检查时匹配的文本加入匹配的最终结果。通常情况下，表达式『/bJeff/b』只能匹配“Jeff”这个单词，如果我们需要精确匹配“Jeffrey”这个单词中的“Jeff”，就可以使用环视『Jeff(?=rey)』，后面的『(?=rey)』表示，如果匹配成功，“Jeff”之后必须出现“rey”（但是这三个字符并不会包含在最终的匹配结果之中）。有的读者可能会说，那我直接使用『(Jeff)rey』，先找出来，再提取分组，不是一样吗？请注意，环视的对象又可以是正则表达式，『Jeff(?=(rey|erson))』就可以找到“Jeffrey”或“Jefferson”中的“Jeff”，这种灵活性是前一种做法无法提供的；再者说，『(Jeff)rey』使用括号来捕获文本，正则表达式在匹配时必须保存处理括号，保存文本，效率有所降低；而且，环视在处理中文文本时有独特的价值，因为中文的字符是连在一起的，单词之间没有空格分隔：如果一段文本中包含许多句子，有些只包含“北京”，有些包含“北京市”，我们需要仅仅将包含“北京”的句子都筛出来，就必须使用环视功能。此外，环视结构也可用于匹配的定位，保证准确性，在上面的例子中，我们就用环视结构，保证了字段两端引号匹配的准确性。

按照环视的方向不同，可以分为顺序环视（lookahead，表示从左向右检查）和逆序环视（lookbehind，从右向左检查）；按照环视成立的条件不同，又可分为肯定环视（positive lookaround，只有在环视对象能匹配时才成功）和否定环视（negative lookaround，只有在环视对象无法匹配时才成功）。两者组合起来，就得到四种环视：

肯定顺序环视，要求右侧的文本必须能被环视内的表达式匹配

肯定逆序环视，要求左侧的文本必须能被环视内的表达式匹配

否定顺序环视，要求右侧的文本必须不能被环视内的表达式匹配

否定逆序环视，要求左侧的文本必须不能被环视内的表达式匹配

所使用的标记也很好识别，『(?=Regex)』表示肯定顺序环视，『(?!Regex)』表示否定顺序环视，『(?<=Regex)』表示肯定逆序环视，『(?<!Regex)』表示否定逆序环视。

在常见的HTML解析中，如果我们需要精确获得“src=...”中的资源地址（这里假定“src=...”的格式统一规范，等号两端没有空格，也没有引号），可以在表达式之前添加『(?<=src=)』，我们还可以用『(?<=<B>).*?(?=</B>)』来精确匹配“<B>...</B>”之中的内容。在这两个例子中，当然也可以使用匹配-括号提取的办法，但使用环视的效率更高，也更切合程序的本意。

还需要提到的一点是，在大多数系统（也就是.NET之外）中，逆序环视结构存在限制，一般来说其中的表达式所匹配的文本的长度必须固定，或者必须有上限。如果我们能确定表达式能匹配的文本有几种情况，就可以先列出这几种情况对应的环视结构，再用多选分支连立起来——在上文中，我们就是用这种方法绕过这种限制的——在编辑Apache的Rewrite规则时，这是一条很有用的经验。

转义符

在日常应用正则表达式时，我们经常会遇到这样的问题，正则表达式中到底该如何转义——最明显的表现就是，搞不懂究竟要使用多少个反斜线（你能迅速准确回答下面的问题吗：正则表达式中的一个反斜线，在Java语言中，究竟需要多少个反斜线来表示？）。结果，在大部分时候，我们盲目尝试，直到测试成功为止。但是，许多时候，这个办法实现起来并不方便。

为了彻底解决这类问题，我们需要弄清楚正则表达式与字符串的关系：它其实很简单，根据本人的经验，我们只需要牢记下面两条原则即可：

1.正则表达式必须以字符串的形式指定，但它不等于字符串

大多数语言中都存在正则表达式（regex）对象，譬如Java语言中的Pattern，.NET中的Regex。如果没有提供专用对象，一般需要用某些特殊的字符来标注正则表达式，譬如PHP中常用的反斜线'/'；另一方面，正则表达式对某些字符或字符序列有自己的规定，不同于字符串的规定，譬如字符'/b'，在正则表达式中，它表示单词分界符（word-boundary，用来匹配这样的位置，一侧是英文单词字符，一侧是非单词字符，关于单词字符的规定，请参考具体的语言文档），而在普通字符串中表示退格符（backspace）。因此我们可以说，正则表达式对文本的规定，并不等同于普通的字符串。

但是，正则表达式又终究是一种处理文本的语言，我们给出的所有正则表达式，大都是以字符串形式指定的。

所以，在正则表达式的应用过程中，往往需要进行从字符串到正则表达式本身的转换；我们也知道，从源代码中的字符序列，到语言中的字符串，也需要经过一个转换的过程。综合起来，我们在源代码中指定的字符序列，到最终生成正则表达式，需要经过两步转换：

“源代码中的字符序列”->“字符串”->“正则表达式”

我们来看下面这个例子（用Java语言举例）

Pattern pattern = Pattern.compile('//b');

其中，源代码中的字符序列是" //b "，经过转义，生成的字符串（String对象）包含两个字符：反斜线和小写字母'b'，以正则表达式的方式解析这个字符串，得到的正则表达式对应单词分界符（word-boundary）。如果我们这样写：

Pattern pattern = Pattern.compile('/b');

仍然能够编译通过，但此时生成的字符串仅包含一个字符：退格符，于是正则表达式接收到的也就是单个退格符。

这里有一点需要指出：在Java和C#之类的语言中，如源代码中的字符序列无法识别，编译会出错，譬如这样：

Pattern pattern = Pattern.compile('/w');

尽管我们知道，在正则表达式中，/w匹配单词字符（一般来说，是数字、字母和下划线），编译仍然会报错。因为根据针对字符串的规定，'/w'不是一个合法的转义序列，也就是说，我们无法由字符序列/w生成一个合法的字符串：

String s = '/w'; //编译出错！

但是PHP和Python之类的语言却不存在这样的问题。原因在于，如果PHP和Python发现字符串中有无法识别的转义序列，会原封不动地保存下来。如果我们在Python中这么写：

p = re.compile("/w")

是没有问题的，因为尽管/w无法识别，仍然会保存下来，在正则表达式中被正确解析。

当然，我们也可以在这些语言中使用'//w'，结果是一样的，因为此时，在进行字符串处理时，第1个反斜线转义了第2个反斜线，正则表达式接受到的，同样是'/w'。

在实际开发中，这样的问题可能非常迷惑人，但只要我们弄清了正则表达式和字符串的关系，就不会再被它困扰。

2.正则表达式中单独出现的反斜线也需要转义

与字符串一样，在正则表达式中，反斜线通常与其他字符一起构成特殊的结构，譬如'/d'用来匹配数字字符，'/s'用来匹配空白字符，'/1'用来反向引用第一个括号内的字表达式（也就是编号为1的分组）捕获的文本，等等等等。

可是，如果我们的正则表达式中仅仅需要“反斜线”本身，也就是字符'/'，该如何做呢？

其实，正则表达式对这个问题的处理，与字符串的处理是一样的，也就是说，在正则表达式中，必须用转义序列'//'来表示单个反斜线。

这个规定会带来一个有趣的问题：正则表达式中单独出现的反斜线字符，在生成正则表达式的时候，必须以转义序列'//'来表示，而这其中的每个反斜线字符，在表示正则表达式的字符串中，又必须以转义序列'//'来表示。所以，在字符串中，必须写出四个反斜线'////'，才能对应到正则表达式中单独出现的一个反斜线字符：生成的字符串中，只包含两个反斜线字符'//'；由这个字符串生成的正则表达式，就只包含一个反斜线字符'/'。

牢记这两条原则，在以后的开发中，面对正则表达式的转义问题，我们就不会感到迷惑了。

作者简介：

余晟，抓虾网高级顾问，历任高级程序员，技术经理；解决过大量文本解析和数据抽取的问题；本科毕业于东北师范大学，主修计算机，副修中文，现居北京。对程序语言、算法、数据库和敏捷开发都有兴趣，译有《精通正则表达式》（第3版）。

python实现规则引擎_规则引擎python weixin_39601511 python实现规则引擎
广告关闭回望2020，你在技术之路上，有什么收获和成长么？对于未来，你有什么期待么？云+社区年度征文，各种定制好礼等你！我正在用python编写日志收集分析应用程序，我需要编写一个“规则引擎”来匹配和处理日志消息。它需要具有以下特点：正则表达式匹配消息本身消息严重性优先级的算术比较布尔运算符我设想一个例子规则可能是这样的：(message~program:messageandseverity>=h
Regular Expression 正则表达式 Aimyon_36 Data Development 正则表达式 redis 数据库
RegularExpression前言1.基本匹配2.元字符2.1点运算符.2.2字符集2.2.1否定字符集2.3重复次数2.3.1*号2.3.2+号2.3.3?号2.4{}号2.5(...)特征标群2.6|或运算符2.7转码特殊字符2.8锚点2.8.1^号2.8.2$号3.简写字符集4.零宽度断言（前后预查）4.1?=...正先行断言4.2?!...负先行断言4.3?Thefatcatsaton
Nginx从入门到实践(三) 听你讲故事啊
动静分离动静分离是将网站静态资源（JavaScript，CSS，img等文件）与后台应用分开部署，提高用户访问静态代码的速度，降低对后台应用访问。动静分离的一种做法是将静态资源部署在nginx上，后台项目部署到应用服务器上，根据一定规则静态资源的请求全部请求nginx服务器，达到动静分离的目标。rewrite规则Rewrite规则常见正则表达式Rewrite主要的功能就是实现URL的重写，Ngin
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
互联网 Java 工程师面试题（Java 面试题四）苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
下面列出这份Java面试问题列表包含的主题多线程，并发及线程基础数据类型转换的基本原则垃圾回收（GC）Java集合框架数组字符串GOF设计模式SOLID抽象类与接口Java基础，如equals和hashcode泛型与枚举JavaIO与NIO常用网络协议Java中的数据结构和算法正则表达式JVM底层Java最佳实JDBCDate,Time与CalendarJava处理XMLJUnit编程现在是时候给
【无标题】正则表达式笔记 qis_qis 正则表达式笔记
作用查找特殊规则的字符串编写一个正则表达式，用来查找所有以0开头，后面跟着2-3个数字，然后是一个连字号“-”，最后是7或8位数字的字符串(像010-12345678或0376-7654321)。0\d{2,3}-\d{7,8}基本匹配区分大小写cat会匹配"cat"CAt会匹配"CAt"元字符元字符是正则表达式的基本组成元素。元字符在这里跟它通常表达的意思不一样，而是以某种特殊的含义去解释。有些
python学习第七节：正则表达式一只会敲代码的小灰灰 python学习 python 学习正则表达式
python学习第七节：正则表达式正则表达式基本上在所有开发语言中都会使用到，在python中尤为重要。当我们使用python开发爬虫程序将目标网页扒下来之后我们要从网页中解析出我们想要的信息，这个时候就需要正则表达式去进行匹配。importrere的常量re模块中有9个常量，常量的值都是int类型！（知道就行）修饰符描述re.l使匹配对大小写不敏感re.L做本地化识别(locale-aware)
Linux三剑客之grep命令详解 promise524 Linux linux 服务器 python shell bash 后端运维
grep是Linux中最常用的文本搜索工具，用于在文件或文本输出中查找与指定模式匹配的行。它支持基本正则表达式、扩展正则表达式、多文件搜索、递归搜索等多种功能，非常适合过滤、搜索和提取文本内容。1.grep的基本语法grep[选项]模式[文件...]模式：搜索的文本模式，可以是普通字符串或正则表达式。[文件...]：要搜索的文件。如果没有指定文件，grep会从标准输入中读取数据。2.常用选项-i：
Linux三剑客与管道使用许琳珊
一、管道1、什么是管道linux提供管道符“|”将两个命令隔开，管道符左边命令的输出就会作为管道符右边命令的输入2、例子echo"hello123"|grep"hello"二、正则1、什么是正则正则表达式就是记录文本规则的代码2、正则的用法常用元字符代码说明.匹配除换行符以外的任意字符\w匹配字母或数字或下划线或汉字\s匹配任意的空白符\d匹配数字\b匹配单词的开始或结束^匹配字符串的开始$匹配字
Java 正则表达式详解艾伦~耶格尔 Java初级 java 正则表达式开发语言学习
正则表达式(RegularExpression，简称regex)是一种强大的文本处理工具，可以用来匹配、搜索和替换文本中的特定模式。在Java中，正则表达式由java.util.regex包提供支持。1.理解正则表达式语法正则表达式使用特殊的字符和符号来定义匹配模式。一些常用的元字符如下：.:匹配任意单个字符*:匹配前面的字符零次或多次+:匹配前面的字符一次或多次?:匹配前面的字符零次或一次[]:
Linux三剑客-sed krb___ linux 运维服务器
前言：sed是StreamEditor（字符流）的缩写，简称流编辑器。sed是操作、过滤和转换问吧内容的强大工具。sed是一次读取一行数据常用功能包括结合正则表达式对文件实现快速增删改查，其中查询的功能中最常用的两大功能是过滤（过滤指定字符串），取行（取出指定行）sed命令语法：sed[选项][sed内置命令字符][输入文件]选项参数解释-n取消默认sed的输出，常与sed内置命令p一起使用-i直
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Java中的数组和字符串 RenX000 Java SE java
文章目录数组一维数组创立默认值转型多维数组可变长参数基本格式应用字符串String类StringBuilder类裁剪正则表达式检测数组数组类型本身也是类，即使是基本类型的数组也是以对象形式存在的，并不是基本数据类型一维数组int[]array=newint[10];//创建数组时需要指定长度创立类型[]变量名称=new类型[数组大小];类型变量名称[]=new类型[数组大小];//支持C语言样式，
Linux如何使用sed命令进行文本替换 yang295242361 linux 运维服务器
在Linux中，sed（StreamEditor）是一个用于处理文本流的命令行工具，它非常适合用于执行基本的文本转换。sed可以读取输入的文本文件，根据指定的指令对文本进行处理，并将结果输出到标准输出设备。以下是如何使用sed命令进行文本替换的详细说明：1.基本语法sed命令的基本语法如下：sed's/regexp/replacement/flags'fileregexp：正则表达式，用于匹配要替
Linux 运维三剑客：grep、sed 和 awk 实战案例与命令参数详解 Lyle_Tu Linux 云计算运维运维 linux chrome 云计算服务器
在Linux运维中，grep、sed和awk是三个非常强大的文本处理工具，它们在处理文本数据时发挥着重要作用。本文将通过一些实战案例，展示这三个工具的使用方法和强大功能，并对它们的命令参数进行详解。grep：文本搜索利器grep是一个强大的文本搜索工具，它使用正则表达式来匹配文本模式。以下是grep的一些常用命令参数：-i：忽略大小写进行匹配。-v：反向查找，只打印不匹配的行。-n：显示匹配行的行
python核心编程课后习题答案--第一章 NewForMe
正则表达式1-1[bh][aiu]t;1-2\w+\w+;1-3\w+,\s\w+;1-4[A-Za-z_]+[\w_]+python有效标识符的定义：1.python中的标识符是区分大小写的。2.标示符以字母或下划线开头，可包括字母，下划线和数字。3.以下划线开头的标识符是有特殊意义的。1-5\d+(\s\w+)+1-6(1)^w{3}://.+com/?$(2)^\w+://.+?\.\w{3
Java 正则表达式南风_001
正则表达式定义了字符串的模式。正则表达式可以用来搜索、编辑或处理文本。正则表达式并不仅限于某一种语言，但是在每种语言中有细微的差别。正则表达式实例一个字符串其实就是一个简单的正则表达式，例如HelloWorld正则表达式匹配"HelloWorld"字符串。.（点号）也是一个正则表达式，它匹配任何一个字符如："a"或"1"。下表列出了一些正则表达式的实例及描述：正则表达式描述thisistext匹配
Linux shell sed 命令详解 BugBear1989
详细的sed命令详解，请参考https://my.oschina.net/u/3908182/blog/1921761一、sed命令工作机制：每次读取一行文本至“模式空间(patternspace)”中，在模式空间中完成处理；将处理结果输出至标准输出设备；语法：sed[OPTION]...{script}[input-file]...参数说明-r支持扩展正则表达式-n静默模式-escript1-e
用正则表达式过滤logcat中的多个tag的日志 fc82bb084ee7
在AndroidStudio中,在过滤器的byLogTag选项中配置.我配置了2个tagfilter方便开发,1.multi-tag-filter2.ignore-multi-tag-filter.过滤出指定tag的日志信息^(?:Watchdog|InputReader|ahking)Watchdog忽略指定tag的日志信息^(?!WifiMonitor|WifiHW)有些tag的无用log非常
Python实现对哈利波特小说单词统计胜天半月子 Python基础及应用 python 字符串列表正则表达式
文章目录要求一、打开文件正则表达式spilt()函数实例二、词频统计三、单词排序四、输出或写入文件python文件写入要求对HarryPotter5.txt英文小说进行词频统计，统计出前二十个频率最高的单词，并打印输出或写入文件一、打开文件打开文件并将单词中非单词字符用空格代替代码：#读取小说内容fp=open('HarryPotter5.txt')content=fp.read()#所有标点符号
javase笔记3----正则表达式芝奥小婷笔记
正则表达式简介正则表达式（RegularExpressions），是一个特殊的字符串，可以对普通的字符串进行校验检测等工作，校验一个字符串是否满足预设的规则。基本语法字符集合[]:表示匹配括号里的任意一个字符。[abc]:匹配a或者b或者c[^abc]:匹配任意一个字符，只要不是a,或b,或c就表示匹配成功[a-z]:表示匹配所有的小写字母的任意一个。[A-Za-z]:表示匹配所有的小写字母和大写
搜索结果关键字标红 — 正则月亮消失了.974 servlet html javascript
str是你的内容，key是关键字正则表达式匹配模式支持的三个标志（newregexp的第二个参数）g:global全文搜索，不添加则搜索到第一个匹配停止；i:ignorecase忽略大小写，默认大小写敏感；m:multiplelines多行搜索highlight(str,key){ varreg=newRegExp(`(${key})`,'gi'); v
正则表达式语法、运算符优先级 weixin_54668000 mvc
正则表达式(regularexpression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。例如：runoo+b，可以匹配runoob、runooob、runoooooob
shell脚本——正则表达式诚诚k 正则表达式
概述正则表达式是你所定义的模式模板，Linux工具可以用它来过滤文本。Linux工具（比如sed编辑器或gawk程序）能够在处理数据时使用正则表达式对数据进行模式匹配。如果数据匹配模式，它就会被接受并进一步处理；如果数据不匹配模式，它就会被滤掉。数据流--正则表达式---（1）匹配的数据（2）滤掉的数据正则表达式（或称RegularExpression，简称RE），是用于描述字符排列和匹配模式的一
正则表达式-运算符优先级一只小棉花正则表达式正则表达式-优先级
转自：http://www.runoob.com/regexp/regexp-operator.html
【Python】正则表达式丕羽 python 正则表达式 mysql
正则表达式正则表达式,全称是RegularExpression,正则表达式,即:正确的,符合特定规则的式子.用来校验和匹配数据,正则不独属于任意的一门语言,Java,Python…都支持,且:正则规则都是一样的,不同的是写法不一样.python中正则使用步骤:#1.导包importre#2.正则校验.re.match()re.search()re.compile().sub()#3.获取匹配结果.
re模块匿隱
defmain():""""""#1.compile(正则表达式)->将正则表达式转换成正则对象"""编译后可以直接通过对象调用相关的对象方法"""re_object=re.compile(r'\d{3}')re_object.fullmatch('432')#2.fullmatch(正则表达式,字符串)->让字符串和正则表达式完全匹配，匹配成功返回匹配对象，匹配失败返回None"""应用：检测字
Python 标准库一马归一码 Python python
目录1.一些常见的标准库：2.os模块的导入和使用3.re模块的导入与调用4.math模块的导入与调用5.datetime模块的导入与调用标准库：Python本身带着的一些标准的模块库，这些模块被直接构建在解析器里，虽然不是语言内置的功能，但可以高效地调用，甚至是系统级调用也可以。1.一些常见的标准库：os模块：提供了很多与操作系统相关联的函数re模块：为高级字符串处理提供了正则表达式工具，对于复
正则表达式他@ 正则表达式 php 数据库
一：正则表达式grep-a不要忽略二进制数据。-A除了显示符合范本样式的那一行之外，并显示该行之后的内容。-b在显示符合范本样式的那一行之外，并显示该行之前的内容。-c计算符合范本样式的列数。-C或-除了显示符合范本样式的那一列之外，并显示该列之前后的内容。-d当指定要查找的是目录而非文件时，必须使用这项参数，否则grep命令将回报信息并停止动作。-e指定字符串作为查找文件内容的范本样式。-E将范
14.JS-正则表达式的反向引用 WahFung_ js笔记正则表达式 js
选择字符：|com|cn|edu---选择其中一个(含有其中一个就能匹配成功)子表达式：用()包围的就是子表达式str="((/d)(/w))"第一个子表达式：((\d)(\w))第二个子表达式：(\d)第三个子表达式：(\w)子表达式：以第一个出现的(为第一个表达式捕获：将匹配到的子表达式保存在RegExp对象中RegExp.$1：保存第一个子表达式RegExp.$2：保存第二个子表达式RegE
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

正则表达式高级讲解

你可能感兴趣的:(正则表达式)