正则基础之——神奇的转义

1 概述

这或许会是一个让人迷惑，甚至感到混乱的话题，但也正因为如此，才有了讨论的必要。

在正则中，一些具有特殊意义的字符，或是字符序列，被称作元字符，如“?”表示被修饰的子表达式匹配0次或1次，“(?i)”表示忽略大小写的匹配模式等等。而当这些元字符被要求匹配其本身时，就要进行转义处理了。

不同的语言或应用场景下，正则定义方式、元字符出现的位置不同，转义的方式也是林林总总，不一而同。

2 .NET正则中的字符转义

2.1 .NET正则中的转义符

绝大多数语言中，“\”都被作为转义符，用来转义一些具有特殊意义的字符或字符序列，比如“\n”表示换行，“\t”表示水平制表符等。而这样的转义，应用到正则中，又会有一些意想不到的变化。

话题由C#中一个正则问题引出

string[] test = new string[]{"\\", "\\\\"};

Regex reg = new Regex("^\\\\$");

foreach (string s in test)

{

richTextBox2.Text += "源字符串： " + s.PadRight(5, ' ') + "匹配结果： " + reg.IsMatch(s) + "\n";

}

/*--------输出--------

源字符串： \ 匹配结果： True

源字符串： \\ 匹配结果： False

对于这个结果，或许有人会感到迷惑，字符串中的“\\”不是代表一个经过转义的“\”字符吗？而“\\\\”不就应该代表两个经过转义的“\”字符吗？那么上面正则匹配的结果应该是第一个为False，第二个为True才对啊？

对于这一问题，直接解释或许不太容易理解，还是换种方式来解释吧。

比如要匹配的字符是这样的

string test = "(";

那么正则如何写呢？因为“(”在正则中是有特殊意义的，所以写正则时必须对它进行转义，也就是“\(”，而在字符串中，要使用“\\” 来表示“\”本身，也就是

Regex reg = new Regex("^\\($");

这个如果理解了，那再把“(”换回“\”，同样道理，在字符串中，要使用“\\” 来表示“\”本身，也就是

Regex reg = new Regex("^\\\\$");

通过这样的分析，可以看出，其实在以字符串形式声明的正则中，“\\\\”匹配的实际上就是单独的一个“\”字符。总结一下它们之间的关系：

输出到控制台或界面的字符串：\

程序中声明的字符串：string test = "\\";

程序中声明的正则：Regex reg = new Regex("^\\\\$");

这样解释是不是已经可以理解了，那么是不是感觉这样很笨拙？是的，在程序中以字符串形式声明的正则，涉及到转义符时就是这样笨拙的。

所以在C#中，还提供了另一种字符串声明方式，在字符串前加个“@”，就可以忽略转义。

string[] test = new string[] { @"\", @"\\" };

Regex reg = new Regex(@"^\\$");

foreach (string s in test)

{

richTextBox2.Text += "源字符串： " + s.PadRight(5, ' ') + "匹配结果： " + reg.IsMatch(s) + "\n";

}

/*--------输出--------

源字符串： \ 匹配结果： True

源字符串： \\ 匹配结果： False

这样就简洁多了，也符合通常的理解。

但同时也带来另一个问题，就是双引号的转义处理。在普通的字符串声明中，可以用“\””对双引号进行转义。

string test = "<a href=\"www.test.com\">only a test</a>";

但是在字符串前加了“@”后，“\”会被识别为“\”字符本身，这样就不能用“\””对双引号进行转义了，需要用“”””对双引号进行转义。

string test = @"<a href=""www.test.com"">only a test</a>";

而在VB.NET中，正则的定义只有一种形式，与C#中加了“@”后的定义方式是一致的。

Dim test As String() = New String() {"\", "\\"}

Dim reg As Regex = New Regex("^\\$")

For Each s As String In test

RichTextBox2.Text += "源字符串：" & s.PadRight(5, " "c) & "匹配结果：" & reg.IsMatch(s) & vbCrLf

'--------输出--------

'源字符串：\ 匹配结果：True

'源字符串：\\ 匹配结果：False

'--------------------

2.2 .NET正则中需要转义的元字符

在MSDN中，以下字符作为正则中的元字符，在匹配其本身时，需要对其进行转义

. $ ^ { [ ( | ) * + ? \

但实际应用中，还要根据实际情况来判断，以上字符可能不需要转义，也可能不止以上字符需要转义。

在正常的正则书写过程中，以上字符的转义通常都能被编写人员正常处理，但是在动态生成正则时，就需要格外的注意，否则变量中包含元字符时，动态生成的正则在编译时可能会抛异常。好在.NET中提供了Regex.Escape方法来处理这一问题。比如根据动态获取的id来提取相应的div标签内容。

string id = Regex.Escape(textBox1.Text);

Regex reg = new Regex(@"(?is)<div(?:(?!id=).)*id=(['""]?)" + id + @"\1[^>]*>(?><div[^>]*>(?<o>)|</div>(?<-o>)|(?:(?!</?div\b).)*)* (?(o)(?!))</div>");

如果不做转义处理，那么动态获取的id如果为“abc(def”这种形式，程序运行过程中就会抛出异常了。

2.3 .NET正则中字符组的转义

在字符组[]中，元字符通常是不需要转义的，甚至于“[”也是不需要转义的。

string test = @"the test string: . $ ^ { [ ( | ) * + ? \";

Regex reg = new Regex(@"[.$^{[(|)*+?\\]");

MatchCollection mc = reg.Matches(test);

foreach (Match m in mc)

{

richTextBox2.Text += m.Value + "\n";

}

/*--------输出--------

{

[

(

)

但是在正则书写时，字符组中的“[”还是建议使用“\[”对其转义的，正则本身就已经是非常抽象，可读性很低的了，如果在字符组中再掺杂进这样不经转义的“[”，会使得可读性更差。而且在出现不正确的嵌套时，可能会导致正则编译异常，以下正则在编译时就会抛异常的。

Regex reg = new Regex(@"[.$^{[(]|)*+?\\]");

然而，.NET的字符组中，是支持集合减法的，在这种正常语法形式下，是允许字符组嵌套的。

string test = @"abcdefghijklmnopqrstuvwxyz";

Regex reg = new Regex(@"[a-z-[aeiou]]+");

MatchCollection mc = reg.Matches(test);

foreach (Match m in mc)

{

richTextBox2.Text += m.Value + "\n";

}

/*--------输出--------

bcd

fgh

jklmn

pqrst

vwxyz

这种用法可读性很差，应用也很少见，即使有这种需求也可以通过其它方式实现，了解一下即可，不必深究。

话题再回到转义上，字符组中必须转义的只有“\”，而“[”和“]”出现在字符组中时，也是建议一定做转义处理的。另外有两个字符“^”和“-”，出现在字符组中特定位置时，如果要匹配其本身，也是需要转义的。

“^”出现在字符组开始位置，表示排除型字符组，“[^Char]”也就是匹配除字符组中包含的字符之外的任意一个字符，比如“[^0-9]”表示除数字外的任意一个字符。所以在字符组中，要匹配“^”字符本身，要么不放在字符组开始位置，要么用“\^”进行转义。

Regex reg1 = new Regex(@"[0-9^]");

Regex reg2 = new Regex(@"[\^0-9]");

这两种方式都表达匹配任意一个数字或普通字符“^”。

至于“-”在字符组中特殊性，举一个例子。

string test = @"$";

Regex reg = new Regex(@"[#-*%&]");

richTextBox2.Text = "匹配结果：" + reg.IsMatch(test);

/*--------输出--------

匹配结果：True

正则表达式中明明没有“$”，为什么匹配结果会是“True”呢？

[]支持用连字符“-”连接两个字符，来表示一个字符范围。需要注意的是，“-”前后的两个字符是有顺序的，在使用相同的编码时，后面的字符码位应大于或等于前面字符的码位。

for (int i = '#'; i <= '*'; i++)

{

richTextBox2.Text += (char)i + "\n";

}

/*--------输出--------

(

)

由于“#”和“*”符合要求，“[#-*]”可以表示一个字符范围，其中就包含了字符“$”，所以上面的正则是可以匹配“$”的，如果只是把“-”当作一个普通字符处理，那么要么换个位置，要么把“-”转义。

Regex reg1 = new Regex(@"[#*%&-]");

Regex reg2 = new Regex(@"[#\-*%&]");

这两种方式都表示匹配字符组中列举的字符中的任意一个。

在字符组中，还有一个比较特殊的转义字符，“\b”出现在正则表达式中一般位置时，表示单词边界，也就是一侧为组成单词的字符，另一侧不是；而当“\b”出现在字符组中时，表示的是退格符，与普通字符串中出现的“\b”意义是一样的。

2.4 .NET正则应用中不可见字符转义处理

对于一些不可见字符，要在字符串中表示时，需要用转义字符，比较常见的有“\r”、“\n”、“\t”等等，而这些字符在正则中应用，就变得有些神奇了，先看一段代码。

string test = "one line. \n another line.";

List<Regex> list = new List<Regex>();

list.Add(new Regex("\n"));

list.Add(new Regex("\\n"));

list.Add(new Regex(@"\n"));

list.Add(new Regex(@"\\n"));

foreach (Regex reg in list)

{

richTextBox2.Text += "正则表达式：" + reg.ToString();

MatchCollection mc = reg.Matches(test);

foreach (Match m in mc)

{

richTextBox2.Text += " 匹配内容：" + m.Value + " 匹配起始位置：" + m.Index + " 匹配长度：" + m.Length;

}

richTextBox2.Text += " 匹配总数：" + reg.Matches(test).Count + "\n----------------\n";

}

/*--------输出--------

正则表达式：

匹配内容：

匹配起始位置：10 匹配长度：1 匹配总数：1

----------------

正则表达式：\n 匹配内容：

匹配起始位置：10 匹配长度：1 匹配总数：1

----------------

正则表达式：\n 匹配内容：

匹配起始位置：10 匹配长度：1 匹配总数：1

----------------

正则表达式：\\n 匹配总数：0

----------------

可以看到，前三种写法，输出的正则虽不同，但执行结果却是完全相同的，只有最后一种是没有匹配的。

正则表达式一Regex("\n")，其实就是以普通字符串形式来声明正则的，与用Regex("a")来匹配字符“a”是同样的道理，是不经过正则引擎转义的。

正则表达式二Regex("\\n")，是以正则表达式形式来声明正则的，正如正则中的“\\\\”就等同于字符串中的“\\”一样，正则中的“\\n”就等同于字符串中的“\n”，是经过正则引擎转义的。

正则表达式三Regex(@"\n")，与正则表达式二等价，是字符串前加“@”的写法。

正则表达式四Regex(@"\\n")，其实这个表示的是字符“\”后面跟一个字符“n”，是两个字符，这个在源字符串中自然是找不到匹配项的。

这里需要特别注意的还是“\b”，不同的声明方式，“\b”的意义是不同的。

string test = "one line. \n another line.";

List<Regex> list = new List<Regex>();

list.Add(new Regex("line\b"));

list.Add(new Regex("line\\b"));

list.Add(new Regex(@"line\b"));

list.Add(new Regex(@"line\\b"));

foreach (Regex reg in list)

{

richTextBox2.Text += "正则表达式：" + reg.ToString() + "\n";

MatchCollection mc = reg.Matches(test);

foreach (Match m in mc)

{

richTextBox2.Text += "匹配内容：" + m.Value + " 匹配起始位置：" + m.Index + " 匹配长度：" + m.Length + "\n";

}

richTextBox2.Text += "匹配总数：" + reg.Matches(test).Count + "\n----------------\n";

}

/*--------输出--------

正则表达式：line_

匹配总数：0

----------------

正则表达式：line\b

匹配内容：line 匹配起始位置：4 匹配长度：4

匹配内容：line 匹配起始位置：20 匹配长度：4

匹配总数：2

----------------

正则表达式：line\b

匹配内容：line 匹配起始位置：4 匹配长度：4

匹配内容：line 匹配起始位置：20 匹配长度：4

匹配总数：2

----------------

正则表达式：line\\b

匹配总数：0

----------------

正则表达式一Regex("line\b")，这里的“\b”是退格符，是不经过正则引擎转义的。源字符串中是没有的，所以匹配结果为0。

正则表达式二Regex("line\\b")，是以正则表达式形式来声明正则的，这里的“\\b”是单词边界，是经过正则引擎转义的。

正则表达式三Regex(@"line\b")，与正则表达式二等价，指单词边界。

正则表达式四Regex(@"line\\b")，其实这个表示的是字符“\”后面跟一个字符“b”，是两个字符，这个在源字符串中自然是找不到匹配项的。

2.5 .NET正则应用中其它转义处理

.NET正则应用中还有一些其它转义方式，虽然用得不多，但也顺便提一下吧。

需求：把字符串中“<”和“>”之间的数字前加上“$”

string test = "one test <123>, another test <321>";

Regex reg = new Regex(@"<(\d+)>");

string result = reg.Replace(test, "<$$1>");

richTextBox2.Text = result;

/*--------输出--------

one test <$1>, another test <$1>

也许你会惊奇的发现，替换结果不是在数字前加了“$”，而是将所有数字都替换为“$1”了。

为什么会这样呢，这是因为在替换结构中，“$”是有特殊意义的，在它后面接数字，表示对对应编号捕获组匹配结果的引用，而有些情况下，需要在替换结果中出现“$”字符本身，但它后面又跟了数字，这时候就需要用“$$”对它进行转义了。而上面这个例子却恰恰是由于这种转义效果导致出现了异常结果，要规避这一问题，可以使替换结果中不出现对捕获组的引用。

string test = "one test <123>, another test <321>";

Regex reg = new Regex(@"(?<=<)(?=\d+>)");

string result = reg.Replace(test, "$");

richTextBox2.Text = result;

/*--------输出--------

one test <$123>, another test <$321>

3 JavaScript及Java中的转义符

JavaScript及Java中正则的转义符处理，以字符串形式声明时，基本上都是与.NET中一致的，简单的介绍一下。

在JavaScript中，以字符串形式声明正则，与C#中的表现是一样的，同样会显得很笨拙。

var data = ["\\", "\\\\"];

var reg = new RegExp("^\\\\$", "");

for(var i=0;i<data.length;i++)

{

document.write("源字符串：" + data[i] + " 匹配结果：" + reg.test(data[i]) + "<br />");

}

</script>

/*--------输出--------

源字符串：\ 匹配结果：true

源字符串：\\ 匹配结果：false

JavaScript中虽然没有提供C#中这种“@”方式的字符串声明方式，但提供了另一种正则表达式的专有声明方式。

var data = ["\\", "\\\\"];

var reg = /^\\$/;

for(var i=0;i<data.length;i++)

{

document.write("源字符串：" + data[i] + " 匹配结果：" + reg.test(data[i]) + "<br />");

}

</script>

/*--------输出--------

源字符串：\ 匹配结果：true

源字符串：\\ 匹配结果：false

JavaScript中

var reg = /Expression/igm;

这种声明方式，一样可以简化含有转义符的正则。

当然，以这种形式声明正则时，“/”自然也就成为了元字符，正则中出现这一字符时，必须进行转义处理。比如匹配链接中域名的正则

var reg = /http:\/\/:([^\/]+)/ig;

很不幸的是，在Java中，目前只提供了一种正则声明方式，也就是字符串形式的声明方式

String test[] = new String[]{"\\", "\\\\" };

String reg = "^\\\\$";

for(int i=0;i<test.length ;i++)

{

System.out.println("源字符串：" + test[i] + " 匹配结果：" + Pattern.compile(reg).matcher(test[i]).find());

}

/*--------输出--------

源字符串：\ 匹配结果：true

源字符串：\\ 匹配结果：false

只能期待Java的后续版本能提供这方面的优化了。

你可能感兴趣的:(正则基础之)

Python爬虫之re模块笔记 jokertiger python 爬虫正则表达式
文章目录正则基础正则常用元字符正则基础之——捕获组（capturegroup）爬虫最常用的两种匹配模式懒惰匹配贪婪匹配正则基础正则常用元字符字符描述\将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，‘n’匹配字符“n”。’\n’匹配一个换行符。序列‘\’匹配“”而“(”则匹配“(”。^匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline
前端好文 BigDaddy2333
js模块化编程之彻底弄懂CommonJS和AMD/CMD！TCP详解正则基础之——反向引用30秒就能理解的JavaScript代码片段（30secondsofcode）webpack系列之loader的基本使用简单透彻理解JSONP原理及使用JavaScript专题系列20篇正式完结！最详尽的JS原型与原型链终极详解，没有「可能是」。（一）最详尽的JS原型与原型链终极详解，没有「可能是」。（二）最
正则基础之——捕获组（capture group） klarclm
1概述1.1什么是捕获组捕获组就是把正则表达式中子表达式匹配的内容，保存到内存中以数字编号或显式命名的组里，方便后面引用。当然，这种引用既可以是在正则表达式内部，也可以是在正则表达式外部。捕获组有两种形式，一种是普通捕获组，另一种是命名捕获组，通常所说的捕获组指的是普通捕获组。语法如下：普通捕获组：(Expression)命名捕获组：(?Expression)普通捕获组在大多数支持正则表达式的语言
正则基础之——\b 单词边界 xyz2011 正则表达式
1概述“\b”匹配单词边界，不匹配任何字符。“\b”匹配的只是一个位置，这个位置的一侧是构成单词的字符，另一侧为非单词字符、字符串的开始或结束位置。“\b”是零宽度的。基本上所有的资料里都会说“\b”是单词边界，但是关于“单词”的范围却是少有提及。通常情况下，正则表达式中所谓的“单词”，就是由“\w”所定义的字符所组成的子串。“\b”表示所在位置的一侧为单词字符，另一侧为非单词字符、字符串的开始或
正则基础之——\b 单词边界 -过客- 正则基础
1概述“\b”匹配单词边界，不匹配任何字符。“\b”匹配的只是一个位置，这个位置的一侧是构成单词的字符，另一侧为非单词字符、字符串的开始或结束位置。“\b”是零宽度的。基本上所有的资料里都会说“\b”是单词边界，但是关于“单词”的范围却是少有提及。通常情况下，正则表达式中所谓的“单词”，就是由“\w”所定义的字符所组成的子串。“\b”表示所在位置的一侧为单词字符，另一侧为非单词字符、字符串的开始或
正则基础之"\b"单词边界 iteye_18630
一、概述“\b”匹配单词边界，不匹配任何字符。“\b”匹配的只是一个位置，这个位置的一侧是构成单词的字符，另一侧为非单词字符、字符串的开始或结束位置。“\b”是零宽度的。基本上所有的资料里都会说“\b”是单词边界，但是关于“单词”的范围却是少有提及。通常情况下，正则表达式中所谓的“单词”，就是由“\w”所定义的字符所组成的子串。“\b”表示所在位置的一侧为单词字符，另一侧为非单词字符、字符串的开始
正则基础之--/b 单词边界 daiyueqiang2045 正则基础
1概述“/b”匹配单词边界，不匹配任何字符。“/b”匹配的只是一个位置，这个位置的一侧是构成单词的字符，另一侧为非单词字符、字符串的开始或结束位置。“/b”是零宽度的。基本上所有的资料里都会说“/b”是单词边界，但是关于“单词”的范围却是少有提及。通常情况下，正则表达式中所谓的“单词”，就是由“/w”所定义的字符所组成的子串。“/b”表示所在位置的一侧为单词字符，另一侧为非单词字符、字符串的开始或
正则之反向引用萧炎 c#
1概述捕获组捕获到的内容，不仅可以在正则表达式外部通过程序进行引用，也可以在正则表达式内部进行引用，这种引用方式就是反向引用。要了解反向引用，首先要了解捕获组，关于捕获组，参考正则基础之——捕获组（capturegroup）。反向引用的作用通常是用来查找或限定重复、查找或限定指定标识配对出现等等。对于普通捕获组和命名捕获组的引用，语法如下：普通捕获组反向引用：\k，通常简写为\number命名捕获
正则基础之——非捕获组 weixin_34399060
非捕获组：(?:Expression)接触正则表达式不久的人，通常都会对非捕获比较迷惑，为什么要有非捕获组？作用是什么？应该在什么场景下使用？说到非捕获组，首先要了解什么是捕获组，详细内容参考正则基础之——捕获组（capturegroup）。1、为什么要有非捕获组一旦使用了“()”，就会默认为是普通捕获组，从而将“()”内表达式匹配的内容捕获到组里。但是有些情况下，不得不用“()”，但并不关心“(
.NET正则基础之——正则委托 weixin_34232363
1概述一般的正则替换，只能对匹配的子串做简单的处理，且只能是做string类型的处理之后，作为替换文本替换匹配子串，可以实现的功能比较有限。.NET的Replace()方法中的replacement参数，不仅可以是字符串，还可以是委托（delegate），在每次匹配成功时，都会调用委托方法，对匹配的子串进行处理之后，再作为替换文本返回，匹配子串使用委托方法，可以做任意复杂的处理，因此这种替换功能非
正则基础之——贪婪与非贪婪模式 weixin_34128501
1概述贪婪与非贪婪模式影响的是被量词修饰的子表达式的匹配行为，贪婪模式在整个表达式匹配成功的前提下，尽可能多的匹配，而非贪婪模式在整个表达式匹配成功的前提下，尽可能少的匹配。非贪婪模式只被部分NFA引擎所支持。属于贪婪模式的量词，也叫做匹配优先量词，包括：“{m,n}”、“{m,}”、“?”、“*”和“+”。在一些使用NFA引擎的语言中，在匹配优先量词后加上“?”，即变成属于非贪婪模式的量词，也叫
正则基础之——贪婪与非贪婪模式 -过客- 正则基础
1概述贪婪与非贪婪模式影响的是被量词修饰的子表达式的匹配行为，贪婪模式在整个表达式匹配成功的前提下，尽可能多的匹配，而非贪婪模式在整个表达式匹配成功的前提下，尽可能少的匹配。非贪婪模式只被部分NFA引擎所支持。属于贪婪模式的量词，也叫做匹配优先量词，包括：“{m,n}”、“{m,}”、“?”、“*”和“+”。在一些使用NFA引擎的语言中，在匹配优先量词后加上“?”，即变成属于非贪婪模式的量词，也叫
正则基础之——反向引用 -过客- 正则表达式 regex string javascript html 语言
1概述捕获组捕获到的内容，不仅可以在正则表达式外部通过程序进行引用，也可以在正则表达式内部进行引用，这种引用方式就是反向引用。要了解反向引用，首先要了解捕获组，关于捕获组，参考正则基础之——捕获组（capturegroup）。反向引用的作用通常是用来查找或限定重复、查找或限定指定标识配对出现等等。对于普通捕获组和命名捕获组的引用，语法如下：普通捕获组反向引用：\k，通常简写为\number命名捕获
.NET正则基础之——正则委托 -过客- .NET正则
1概述一般的正则替换，只能对匹配的子串做简单的处理，且只能是做string类型的处理之后，作为替换文本替换匹配子串，可以实现的功能比较有限。.NET的Replace()方法中的replacement参数，不仅可以是字符串，还可以是委托（delegate），在每次匹配成功时，都会调用委托方法，对匹配的子串进行处理之后，再作为替换文本返回，匹配子串使用委托方法，可以做任意复杂的处理，因此这种替换功能非
正则基础之——NFA引擎匹配原理 -过客- 正则基础
NFA引擎匹配原理1为什么要了解引擎匹配原理一个个音符杂乱无章的组合在一起，弹奏出的或许就是噪音，同样的音符经过作曲家的手，就可以谱出非常动听的乐曲，一个演奏者同样可以照着乐谱奏出动听的乐曲，但他/她或许不知道该如何去改变音符的组合，使得乐曲更动听。作为正则的使用者也一样，不懂正则引擎原理的情况下，同样可以写出满足需求的正则，但是不知道原理，却很难写出高效且没有隐患的正则。所以对于经常使用正则，或
.NET正则基础之——.NET正则匹配模式 -过客- .NET正则
1概述匹配模式指的是一些可以改变正则表达式匹配行为的选项或修饰符。不同的语言支持的匹配模式不同，使用的方式也不同。一般可分为全局和内联两种。下面主要介绍.NET中的匹配模式，其它语言的匹配模式，后续视情况补充。2匹配模式2.1全局匹配模式和内联匹配模式概述.NET中的全局匹配模式是通过RegexOptions枚举值指定的，可以按位“或”进行组合，全局匹配模式只能作用于整个正则表达式。全局匹配模式提
.NET正则基础之——平衡组 -过客- .NET正则
1概述平衡组是微软在.NET中提出的一个概念，主要是结合几种正则语法规则，提供对配对出现的嵌套结构的匹配。.NET是目前对正则支持最完备、功能最强大的语言平台之一，而平衡组正是其强大功能的外在表现，也是比较实用的文本处理功能，目前只有.NET支持，相信后续其它语言会提供支持。平衡组可以有狭义和广义两种定义，狭义平衡组指.NET中定义的(?Expression)语法，广义平衡组并不是固定的语法规则，
正则基础之——捕获组（capture group） -过客- 正则基础
1概述1.1什么是捕获组捕获组就是把正则表达式中子表达式匹配的内容，保存到内存中以数字编号或显式命名的组里，方便后面引用。当然，这种引用既可以是在正则表达式内部，也可以是在正则表达式外部。捕获组有两种形式，一种是普通捕获组，另一种是命名捕获组，通常所说的捕获组指的是普通捕获组。语法如下：普通捕获组：(Expression)命名捕获组：(?Expression)普通捕获组在大多数支持正则表达式的语言
正则基础之——小数点 daiyueqiang2045 正则表达式 regex 引擎测试浏览器 string
正则基础之——小数点小数点可以匹配除了换行符“/n”以外的任意一个字符，如要匹配小数点本身，用“/”进行转义“/.”。一些细节对于使用传统NFA引擎的大多数语言和工具，如Java、.NET来说，“.”的匹配范围是匹配除了换行符“/n”以外的任意一个字符。但是对于javascript来说有些特殊，由于各浏览器的解析引擎不同，“.”的匹配范围也有所不同，对于Trident内核的浏览器，如IE来说，“.
正则基础之——神奇的转义 weixin_34266504
1概述这或许会是一个让人迷惑，甚至感到混乱的话题，但也正因为如此，才有了讨论的必要。在正则中，一些具有特殊意义的字符，或是字符序列，被称作元字符，如“?”表示被修饰的子表达式匹配0次或1次，“(?i)”表示忽略大小写的匹配模式等等。而当这些元字符被要求匹配其本身时，就要进行转义处理了。不同的语言或应用场景下，正则定义方式、元字符出现的位置不同，转义的方式也是林林总总，不一而同。2.NET正则中的字
.NET正则基础之——平衡组 weixin_33915554
1概述平衡组是微软在.NET中提出的一个概念，主要是结合几种正则语法规则，提供对配对出现的嵌套结构的匹配。.NET是目前对正则支持最完备、功能最强大的语言平台之一，而平衡组正是其强大功能的外在表现，也是比较实用的文本处理功能，目前只有.NET支持，相信后续其它语言会提供支持。平衡组可以有狭义和广义两种定义，狭义平衡组指.NET中定义的(?Expression)语法，广义平衡组并不是固定的语法规则，
正则基础之——环视(Lookaround) zww0815
1环视基础环视只进行子表达式的匹配，不占有字符，匹配到的内容不保存到最终的匹配结果，是零宽度的。环视匹配的最终结果就是一个位置。环视的作用相当于对所在位置加了一个附加条件，只有满足这个条件，环视子表达式才能匹配成功。环视按照方向划分有顺序和逆序两种，按照是否匹配有肯定和否定两种，组合起来就有四种环视。顺序环视相当于在当前位置右侧附加一个条件，而逆序环视相当于在当前位置左侧附加一个条
正则基础之环视 Lookaround round
1 环视基础环视只进行子表达式的匹配，不占有字符，匹配到的内容不保存到最终的匹配结果，是零宽度的。环视匹配的最终结果就是一个位置。环视的作用相当于对所在位置加了一个附加条件，只有满足这个条件，环视子表达式才能匹配成功。环视按照方向划分有顺序和逆序两种，按照是否匹配有肯定和否定两种，组合起来就有四种环视。顺序环视相当于在当前位置右侧附加一个条件，而逆序环视相当于在当前位置左侧附加一个条
正则基础之——神奇的转义正则基础之
义方式、元字符出现的位置不同，转义的方式也是林林总总，不一而同。 2 .NET 正则中的字符转义 2.1 .NET 正则中的转义符绝大多数语言中，“ / ”都被作为转义符，用来转义一些具有特殊意义的字符或字符序列，比如“ /n
.NET正则基础之——正则委托 .NET正则基础
原地址： http://blog.csdn.net/lxcnn/archive/2009/10/22/4711491.aspx 1 概述一般的正则替换，只能对匹配的子串做简单的处理，且只能是做string类型的处理之后，作为替换文本替换匹配子串，可以实现的功能比较有限。.NET的Replace()方法中的replacement参数，不仅可以是字符串，还可以是委托
正则基础之——\b 单词边界正则基础之
1 概述 “\b”匹配单词边界，不匹配任何字符。 “\b”匹配的只是一个位置，这个位置的一侧是构成单词的字符，另一侧为非单词字符、字符串的开始或结束位置。“\b”是零宽度的。基本上所有的资料里都会说“\b”是单词边界，但是关于“单词”的范围却是少有提及。通常情况下，正则表达式中所谓的“单词”，就是由“\w”
.NET正则基础之——平衡组 .NET正则基础
1 概述平衡组是微软在.NET中提出的一个概念，主要是结合几种正则语法规则，提供对配对出现的嵌套结构的匹配。.NET是目前对正则支持最完备、功能最强大的语言平台之一，而平衡组正是其强大功能的外在表现，也是比较实用的文本处理功能，目前只有.NET支持，相信后续其它语言会提供支持。平衡组可以有狭义和广义两种定义
正则基础之——非捕获组正则基础之
非捕获组：(?:Expression) 接触正则表达式不久的人，通常都会对非捕获比较迷惑，为什么要有非捕获组？作用是什么？应该在什么场景下使用？说到非捕获组，首先要了解什么是捕获组，详细内容参考正则基础之——捕获组（capture group）。 1、为什么要有非捕获组一旦使用了“()”，就会默认为是普通捕获组，从而将“()”内表达式匹配的内容捕获到组里。但是有些情况下，
正则基础之——反向引用正则基础之
1 概述捕获组捕获到的内容，不仅可以在正则表达式外部通过程序进行引用，也可以在正则表达式内部进行引用，这种引用方式就是反向引用。要了解反向引用，首先要了解捕获组，关于捕获组，参考正则基础之——捕获组（capture group）。反向引用的作用通常是用来查找或限定重复、查找或限定指定标识配对出现等等。
正则基础之——贪婪与非贪婪模式正则基础之
1 概述贪婪与非贪婪模式影响的是被量词修饰的子表达式的匹配行为，贪婪模式在整个表达式匹配成功的前提下，尽可能多的匹配，而非贪婪模式在整个表达式匹配成功的前提下，尽可能少的匹配。非贪婪模式只被部分NFA引擎所支持。属于贪婪模式的量词，也叫做匹配优先量词，包括： “{m,n}”、“{m,}”、“?”、“*”和
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * <p>方法描述:sql语句查询返回List<Class> </p> * <p>方法备注: Class 只能是自定义类 </p> * @param calzz * @param sql * @return * <p>创建人：王川</p> * <p>创建时间：Jul