a497785609

.NET正则基础之——平衡组

1 概述

平衡组是微软在.NET中提出的一个概念，主要是结合几种正则语法规则，提供对配对出现的嵌套结构的匹配。.NET是目前对正则支持最完备、功能最强大的语言平台之一，而平衡组正是其强大功能的外在表现，也是比较实用的文本处理功能，目前只有.NET支持，相信后续其它语言会提供支持。

平衡组可以有狭义和广义两种定义，狭义平衡组指.NET中定义的(?<Close-Open>Expression)语法，广义平衡组并不是固定的语法规则，而是几种语法规则的综合运用，我们平时所说的平衡组通常指的是广义平衡组。本文中如无特殊说明，平衡组这种简写指的是广义平衡组。

正是由于平衡组功能的强大，所以带来了一些神秘色彩，其实平衡组并不难掌握。下面就平衡组的匹配原理、应用场景以及性能调优展开讨论。

2 平衡组匹配原理

2.1 预备知识

平衡组通常是由量词，分支结构，命名捕获组，狭义平衡组，条件判断结构组成的，量词和分支结构这里不做介绍，这里只对命名捕获组，狭义平衡组和条件判断结构做下说明。

2.1.1 命名捕获组

语法：(?<name>Expression)

(?’name’Expression)

以上两种写法在.NET中是等价的，都是将“Expression”子表达式匹配到的内容，保存到以“name”命名的组里，以供后续引用。

对于命名捕获组的应用，这里不做重点介绍，只是需要澄清一点，平时使用捕获组时，一般反向引用或Group对象使用得比较多，可能会有一种误解，那就是捕获组只保留一个匹配结果，即使一个捕获组可以先后匹配多个子串，也只保留最后一个匹配到的子串。但事实是这样吗？

举例来说：

源字符串：abcdefghijkl

正则表达式：(?<chars>[a-z]{2})+

命名捕获组chars最终捕获的是什么？

string test = "abcdefghijkl";

Regex reg = new Regex(@"(?<chars>[a-z]{2})+");

Match m = reg.Match(test);

if (m.Success)

{

richTextBox2.Text += "匹配结果：" + m.Value + "\n";

richTextBox2.Text += "Group：" + m.Groups["chars"].Value + "\n";

}

/*--------输出--------

匹配结果：abcdefghijkl

Group：kl

从m.Groups["chars"].Value的输出上看，似乎确实是只保留了一个匹配内容，但却忽略了一个事实，Group实际上是Capture的一个集合

string test = "abcdefghijkl";

Regex reg = new Regex(@"(?<chars>[a-z]{2})+");

Match m = reg.Match(test);

if (m.Success)

{

richTextBox2.Text += "匹配结果：" + m.Value + "\n";

richTextBox2.Text += "Group：" + m.Groups["chars"].Value + "\n--------------\n";

foreach (Capture c in m.Groups["chars"].Captures)

{

richTextBox2.Text += "Capture：" + c + "\n";

}

/*--------输出--------

匹配结果：abcdefghijkl

Group：kl

--------------

Capture：ab

Capture：cd

Capture：ef

Capture：gh

Capture：ij

Capture：kl

平时应用时可能会忽略这一点，因为很少遇到一个捕获组先后匹配多个子串的情况，而在一个捕获组只匹配一个子串时，Group集合中就只有一个Capture元素，所以内容是一样的。

string test = "abcdefghijkl";

Regex reg = new Regex(@"(?<chars>[a-z]{2})");

Match m = reg.Match(test);

if (m.Success)

{

richTextBox2.Text += "匹配结果：" + m.Value + "\n";

richTextBox2.Text += "Group：" + m.Groups["chars"].Value + "\n--------------\n";

foreach (Capture c in m.Groups["chars"].Captures)

{

richTextBox2.Text += "Capture：" + c + "\n";

}

/*--------输出--------

匹配结果：ab

Group：ab

--------------

Capture：ab

捕获组保存的是一个集合，而不只是一个元素，这一知识点对于理解平衡组的匹配原理是有帮助的。

2.1.2 狭义平衡组

语法：(?<Close-Open>Expression)

其中“Close”是命名捕获组的组名，也就是“(?<name>Expression)”中的“name”，可以省略，通常应用时并不关注，所以一般都是省略的，写作“(?<-Open>Expression)”。作用就是当此处的“Expression”子表达式匹配成功时，则将最近匹配成功到的命名为“Open”组出栈，如果此前不存在匹配成功的“Open”组，那么就报告“(?<-Open>Expression)”匹配失败，整个表达式在这一位置也是匹配失败的。

2.1.3 条件判断结构

语法：(?(Expression)yes|no)

(?(name)yes|no)

对于“(?(Expression)yes|no)”，它是“(?(?=Expression)yes|no)”的简写形式，相当于三元运算符

(?=Expression) ? yes : no

表示如果子表达式“(?=Expression)”匹配成功，则匹配“yes”子表达式，否则匹配“no”子表达式。如果“Expression”与可能出现的命名捕获组的组名相同，为避免混淆，可以采用“(?(?=Expression)yes|no)”方式显示声明“Expression”为子表达式，而不是捕获组名。

“(?=Expression)”验证当前位置右侧是否能够匹配“Expression”，属于顺序环视结构，是零宽度的，所以它只参与判断，即使匹配成功，也不会占有字符。

举例来说：

源字符串：abc

正则表达式：(?(?=a)\w{2}|\w)

当前位置右侧如果是字符“a” ，则匹配两个“\w”，否则匹配一个“\w”。

string test = "abc";

Regex reg = new Regex(@"(?(?=a)\w{2}|\w)");

MatchCollection mc = reg.Matches(test);

foreach(Match m in mc)

{

richTextBox2.Text += m.Value + "\n";

}

/*--------输出--------

对于“(?(name)yes|no)”，如果命名捕获组“name”有捕获，则匹配“yes”子表达式，否则匹配“no”子表达式。这一语法最典型的一种应用是平衡组。

当然，以上两种语法中，“yes”和“no都是可以省略的，但同一时间只能省略一个，不能一起省略。平衡组的应用中就是省略了“no”子表达式。

2.2 平衡组的匹配原理

平衡组的匹配原理可以用堆栈来解释，先举个例子，再根据例子进行解释。

源字符串：a+(b*(c+d))/e+f-(g/(h-i))*j

正则表达式：$((?<Open>\()|(?<-Open>$)|[^()])*(?(Open)(?!))\)

需求说明：匹配成对出现的()中的内容

string test = "a+(b*(c+d))/e+f-(g/(h-i))*j";

Regex reg = new Regex(@"$((?<Open>\()|(?<-Open>$)|[^()])*(?(Open)(?!))\)");

MatchCollection mc = reg.Matches(test);

foreach (Match m in mc)

{

richTextBox2.Text += m.Value + "\n";

}

/*--------输出--------

(b*(c+d))

(g/(h-i))

下面来考察一下这个正则，为了阅读方便，写成宽松模式。

Regex reg = new Regex(@"\( #普通字符“(”

( #分组构造，用来限定量词“*”修饰范围

(?<Open>\() #命名捕获组，遇到开括弧’Open’计数加1

| #分支结构

(?<-Open>\)) #狭义平衡组，遇到闭括弧’Open’计数减1

| #分支结构

[^()]+ #非括弧的其它任意字符

)* #以上子串出现0次或任意多次

(?(Open)(?!)) #判断是否还有’Open’，有则说明不配对，什么都不匹配

\) #普通闭括弧

", RegexOptions.IgnorePatternWhitespace);

对于一个嵌套结构而言，开始和结束标记都是确定的，对于本例开始为“(”，结束为“)”，那么接下来就是考察中间的结构，中间的字符可以划分为三类，一类是“(”，一类是“)”，其余的就是除这两个字符以外的任意字符。

那么平衡组的匹配原理就是这样的：

1. 先找到第一个“(”，作为匹配的开始

2. 在第1步以后，每匹配到一个“(”，就入栈一个Open捕获组，计数加1

3. 在第1步以后，每匹配到一个“)”，就出栈最近入栈的Open捕获组，计数减1

4. 后面的(?(Open)(?!))用来保证堆栈中Open捕获组计数是否为0，也就是“(”和“)”是配对出现的

5. 最后的“)”，作为匹配的结束

匹配过程（以下匹配过程，如果觉得难以理解，可以暂时跳过，先学会如何使用，再研究为什么可以这样用吧）

首先匹配第一个“(”，然后一直匹配，直到出现以下两种情况之一：

a) 堆栈中Open计数已为0，此时再遇到“)”

b) 匹配到字符串结束符

这时控制权交给(?(Open)(?!))，判断Open是否有匹配，由于此时计数为0，没有匹配，那么就匹配“no”分支，由于这个条件判断结构中没有“no”分支，所以什么都不做，把控制权交给接下来的“\)”

如果上面遇到的是情况a)，那么此时“\)”可以匹配接下来的“\)”，匹配成功；如果上面遇到的是情况b)，那么此时会进行回溯，直到“\)”匹配成功为止，否则报告整个表达式匹配失败。

由于.NET中的狭义平衡组“(?<Close-Open>Expression)”结构，可以动态的对堆栈中捕获组进行计数，匹配到一个开始标记，入栈，计数加1，匹配到一个结束标记，出栈，计数减1，最后再判断堆栈中是否还有Open，有则说明开始和结束标记不配对出现，不匹配，进行回溯或报告匹配失败；如果没有，则说明开始和结束标记配对出现，继续进行后面子表达式的匹配。

需要对“(?!)”进行一下说明，它属于顺序否定环视，完整的语法是“(?!Expression)”。由于这里的“Expression”不存在，表示这里不是一个位置，所以试图尝试匹配总是失败的，作用就是在Open不配对出现时，报告匹配失败。

3 平衡组的应用及优化

平衡组提供了嵌套结构的匹配功能，这一创新是很让人兴奋的，因为此前正则对于嵌套结构的匹配是无能为力的。然而功能的强大，自然也带来了实现的复杂，正则书写得不好，可能会存在效率陷阱，甚至导致程序崩溃，这里介绍一些基本的优化方法。

3.1 单字符嵌套结构平衡组优化

单字符的嵌套结构指的是开始和结束标记都单个字符的嵌套结构，这种嵌套相对来说比较简单，优化起来也比较容易。先从上面提到的例子开始。

3.1.1 贪婪与非贪婪模式

上面给的例子是一种做了部分优化的常规写法，算作是版本1吧，它做了哪些优化呢，先来看下完全没有做过优化的版本0吧。

string test = "a+(b*(c+d))/e+f-(g/(h-i))*j";

Regex reg0 = new Regex(@"\( #普通字符“(”

( #分组构造，用来限定量词“*”修饰范围

(?<Open>\() #命名捕获组，遇到开括弧Open计数加1

| #分支结构

(?<-Open>\)) #狭义平衡组，遇到闭括弧Open计数减1

| #分支结构

. #任意字符

)*? #以上子串出现0次或任意多次，非贪婪模式

(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配

\) #普通闭括弧

", RegexOptions.IgnorePatternWhitespace);

MatchCollection mc = reg0.Matches(test);

foreach (Match m in mc)

{

richTextBox2.Text += m.Value + "\n";

}

/*--------输出--------

(b*(c+d))

(g/(h-i))

接下来对比一下版本1。

Regex reg1 = new Regex(@"\( #普通字符“(”

( #分组构造，用来限定量词“*”修饰范围

(?<Open>\() #命名捕获组，遇到开括弧’Open’计数加1

| #分支结构

(?<-Open>\)) #狭义平衡组，遇到闭括弧’Open’计数减1

| #分支结构

[^()]+ #非括弧的其它任意字符

)* #以上子串出现0次或任意多次

(?(Open)(?!)) #判断是否还有’Open’，有则说明不配对，什么都不匹配

\) #普通闭括弧

", RegexOptions.IgnorePatternWhitespace);

看到区别了吗？版本1对版本0的改进主要有两个地方，一个是用“[^()]+”来代替“.”，另一个是用“*”来代替“*?”，也就是用贪婪模式来代替非贪婪模式。

如果使用了小数点“.”，那么为什么不能在分组内使用“.+”，后面又为什么不能用“*”呢？只要在上面的正则中使用并运行一下代码就可以知道了，匹配的结果是

(b*(c+d))/e+f-(g/(h-i))

而不是

(b*(c+d))

(g/(h-i))

因为无论是分组内使用“.+”还是后面使用“*”，都是贪婪模式，所以小数点会一直匹配下去，直到匹配到字符串的结束符才会停止，然后进行回溯匹配。为了取得正确结果，必须使用非贪婪模式“*?”。

这就类似于用“$.+$”去匹配“(abc)def(ghi)”一样，得到的结果是“(abc)def(ghi)”，而不是通常我们希望的“(abc)”和“(ghi)”。这时要用非贪婪模式“$.+?$”来得到正确的结果。

贪婪模式和非贪婪模式在匹配失败时，回溯的次数基本上是一样的，效率上没有多大区别，但是在匹配成功时，贪婪模式比非贪婪模式回溯的次数要少得多，效率要高得多。

对于“$.+$”如果既要得到正确的匹配结果，又要提高匹配效率，可以使用排除型捕获组+贪婪模式的方式，即“$[^()]+$”。

版本0的平衡组也是一样，可以使用排除字符组“[^()]+”和贪婪模式“*”结合的方式，提高匹配效率，得到的就是版本1的平衡组。

相对于版本0，或许你会认为版本1的写法是很自然的，但是如果不了解这样一个演进过程，那么在字符序列嵌套结构平衡组优化时，就不会是那么自然的一件事了。

3.1.2 分支结构

接下来就是分支结构的优化。

语法：(Exp1|Exp2|Exp3)

因为分支结构的匹配规则是，从左向右尝试匹配，当左侧分支匹配成功时，就不再向右尝试。所以使用分支结构时，可以根据以下两条规则进行优化：

1. 尽量抽象出每个分支中的公共的部分，使最后的表达式中，每个分支共公部分尽可能的少，比如(this|that)的匹配效率是没有th(is|at)高的。

2. 在不影响匹配结果的情况下，把出现概率高的分支放在左侧，出现概率低的分支放右侧。

对于本例中的分支结构，已经没有公共部分，符合第一条规则，再看下第二条规则，开始标记“(”和结束标记“)”出现的概率基本上是一样的，而除“(”和“)”之外的字符出现的概率是比“(”和“)”出现的概率高的，所以应该把“[^()]+”分支放在左侧。

版本1由于采用了排除型捕获组，所以这三个分支没有包含关系，左右顺序对结果不会造成影响，可以调整顺序。因为这是已经经过优化的了，而如果是版本0，由“.”对“(”和“)”有包含关系，就不能调整顺序了。

在版本1基础上对分支结构进行优化后，就得到版本2。

string test = "a+(b*(c+d))/e+f-(g/(h-i))*j";

Regex reg2 = new Regex(@"\( #普通字符“(”

( #分组构造，用来限定量词“*”修饰范围

[^()]+ #非括弧的其它任意字符

| #分支结构

(?<Open>\() #命名捕获组，遇到开括弧Open计数加1

| #分支结构

(?<-Open>\)) #狭义平衡组，遇到闭括弧Open计数减1

)* #以上子串出现0次或任意多次

(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配

\) #普通闭括弧

", RegexOptions.IgnorePatternWhitespace);

MatchCollection mc = reg2.Matches(test);

foreach (Match m in mc)

{

richTextBox2.Text += m.Value + "\n";

}

/*--------输出--------

(b*(c+d))

(g/(h-i))

3.1.3 捕获组

这里面主要涉及到了两个捕获组“(?<Open>$)”和“(?<-Open>$)”，而在平衡组的应用中，我是只关心它是否匹配了，而对于匹配到的内容是不关心的。对于这样一种需求，可以用以下方式实现

\( (?<Open>)

\)(?<-Open>)

“(?<Open>)”和“(?<-Open>)”这两种方式只是使用了命名捕获组，捕获的是一个位置，它总是能够匹配成功的，而匹配的内容是空的，分配的内存空间是固定的，可以有效的节省资源，这在单字符嵌套结构中并不明显，但是在字符序列嵌套结构中就比较明显了。

由于捕获组是直接跟在开始或结束标记之后的，所以只要开始或结束标记匹配成功，命名捕获组自然就会匹配成功，对于功能是没有任何影响的。

那么把标记和捕获组调整一下顺序是否可以呢？从功能上来讲，是可以的，但是匹配的流程上会有所不同，先是捕获组匹配成功，入栈，然后再匹配标记，成功则继续匹配，不成功则该分支匹配失败，进行回溯，出栈，继续尝试下一分支。这样将增加许多入栈和出栈的操作，对匹配效率是有影响的，所以这种方式并不可取。

在版本2基础上对捕获组进行优化后，就得到版本3。

string test = "a+(b*(c+d))/e+f-(g/(h-i))*j";

Regex reg3 = new Regex(@"\( #普通字符“(”

( #分组构造，用来限定量词“*”修饰范围

[^()]+ #非括弧的其它任意字符

| #分支结构

\( (?<Open>) #命名捕获组，遇到开括弧Open计数加1

| #分支结构

\) (?<-Open>) #狭义平衡组，遇到闭括弧Open计数减1

)* #以上子串出现0次或任意多次

(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配

\) #普通闭括弧

", RegexOptions.IgnorePatternWhitespace);

MatchCollection mc = reg3.Matches(test);

foreach (Match m in mc)

{

richTextBox2.Text += m.Value + "\n";

}

/*--------输出--------

(b*(c+d))

(g/(h-i))

3.1.4 固化分组

看到有些人使用平衡组时用到了固化分组，但并不是所有人都明白固化分组的作用。

语法：(?>Expression)

用“$[^()]+$”去匹配“(abc)”是可以匹配成功的，因为不用回溯，相对于“$.+?$”这种非贪婪模式，效率上有所提升，但是对于匹配失败的情况又如何呢？

源字符串：(abc

正则表达式：$[^()]+$

匹配中间过程这里不再详述，可以参考NFA引擎匹配原理。

当“[^()]+”匹配到结束位置时，控制权交给“\)”，匹配失败，进行回溯，而由于前面使用了“[^()]+”这种排除型字符组，所以可供回溯的位置，不会存在可以匹配“\)”的情况，这时候的回溯是完全没有意义的，只会浪费时间，但是由于传统NFA引擎的特点，必须回溯所有可能之后才会报告匹配失败。

这时可以用固化分组来进行优化，一旦占有字符，就不再释放。也就是一旦占有，就不再记录可供回溯的可能。通常是与排除型字符组或顺序否定环视一起使用的。

优化后的正则表达式：$(?>[^()]+)$

需要说明的一点，固化分组要作用于量词修饰的子表达式才有意义，对于“(?>abc)”由于内容是固定的，根本就不会产生回溯，所以使用固化分组是没有意义的。

对于平衡组的应用也是一样，如果分组构造中没有量词，那么使用固化分组就是没有意义的，比如版本0

Regex reg = new Regex(@"$(?>(?<Open>\()|(?<-Open>$)|.)*?(?(Open)(?!))\)");

这种场景下使用固化分组就是没有意义的。

在版本3基础上对捕获组进行优化后，就得到版本4。

string test = "a+(b*(c+d))/e+f-(g/(h-i))*j";

Regex reg4 = new Regex(@"\( #普通字符“(”

(?> #分组构造，用来限定量词“*”修饰范围

[^()]+ #非括弧的其它任意字符

| #分支结构

\( (?<Open>) #命名捕获组，遇到开括弧Open计数加1

| #分支结构

\) (?<-Open>) #狭义平衡组，遇到闭括弧Open计数减1

)* #以上子串出现0次或任意多次

(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配

\) #普通闭括弧

", RegexOptions.IgnorePatternWhitespace);

MatchCollection mc = reg4.Matches(test);

foreach (Match m in mc)

{

richTextBox2.Text += m.Value + "\n";

}

/*--------输出--------

(b*(c+d))

(g/(h-i))

那么对于分组构造外层的“*”修饰的子表达式是否可以使用固化分组呢？答案是否定的，因为平衡组通常是要进行回溯才能最终匹配成功的，所以如果使用固化分组，不记录回溯可能的话，将无法得到正确结果。

3.1.5 进一步优化讨论

那么现在是不是已经完成优化了呢？是的，通常可以这么认为。在一般应用当中，这已经是从正则层面上来说，最优方案了。

但是在有些场景下，由于Compiled模式可以有效提高分支结构的匹配效率，所以对于源字符串比较复杂的情况，牺牲一些编译时间和内存，还是可以有效提高匹配效率的。

Regex reg5 = new Regex(@"\( #普通字符“(”

(?> #分组构造，用来限定量词“*”修饰范围

[^()]+ #非括弧的其它任意字符

| #分支结构

\( (?<Open>) #命名捕获组，遇到开括弧Open计数加1

| #分支结构

\) (?<-Open>) #狭义平衡组，遇到闭括弧Open计数减1

)* #以上子串出现0次或任意多次

(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配

\) #普通闭括弧

", RegexOptions.IgnorePatternWhitespace | RegexOptions.Compiled);

MatchCollection mc = reg5.Matches(test);

foreach (Match m in mc)

{

richTextBox2.Text += m.Value + "\n";

}

/*--------输出--------

(b*(c+d))

(g/(h-i))

并不是所有应用场景都适合使用Compiled模式，比如上面这个例子里的源字符串如果是“a+(b*(c+d))/e+f-(g/(h-i))*j”，本身是非常简单的，使用Compiled模式将是得不偿失的。什么时候使用，要根据具体问题具体分析。

3.2 字符序列嵌套结构平衡组应用

字符序列嵌套结构的匹配，典型的应用就是html标签的提取。由于上面详细说明了单字符嵌套结构的优化过程，这里主要讲应用场景，个别涉及到优化的地方再讨论。

字符序列嵌套结构的匹配，举例来说，取div标签。源字符串如下：

</div>

</div>

3.2.1 提取最外层嵌套结构

提取最外层div标签，分析过程及构造方式与单字符嵌套结构差不多，只是捕获组等内容稍稍复杂点，先给出实现，再进行解释。

string test = @"<div id=""0"">

</div>

</div>

</div>";

Regex reg = new Regex(@"(?isx) #匹配模式，忽略大小写，“.”匹配任意字符

<div[^>]*> #开始标记“<div...>”

(?> #分组构造，用来限定量词“*”修饰范围

<div[^>]*> (?<Open>) #命名捕获组，遇到开始标记，入栈，Open计数加1

| #分支结构

</div> (?<-Open>) #狭义平衡组，遇到结束标记，出栈，Open计数减1

| #分支结构

(?:(?!</?div\b).)* #右侧不为开始或结束标记的任意字符

)* #以上子串出现0次或任意多次

(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配

</div> #结束标记“</div>”

");

MatchCollection mc = reg.Matches(test);

foreach (Match m in mc)

{

richTextBox2.Text += m.Value + "\n--------------------\n";

}

/*--------输出--------

</div>

--------------------

</div>

--------------------

在单字符嵌套结构中，使用排除型字符组“[^()]+”，与分组构造外的匹配优先量词“*” 达到贪婪模式匹配效果。在字符序列嵌套结构中，要排除的是一个子串，而不是简单的几个无序字符，所以不能使用排除型字符组，此时需要用到顺序否定环视来达到这一目的。“(?:(?!</?div\b).)*”表示的是所在位置右侧不是“<div…>”或“</div>”的字符，这样的字符重复0次或任意多次。关于环视的细节，可以参考正则基础之——环视。

而由于这种否定环视包含两种状态，所以在与固化分组结合使用时，会与后面的开始或结束标记形成包含关系，所以与固化分组一起使用时，不能放在左侧，只能放在右侧。

3.2.2 根据id提取div嵌套标签

根据id提取div时，改变的只是最外层div的结构，对内分组构造内部结构没有影响。但是因为id是变化的，所以正则需要动态生成。下面给出实现，源字符串和输出结果由于比较影响篇幅，就不再给出了。

string id = Regex.Escape(textBox1.Text); //动态获取id

Regex reg = new Regex(@"(?isx)

<div(?:(?!(?:id=|</?div\b)).)*id=(['""]?)" + id + @"\1[^>]*> #开始标记“<div...>”

(?> #分组构造，用来限定量词“*”修饰范围

<div[^>]*> (?<Open>) #命名捕获组，遇到开始标记，入栈，Open计数加1

| #分支结构

</div> (?<-Open>) #狭义平衡组，遇到结束标记，出栈，Open计数减1

| #分支结构

(?:(?!</?div\b).)* #右侧不为开始或结束标记的任意字符

)* #以上子串出现0次或任意多次

(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配

</div> #结束标记“</div>”

");

MatchCollection mc = reg.Matches(test);

foreach (Match m in mc)

{

richTextBox2.Text += m.Value + "\n--------------------\n";

}

在动态生成正则表达式时，由于输入的字符串中可能存在正则中有特殊意义的元字符，如果不进行转义的话，正则解析时会抛出异常。所以用Regex.Escape(string str)来对动态输入的字符串进行转义处理，确保不会因动态输入的内容而抛异常。比如上面的例子，如果id不进行转义处理时，输入“abc(def”就会抛“) 不足”这样的异常。

3.2.3 根据id提取任意嵌套标签

再扩展一下，根据id属性取任意嵌套标签。实现如下，具体实现细节和讨论参考就是通过id获得一个html标签块。以下正则相对于帖子对个别细节做了调整。

string html = @"

<html>

<body>

<tr>

<td>

</td>

</tr>

</table>

</div>

</div>

</body>

</html>";

Console.WriteLine(html);

string[] idList = { "div1", "div2", "div3", "div4", "table1", "div5", "abc(def" };

string pattern = @"<([a-z]+)(?:(?!\bid\b)[^<>])*id=([""']?){0}\2[^>]*>(?><\1[^>]*>(?<o>)|</\1>(?<-o>)|(?:(?!</?\1).)*)*(?(o)(?!))</\1>";

foreach (string id in idList)

{

Match match = Regex.Match(html, string.Format(pattern, Regex.Escape(id)),

RegexOptions.Singleline | RegexOptions.IgnoreCase);

Console.WriteLine("--------begin {0}--------", id);

if (match.Success)

Console.WriteLine(match.Value);

else

Console.WriteLine("o(╯□╰)o");

Console.WriteLine("--------end {0}--------", id);

}

Console.ReadLine();

3.2.4 根据标签取外层嵌套结构

根据动态输入的tag，取相应的最外层的嵌套标签，实现如下。

string html = @"

<html>

<body>

<tr>

<td>

</td>

</tr>

</table>

</div>

</div>

</body>

</html>";

Console.WriteLine(html);

string[] tagList = { "html", "body", "div", "table", "abc(def" };

string pattern = @"(?isx)

<({0})\b[^>]*> #开始标记“<tag...>”

(?> #分组构造，用来限定量词“*”修饰范围

<\1[^>]*> (?<Open>) #命名捕获组，遇到开始标记，入栈，Open计数加1

| #分支结构

</\1> (?<-Open>) #狭义平衡组，遇到结束标记，出栈，Open计数减1

| #分支结构

(?:(?!</?\1\b).)* #右侧不为开始或结束标记的任意字符

)* #以上子串出现0次或任意多次

(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配

</\1> #结束标记“</tag>”

foreach (string tag in tagList)

{

Match match = Regex.Match(html, string.Format(pattern, Regex.Escape(tag)));

Console.WriteLine("--------begin {0}--------", tag);

if (match.Success)

Console.WriteLine(match.Value);

else

Console.WriteLine("o(╯□╰)o");

Console.WriteLine("--------end {0}--------", tag);

}

Console.ReadLine();

3.2.5 条件判断结构扩展应用

条件判断结构的作用不只限于验证开始和结束标记是否配对，根据需求的不同，还可以有其它一些应用。比如在匹配div标签时，只取内部“存在”嵌套的外层标签。

string test = @"<div id=""0"">

</div>

</div>

</div>";

Regex reg = new Regex(@"(?isx) #匹配模式，忽略大小写，“.”匹配任意字符

<div[^>]*> #开始标记“<div...>”

(?> #分组构造，用来限定量词“*”修饰范围

<div[^>]*> (?<Open>)(?<Mask>) #遇到开始标记，入栈，Open和Mask计数各加1

| #分支结构

</div> (?<-Open>) #遇到结束标记，出栈，Open计数减1

| #分支结构

(?:(?!</?div\b).)* #右侧不为开始或结束标记的任意字符

)* #以上子串出现0次或任意多次

(?(Open)(?!))(?(Mask)|(?!)) #'OPEN'保证标记配对，'Mask'保证内部有嵌套

</div> #结束标记“</div>”

");

MatchCollection mc = reg.Matches(test);

foreach (Match m in mc)

{

richTextBox2.Text += m.Value + "\n--------------------\n";

}

/*--------输出--------

</div>

--------------------

命名捕获组“(?<Mask>)”只入栈不出栈，如果内部有嵌套，则“(?<Mask>)”一定有匹配，此时匹配“(?(Mask)yes|no)”中的“yes”子表达式，也就是什么都不做；如果内部没有嵌套，则“(?<Mask>)”没有匹配，此时匹配“(?(Mask)yes|no)”中的“no”子表达式，也就是报告匹配失败。这里省略的是“(?(Mask)yes|no)”中的“yes”子表达式。

对于匹配内部没有嵌套的标签，也就是最内层标签，可以使用上面的正则表达式，将“(?(Mask)yes|no)”中的“yes”子表达式设为“(?!)”，将“yes”子表达式省略。不过这样做有些浪费，完全可以用顺序否定环视来实现这一需求。

string test = @"<div id=""0"">

</div>

</div>

</div>";

Regex reg = new Regex(@"(?is)<div[^>]*>(?:(?!</?div\b).)*</div>");

MatchCollection mc = reg.Matches(test);

foreach (Match m in mc)

{

richTextBox2.Text += m.Value + "\n--------------------\n";

}

/*--------输出--------

</div>

--------------------

</div>

--------------------

4 平衡组应用范围探讨

平衡组可以用来匹配嵌套结构，这是一个很大的创新，但是否就认为平衡组适合用来解决任何嵌套问题呢？事实当然不会是这样。

比如下面这个需求，(参考请问一个正则表达式) ：

源字符串：1+Sum(1,Sum(2, Sum(3), 4), 5)*4+5+Sum(9,Sum(8, Sum(7), 6), 5)*6+7

要求输出：

Sum(1,Sum(2, Sum(3), 4), 5)

Sum(2, Sum(3), 4)

Sum(3)

Sum(9,Sum(8, Sum(7), 6), 5)

Sum(8, Sum(7), 6)

Sum(7)

这种需求使用平衡组+递归的方式可以实现，实现代码如下：

//递归方法

private void getNesting(string src, Regex reg, List<string> list)

{

MatchCollection mc = reg.Matches(src);

foreach(Match m in mc)

{

list.Add(m.Value);

src = m.Value.Remove(m.Value.Length-1, 1);

if (reg.IsMatch(src))

{

getNesting(src, reg, list);

}

//调用

string test = "1+Sum(1,Sum(2, Sum(3), 4), 5)*4+5+Sum(9,Sum(8, Sum(7), 6), 5)*6+7";

List<string> list = new List<string>();

Regex reg = new Regex(@"(?i)Sum$(?>[^()]+|\((?<o>)|$(?<-o>))*(?(o)(?!))\)",RegexOptions.Compiled);

getNesting(test, reg, list);

foreach (string s in list)

{

richTextBox2.Text += s + "\n";

}

平衡组虽然可以实现要求，但除非你对效率没有要求，否则这一类需求通常是不适合用正则来实现的。因为平衡组并不是为这一功能而设计的，在实现过程中做了很多额外的尝试。效率上自然要大打折扣。

类似这样的需求，可以自己写有穷自动机来实现，毕竟正则也只不过是一种有穷自动机的实现而已。

string test = @"1+Sum(1,Sum(2, Sum(3), 4), 5)*4+5+Sum(9,Sum(8, Sum(7), 6), 5)*6+7 ";

StringBuilder nesting = new StringBuilder(64);

List<StringBuilder> list = new List<StringBuilder>();

List<string> groups = new List<string>();

int level = 0;

int state = 0;

foreach (char c in test)

{

if ((c == 'S' || c == 's') && state == 0)

{

state = 1;

nesting.Append(c);

}

else if ((c == 'U' || c == 'u') && state == 1)

{

state = 2;

nesting.Append(c);

}

else if ((c == 'M' || c == 'm') && state == 2)

{

state = 3;

nesting.Append(c);

}

else if (c == '(' && state == 3)

{

state = 0;

level++;

}

else

{

state = 0;

nesting = new StringBuilder(64);

}

if (c == ')')

{

if (level > 0)

{

level--;

groups.Add(list[level].ToString() + c);

list.Remove(list[level]);

}

if (level > 0)

{

while(list.Count < level)

{

list.Add(nesting);

}

for (int i = 0; i < level; i++)

{

list[i].Append(c);

}

foreach (string s in groups)

{

Console.WriteLine(s);

}

Console.ReadLine();

5 其它声明

到此为止，平衡组的基本应用场景和性能调优都已讨论完了，本文对于平衡组匹配原理讲得相对比较少，以应用场景分析为主。主要是因为能够使用平衡组来解决问题的人，通常已经对正则的基本语法有了一定程度的理解。而如果事实确实如此，那么对于平衡组的理解，也是水到渠成的了。

以上正则实现中，采用的多是宽松排列模式，主要是为了加注释，使得阅读清晰。而宽松排列模式通常用于教学目的，实际使用过程中，如果不是为了可读性的考虑，可以去掉这些注释和宽松排列模式参数。

上面给出了很多平衡组的应用，这里需要说明的是，我提供的只是一些方法和思路，从来不推荐把正则当作模板来用，虽然有些时候，它确实可以当作模板来用，但我还是希望你能真正的掌握这些语法规则之后，再去应用平衡组。当然，如果你认为能用就行，不需要知道为什么可以这样用，只是把它当作模板来套，我也无话可说。

你可能感兴趣的:(.NET正则基础之——平衡组)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
Git常用命令－修改远程仓库地址猿大师 Linux Java git java
查看远程仓库地址gitremote-v返回结果originhttps://git.coding.net/＊＊＊＊＊.git(fetch)originhttps://git.coding.net/＊＊＊＊＊.git(push)修改远程仓库地址gitremoteset-urloriginhttps://git.coding.net/＊＊＊＊＊.git先删除后增加远程仓库地址gitremotermori
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【无标题】达瓦达瓦 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
上图为是否色发 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
143234234123432 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
2019-01-19 王小康KK
姓名:王康公司:扬州市方圆建筑工程有限公司2018年3月16日～3月18日上海361期《六项精进》感谢二组学员【日精进打卡第307天】【知～学习】《六项精进》大纲3遍共862遍《大学》通篇3遍共860遍《六项精进》全书40页【经典名句】思想决定行为，行为决定习惯，习惯决定性格，性格决定命运。【行～实践】一、修身：（对自己个人）1、践行六项精进的理念。二、齐家：（对家庭和家人）1、和女朋友视频聊天。
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
2018-12-07 旅一06丁琪琪
旅管一班6组学号链接06丁琪琪16家国鑫26孟令慧30王思宁36温红丽46朱赵筱楠
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
2024.9.14 Python，差分法解决区间加法，消除游戏，压缩字符串 RaidenQ python 游戏开发语言算法力扣
1.区间加法假设你有一个长度为n的数组，初始情况下所有的数字均为0，你将会被给出k个更新的操作。其中，每个操作会被表示为一个三元组：[startIndex,endIndex,inc]，你需要将子数组A[startIndex…endIndex]（包括startIndex和endIndex）增加inc。请你返回k次操作后的数组。示例:输入:length=5,updates=[[1,3,2],[2,4,
第1步win10宿主机与虚拟机通过NAT共享上网互通学习3人组大数据大数据
VM的CentOS采用NAT共用宿主机网卡宿主机器无法连接到虚拟CentOS要实现宿主机与虚拟机通信，原理就是给宿主机的网卡配置一个与虚拟机网关相同网段的IP地址，实现可以互通。1、查看虚拟机的IP地址2、编辑虚拟机的虚拟网络的NAT和DHCP的配置，设置虚拟机的网卡选择NAT共享模式3、宿主机的IP配置，确保vnet8的IPV4属性与虚拟机在同一网段4、ping测试连通性[root@localh
2019-03-24 李飞720
姓名：李飞企业名称：临沂鑫道食品有限公司组别373期利他1组日精进打卡第338天】【知~学习】1、阿米巴经营一段2、活用人才1段3、活法、一段【行~实践】一、修身：读书、抽烟减量、俯卧撑个跑步3公里二、齐家、劝说老爸与姑姑和好三、建功、业务洽谈【经典名句分享】1、依据原理原则追求事物的本质，以“作为人，何谓正确”进行判断2、经营者必须为员工物质和精神两方面的幸福殚精竭虑，倾尽全力，必须超脱私心，让
SpringCloudAlibaba—Sentinel(限流) 菜鸟爪哇
前言：自己在学习过程的记录，借鉴别人文章，记录自己实现的步骤。借鉴文章：https://blog.csdn.net/u014494148/article/details/105484410Sentinel介绍Sentinel诞生于阿里巴巴，其主要目标是流量控制和服务熔断。Sentinel是通过限制并发线程的数量（即信号隔离）来减少不稳定资源的影响，而不是使用线程池，省去了线程切换的性能开销。当资源
光盘文件系统 (iso9660) 格式解析穷人小水滴光盘文件系统 iso9660 deno GNU/Linux javascript
越简单的系统,越可靠,越不容易出问题.光盘文件系统(iso9660)十分简单,只需不到200行代码,即可实现定位读取其中的文件.参考资料:https://wiki.osdev.org/ISO_9660相关文章:《光盘防水嘛?DVD+R刻录光盘泡水实验》https://blog.csdn.net/secext2022/article/details/140583910《光驱的内部结构及日常使用》ht
科幻游戏《外卖员模拟器》主要地理环境设定 (1) 穷人小水滴游戏科幻设计
游戏名称:《外卖员模拟器》(英文名称:waimai_se)作者:穷人小水滴本故事纯属虚构,如有雷同实属巧合.故事发生在一个(架空)平行宇宙的地球,21世纪(超低空科幻流派).相关文章:https://blog.csdn.net/secext2022/article/details/141790630目录1星球整体地理设定2巨蛇国主要设定3海蛇市主要设定3.1主要地标建筑3.2交通3.3能源(电力)
react-intl——react国际化使用方案苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
国际化介绍i18n：internationalization国家化简称，首字母+首尾字母间隔的字母个数+尾字母，类似的还有k8s(Kubernetes)React-intl是React中最受欢迎的库。使用步骤安装#usenpmnpminstallreact-intl-D#useyarn项目入口文件配置//index.tsximportReactfrom"react";importReactDOMf
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
C++ lambda闭包消除类成员变量 barbyQAQ c++c++java 算法
原文链接：https://blog.csdn.net/qq_51470638/article/details/142151502一、背景在面向对象编程时，常常要添加类成员变量。然而类成员一旦多了之后，也会带来干扰。拿到一个类，一看成员变量好几十个，就问你怕不怕？二、解决思路可以借助函数式编程思想，来消除一些不必要的类成员变量。三、实例举个例子：classClassA{public:...intfu
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
基于STM32与Qt的自动平衡机器人：从控制到人机交互的的详细设计流程极客小张 stm32 qt 机器人物联网人机交互毕业设计 c语言
一、项目概述目标和用途本项目旨在开发一款基于STM32控制的自动平衡机器人，结合步进电机和陀螺仪传感器，实现对平衡机器人的精确控制。该机器人可以用于教育、科研、娱乐等多个领域，帮助用户了解自动控制、机器人运动学等相关知识。技术栈关键词STM32单片机步进电机陀螺仪传感器AD采集电路Qt人机界面实时数据监控二、系统架构系统架构设计本项目的系统架构设计包括以下主要组件：控制单元:STM32单片机传感器
2021-11-18 安安303
刘红雅中原焦点团队分享第135天筑基第4课社会心理学接上一课，心理现象。需要和动机所有的动机行为受需要的影响，现在的孩子很多方面不需要，是因为得到的太多需要使机体内部不平衡的状态，现在很多需要满足的过多，是“厌”，孩子要越用越有用，没有用到自己，自己没有价值感成就感，他就不需要开发自己的潜力。对自己和孩子的生活留白不断的学习成长，实现自己。所有有情绪的地方是触动了需求，需求没有被满足，当一个人知道
《 C++ 修炼全景指南：九》打破编程瓶颈！掌握二叉搜索树的高效实现与技巧 Lenyiin C++修炼全景指南技术指南 c++算法 stl
摘要本文详细探讨了二叉搜索树（BinarySearchTree,BST）的核心概念和技术细节，包括插入、查找、删除、遍历等基本操作，并结合实际代码演示了如何实现这些功能。文章深入分析了二叉搜索树的性能优势及其时间复杂度，同时介绍了前驱、后继的查找方法等高级功能。通过自定义实现的二叉搜索树类，读者能够掌握其实际应用，此外，文章还建议进一步扩展为平衡树（如AVL树、红黑树）以优化极端情况下的性能退化。
笋丁网页自动回复机器人V3.0.0免授权版源码希希分享软希网58soho_cn 源码资源笋丁网页自动回复机器人
笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
自由职业态 2017/12/15 jojovicky
比较适合我个人成长与发展期。为什么这么说，从小，家庭给予我相对自由的成长空间，长大后在学业与职业上也是给予自由。除了商科专业是家长提供建议外，其它专业是建立在个人兴趣与需要基础上。这是自己成为自由职业态与心态的由来。在各专业中不仅结识了同学朋友甚至成为今天的合作小伙伴。这也是奠定了自由职业态的基石。曾经为了平衡家庭孩子以及工作，我选择了进入学校当一名老师，特此感谢我的老板（伯乐）和先生以及家人给予
《 C++ 修炼全景指南：十》自平衡的艺术：深入了解 AVL 树的核心原理与实现 Lenyiin C++修炼全景指南技术指南 c++数据结构 stl
摘要本文深入探讨了AVL树（自平衡二叉搜索树）的概念、特点以及实现细节。我们首先介绍了AVL树的基本原理，并详细分析了其四种旋转操作，包括左旋、右旋、左右双旋和右左双旋，阐述了它们在保持树平衡中的重要作用。接着，本文从头到尾详细描述了AVL树的插入、删除和查找操作，配合完整的代码实现和详尽的注释，使读者能够全面理解这些操作的执行过程。此外，我们还提供了AVL树的遍历方法，包括中序、前序和后序遍历，
《跃迁》5/7-5组-橙子-张静12.16 静言物于
【便签5】【片段来源】《跃迁：成为高手的技术》第四章【R原文】一位客户咨询时抱怨：“这个我做不到。”我问他：“如果我请你现在出去裸奔，你能做到吗？”“这个我也做不到”“其实并不是做不到，而是不愿意做，或者不想承担裸奔的代价吧。你不是做不到，而是选择不去做。如果有一天你裸奔能救自己家人、孩子，也许就能做到了。”为什么要做这个区分？如果一个人经常和自己说“做不到”，他的能力范围会越来越小，会成为一个无
GenVisR 基因组数据可视化实战(三) 11的雾
3.genCov画每个突变位点附件的coverage，跟igv有点相似。这个操作起来很复杂，但是图还是挺有用的。可以考虑。由于我的referencegenomebuild是hg38BiocManager::install(c("TxDb.Hsapiens.UCSC.hg38.knownGene","BSgenome.Hsapiens.UCSC.hg38"))library(TxDb.Hsapien
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$