.NET正则基础之——平衡组




1 概述　　平衡组是微软在.NET中提出的一个概念，主要是结合几种正则语法规则，提供对配对出现的嵌套结构的匹配。.NET是目前对正则支持最完备、功能最强大的语言平台之一，而平衡组正是其强大功能的外在表现，也是比较实用的文本处理功能，目前只有.NET 支持，相信后续其它语言会提供支持。　　平衡组可以有狭义和广义两种定义，狭义平衡组指.NET中定义的(?Expression)语法，广义平衡组并不是固定的语法规则，而是几种语法规则的综合运用，我们平时所说的平衡组通常指的是广义平衡组。本文中如无特殊说明，平衡组这种简写指的是广义平衡组。　　正是由于平衡组功能的强大，所以带来了一些神秘色彩，其实平衡组并不难掌握。下面就平衡组的匹配原理、应用场景以及性能调优展开讨论。　　.NET程序员新方向 Ruby核心语法入门　　 C#截取DOS命令输出流取得网卡MAC地址　　PHP中数组循环语句foreach和while的速度之辩　　2 平衡组匹配原理　　2.1 预备知识　　平衡组通常是由量词，分支结构，命名捕获组，狭义平衡组，条件判断结构组成的，量词和分支结构这里不做介绍，这里只对命名捕获组，狭义平衡组和条件判断结构做下说明。　　2.1.1 命名捕获组　　语法：(?Expression) 　　(?’name’Expression) 　　以上两种写法在..NET中是等价的，都是将“Expression”子表达式匹配到的内容，保存到以“name”命名的组里，以供后续引用。　　对于命名捕获组的应用，这里不做重点介绍，只是需要澄清一点，平时使用捕获组时，一般反向引用或Group对象使用得比较多，可能会有一种误解，那就是捕获组只保留一个匹配结果，即使一个捕获组可以先后匹配多个子串，也只保留最后一个匹配到的子串。但事实是这样吗？　　举例来说：　　源字符串：abcdefghijkl 　　正则表达式：(?[a-z]{2})+ 　　命名捕获组chars最终捕获的是什么？　　string test = "abcdefghijkl"; 　　Regex reg = new Regex(@"(?[a-z]{2})+"); 　　Match m = reg.Match(test); 　　if (m.Success) 　　{ 　　richTextBox2.Text += "匹配结果：" + m.Value + "\n"; 　　richTextBox2.Text += "Group：" + m.Groups["chars"].Value + "\n"; 　　} 　　//输出　　匹配结果：abcdefghijkl 　　Group：kl 　　从m.Groups["chars"].Value的输出上看，似乎确实是只保留了一个匹配内容，但却忽略了一个事实，Group实际上是Capture的一个集合　　string test = "abcdefghijkl"; 　　Regex reg = new Regex(@"(?[a-z]{2})+"); 　　Match m = reg.Match(test); 　　if (m.Success) 　　{ 　　richTextBox2.Text += "匹配结果：" + m.Value + "\n"; 　　richTextBox2.Text += "Group：" + m.Groups["chars"].Value + "\n--------------\n"; 　　foreach (Capture c in m.Groups["chars"].Captures) 　　{ 　　richTextBox2.Text += "Capture：" + c + "\n"; 　　} 　　} 　　//输出　　匹配结果：abcdefghijkl 　　Group：kl 　　-------------- 　　Capture：ab 　　Capture：cd 　　Capture：ef 　　Capture：gh 　　Capture：ij 　　Capture：kl 　　平时应用时可能会忽略这一点，因为很少遇到一个捕获组先后匹配多个子串的情况，而在一个捕获组只匹配一个子串时，Group集合中就只有一个Capture元素，所以内容是一样的。　　string test = "abcdefghijkl"; 　　Regex reg = new Regex(@"(?[a-z]{2})"); 　　Match m = reg.Match(test); 　　if (m.Success) 　　{ 　　richTextBox2.Text += "匹配结果：" + m.Value + "\n"; 　　richTextBox2.Text += "Group：" + m.Groups["chars"].Value + "\n--------------\n"; 　　foreach (Capture c in m.Groups["chars"].Captures) 　　{ 　　richTextBox2.Text += "Capture：" + c + "\n"; 　　} 　　} 　　//输出　　匹配结果：ab 　　Group：ab 　　-------------- 　　Capture：ab 　　捕获组保存的是一个集合，而不只是一个元素，这一知识点对于理解平衡组的匹配原理是有帮助的。　　2.1.2 狭义平衡组　　语法：(?Expression) 　　其中“Close”是命名捕获组的组名，也就是“(?Expression)”中的“name”，可以省略，通常应用时并不关注，所以一般都是省略的，写作“(?<-Open>Expression)”。作用就是当此处的 “Expression”子表达式匹配成功时，则将最近匹配成功到的命名为“Open”组出栈，如果此前不存在匹配成功的“Open”组，那么就报告 “(?<-Open>Expression)”匹配失败，整个表达式在这一位置也是匹配失败的。　　2.1.3 条件判断结构　　语法：(?(Expression)yes\|no) 　　(?(name)yes\|no) 　　对于“(?(Expression)yes\|no)”，它是“(?(?=Expression)yes\|no)”的简写形式，相当于三元运算符　　(?=Expression) ? yes : no 　　表示如果子表达式“(?=Expression)”匹配成功，则匹配“yes”子表达式，否则匹配 “no”子表达式。如果“Expression”与可能出现的命名捕获组的组名相同，为避免混淆，可以采用“(? (?=Expression)yes\|no)”方式显示声明“Expression”为子表达式，而不是捕获组名。　　“(?=Expression)”验证当前位置右侧是否能够匹配“Expression”，属于顺序环视结构，是零宽度的，所以它只参与判断，即使匹配成功，也不会占有字符。　　举例来说：　　源字符串：abc 　　正则表达式：(?(?=a)\w{2}\|\w) 　　当前位置右侧如果是字符“a” ，则匹配两个“\w”，否则匹配一个“\w”。　　string test = "abc"; 　　Regex reg = new Regex(@"(?(?=a)\w{2}\|\w)"); 　　MatchCollection mc = reg.Matches(test); 　　foreach(Match m in mc) 　　{ 　　richTextBox2.Text += m.Value + "\n"; 　　} 　　//输出　　ab 　　c 　　对于“(?(name)yes\|no)”，如果命名捕获组“name”有捕获，则匹配“yes”子表达式，否则匹配“no”子表达式。这一语法最典型的一种应用是平衡组。　　当然，以上两种语法中，“yes”和“no都是可以省略的，但同一时间只能省略一个，不能一起省略。平衡组的应用中就是省略了“no”子表达式。　　2.2 平衡组的匹配原理　　平衡组的匹配原理可以用堆栈来解释，先举个例子，再根据例子进行解释。　　源字符串：a+(b(c+d))/e+f-(g/(h-i))j 　　正则表达式：$((?$\|(?<-Open>\))\|[^()])(?(Open)(?!))\) 　　需求说明：匹配成对出现的()中的内容　　string test = "a+(b(c+d))/e+f-(g/(h-i))j"; 　　Regex reg = new Regex(@"$((?\()\|(?<-Open>$)\|[^()])(?(Open)(?!))\)"); 　　MatchCollection mc = reg.Matches(test); 　　foreach (Match m in mc) 　　{ 　　richTextBox2.Text += m.Value + "\n"; 　　} 　　//输出　　(b(c+d)) 　　(g/(h-i)) 　　下面来考察一下这个正则，为了阅读方便，写成宽松模式。　　Regex reg = new Regex(@"$ #普通字符“(” 　　( #分组构造，用来限定量词“”修饰范围　　(?\() #命名捕获组，遇到开括弧’Open’计数加1 　　\| #分支结构　　(?<-Open>$) #狭义平衡组，遇到闭括弧’Open’计数减1 　　\| #分支结构　　[^()]+ #非括弧的其它任意字符　　)* #以上子串出现0次或任意多次　　(?(Open)(?!)) #判断是否还有’Open’，有则说明不配对，什么都不匹配　　\) #普通闭括弧　　", RegexOptions.IgnorePatternWhitespace); 　　对于一个嵌套结构而言，开始和结束标记都是确定的，对于本例开始为“(”，结束为“)”，那么接下来就是考察中间的结构，中间的字符可以划分为三类，一类是“(”，一类是“)”，其余的就是除这两个字符以外的任意字符。　　那么平衡组的匹配原理就是这样的：　　1. 先找到第一个“(”，作为匹配的开始　　2. 在第1步以后，每匹配到一个“(”，就入栈一个Open捕获组，计数加1 　　3. 在第1步以后，每匹配到一个“)”，就出栈最近入栈的Open捕获组，计数减1 　　4. 后面的(?(Open)(?!))用来保证堆栈中Open捕获组计数是否为0，也就是“(”和“)”是配对出现的　　5. 最后的“)”，作为匹配的结束　　匹配过程（以下匹配过程，如果觉得难以理解，可以暂时跳过，先学会如何使用，再研究为什么可以这样用吧）　　首先匹配第一个“(”，然后一直匹配，直到出现以下两种情况之一：　　a) 堆栈中Open计数已为0，此时再遇到“)” 　　b) 匹配到字符串结束符　　这时控制权交给(?(Open)(?!))，判断Open是否有匹配，由于此时计数为0，没有匹配，那么就匹配“no”分支，由于这个条件判断结构中没有“no”分支，所以什么都不做，把控制权交给接下来的“\)” 　　如果上面遇到的是情况a)，那么此时“\)”可以匹配接下来的“\)”，匹配成功；如果上面遇到的是情况b)，那么此时会进行回溯，直到“\)”匹配成功为止，否则报告整个表达式匹配失败。　　由于.NET中的狭义平衡组“(?Expression)”结构，可以动态的对堆栈中捕获组进行计数，匹配到一个开始标记，入栈，计数加1，匹配到一个结束标记，出栈，计数减1，最后再判断堆栈中是否还有Open，有则说明开始和结束标记不配对出现，不匹配，进行回溯或报告匹配失败；如果没有，则说明开始和结束标记配对出现，继续进行后面子表达式的匹配。　　需要对“(?!)”进行一下说明，它属于顺序否定环视，完整的语法是“(?!Expression)”。由于这里的“Expression”不存在，表示这里不是一个位置，所以试图尝试匹配总是失败的，作用就是在Open不配对出现时，报告匹配失败。　　3 平衡组的应用及优化　　平衡组提供了嵌套结构的匹配功能，这一创新是很让人兴奋的，因为此前正则对于嵌套结构的匹配是无能为力的。然而功能的强大，自然也带来了实现的复杂，正则书写得不好，可能会存在效率陷阱，甚至导致程序崩溃，这里介绍一些基本的优化方法。　　3.1 单字符嵌套结构平衡组优化　　单字符的嵌套结构指的是开始和结束标记都单个字符的嵌套结构，这种嵌套相对来说比较简单，优化起来也比较容易。先从上面提到的例子开始。　　3.1.1 贪婪与非贪婪模式　　上面给的例子是一种做了部分优化的常规写法，算作是版本1吧，它做了哪些优化呢，先来看下完全没有做过优化的版本0吧。　　string test = "a+(b(c+d))/e+f-(g/(h-i))j"; 　　Regex reg0 = new Regex(@"$ #普通字符“(” 　　( #分组构造，用来限定量词“”修饰范围　　(?\() #命名捕获组，遇到开括弧Open计数加1 　　\| #分支结构　　(?<-Open>$) #狭义平衡组，遇到闭括弧Open计数减1 　　\| #分支结构　　. #任意字符　　)? #以上子串出现0次或任意多次，非贪婪模式　　(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配　　\) #普通闭括弧　　", RegexOptions.IgnorePatternWhitespace); 　　MatchCollection mc = reg0.Matches(test); 　　foreach (Match m in mc) 　　{ 　　richTextBox2.Text += m.Value + "\n"; 　　} 　　//输出　　(b(c+d)) 　　(g/(h-i)) 　　接下来对比一下版本1。　　Regex reg1 = new Regex(@"$ #普通字符“(” 　　( #分组构造，用来限定量词“”修饰范围　　(?\() #命名捕获组，遇到开括弧’Open’计数加1 　　\| #分支结构　　(?<-Open>$) #狭义平衡组，遇到闭括弧’Open’计数减1 　　\| #分支结构　　[^()]+ #非括弧的其它任意字符　　)* #以上子串出现0次或任意多次　　(?(Open)(?!)) #判断是否还有’Open’，有则说明不配对，什么都不匹配　　\) #普通闭括弧　　", RegexOptions.IgnorePatternWhitespace); 　　看到区别了吗？版本1对版本0的改进主要有两个地方，一个是用“[^()]+”来代替“.”，另一个是用“”来代替“?”，也就是用贪婪模式来代替非贪婪模式。　　如果使用了小数点“.”，那么为什么不能在分组内使用“.+”，后面又为什么不能用“”呢？只要在上面的正则中使用并运行一下代码就可以知道了，匹配的结果是　　(b(c+d))/e+f-(g/(h-i)) 　　而不是　　(b(c+d)) 　　(g/(h-i)) 　　因为无论是分组内使用“.+”还是后面使用“”，都是贪婪模式，所以小数点会一直匹配下去，直到匹配到字符串的结束符才会停止，然后进行回溯匹配。为了取得正确结果，必须使用非贪婪模式“?”。　　这就类似于用“$.+$”去匹配“(abc)def(ghi)”一样，得到的结果是“(abc)def(ghi)”，而不是通常我们希望的“(abc)”和“(ghi)”。这时要用非贪婪模式“$.+?$”来得到正确的结果。　　贪婪模式和非贪婪模式在匹配失败时，回溯的次数基本上是一样的，效率上没有多大区别，但是在匹配成功时，贪婪模式比非贪婪模式回溯的次数要少得多，效率要高得多。　　对于“$.+$”如果既要得到正确的匹配结果，又要提高匹配效率，可以使用排除型捕获组+贪婪模式的方式，即“$[^()]+$”。　　版本0的平衡组也是一样，可以使用排除字符组“[^()]+”和贪婪模式“”结合的方式，提高匹配效率，得到的就是版本1的平衡组。　　相对于版本0，或许你会认为版本1的写法是很自然的，但是如果不了解这样一个演进过程，那么在字符序列嵌套结构平衡组优化时，就不会是那么自然的一件事了。　　3.1.2 分支结构　　接下来就是分支结构的优化。　　语法：(Exp1\|Exp2\|Exp3) 　　因为分支结构的匹配规则是，从左向右尝试匹配，当左侧分支匹配成功时，就不再向右尝试。所以使用分支结构时，可以根据以下两条规则进行优化：　　1. 尽量抽象出每个分支中的公共的部分，使最后的表达式中，每个分支共公部分尽可能的少，比如(this\|that)的匹配效率是没有th(is\|at)高的。　　2. 在不影响匹配结果的情况下，把出现概率高的分支放在左侧，出现概率低的分支放右侧。　　对于本例中的分支结构，已经没有公共部分，符合第一条规则，再看下第二条规则，开始标记“(”和结束标记“)”出现的概率基本上是一样的，而除“(”和“)”之外的字符出现的概率是比“(”和“)”出现的概率高的，所以应该把“[^()]+”分支放在左侧。　　版本1由于采用了排除型捕获组，所以这三个分支没有包含关系，左右顺序对结果不会造成影响，可以调整顺序。因为这是已经经过优化的了，而如果是版本0，由“.”对“(”和“)”有包含关系，就不能调整顺序了。　　在版本1基础上对分支结构进行优化后，就得到版本2。　　string test = "a+(b(c+d))/e+f-(g/(h-i))j"; 　　Regex reg2 = new Regex(@"$ #普通字符“(” 　　( #分组构造，用来限定量词“”修饰范围　　[^()]+ #非括弧的其它任意字符　　\| #分支结构　　(?\() #命名捕获组，遇到开括弧Open计数加1 　　\| #分支结构　　(?<-Open>$) #狭义平衡组，遇到闭括弧Open计数减1 　　) #以上子串出现0次或任意多次　　(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配　　\) #普通闭括弧　　", RegexOptions.IgnorePatternWhitespace); 　　MatchCollection mc = reg2.Matches(test); 　　foreach (Match m in mc) 　　{ 　　richTextBox2.Text += m.Value + "\n"; 　　} 　　//输出　　(b(c+d)) 　　(g/(h-i)) 　　3.1.3 捕获组　　这里面主要涉及到了两个捕获组“(?$)”和“(?<-Open>$)”，而在平衡组的应用中，我是只关心它是否匹配了，而对于匹配到的内容是不关心的。对于这样一种需求，可以用以下方式实现　　$ (?) 　　$(?<-Open>) 　　“(?)”和“(?<-Open>)”这两种方式只是使用了命名捕获组，捕获的是一个位置，它总是能够匹配成功的，而匹配的内容是空的，分配的内存空间是固定的，可以有效的节省资源，这在单字符嵌套结构中并不明显，但是在字符序列嵌套结构中就比较明显了。　　由于捕获组是直接跟在开始或结束标记之后的，所以只要开始或结束标记匹配成功，命名捕获组自然就会匹配成功，对于功能是没有任何影响的。　　那么把标记和捕获组调整一下顺序是否可以呢？从功能上来讲，是可以的，但是匹配的流程上会有所不同，先是捕获组匹配成功，入栈，然后再匹配标记，成功则继续匹配，不成功则该分支匹配失败，进行回溯，出栈，继续尝试下一分支。这样将增加许多入栈和出栈的操作，对匹配效率是有影响的，所以这种方式并不可取。　　在版本2基础上对捕获组进行优化后，就得到版本3。　　string test = "a+(b(c+d))/e+f-(g/(h-i))j"; 　　Regex reg3 = new Regex(@"$ #普通字符“(” 　　( #分组构造，用来限定量词“”修饰范围　　[^()]+ #非括弧的其它任意字符　　\| #分支结构　　\( (?) #命名捕获组，遇到开括弧Open计数加1 　　\| #分支结构　　$ (?<-Open>) #狭义平衡组，遇到闭括弧Open计数减1 　　)* #以上子串出现0次或任意多次　　(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配　　\) #普通闭括弧　　", RegexOptions.IgnorePatternWhitespace); 　　MatchCollection mc = reg3.Matches(test); 　　foreach (Match m in mc) 　　{ 　　richTextBox2.Text += m.Value + "\n"; 　　} 　　//输出　　(b(c+d)) 　　(g/(h-i)) 　　3.1.4 固化分组　　看到有些人使用平衡组时用到了固化分组，但并不是所有人都明白固化分组的作用。　　语法：(?>Expression) 　　用“$[^()]+$”去匹配“(abc)”是可以匹配成功的，因为不用回溯，相对于“$.+?$”这种非贪婪模式，效率上有所提升，但是对于匹配失败的情况又如何呢？　　源字符串：(abc 　　正则表达式：$[^()]+$ 　　匹配中间过程这里不再详述，可以参考 NFA引擎匹配原理。　　当“[^()]+”匹配到结束位置时，控制权交给“\)”，匹配失败，进行回溯，而由于前面使用了 “[^()]+”这种排除型字符组，所以可供回溯的位置，不会存在可以匹配“\)”的情况，这时候的回溯是完全没有意义的，只会浪费时间，但是由于传统 NFA引擎的特点，必须回溯所有可能之后才会报告匹配失败。　　这时可以用固化分组来进行优化，一旦占有字符，就不再释放。也就是一旦占有，就不再记录可供回溯的可能。通常是与排除型字符组或顺序否定环视一起使用的。　　优化后的正则表达式：$(?>[^()]+)$ 　　需要说明的一点，固化分组要作用于量词修饰的子表达式才有意义，对于“(?>abc)”由于内容是固定的，根本就不会产生回溯，所以使用固化分组是没有意义的。　　对于平衡组的应用也是一样，如果分组构造中没有量词，那么使用固化分组就是没有意义的，比如版本0 　　Regex reg = new Regex(@"$(?>(?\()\|(?<-Open>$)\|.)?(?(Open)(?!))\)"); 　　这种场景下使用固化分组就是没有意义的。　　在版本3基础上对捕获组进行优化后，就得到版本4。　　string test = "a+(b(c+d))/e+f-(g/(h-i))j"; 　　Regex reg4 = new Regex(@"$ #普通字符“(” 　　(?> #分组构造，用来限定量词“”修饰范围　　[^()]+ #非括弧的其它任意字符　　\| #分支结构　　\( (?) #命名捕获组，遇到开括弧Open计数加1 　　\| #分支结构　　$ (?<-Open>) #狭义平衡组，遇到闭括弧Open计数减1 　　) #以上子串出现0次或任意多次　　(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配　　\) #普通闭括弧　　", RegexOptions.IgnorePatternWhitespace); 　　MatchCollection mc = reg4.Matches(test); 　　foreach (Match m in mc) 　　{ 　　richTextBox2.Text += m.Value + "\n"; 　　} 　　//输出　　(b(c+d)) 　　(g/(h-i)) 　　那么对于分组构造外层的“”修饰的子表达式是否可以使用固化分组呢？答案是否定的，因为平衡组通常是要进行回溯才能最终匹配成功的，所以如果使用固化分组，不记录回溯可能的话，将无法得到正确结果。　　3.1.5 进一步优化讨论　　那么现在是不是已经完成优化了呢？是的，通常可以这么认为。在一般应用当中，这已经是从正则层面上来说，最优方案了。　　但是在有些场景下，由于Compiled模式可以有效提高分支结构的匹配效率，所以对于源字符串比较复杂的情况，牺牲一些编译时间和内存，还是可以有效提高匹配效率的。　　Regex reg5 = new Regex(@"$ #普通字符“(” 　　(?> #分组构造，用来限定量词“”修饰范围　　[^()]+ #非括弧的其它任意字符　　\| #分支结构　　\( (?) #命名捕获组，遇到开括弧Open计数加1 　　\| #分支结构　　$ (?<-Open>) #狭义平衡组，遇到闭括弧Open计数减1 　　) #以上子串出现0次或任意多次　　(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配　　\) #普通闭括弧　　", RegexOptions.IgnorePatternWhitespace \| RegexOptions.Compiled); 　　MatchCollection mc = reg5.Matches(test); 　　foreach (Match m in mc) 　　{ 　　richTextBox2.Text += m.Value + "\n"; 　　} 　　//输出　　(b(c+d)) 　　(g/(h-i)) 　　并不是所有应用场景都适合使用Compiled模式，比如上面这个例子里的源字符串如果是“a+(b(c+d))/e+f-(g/(h-i))j”，本身是非常简单的，使用Compiled模式将是得不偿失的。什么时候使用，要根据具体问题具体分析。　　3.2 字符序列嵌套结构平衡组应用　　字符序列嵌套结构的匹配，典型的应用就是html标签的提取。由于上面详细说明了单字符嵌套结构的优化过程，这里主要讲应用场景，个别涉及到优化的地方再讨论。　　字符序列嵌套结构的匹配，举例来说，取div标签。源字符串如下：　　0 　　1 　　2 　　3.2.1 提取最外层嵌套结构　　提取最外层div标签，分析过程及构造方式与单字符嵌套结构差不多，只是捕获组等内容稍稍复杂点，先给出实现，再进行解释。　　string test = @" 　　0 　　1 　　2 　　"; 　　Regex reg = new Regex(@"(?is) #匹配模式，忽略大小写，“.”匹配任意字符　　]> #开始标记“” 　　(?> #分组构造，用来限定量词“”修饰范围　　]> (?) #命名捕获组，遇到开始标记，入栈，Open计数加1 　　\| #分支结构　　(?<-Open>) #狭义平衡组，遇到结束标记，出栈，Open计数减1 　　\| #分支结构　　(?:(?! 　　)* #以上子串出现0次或任意多次　　(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配　　#结束标记“” 　　", RegexOptions.IgnorePatternWhitespace); 　　MatchCollection mc = reg.Matches(test); 　　foreach (Match m in mc) 　　{ 　　richTextBox2.Text += m.Value + "\n--------------------\n"; 　　} 　　//输出　　0 　　-------------------- 　　1 　　2 　　-------------------- 　　在单字符嵌套结构中，使用排除型字符组“[^()]+”，与分组构造外的匹配优先量词“” 达到贪婪模式匹配效果。在字符序列嵌套结构中，要排除的是一个子串，而不是简单的几个无序字符，所以不能使用排除型字符组，此时需要用到顺序否定环视来达到这一目的。“(?:(?!”或“”的字符，这样的字符重复0次或任意多次。关于环视的细节，可以参考正则基础之——环视。　　而由于这种否定环视包含两种状态，所以在与固化分组结合使用时，会与后面的开始或结束标记形成包含关系，所以与固化分组一起使用时，不能放在左侧，只能放在右侧。　　3.2.2 根据id提取div嵌套标签　　根据id提取div时，改变的只是最外层div的结构，对内分组构造内部结构没有影响。但是因为id是变化的，所以正则需要动态生成。下面给出实现，源字符串和输出结果由于比较影响篇幅，就不再给出了。　　string id = Regex.Escape(textBox1.Text); //动态获取id 　　Regex reg = new Regex(@"(?is) 　　]> #开始标记“” 　　(?> #分组构造，用来限定量词“”修饰范围　　]> (?) #命名捕获组，遇到开始标记，入栈，Open计数加1 　　\| #分支结构　　(?<-Open>) #狭义平衡组，遇到结束标记，出栈，Open计数减1 　　\| #分支结构　　(?:(?! 　　)* #以上子串出现0次或任意多次　　(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配　　#结束标记“ 　　” 　　", RegexOptions.IgnorePatternWhitespace); 　　MatchCollection mc = reg.Matches(test); 　　foreach (Match m in mc) 　　{ 　　richTextBox2.Text += m.Value + "\n--------------------\n"; 　　} 　　在动态生成正则表达式时，由于输入的字符串中可能存在正则中有特殊意义的元字符，如果不进行转义的话，正则解析时会抛出异常。所以用Regex.Escape(string str)来对动态输入的字符串进行转义处理，确保不会因动态输入的内容而抛异常。比如上面的例子，如果id不进行转义处理时，输入“abc(def”就会抛“) 不足”这样的异常。　　3.2.3 根据id提取任意嵌套标签　　再扩展一下，根据id属性取任意嵌套标签。实现如下，具体实现细节和讨论参考通过id获得一个html标签块。以下正则相对于帖子对个别细节做了调整。　　string html = @" 　　csdn 　　"; 　　Console.WriteLine(html); 　　string[] idList = { "div1", "div2", "div3", "div4", "table1", "div5", "abc(def" }; 　　string pattern = @"<([a-z]+)(?:(?!\bid\b)[^<>])id=([""']?){0}\2[^>]>(?><\1[^>]>(?)\|(?<-o>)\|(?:(?!"; 　　foreach (string id in idList) 　　{ 　　Match match = Regex.Match(html, string.Format(pattern, Regex.Escape(id)), 　　RegexOptions.Singleline \| RegexOptions.IgnoreCase); 　　Console.WriteLine("--------begin {0}--------", id); 　　if (match.Success) 　　Console.WriteLine(match.Value); 　　else 　　Console.WriteLine("o(╯□╰)o"); 　　Console.WriteLine("--------end {0}--------", id); 　　} 　　Console.ReadLine(); 　　3.2.4 根据标签取外层嵌套结构　　根据动态输入的tag，取相应的最外层的嵌套标签，实现如下。　　string html = @" 　　csdn 　　"; 　　Console.WriteLine(html); 　　string[] tagList = { "html", "body", "div", "table", "abc(def" }; 　　string pattern = @"(?is) 　　<({0})\b[^>]> #开始标记“” 　　(?> #分组构造，用来限定量词“”修饰范围　　<\1[^>]> (?) #命名捕获组，遇到开始标记，入栈，Open计数加1 　　\| #分支结构　　(?<-Open>) #狭义平衡组，遇到结束标记，出栈，Open计数减1 　　\| #分支结构　　(?:(?! 　　)* #以上子串出现0次或任意多次　　(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配　　#结束标记“” 　　"; 　　foreach (string tag in tagList) 　　{ 　　Match match = Regex.Match(html, string.Format(pattern, Regex.Escape(tag)), 　　RegexOptions.Singleline \| RegexOptions.IgnoreCase \| RegexOptions.IgnorePatternWhitespace); 　　Console.WriteLine("--------begin {0}--------", tag); 　　if (match.Success) 　　Console.WriteLine(match.Value); 　　else 　　Console.WriteLine("o(╯□╰)o"); 　　Console.WriteLine("--------end {0}--------", tag); 　　} 　　Console.ReadLine(); 　　3.2.5 条件判断结构扩展应用　　条件判断结构的作用不只限于验证开始和结束标记是否配对，根据需求的不同，还可以有其它一些应用。比如在匹配div标签时，只取内部“存在”嵌套的外层标签。　　string test = @" 　　0 　　1 　　2 　　"; 　　Regex reg = new Regex(@"(?is) #匹配模式，忽略大小写，“.”匹配任意字符　　]> #开始标记“” 　　(?> #分组构造，用来限定量词“”修饰范围　　]> (?)(?) #遇到开始标记，入栈，Open和Mask计数各加1 　　\| #分支结构　　(?<-Open>) #遇到结束标记，出栈，Open计数减1 　　\| #分支结构　　(?:(?! 　　) #以上子串出现0次或任意多次　　(?(Open)(?!))(?(Mask)\|(?!)) #'OPEN'保证标记配对，'Mask'保证内部有嵌套　　#结束标记“ 　　” 　　", RegexOptions.IgnorePatternWhitespace); 　　MatchCollection mc = reg.Matches(test); 　　foreach (Match m in mc) 　　{ 　　richTextBox2.Text += m.Value + "\n--------------------\n"; 　　} 　　//输出　　1 　　2 　　-------------------- 　　命名捕获组“(?)”只入栈不出栈，如果内部有嵌套，则“(?)”一定有匹配，此时匹配“(? (Mask)yes\|no)”中的“yes”子表达式，也就是什么都不做；如果内部没有嵌套，则“(?)”没有匹配，此时匹配“(? (Mask)yes\|no)”中的“no”子表达式，也就是报告匹配失败。这里省略的是“(?(Mask)yes\|no)”中的“yes”子表达式。　　对于匹配内部没有嵌套的标签，也就是最内层标签，可以使用上面的正则表达式，将“(?(Mask)yes\|no)”中的“yes”子表达式设为“(?!)”，将“yes”子表达式省略。不过这样做有些浪费，完全可以用顺序否定环视来实现这一需求。　　string test = @" 　　0 　　1 　　2 　　"; 　　Regex reg = new Regex(@"(?is)]>(?:(?!"); 　　MatchCollection mc = reg.Matches(test); 　　foreach (Match m in mc) 　　{ 　　richTextBox2.Text += m.Value + "\n--------------------\n"; 　　} 　　//输出　　0 　　-------------------- 　　2 　　--------------------，　　4 平衡组应用范围探讨　　平衡组可以用来匹配嵌套结构，这是一个很大的创新，但是否就认为平衡组适合用来解决任何嵌套问题呢？事实当然不会是这样。　　比如下面这个需求，参考请问一个正则表达式：　　源字符串：1+Sum(1,Sum(2, Sum(3), 4), 5)4+5+Sum(9,Sum(8, Sum(7), 6), 5)6+7 　　要求输出：　　Sum(1,Sum(2, Sum(3), 4), 5) 　　Sum(2, Sum(3), 4) 　　Sum(3) 　　Sum(9,Sum(8, Sum(7), 6), 5) 　　Sum(8, Sum(7), 6) 　　Sum(7) 　　这种需求使用平衡组+递归的方式可以实现，实现代码如下：　　//递归方法　　private void getNesting(string src, Regex reg, List list) 　　{ 　　MatchCollection mc = reg.Matches(src); 　　foreach(Match m in mc) 　　{ 　　list.Add(m.Value); 　　src = m.Value.Remove(m.Value.Length-1, 1); 　　if (reg.IsMatch(src)) 　　{ 　　getNesting(src, reg, list); 　　} 　　} 　　} 　　//调用　　string test = "1+Sum(1,Sum(2, Sum(3), 4), 5)4+5+Sum(9,Sum(8, Sum(7), 6), 5)6+7"; 　　List list = new List(); 　　Regex reg = new Regex(@"(?i)Sum$(?>[^()]+\|\((?)\|$(?<-o>))(?(o)(?!))\)", RegexOptions.Compiled); 　　getNesting(test, reg, list); 　　foreach (string s in list) 　　{ 　　richTextBox2.Text += s + "\n"; 　　} 　　平衡组虽然可以实现要求，但除非你对效率没有要求，否则这一类需求通常是不适合用正则来实现的。因为平衡组并不是为这一功能而设计的，在实现过程中做了很多额外的尝试。效率上自然要大打折扣。　　类似这样的需求，可以自己写有穷自动机来实现，毕竟正则也只不过是一种有穷自动机的实现而已。　　string test = @"1+Sum(1,Sum(2, Sum(3), 4), 5)4+5+Sum(9,Sum(8, Sum(7), 6), 5)6+7 "; 　　StringBuilder nesting = new StringBuilder(64); 　　List list = new List(); 　　List groups = new List(); 　　int level = 0; 　　int state = 0; 　　foreach (char c in test) 　　{ 　　if ((c == 'S' \|\| c == 's') && state == 0) 　　{ 　　state = 1; 　　nesting.Append(c); 　　} 　　else if ((c == 'U' \|\| c == 'u') && state == 1) 　　{ 　　state = 2; 　　nesting.Append(c); 　　} 　　else if ((c == 'M' \|\| c == 'm') && state == 2) 　　{ 　　state = 3; 　　nesting.Append(c); 　　} 　　else if (c == '(' && state == 3) 　　{ 　　state = 0; 　　level++; 　　} 　　else 　　{ 　　state = 0; 　　nesting = new StringBuilder(64); 　　} 　　if (c == ')') 　　{ 　　if (level > 0) 　　{ 　　level--; 　　groups.Add(list[level].ToString() + c); 　　list.Remove(list[level]); 　　} 　　} 　　if (level > 0) 　　{ 　　while(list.Count < level) 　　{ 　　list.Add(nesting); 　　} 　　for (int i = 0; i < level; i++) 　　{ 　　list[i].Append(c); 　　} 　　} 　　} 　　foreach (string s in groups) 　　{ 　　Console.WriteLine(s); 　　} 　　Console.ReadLine(); 　　5 其它声明　　到此为止，平衡组的基本应用场景和性能调优都已讨论完了，本文对于平衡组匹配原理讲得相对比较少，以应用场景分析为主。主要是因为能够使用平衡组来解决问题的人，通常已经对正则的基本语法有了一定程度的理解。而如果事实确实如此，那么对于平衡组的理解，也是水到渠成的了。　　以上正则实现中，采用的多是宽松排列模式，主要是为了加注释，使得阅读清晰。而宽松排列模式通常用于教学目的，实际使用过程中，如果不是为了可读性的考虑，可以去掉这些注释和宽松排列模式参数。　　上面给出了很多平衡组的应用，这里需要说明的是，我提供的只是一些方法和思路，从来不推荐把正则当作模板来用，虽然有些时候，它确实可以当作模板来用，但我还是希望你能真正的掌握这些语法规则之后，再去应用平衡组。当然，如果你认为能用就行，不需要知道为什么可以这样用，只是把它当作模板来套，我也无话可说。

你可能感兴趣的:(.NET正则基础)

python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
Git常用命令－修改远程仓库地址猿大师 Linux Java git java
查看远程仓库地址gitremote-v返回结果originhttps://git.coding.net/＊＊＊＊＊.git(fetch)originhttps://git.coding.net/＊＊＊＊＊.git(push)修改远程仓库地址gitremoteset-urloriginhttps://git.coding.net/＊＊＊＊＊.git先删除后增加远程仓库地址gitremotermori
【无标题】达瓦达瓦 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
上图为是否色发 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
143234234123432 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
第1步win10宿主机与虚拟机通过NAT共享上网互通学习3人组大数据大数据
VM的CentOS采用NAT共用宿主机网卡宿主机器无法连接到虚拟CentOS要实现宿主机与虚拟机通信，原理就是给宿主机的网卡配置一个与虚拟机网关相同网段的IP地址，实现可以互通。1、查看虚拟机的IP地址2、编辑虚拟机的虚拟网络的NAT和DHCP的配置，设置虚拟机的网卡选择NAT共享模式3、宿主机的IP配置，确保vnet8的IPV4属性与虚拟机在同一网段4、ping测试连通性[root@localh
SpringCloudAlibaba—Sentinel(限流) 菜鸟爪哇
前言：自己在学习过程的记录，借鉴别人文章，记录自己实现的步骤。借鉴文章：https://blog.csdn.net/u014494148/article/details/105484410Sentinel介绍Sentinel诞生于阿里巴巴，其主要目标是流量控制和服务熔断。Sentinel是通过限制并发线程的数量（即信号隔离）来减少不稳定资源的影响，而不是使用线程池，省去了线程切换的性能开销。当资源
光盘文件系统 (iso9660) 格式解析穷人小水滴光盘文件系统 iso9660 deno GNU/Linux javascript
越简单的系统,越可靠,越不容易出问题.光盘文件系统(iso9660)十分简单,只需不到200行代码,即可实现定位读取其中的文件.参考资料:https://wiki.osdev.org/ISO_9660相关文章:《光盘防水嘛?DVD+R刻录光盘泡水实验》https://blog.csdn.net/secext2022/article/details/140583910《光驱的内部结构及日常使用》ht
科幻游戏《外卖员模拟器》主要地理环境设定 (1) 穷人小水滴游戏科幻设计
游戏名称:《外卖员模拟器》(英文名称:waimai_se)作者:穷人小水滴本故事纯属虚构,如有雷同实属巧合.故事发生在一个(架空)平行宇宙的地球,21世纪(超低空科幻流派).相关文章:https://blog.csdn.net/secext2022/article/details/141790630目录1星球整体地理设定2巨蛇国主要设定3海蛇市主要设定3.1主要地标建筑3.2交通3.3能源(电力)
react-intl——react国际化使用方案苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
国际化介绍i18n：internationalization国家化简称，首字母+首尾字母间隔的字母个数+尾字母，类似的还有k8s(Kubernetes)React-intl是React中最受欢迎的库。使用步骤安装#usenpmnpminstallreact-intl-D#useyarn项目入口文件配置//index.tsximportReactfrom"react";importReactDOMf
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
C++ lambda闭包消除类成员变量 barbyQAQ c++c++java 算法
原文链接：https://blog.csdn.net/qq_51470638/article/details/142151502一、背景在面向对象编程时，常常要添加类成员变量。然而类成员一旦多了之后，也会带来干扰。拿到一个类，一看成员变量好几十个，就问你怕不怕？二、解决思路可以借助函数式编程思想，来消除一些不必要的类成员变量。三、实例举个例子：classClassA{public:...intfu
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
笋丁网页自动回复机器人V3.0.0免授权版源码希希分享软希网58soho_cn 源码资源笋丁网页自动回复机器人
笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
【树一线性代数】005入门 Owlet_woodBird 算法
Index本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376分析实现总结本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376已知非空二叉树T的结点值均为正整数，采用顺序存储方式保存，数据结构定义如下:t
Ubuntu18.04 Docker部署Kinship(Django)项目过程 Dante617
1Docker的安装https://blog.csdn.net/weixin_41735055/article/details/1003551792下载镜像dockerpullprogramize/python3.6.8-dlib下载的镜像里包含python3.6.8和dlib19.17.03启动镜像dockerrun-it--namekinship-p7777:80-p3307:3306-p55
Dockerfile命令详解之 FROM 清风怎不知意容器化 java 前端 javascript
许多同学不知道Dockerfile应该如何写，不清楚Dockerfile中的指令分别有什么意义，能达到什么样的目的，接下来我将在容器化专栏中详细的为大家解释每一个指令的含义以及用法。专栏订阅传送门https://blog.csdn.net/qq_38220908/category_11989778.html指令不区分大小写。但是，按照惯例，它们应该是大写的，以便更容易地将它们与参数区分开来。(引用
【C语言】- 自定义类型：结构体、枚举、联合 Cavalier_01 C语言
【C语言】：操作符（https://mp.csdn.net/editor/html/115218055）数据类型（https://mp.csdn.net/editor/html/115219664）自定义类型：结构体、枚举、联合（https://mp.csdn.net/editor/html/115373785）变量、常量（https://mp.csdn.net/editor/html/11523
html+css网页设计旅游网站首页1个页面 html+css+js网页设计 html css 旅游
html+css网页设计旅游网站首页1个页面网页作品代码简单，可使用任意HTML辑软件（如：Dreamweaver、HBuilder、Vscode、Sublime、Webstorm、Text、Notepad++等任意html编辑软件进行运行及修改编辑等操作）。获取源码1，访问该网站https://download.csdn.net/download/qq_42431718/897527112，点击
Kubernetes数据持久化看清所苡看轻 kubernetes(k8s)emptyDir HostPath pv pvc kubernetes
在k8s中，Volume（数据卷）存在明确的生命周期（与包含该数据卷的容器组（pod）相同）。因此Volume的生命周期比同一容器组（pod）中任意容器的生命周期要更长，不管容器重启了多少次，数据都被保留下来。当然，如果pod不存在了，数据卷自然退出了。此时，根据pod所使用的数据卷类型不同，数据可能随着数据卷的退出而删除，也可能被真正持久化，并在下次容器组重启时仍然可以使用。从根本上来说，一个数
网关gateway学习总结猪猪365 学习总结学习总结
一微服务概述:微服务网关就是一个系统!通过暴露该微服务的网关系统,方便我们进行相关的鉴权,安全控制,日志的统一处理,易于监控的相关功能!实现微服务网关技术都有哪些呢?1nginx:nginx是一个高性能的http和反向代理web的服务器,同事也提供了IMAP/POP3/SMTP服务.他可以支撑5万并发链接,并且cpu,内存等资源消耗非常的低,运行非常的稳定!2Zuul:Zuul是Netflix公司
ArcGIS Pro SDK （十四）地图探索 5 时间与动画 WineMonk ArcGIS Pro SDK arcgis arcgis pro sdk gis c#
ArcGISProSDK（十四）地图探索5时间与动画文章目录ArcGISProSDK（十四）地图探索5时间与动画1时间1.1时间提前1个月1.2禁用地图中的时间。2动画2.1设置动画长度2.2缩放动画2.3相机关键帧2.4插值相机2.5插值时间2.6插值范围2.7创建摄像机关键帧2.8创建时间关键帧2.9创建范围关键帧2.10创建图层关键帧环境：VisualStudio2022+.NET6+Arc
解决SDK Manager 中没有 Support Library 木鱼wzh
1、直接修改SDK-MANAGER打开sdk-manager—->Tools—->options然后点击packages—->showobsoletepackages即可在最下面的Extras目录下找到推荐两个自己使用的镜像服务器：mirrors.neusoft.edu.cn端口80mirrors.dormforce.net端口802、去官网下载SupportLibrar点击这里进入官网进入百度云
Kubernetes部署MySQL数据持久化沫殇-MS Kubernetes MySQL数据库 kubernetes mysql 容器
一、安装配置NFS服务端1、安装nfs-kernel-server：sudoapt-yinstallnfs-kernel-server2、服务端创建共享目录#列出所有可用块设备的信息lsblk#格式化磁盘sudomkfs-text4/dev/sdb#创建一个目录：sudomkdir-p/data/nfs/mysql#更改目录权限：sudochown-Rnobody:nogroup/data/nfs
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Kubernetes的3种数据持久化方式 Seal^_^ 【云原生】容器化与编排技术持续集成 #Kubernetes kubernetes 容器云原生 EmptyDir 面试 HostPath
Kubernetes的3种数据持久化方式1.EmptyDir2.HostPath3.PersistentVolume(PV)TheBegin点点关注，收藏不迷路Kubernetes提供了几种数据持久化方式，以满足不同场景的需求：1.EmptyDir用途：临时数据存储，Pod内容器间共享。特点：生命周期与Pod相同，Pod删除时数据也删除。2.HostPath用途：访问宿主机特定文件或目录。特点：增
【Kubernetes】常见面试题汇总（十一） summer.335 Kubernetes kubernetes 容器云原生
目录33.简述Kubernetes外部如何访问集群内的服务？34.简述Kubernetesingress？35.简述Kubernetes镜像的下载策略？33.简述Kubernetes外部如何访问集群内的服务？（1）对于Kubernetes，集群外的客户端默认情况，无法通过Pod的IP地址或者Service的虚拟IP地址：虚拟端口号进行访问。（2）通常可以通过以下方式进行访问Kubernetes集群
k8s中Service暴露的种类以及用法听说唐僧不吃肉 K8S kubernetes 容器云原生
一、说明在Kubernetes中，有几种不同的方式可以将服务（Service）暴露给外部流量。这些方式通过定义服务的spec.type字段来确定。二、详解1.ClusterIP定义：默认类型，服务只能在集群内部访问。作用：通过集群内部IP地址暴露服务。示例：spec:type:ClusterIPports:-port:80targetPo
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc