正则表达式通常包含字母文本(Literaltext)和元字符(metacharacter)
字母文本指的是普通文本如"abcde"可匹配字符串中任何包含"abcde"的字符串。
匹配单个字符 []——从中选择一个字符匹配
中间支持的类型:单词字符([ae])、非单词字符([!?,;@#$*])、字母范围([A-Z])、数字范围([0])
eg.正则表达式[ae]ffect
可匹配字符串 affect,effect
(此例中"[ae]"为元字符,"ffect"为字母文本)
注意:
1.要在字符类中匹配连字符,那么把连字符号作为第一个字符列出即可。
2.可以在单个正则表达式中包含多个字符类。
eg.[01][0-9]:[0-5][0-9][ap]m可以用来匹配如12:59pm格式的所有时间
^——排除某些字符(在[]中表此意,还可表示字符串的开头)
eg.正则表达式m[^a]t
可匹配字符串
不可匹配字符串 met,mit,m&t……mat
C#正则表达式语法二、
匹配特殊字符 可以使用的特殊字符:
\t——匹配制表符 \r——匹配硬回车符 \f——匹配换页符 \n——匹配换行符 描述表示字符类的元字符:
.——匹配任何除了\n以外的字符(或者在单行模式中的任何字符) \w——匹配任何单词字符(任何字母或数字)
\W——匹配任何非单词字符(除了字母和数字以外的任何字符) \s——匹配任何空白字符(包括空格、换行、制表符等)
\S——匹配任何非空白字符(除了空格、换行、制表符等的任何字符) \d——匹配任何数字字符(0~9的数字)
\D——匹配任何非数字字符(除了0~9以外的任何字符) 表示字符串中字符位置: ^——匹配字符串的开头(或者多行模式下行的开头)。
$——匹配字符串的结尾,或者是字符串结尾“\n”之前的最后一个字符,或者是多行模式中的行结尾。
\A——匹配字符串的开头(忽略多行模式) \Z——匹配字符串的结尾或字符串结尾“\n”之前的最后一个字符(忽略多行模式)。
\z——匹配字符串的结尾。 \G——匹配当前搜索开始的位置。 \b——匹配单词的边界。 \B——匹配单词的非边界。
注意:
1.句点字符(.)特别有用。可以用它来表示任何一个字符。
eg.正则表达式01.17.84
可匹配字符串 01/17/84,01-17-84,011784,01.17.84
2.可以使用\b匹配单词的边界
eg.正则表达式
可匹配字符串 \blet\blet
不可匹配字符串letter,hamlet
3.\A和\z在确保字符串所包含的是某个表达式,而不是其他内容时很用。
eg.要判断Text控件是否包含单词"sophia",而不含任何额外的字符、换行符或者空白。
\Asophia\z
4.句点字符(.)具有特殊的含义,若要表示字母字符本身的含义,在前面加一个反斜杠:\.
C#正则表达式语法三、
匹配二选一的字符序列
|——匹配二选一
eg.正则表达式col(o|ou)r
可匹配字符串 color,colour
注意:\b(bill|ted)和\bbill|ted是不同的。
后者还可以匹配"malted"因为\b元字符只应用于"bill"。
C#正则表达式语法四、
用量词匹配 *——匹配0次或多次 +——匹配1次或多次 ?——匹配0次或1次 {n}——恰好匹配n次 {n,}——至少匹配n次 {n,m}——至少匹配n次,
但不多于m次
eg.正则表达式brothers?
可匹配字符串 brother,brothers
eg.正则表达式\bp\d{3,5}
可匹配字符串 \b以p开头,且后跟3~5个数字结尾
注意:也可以把量词与()一起使用,以便把该量词应用到整个字母序列。
eg.正则表达式(The)?schoolisbeautiful.
可匹配字符串 schoolisbeautiful,Theschoolisbeautiful.
C#正则表达式语法五、
识别正则表达式和贪婪 有些量词是贪婪的(greedy).他们会尽可能多的匹配字符。
如量词*匹配0个或多个字符。假设要匹配字符串中任何HTML标签。你可能会用如下正则表达式:
<.*>
现有字符串Aquantifiercanbegreedy
结果<.*>把quantifiercanbegreedy都匹配上了。
要解决该问题,需要与量词一起使用一个特殊的非贪婪字符“?”,因此表达式变化如下:
<.*?>
这样就可以正确匹配、、、。
?能强制量词尽可能少地匹配字符,?还可以用在以下几个量词中:
*?——非贪婪的量词* +?——非贪婪的量词+ ??——非贪婪的量词? {n}?——非贪婪的量词{n} {n,}?——非贪婪的量词
{n,} {n,m}?——非贪婪的量词{n,m}
C#正则表达式语法六、
捕获和反向引用 捕获组(capturegroup)就像是正则表达式中的变量。
捕获组可以捕获正则表达式中的字符模式,并且由正则表达式后面的编号或名称来引用改模式。
()——用来捕获其中的字符串
\数字——用编号来引用
eg.
正则表达式 (\w)(\w)\2\1
可匹配字符串abba
注意:
1.反向引用用来匹配html标签非常有效如<(\w+)>\1>可以匹配等类似格式的标签。
2.默认情况下,只要使用圆括号,就会捕获圆括号内所包含的字符,可以使用n选项来禁用这个默认行为(在第7条里会详细介绍),
或者添加?:到圆括号中。eg.(?:sophia)或(?n:sophia)此时不会捕获sophia。
(?<捕获组名称>)\k<捕获组名称>——用名称来引用
eg.
正则表达式(?
可匹配字符串 xabcx
注意:在替换模式中使用捕获组的格式略有不同,要用$1、$2等来按数值引用捕获,用${sophia}等名称来按名称引用捕获组
C#正则表达式语法七、
设置正则表达式的选项
eg.
stringstr="sophia
"
RegExobjRegEx=newRegEx("
Response.Write(objRegEx.Replace(str,"
i——所执行的匹配是不区分大小写的(.net中的属性为IgnoreCase) m——指定多行模式(.net中的属性为Multiline)
n——只捕获显示命名或编号的组(.net中的属性为ExplicitCapture) c——编译正则表达式,这样会产生较快的执行速度,但启动会变慢(.net中的属性为Compiled)
s——指定单行模式(.net中的属性为SingleLine) x——消除非转义空白字符和注释(.net中的属性为IgnorePatternWhitespace)
r——搜索从右到左进行(.net中的属性为RightToLeft) -——表示禁用。
eg.(?im-r:sophia)允许不区分大小写匹配sophia,使用多行模式,但禁用了从右到左的匹配。
注意:
1.m会影响如何解析起始元字符(^)和结束元字符($)。
在默认情况^和$只匹配整个字符串的开头,即使字符串包含多行文本。如果启用了m,那么它们就可以匹配每行文本的开头和结尾。
2.s会影响如何解析句点元字符(.)。通常一个句点能匹配除了换行符以外的所有字符。但在单行模式下,句点也能匹配一个换行符。
下面看几个例子:
"^The":表示所有以"The"开始的字符串("There","The cat"等);
"of despair$":表示所以以"of despair"结尾的字符串;
"^abc$":表示开始和结尾都是"abc"的字符串——呵呵,只有"abc"自己了;
"notice":表示任何包含"notice"的字符串。
'*','+'和'?'这三个符号,表示一个或一序列字符重复出现的次数。它们分别表示“没有或
更多”,“一次或更多”还有“没有或一次”。下面是几个例子:
"ab*":表示一个字符串有一个a后面跟着零个或若干个b。("a", "ab", "abbb",……);
"ab+":表示一个字符串有一个a后面跟着至少一个b或者更多;
"ab?":表示一个字符串有一个a后面跟着零个或者一个b;
"a?b+$":表示在字符串的末尾有零个或一个a跟着一个或几个b。
也可以使用范围,用大括号括起,用以表示重复次数的范围。
"ab{2}":表示一个字符串有一个a跟着2个b("abb");
"ab{2,}":表示一个字符串有一个a跟着至少2个b;
"ab{3,5}":表示一个字符串有一个a跟着3到5个b。
请注意,你必须指定范围的下限(如:"{0,2}"而不是"{,2}")。还有,你可能注意到了,'*','+'和
'?'相当于"{0,}","{1,}"和"{0,1}"。
还有一个'¦',表示“或”操作:
"hi¦hello":表示一个字符串里有"hi"或者"hello";
"(b¦cd)ef":表示"bef"或"cdef";
"(a¦b)*c":表示一串"a""b"混合的字符串后面跟一个"c";
'.'可以替代任何字符:
"a.[0-9]":表示一个字符串有一个"a"后面跟着一个任意字符和一个数字;
"^.{3}$":表示有任意三个字符的字符串(长度为3个字符);
方括号表示某些字符允许在一个字符串中的某一特定位置出现:
"[ab]":表示一个字符串有一个"a"或"b"(相当于"a¦b");
"[a-d]":表示一个字符串包含小写的'a'到'd'中的一个(相当于"a¦b¦c¦d"或者"[abcd]");
"^[a-zA-Z]":表示一个以字母开头的字符串;
"[0-9]%":表示一个百分号前有一位的数字;
",[a-zA-Z0-9]$":表示一个字符串以一个逗号后面跟着一个字母或数字结束。
你也可以在方括号里用'^'表示不希望出现的字符,'^'应在方括号里的第一位。(如:"%[^a-zA-Z]%"表
示两个百分号中不应该出现字母)。
为了逐字表达,必须在"^.$()¦*+?{"这些字符前加上转移字符'\'。
请注意在方括号中,不需要转义字符。
执行的结果是:
First
Second
Third
看上去和String的Split方法一样,但string的Split方法在由正则表达式而不是一组字符确定的分隔符处拆分字符串。
Match方法是在输入字符串中搜索正则表达式的匹配项,并Regex 类的 Match 方法返回 Match 对象,Match 类表示正则表达式匹配操作的结果。下面的例子演示Match方法的使用,并利用Match对象的Group属性返回Group对象:
string text = @"public string testMatchObj string s string match ";
string pat = @"(\w+)\s+(string)";
// Compile the regular expression.
Regex r = new Regex(pat, RegexOptions.IgnoreCase);
// Match the regular expression pattern against a text string.
Match m = r.Match(text);
int matchCount = 0;
while (m.Success)
{
Response.Write("Match"+ (++matchCount) + "
");
for (int i = 1; i <= 2; i++)
{
Group g = m.Groups[i];
Response.Write("Group"+i+"='" + g + "'" + "
");
CaptureCollection cc = g.Captures;
for (int j = 0; j < cc.Count; j++)
{
Capture c = cc[j];
Response.Write("Capture"+j+"='" + c + "', Position="+c.Index + "
");
}
}
m = m.NextMatch();
}
该事例运行结果是:
Match1
Group1='public'
Capture0='public', Position=0
Group2='string'
Capture0='string', Position=7
Match2
Group1='testMatchObj'
Capture0='testMatchObj', Position=14
Group2='string'
Capture0='string', Position=27
Match3
Group1='s'
Capture0='s', Position=34
Group2='string'
Capture0='string', Position=36
MatchCollection 类表示成功的非重叠匹配的只读的集合,MatchCollection 的实例是由 Regex.Matches 属性返回的,下面的实例说明了通过在输入字符串中找到所有与Regex中指定的匹配并填充 MatchCollection。
MatchCollection mc;
Regex r = new Regex("match");
mc = r.Matches("matchcollectionregexmatchs");
for (int i = 0; i < mc.Count; i++)
{
Response.Write( mc[i].Value + " POS:" + mc[i].Index.ToString() + "
");
}
该实例运行的结果是:
match POS:0
match POS:20