参考链接:https://tool.oschina.net/uploads/apidocs/jquery/regexp.html
特殊字符-限定符
*
: 表示前面的字符可以出现0次或多次
+
: 表示前面的字符至少出现一次
?
: 表示前面的字符最多出现一次
?
: 表示前面的字符最多出现一次
{n}
: n 是一个非负整数。匹配确定的 n 次
{n,}
: n 是一个非负整数。至少匹配n 次
{n,m}
: m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。
NSArray *data = @[
@"abdef",
@"abcdef",
@"abccdef",
@"abcccdef",
@"abcgdef"
];
NSString *regeStr = @"abc*def";
NSPredicate* pre_text = [NSPredicate predicateWithFormat:@"SELF MATCHES %@", regeStr];
for (NSString *text in data) {
if ([pre_text evaluateWithObject:text]) {
NSLog(@"%@ 匹配正确",text);
} else {
NSLog(@"%@ 匹配错误",text);
}
}
abc*def 的输出结果:
abdef 匹配正确
abcdef 匹配正确
abccdef 匹配正确
abcccdef 匹配正确
abcgdef 匹配错误
abc+def 的输出结果:
abdef 匹配错误
abcdef 匹配正确
abccdef 匹配正确
abcccdef 匹配正确
abcgdef 匹配错误
abc?def 的输出结果:
abdef 匹配正确
abcdef 匹配正确
abccdef 匹配错误
abcccdef 匹配错误
abcgdef 匹配错误
abc{2}def 的输出结果:
abdef 匹配错误
abcdef 匹配错误
abccdef 匹配正确
abcccdef 匹配错误
abcgdef 匹配错误
abc{2,}def 的输出结果:
abdef 匹配错误
abcdef 匹配错误
abccdef 匹配正确
abcccdef 匹配正确
abcgdef 匹配错误
abc{1,2}def 的输出结果:
abdef 匹配错误
abcdef 匹配正确
abccdef 匹配正确
abcccdef 匹配错误
abcgdef 匹配错误
区间符
[]
,()
,{}
:都是表达式的意思,如果要匹配单独的括号字符需要在前面加\
,比如\[
等。
()
:是为了提取匹配字符串的,表达式中有几个()就有几个相应的匹配字符串
[]
:是定义匹配的字符范围,比如[1-9]
,相当于匹配1到9之间的一个数。
{}
:是一个区间,就像上面的{n,m}
匹配n到m个数。
NSArray *data = @[
@"0",
@"1",
@"12",
@"123"
];
NSString *regeStr = @"[1-9]";
NSPredicate* pre_text = [NSPredicate predicateWithFormat:@"SELF MATCHES %@", regeStr];
for (NSString *text in data) {
if ([pre_text evaluateWithObject:text]) {
NSLog(@"%@ 匹配正确",text);
} else {
NSLog(@"%@ 匹配错误",text);
}
}
regeStr = [1-9] 输出结果:
// 匹配1到9的一位数
0 匹配错误
1 匹配正确
12 匹配错误
123 匹配错误
regeStr = [1-9]* 输出结果:
// 匹配多位数要求不包含有0
0 匹配错误
1 匹配正确
12 匹配正确
123 匹配正确
regeStr = [1-9][1-9] 输出结果:
// 匹配两位数要求不包含有0
0 匹配错误
1 匹配错误
12 匹配正确
123 匹配错误
regeStr = [0-9][1-9]* 输出结果:
// 匹配多位数,第二位开始不为0
0 匹配错误
1 匹配正确
12 匹配正确
123 匹配正确
1230 匹配错误
0123 匹配正确
regeStr = [0-9][1-9]{1,2} 输出结果:
// 匹配二位数或者三位数,第二位开始不为0
0 匹配错误
1 匹配错误
12 匹配正确
123 匹配正确
1230 匹配错误
0123 匹配错误
120 匹配错误
.
:点号表示匹配任意数
[0-9]
:表示匹配0到9的数。
[a-z]
:表示匹配a到z的小写字母。
[A-Z]
:表示匹配A到Z的大写字母。
[^A-Z]
:表示匹配非A到Z的其他字符。
[^ABC]
:表示匹配非ABC的其他字符。
[a-zA-Z]
:表示匹配所有字母。
[0-9\.\-]
:表示匹配所有数字,点号,减号
\d
:表示匹配0到9的数等价于[0-9]
。
\D
:表示匹配非0到9的数等价于[^0-9]
。
\w
:匹配字母、数字、下划线。等价于[A-Za-z0-9_]
。
\W
:匹配非字母、数字、下划线。等价于[^A-Za-z0-9_]
。
其他自己理解
NSString *text = @"哈哈哈哈HELLO WORD IOS 开发
啦啦啦百度一下
结束";
NSString *regeStr = @"[a-z0-9A-Z]";
NSRegularExpression *regex = [NSRegularExpression regularExpressionWithPattern:regeStr options:NSRegularExpressionAllowCommentsAndWhitespace error:nil];
NSArray *result = [regex matchesInString:text options:NSMatchingReportCompletion range:NSMakeRange(0, text.length)];
NSMutableString *res = [[NSMutableString alloc]init];
for (NSTextCheckingResult *item in result) {
NSString *item_text = [text substringWithRange:[item rangeAtIndex:0]];
if (![item_text isEqualToString:@""]) {
[res appendString:[NSString stringWithFormat:@"%@ ",item_text]];
}
}
NSLog(@"%@",res);
[a-z0-9A-Z] 输出所有匹配的结果
// 输出包含大写小写和数字的字符
h 1 H E L L O W O R D I O S h 1 p p
[a-z0-9A-Z]* 输出所有匹配的结果
// 输出包含大写小写和数字的字符串
h1 HELLO WORD IOS h1 p p
*
、+
限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?
就可以实现非贪婪或最小匹配。
比如还是上面的代码,我们改变一下正则表达式:
<.*> 输出所有匹配的结果
// 输出以`<`开头,`>`结尾的字符串,会匹配第一个`<`和最后一个`>`
HELLO WORD IOS 开发
啦啦啦百度一下
<.*?> 输出所有匹配的结果
// 输出以`<`开头,`>`结尾的字符串,会匹配第一个`<`和前面最近的一个`>`,最后就相当于匹配所有的标签
定位符
^
:匹配输入字符串开始的位置(当在[^]
,方括号中,表示非,排除的意思)
$
:匹配输入字符串结束的位置
\b
:匹配一个单词边界,即字与空格间的位置。
\B
:非单词边界匹配。
不能将限定符与定位符一起使用。由于在紧靠换行或者单词边界的前面或后面不能有一个以上位置,因此不允许诸如 ^* 之类的表达式。
若要匹配一行文本开始处的文本,请在正则表达式的开始使用 ^ 字符。不要将 ^ 的这种用法与中括号表达式内的用法混淆。
若要匹配一行文本的结束处的文本,请在正则表达式的结束处使用 $ 字符。
若要在搜索章节标题时使用定位点,下面的正则表达式匹配一个章节标题,该标题只包含两个尾随数字,并且出现在行首
^
,$
:同时使用则表示精准查找:^once$ 表示查找once的单词
text = @"once an cd"
^once 输出结果
查找以once开头的字符串
text = @"Idks dvdw DDmD IDSc"
\\b[a-z0-9A-Z]*\\b 输出所有匹配的结果
// 输出将字母按隔断分开字符串
Idks dvdw DDmD IDSc
?=
、?!
、?<=
、?、
?:
用于限定它前后的表达式,不能单独使用,本身没有作用。
a(?=b) 匹配后面有 b 的 a。
a(?!b) 匹配后面没有 b 的 a。
(?<=a) b 匹配前面有 a 的 b。
(? industr(?:y|ies) 或运算industry|industries两个中的一个
运算符优先级
优先级由高到低:转义符 > 圆括号和方括号 > 限定符 > 其他 > "或" ,同级则从左到右
转义符: \
圆括号和方括号: (), (?:), (?=), []
限定符: *, +, ?, {n}, {n,}, {n,m}
其他:^, $, \任何元字符、任何字符 定位点和序列(即:位置和顺序)
替换,"或"操作:|
实战
iOS中转义字符可以两个\\
,也可\
匹配所有整数:
^\\-?[0-9]{1,}$
匹配所有正整数:
^[1-9][0-9]{0,}$
匹配所有浮点数:
^[-]?[0-9]+(\\.[0-9]+)?$
但是没有去除前面的0,即-0123.9,-123.9。如果要去掉浮点数前面的0,更换表达式^[-]?([0-9]|[1-9][0-9]+)(\\.[0-9]+)?$
获取所有html标签
<\\/?.+?\\/?>
或<.+?>
*?
表示匹配最近的一个>,即用<>包括里面的字符串
NSString *text = @"哈哈哈哈HELLO WORD IOS 开发
啦啦啦百度一下
结束";
NSString *regeStr = @"<\\/?.+?\\/?>";
NSRegularExpression *regularExpretion=[NSRegularExpression regularExpressionWithPattern:@"<[^>]*>|\n"
options:0
error:nil];
text=[regularExpretion stringByReplacingMatchesInString:text options:NSMatchingReportProgress range:NSMakeRange(0, text.length) withTemplate:@""];
// 将所有标签都变成空,这样就得到无标签的字符串。
NSLog(@"%@",text);
获取所有标签,除了a或p的标签:
<[^a|p|A|P|>]+>
同样也是不够严谨,标签之间的空格要去掉。获取p标签及内容:
<\\s*[p|P].*?(<\\s*\\/\\s*[p|P]\\s*>)
,加上\\s*
,同样是为了处理空格的作用。获取p标签的内容,不包括p标签:
(?<=(<[p|P]>))(.*?(?=([p|P]>)))
?<=
的用法,上面有讲过。(?<=(
,意思是获取))
标签后面的数据
)))的意思是获取标签前面的数据。(.*?(?=(