正则表达式(Regular Expression,常简称为regex或regexp)是处理字符串的强大工具,它提供了一种灵活的方式来搜索、匹配(以及在某些情况下替换)文本中的子字符串。在JavaScript中,正则表达式是通过RegExp
对象来表示的。本文将带你深入了解JavaScript中的正则表达式,包括其基础语法、常见模式、以及实际用例。
接上文学会JavaScript正则表达式(一)
正则表达式中的圆括号 ()
用于创建分组,这允许我们将多个字符组合成一个单元,这个单元可以通过数量词进行修饰,也可以被捕获以便后续引用。
代码示例:
// 分组与捕获
const regex = /(\d{3})-(\d{2})-(\d{4})/;
const str = '123-45-6789';
const match = str.match(regex);
if (match) {
console.log(match[0]); // 输出整个匹配项: "123-45-6789"
console.log(match[1]); // 输出第一个捕获组: "123"
console.log(match[2]); // 输出第二个捕获组: "45"
console.log(match[3]); // 输出第三个捕获组: "6789"
}
^
符号用于匹配字符串的开始,而 $
符号用于匹配字符串的结束。在多行模式下(使用 m
标志),它们还会匹配每一行的开始和结束。
代码示例:
// 边界匹配
const regexStart = /^Hello/;
const regexEnd = /World$/;
const strGreeting = 'Hello, World!';
console.log(regexStart.test(strGreeting)); // 输出: true
console.log(regexEnd.test(strGreeting)); // 输出: false,因为"World"后面还有字符
const regexMultiline = /^Hello|World$/m;
const strMultiline = 'Hello, World!\nAnother Hello\nAnd the World again';
const matchesMultiline = strMultiline.match(regexMultiline);
console.log(matchesMultiline); // 输出匹配项: ["Hello", "Another Hello", "And the World again"]
回溯引用允许我们在正则表达式中引用之前捕获的分组。这是通过反斜杠 \
加上分组的编号来实现的。
代码示例:
// 回溯引用:匹配重复的单词
const regexRepeatedWord = /\b(\w+)\b\s+\1\b/;
const strRepeated = 'hello hello world';
const matchRepeated = strRepeated.match(regexRepeatedWord);
if (matchRepeated) {
console.log(matchRepeated[0]); // 输出: "hello hello"
console.log(matchRepeated[1]); // 输出第一个(也是重复的)单词: "hello"
}
预查断言是一种零宽断言,它匹配一个位置而不是字符。正向肯定预查 (?=...)
匹配后面跟随特定模式的位置,而正向否定预查 (?!...)
匹配后面不跟随特定模式的位置。
代码示例:
// 预查断言:匹配后面是数字的单词
const regexWordFollowedByNumber = /\b\w+(?=\d)/;
const strTest = 'hello123 world456';
const matchWord = strTest.match(regexWordFollowedByNumber);
if (matchWord) {
console.log(matchWord[0]); // 输出: "hello"
}
// 正向否定预查:匹配后面不是数字的单词
const regexWordNotFollowedByNumber = /\b\w+(?!\d)/;
const matchWordNegation = strTest.match(regexWordNotFollowedByNumber);
if (matchWordNegation) {
console.log(matchWordNegation[0]); // 输出: "world",注意这里只会匹配到第一个符合条件的单词
}
概念 | 描述 | 示例 |
---|---|---|
分组与捕获 | 使用 () 创建分组,可以捕获匹配的子字符串 |
(\d{3})-(\d{2})-(\d{4}) 匹配日期格式 |
边界匹配 | 使用 ^ 和 $ 匹配字符串的开始和结束 |
^Hello 匹配以 “Hello” 开头的字符串 |
回溯引用 | 使用 \n 引用之前捕获的分组 |
\b(\w+)\b\s+\1\b 匹配重复的单词 |
预查断言 | 使用 (?=...) 和 (?!...) 进行正向肯定或否定预查 |
\b\w+(?=\d) 匹配后面紧跟数字的单词 |
这个图表总结了进阶概念的关键点,并提供了简短的示例来帮助理解每个概念的应用。在实际应用中,这些概念可以组合使用,以创建更复杂和强大的正则表达式。
邮箱验证是正则表达式最常见的应用场景之一。一个基本的邮箱验证正则表达式应该能够匹配大多数常见的邮箱格式。
代码示例:
// 邮箱验证
const emailRegex = /^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$/;
const testEmails = [
'[email protected]',
'[email protected]',
'invalid_email@',
'[email protected]'
];
testEmails.forEach(email => {
if (emailRegex.test(email)) {
console.log(`${email} 是有效的邮箱地址`);
} else {
console.log(`${email} 不是有效的邮箱地址`);
}
});
密码强度验证通常要求密码包含特定类型的字符,如大写字母、小写字母、数字和特殊字符。正则表达式可以用于确保密码满足这些要求。
代码示例:
// 密码强度验证:至少一个大写字母,一个小写字母和一个数字
const passwordRegex = /^(?=.*[a-z])(?=.*[A-Z])(?=.*\d)[a-zA-Z\d]{8,}$/;
const testPasswords = [
'Password1',
'weakpass',
'P4ssw0rd',
'12345678'
];
testPasswords.forEach(password => {
if (passwordRegex.test(password)) {
console.log(`${password} 是一个强密码`);
} else {
console.log(`${password} 不是一个强密码`);
}
});
URL匹配是另一个常见的正则表达式应用场景。虽然URL的结构有很多变种,但一个简单的正则表达式可以匹配大多数基本的URL格式。
代码示例:
// URL匹配
const urlRegex = /^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/;
const testUrls = [
'https://www.example.com',
'http://subdomain.example.co.uk/path/to/resource',
'www.invalid-url',
'ftp://files.example.com'
];
testUrls.forEach(url => {
if (urlRegex.test(url)) {
console.log(`${url} 是一个有效的URL`);
} else {
console.log(`${url} 不是一个有效的URL`);
}
});
请注意,这些正则表达式示例可能不是完美的,并且可能无法处理所有边缘情况。在实际应用中,你可能需要根据具体需求对正则表达式进行调整或扩展。例如,密码强度验证的正则表达式可能需要包括更多的字符类别或对密码长度有更严格的要求。同样,URL匹配的正则表达式可能无法正确处理所有类型的URL,特别是那些使用非标准端口或非标准协议的URL。
JavaScript的RegExp
对象提供了一系列方法和属性,用于执行匹配和获取匹配信息。常用的方法有:
test()
:检查字符串中是否存在匹配的文本。exec()
:在字符串中执行匹配搜索,并返回一个数组(或null)。match()
、replace()
、search()
、split()
:这些是String
对象的方法,它们使用正则表达式作为参数。*
和+
),在可能的情况下使用非贪婪量词(如*?
和+?
)。(?:...)
。