JavaScript正则表达式

JavaScript的正则表达式语法是Perl15的正则表达式语法的大型子集。

正则表达式的创建

像创建对象一样,正则表达式的创建也可以通过2种方式进行定义:直接量创建、RegExp()构造函数创建。

直接量创建

正则表达式直接量为包含在一对斜杠(/)之间的字符。

var pattern = /s$/;

在ECMAScript5中,正则表达式直接量的每次运算都会返回新对象。

RegExp()构造函数创建

同创建对象一样,通过new来调用RegExp()构造函数。

var pattern = new RegExp("s$");

RegExp()的第2个参数是可选的,表示正则表达式的修饰符(g,i,m)。
如果待创建的正则表达式的字符串是由用户输入的,就必须使用RegExp()构造函数在程序运行时创建。

正则表达式的规则

直接量字符

  • 正则表达式中的所有字母和数字都是按照字面含义进行匹配的。
  • 非字母的字符匹配需要通过反斜线()作为前缀进行转义,如下所示:
字符 匹配
\o NUL字符(\u0000)
\t 制表符(\u0009)
\n 换行符(\u000A)
\v 垂直制表符(\u000B)
\f 换页符(\u000C)
\r 回车符(\u000D)
\xnn 由十六进制数nn指定的拉丁字符,例如,\x0A等价于\n
\uxxxx 由十六进制数xxxx指定的Unicode字符,例如,\u0009等价于\t
\cX 控制字符^X,例如,\cJ等价于换行符\n
  • 许多标点符号具有特殊的含义,它们是

^ $ . * + ? = ! : | \ / ( ) [ ] { }

关于控制字符,由于无法直接打印出来,可以通过下面的代码将其escape()编码后显示编码结果,如下:

var str = ''; // 用于存放 \x00-\xff 这256个字符
for(var i=0; i<=255; i++) {
    str += String.fromCharCode(i); // 填充字符
}

var c='', // 存放转码后的字符
    re,   // 存放动态生成的表达式
    m;    // 存放匹配结果

for(var i=65; i<=90; i++) { // ascii 65-90 分别对应字符 A-Z
    c = String.fromCharCode( i ); // 转为字符 A-Z
    re = RegExp('\\c'+c); // 生成正则表达式 \cA-\cZ
    m = str.match(re); // 进行匹配
    if(m) { // 如果匹配到了就输出
        console.log(i, re, escape(m[0]) ); // 输出 ascii码, 正则, 匹配到的字符(无法直接输出显示,需要编码后显示)
    }
}

更多请参考:
js正则之控制字符 \cX
php_js_escaping
ASCII码对照表

字符类 []

  • 将直接量字符单独放进方括号内就组成了字符类(character class),一个字符类可以匹配它所包含的任意字符
    如,/[abc]/可以和字母"a"、"b"、"c"中的任意一个都匹配。
  • ""符号可以否定字符类,将""作为左方括号内的第一个字符。
    如,/^[abc]/匹配的是"a"、"b"、"c"之外的所有字符。
  • 字符类可以使用连字符(-)表示字符范围。
    如,/[a-zA-Z0-9]/可以匹配任意字母的数字。

以下列出正则表达式的字符类匹配:

字符 匹配
[...] 方括号内的任意字符
[^...] 不在方括号内的任意字符
. 除换行符和其他Unicode行终止符之外的任意字符
\w 任意ASCII字符组成的单词,等价于[a-zA-Z0-9]
\W 任意非ASCII字符组成的单词,等价于[^a-zA-Z0-9]
\s 任意Unicode空白符
\S 任意非Unicode空白符的字符,注意\W和\S的不同
\d 任意ASCII数字,等价于[0-9]
\D 任意非ASCII数字的任何字符,等价于[^0-9]
[\b] 退格直接量(特例)

注意: 在正则表达式中的特殊字符,在字符类中不再表示原有的含义。
如,"^"符号不再表示匹配开关,而是否定含义。"\b"符号不再表示匹配边界,而是表示退格符。

重复 {}

根据之前的规则,可以使用/\d\d/匹配两位数,/\d\d\d\d/匹配四位数。为了方便匹配,可以使用重复语法。

字符 含义
{n,m} 匹配前一项至少n次,但不能超过m次
{n,} 匹配前一项n次或者更多次
{n} 匹配前一项n次
? 匹配前一项0次或者1次,等价于{0,1}
+ 匹配前一项1次或者多次,等价于{1,}
* 匹配前一项0次或者多次,等价于{0,}

注意:由于"?"、""可以匹配0次,因此它们允许什么都不匹配。如,/a/实际可以匹配"bbbb",因为字符串含有0个a。

非贪婪的重复

上面使用的重复原则,都会在匹配时尽可能多地匹配,而非贪婪的重复则表示尽可能少的匹配
非贪婪的重复只需要在重复匹配符后添加一个"?"符号。如,"??"、"+?"、"*?"或"{1,5}?"。
对于字符串"aaa",使用/a+/匹配结果是"aaa",而使用/a+?/的匹配结果则是第1个"a"。

选择 |

字符"|"用于分隔供选择的字符。
如:/\d{3}|[a-z]{4}/表示匹配的是3位数字或者4个小写字母。

分组和引用 ()

正则表达式中的圆括号有多种作用:

  • 把单独的项组合成子表达式,以便可以像处理一个独立的单元那样对单元内的项进行处理。
    如,/(ab|cd)+|ef/可以匹配"ef",也可以匹配字符串"ab"或"cd"的一次或多次重复。
  • 可以定义子模式,以便在后部进行引用匹配的文本(不是引用模式表达式),通过\n对第n个括号中的匹配文件进行引用。
    如,/['"][^'"]['"]/表示匹配以单引号或双引号开始或结束的字符串,但是开始和结束的引用并不一定相同。
    如果想要匹配开始与结束相同引号,则可以写成/(['"])[^'"]\1/

注意:使用括号进行匹配时,结果将返回一个数组,而不是单独的匹配结果。
如果返回数组a,那么a[0]存放的是完整匹配,a[1]存放的是与第1个括号匹配的子串,以此类推。

var str = "Java: The Definition"; 
var re  = new RegExp("(Java: )([A-Z])");
var m   = str.match(re);
if(m) { 
  console.log(m);   // => ["Java: T", "Java: ", "T"],注意:返回数组
}

同时,JavaScript也支持不带数字编码的分组,不再以"("和")"进行分组,而是以"(?:"和")"进行分组。
如,/([Jj]ava(?:[Ss]cript)?)\sis\s(fun\w*)/,其中(?:[Ss]cript)仅用于分组,\2将引用与(fun\w*)匹配的文本,而不是与(?:[Ss]cript)匹配的文本。

指定位置匹配 ^ & $

正则表达式中不是匹配实际的字符,而是字符之间的位置,我们称这些元素为正则表达式的
常用的锚元素如下:

字符 含义
^ 匹配字符串的开头,在多行检索(添加m修饰符)中,匹配一行的开头
$ 匹配字符串的结尾,在多行检索(添加m修饰符)中,匹配一行的结尾
\b 匹配一个单词的边界,也就是位于字符\w和\W之间的位置,或位于字符\w和字符串的开头或者结尾之间的位置
\B 匹配非单词边界的位置
(?=p) 零宽正向先行断言,要求接下来的字符都与p匹配,但是匹配结果不包含p,只作为判断
(?!p) 零宽负向先行断言,要求接下来的字符不与p匹配

如,如果想匹配单词"Java",可使用正则表达式/\bJava\b/

零宽正向先行断言

var str = "Java: The Definition"; 
var re  = new RegExp("Java(?=\:)(\:)");
var m   = str.match(re);
if(m) { 
  console.log(m);   // => ["Java:", ":"],注意:匹配结果不包含先行断言
}

零宽负向先行断言:

var str = "JavaBeans";
var re  = RegExp("Java(?!Script)([A-Z]\w*)");
var m   = str.match(re);
if(m) { 
  console.log(m);   // => ["Java", "B"]
}

更多请参考:
Regular Expression Lookaround Demystified

修饰符 g & i & m

修饰符是放在"/"符号之外的,即第二条斜线之后。

  • 修饰符"i",用以说明匹配不区分大小写。
  • 修饰符"g",用以说明匹配应该是全局的,即检索出字符串中的所有匹配。
  • 修饰符"m",用以在说明不仅匹配全文,还要匹配每行的文本。如,/java$/m不仅可以匹配"java",也可以匹配"java\nis fun"。

用于模式匹配的String方法

search()方法

"JavaScript".search(/script/i);

如果search()的参数不是正则表达式,则首先会通过RegExp构造函数将它转换成正则表达式。
注意:search()方法不支持全局检索,因为它忽略修饰符g。

replace()

// 将所有不区分大小写的javascript都替换成正确的JavaScript
text.replace(/javascript/gi, "JavaScript");

同时,replace()中可以使用引用"$n":

// 一段引用文本起始于引号,结束于引号
// 中间的内容区域不能包含引号
var quote = /"([^"]*)"/g;
// 用中文半角引号替换英文引号,$1表示英文引号之间的内容
text.replace(quote, ‘ "$1" ’);

另外值得注意的是,replace()方法的第2个参数可以是函数,该函数计算出要替换的字符串:

String.prototype.box = function(){
    var entity={
        quot:'"',
        lt:'<',
        gt:'>'
    };
    
    // function(a,b,c,d),参数a,b,c,d分别对应匹配结果数组的元素
    return function(){
        return this.replace(/&([^&;]+);/g, function(a,b,c,d){
           var r=entity[b];
           return typeof  r==='string' ? r : a;
        });
    }
}();
console.log('<">'.box());  // => <">

注意:replace()支持全局搜索。

match()方法

"1 plus 2 equals 3".match(/\d+/g);  // => ["1", "2", "3"]

注意:match()支持全局搜索,如果这个表达式没有设置修饰符g,match()就不会进行全局检索。

split()方法

通过正则表达式表示分隔符:

"1, 2, 3, 4, 5".split("/\s*,\s*/"); // => ["1", "2", "3", "4", "5"]

RegExp对象

RegExp属性

每个RegExp对象都包含5个属性:

  • source,一个只读的字符串,包含正则表达式的文本。
  • global,一个只读的布尔值,说明这个正则表达式是否带有修饰符g。
  • ignoreCase,一个只读的布尔值,说明这个正则表达式是否带有修饰符i。
  • multiline,一个只读的布尔值,说明这个正则表达式是否带有修饰符m。
  • lastIndex,一个可读/写的整数,如果匹配模式带有g修饰符,这个属性存储下一次检索的开始位置。

RegExp方法

exec()

这个方法类似于String的match()方法,但是当使用修饰符g时,2个方法的返回结果不一样。

  • String的match()方法会返回所有的匹配结果(数组对象)
  • RegExp的exec()方法则只会返回1个匹配结果(数组对象),并将属性lastIndex设置为下一次搜索的起始索引位置。
var pattern = /Java/g;
var text = "JavaScript is more fun than Java!";
// 第1次执行exec()
var result = pattern.exec(text);
console.log(result);            // "java"
console.log(pattern.lastIndex); // 4
// 第2次执行exec()
result = pattern.exec(text);
console.log(result);            // "java"
console.log(pattern.lastIndex); // 32

test()

test()的调用等价于exec()调用,只是返回值是一个布尔值,表示匹配是否成功。

var pattern = /java/i;
pattern.test("JavaScript"); // => true

注意

  • 与exec()和test()不同,String方法search()、replace()和match()并不会用到lastIndex属性。实际上,String方法只是简单将lastIndex重置为0。
  • 如果正则表达式带有修饰符g,则调用exec()和test()方法时注意lastIndex的变化(可以手动设置为0)。
  • 在ECMAScript5中,正则表达式直接量的每次计算都会创建一个新的RegExp对象,每个对象都具有各自的lastIndex属性。

你可能感兴趣的:(JavaScript正则表达式)