PHP 正则表达式

一  正则表达式的组成

  • 分隔符: 可以是除了字母,数字,下划线以及空白字符以外的任何字符(比如 / ,!,#,%,|,~等)。经常使用的分隔符是 #,~。
  • 表达式: 由一些特殊字符和非特殊字符组成。
  • 修饰符: 用于开启或者关闭某些功能/模式。

二 元字符

    元字符是正则表达式中具有特殊意义的专用字符,用来规定其前导字符(即位于元字符前面出现的字符)在目标对象中的出现模式。常用元字符如下:

         元字符   描   述
           .   匹配 初换行符以外的任意字符
          \w   匹配字幕数字下划线或汉子
          \s   匹配任意空白字符
          \d   匹配数字
          ^   匹配字符开始的
          $   匹配字符结束
          \b   匹配字符开始或结束
          -   表示范围
         []   匹配括号中的任意一个字符
        *,+,?    量词

 

三 量词

语法 描述
* 重复0次或更多次
+ 重复1次或更多次
重复0次或1次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

 

四 字符组

     通过[] 包含的字符,匹配的是 [] 中的单个字符。例如: [0-9] 匹配单个数字 ,[aeiou] 匹配任意一个元音字母。

字符组中的转义,比如字符组中查找 *,?,需要用 \ ,[\?],查找 \ 本身 [\\]。 在PHP 中 使用反斜杠 \ 表示转义,\Q和\E 也可以在模式中忽略正则表达式元字符。例如  \d+\Q.$.\E$, 这个表达式匹配一个或多个数字,紧接着一个点号,然后一个$,最后一个点号。也就是说 在 \Q 和 \E 之间的元字符会作为普通字符来匹配。

正则表达式并不是遇到特殊字符都需要转义,转义只有在一定的条件下,比如可能引起歧义和被误解解析的情况下才需要。

 

五 分支

    分支就是存在多种可能匹配的情况 。[] 大括号只能匹配单个字符,分支可以匹配多个字符,例如:

   (c|h|to)at 。 分支具体方法是用 | 把不同的规则分开。例如:  0\d{2}-\d{8} | 0\d{3}-\d{7},这种表达式能匹配两种以连字号分隔的电话号码, 一种是010-12345678,另一种是 0376-1234567。

六 分组

   重复多个字符可以用小括号指定子表达式,然后规定子表达式重复的次数,也可以对子表达式进行一些操作。默认情况下,每个分组都拥有一个组号,规则是从左到右,以分组的左括号为依据,第一个出现的分组,组号为1,第二个为2,依次类推。分组0对应整个表达式。也可以指定子表达式的组名,例如:

  (?\w+) 或 (?'word'\w+)    这样把 \w 组名定义为 word

 

类别 语法 描述
捕获 (exp) 匹配exp,并捕获文本到自动命名的组里
(?exp) 匹配exp,并捕获文本到名称为name的组里,也可以写成 (?'name'exp)
(?:exp) 匹配exp,不捕获匹配的文本,也不给次分组分配组号
零宽断言 (?=exp) 匹配exp 前面的位置
(?<=exp) 匹配exp 后面的位置
(?!exp) 匹配后面跟的不是exp 的位置
(? 匹配前面不是exp 的位置
注释 (?#comment) 注视,不对正则表达式产生任何影响

七 反向引用

反向引用用于搜索前面某个分组匹配的文本。例如:

\b(\w+)\b\s+\1\b    即 "\b(\w+)\b" 这个单词会被捕获到编号为1 的分组中。

要想反向引用分组捕获的内容,可以使用 "\k"

\b(?\w+)\b\s+\k\b 会匹配 go go

八 贪婪/懒惰匹配模式

  贪婪就是尽可能匹配更多的字符。懒惰尽可能匹配少的字符。默认情况下是贪婪的,变成懒惰的模式就是在限定符后加一个?。

语法 描述
*? 重复任意次,但尽可能少重复
+? 重复1次或多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n 到m 次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复

懒惰模式其实就是在匹配和不匹配的都可以的情况下,优先选择不匹配。

你可能感兴趣的:(基础学习)