正则表达式练习(向前查找、向后查找、贪婪/懒惰型元字符)

向前查找
  • 向前查找指定了一个必须匹配但不在结果中返回的模式
    • 有些正则表达式文档使用术语“消费”(consume)来表述“匹配和返回文本”的含义。在向前查找里,被匹配的文本不包含在最终返回的匹配结果里,这被称为“不消费”
    • 被匹配文本之后的字符(但不消费它)
  • 向前查找实际就是一个子表达式
  • 一个向前查找模式其实就是一个以?=开头的子表达式,需要匹配的文本跟在=的后面
向后查找
  • 向后查找,也就是查找出现在被匹配文本之前的字符(但不消费它),向后查找操作符是?<=。
贪婪型元字符
  • 它们在进行匹配时的行为模式是多多益善而不是适可而止的。它们会尽可能地从一段文本的开头一直匹配到这段文本的末尾,而不是从这段文本的开头匹配到碰到第一个匹配时为止
  1. https://www.baidu.com/wd
    https://music.163.com/#/discover/toplist?id=3778678
    https://translate.google.cn/#en/zh-CN/Th
    http://www.jianshu.com/u/a05e3c276604
  • 要求
    以上为我随便从自己的浏览器中粘贴出来的网页地址,需要将其中的域名过滤出来。
  • 正则表达式

(?<=//).*?(?=/)

  • 分析
    1). 首先一步一步分析来看,首先将需要的内容匹配出来,通过分析域名前面有两个斜杠,后边有一个斜杠,则正则表达式如下

    //.*/

    分析1)

    出现上图的匹配结果,这里的要求是匹配到域名后的第一个/就停止匹配,但其尽量向行末匹配,遇到最后一个/才停止匹配;因为 为贪婪型元字符,需要用到其懒惰型元字符,即

    2). 用贪婪型模式来匹配,正则表达式如下

    //.*?/

    分析2)

    3). 要求只匹配域名,所以需要将域名前后的斜杠过滤掉,这里就需要用到向后查找和向前查找以及子表达式;正则表达式如下

    (?<=//).*?(?=/)

    分析3)

    用()将“//”选定为一个子表达式,在//前加上?<=的前缀,表示向后查找,即//只匹配但不“消费”:同理后边的/也是一样的,向前查找/,匹配但不消费。


本文有些内容摘自于
〔美〕Ben Forta. 《正则表达式必知必会 》(图灵程序设计丛书 71) (Kindle位置1974). 人民邮电出版社. Kindle 版本

你可能感兴趣的:(正则表达式练习(向前查找、向后查找、贪婪/懒惰型元字符))