JavaSE基础知识梳理——正则表达式

十二、正则表达式

  • java.util.regex包下是java对正则表达式的处理,主要类有Pattern类和Mattcher类。

  • 概念

    1. ==普通字符==
    字母数字下划线以及没有特殊定义的标点符号。要匹配某个整体,就直接写这个整体就行,但是别放在[]里
    
    1. ==简单的转义字符==

      \t  \n \\ \? \+ \* \[ \] \+ \- \$ 等等,转义有特殊含义的字符
      
    2. ==标准字符集合==

      \d:代表任意一个数字  \D代表反向匹配,所有非数字。
      \w:代表一个字母或数字或下划线,即A-Z,a-z,0-9,_ 中任意一个。 \W代表反向匹配
      \s:包括空格、制表符、换行符等空白字符的其中任意一个。 \S反向匹配
      . :匹配任何一个字符,除了换行符,如果要匹配所有字符包括换行符,一般用[\s\S]
      
    3. ==自定义字符集合==

      用方括号表示[],能够匹配方括号中任意一个字符
      [ab@c]:匹配之中的任意一个字符
      [^abc]:取反,除了abc以外的任意字符
      [a-f]:范围,匹配a-f的所有字符
      [^a-f0-3]:a-f,0-3之外的任意一个字符
      
      特殊符号被包含到方括号中(自定义字符集),则失去特殊意义,除了^ 和 - 不变
      标准字符集合,除了小数点 . ,如果被包含于中括号,自定义字符集合将包含该集合。 
      如[\d.\-+]:将匹配\d代表的数字集合,. -和+
      
    4. ==量词==

      -贪婪模式:量词匹配默认是贪婪模式,即匹配的字符越多越好。比如有6个连续数字,\d{3,5}就会匹配5个数字,而不是3个数字
      -非贪婪模式:\d{3,6}?  ,匹配的越少越好,这里的?号必须跟在非贪婪模式大括号外
      \d\d 表示匹配2位数字
      \d{6}表示重复6次,匹配6位,即\d\d\d\d\d\d
      \d{3,6}表示重复3-6次,匹配3-6位
      (\d\d){6}表示对前面整体重复6次,匹配12位
      \d{3,}表示最少3次,可以多。但是没有\d{,3}这种写法
      
      ?匹配表达式0-1次出现,这个问号的含义不同于非贪婪模式。示例:a\d?b:表示匹配ab,且ab之间出现0次或1次数字,就相当于a\d{0,1}b
      * 匹配表达式0次或多次,如a\d*b
      + 匹配表达式至少1次出现,如a\d+b,表示ab之间至少出现1次数字
      总结一下
      
    5. ==字符边界(零宽度)==

      -匹配的是位置,而不是字符
      ^ :匹配字符串开头的位置,如^L ,匹配开头为L的字符,如果开头有这个字符就匹配到,没有就匹配不到,不同于^在[]号中是取反
      $ :匹配字符串末尾的位置,如L$ ,如果末尾有这个字符,就匹配到,没有就匹配不到
      \b :匹配一个单词的边界,这个单词前面的字符和后面的字符不能全是\w,即可以有1或0个\w,
      
    6. ==模式==

      case insensitive 忽略大小写
      singleline 单行模式,整个文本看做一个字符串
      multipleline 多行模式,如果要匹配多行模式中的最前面一个和最后一个,用\A和\Z,如a\A
      
    7. ==选择符和分组==

      | :或
      () :捕获组,即把这些内容组为一个整体,捕获组还有反向引用的作用:
           ([a-z]{2})\1,反向引用,即把匹配到的字符再重复,每个捕获组有个编号,这里是1。
           字符串 go to gogo ,最终匹配结果是gogo
           字符串 aaaa aabb abcd,([a-z])\1([a-z])\2 最终匹配结果是aabb ,aaaa
      (?:表达式) :这时候表达式是一个非捕获组  大量文本数据时要用,不常用
      
    8. ==预搜索(零宽断言)==

      -第一类 (?=表达式),表示匹配的内容后面必须有表达式里的内容,但是匹配结果不包含表达式内容。
      -第二类(?<=表达式),表示匹配的内容前面必须有表达式里的内容,但是匹配结果不包含表达式内容
      -第三类(?!表达式),表示匹配的内容后面不能有表达式的内容
      -第四类(?<!表达式),表示匹配的内容前面不能有表达式内容
      
    9. ==Java中使用正则表达式==

      // 匹配所有的数字
      String regex = "[\\d]";
      // 创建表达式对象pattern
      Pattern p = Pattern.compile(regex);
      FileInputStream in = new FileInputStream("a.txt");
      int len;
      byte[] bytes = new byte[1024];
      while ((len = in.read(bytes)) != -1){
          String s = new String(bytes);
          // 创建匹配Matcher对象,
          // .matches方法尝试将整个序列与该模式匹配,boolean类型,如果该序列完全满足匹配条件,则返回true
          // .find方法是分组,一个一个的匹配,index++。如果该组序列满足,则返回true
          // .group方法返回搜索到的匹配结果
          Matcher m = p.matcher(s);
          while (m.find()){
          System.out.print(m.group());
          }
      }
      

你可能感兴趣的:(JavaSE基础知识梳理——正则表达式)