JAVA的高级文本处理

正则表达式

每种语言都有正则表达式,而这里我们主要简单了解JAVA语言中的正则表达式。

定义:用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”

作用:识别/替换文本;提取文本;

java.util.regex包

java.util.regex包主要包括这两个类:

Pattern类:
Pattern对象是一个正则表达式的编译表示,
compile编译一个正则表达式作为Pattern对象,
matcher方法则是用Pattern对象匹配一个字符串,并返回匹配结果

Matcher类:
Matcher 对象是对输入字符串进行解释和匹配操作的引擎,需要调用Pattern对象的matcher方法来获得一个Matcher对象;

	private static final String REGEX = "\\bdog\\b";  //\b表示边界
	private static final String INPUT = "dog dog dog doggie dogg";

	public static void main(String[] args) {
     
		//检查字符串里面有多少个dog
		Pattern p = Pattern.compile(REGEX);
		
		Matcher m = p.matcher(INPUT);

start()和end()方法

private static final String REGEX = "\\bdog\\b";  //\b表示边界
	private static final String INPUT = "dog dog dog doggie dogg";

	public static void main(String[] args) {
     
		//检查字符串里面有多少个dog
		Pattern p = Pattern.compile(REGEX);
		
		Matcher m = p.matcher(INPUT);
		int count = 0;
		while (m.find()) {
     
			count++;
			System.out.println("Match number " + count);
			System.out.println("start(): " + m.start());
			System.out.println("end(): " + m.end());

其中,这里的\ 表示:我要插入一个正则表达式的反斜线,所以其后的字符具有特殊的意义。所以这里\b表示单词边界,m.find()方法是按顺序查找对象m。

lookingAt()和matches()方法

lookingAt()方法是判断正则表达式与输入字符串是否部分匹配;
matches()方法是判断正则表达式与输入字符串是否完全匹配

    private static final String REGEX = "foo";
    private static final String INPUT =
        "foo";
    private static Pattern pattern;
    private static Matcher matcher;

    public static void main(String[] args) {
     
   
        // Initialize
        pattern = Pattern.compile(REGEX);
        matcher = pattern.matcher(INPUT);

        System.out.println("Current REGEX is: "
                           + REGEX);
        System.out.println("Current INPUT is: "
                           + INPUT);

        System.out.println("lookingAt(): "
            + matcher.lookingAt());  //部分匹配
        System.out.println("matches(): "
            + matcher.matches());    //完全匹配
    }

代码运行结果:
Current REGEX is: foo
Current INPUT is: foo
lookingAt(): true
matches(): true

appendReplacement()和appendTail方法

appendReplacement(StringBuffer sb, String replacement) 将当前匹配子串替换为指定字符串,并且将替换后的子串以及其之前到上次匹配子串之后的字符串段添加到一个StringBuffer对象里,

而appendTail(StringBuffer sb) 方法则将最后一次匹配工作后剩余的字符串添加到一个StringBuffer对象里。

例如,有字符串fatcatfatcatfat,假设既有正则表达式模式为"cat",第一次匹配后调用appendReplacement(sb,“dog”),那么这时StringBuffer sb的内容为fatdog,也就是fatcat中的cat被替换为dog并且与匹配子串前的内容加到sb里,
而第二次匹配后调用appendReplacement(sb,“dog”),那么sb的内容就变为fatdogfatdog,如果最后再调用一次appendTail(sb),那么sb最终的内容将是fatdogfatdogfat

replaceAll()和replaceFirst()方法

String replaceAll(String replacement)
将目标字符串里与既有模式相匹配的子串全部替换为指定的字符串。

String replaceFirst(String replacement)
将目标字符串里第一个与既有模式相匹配的子串替换为指定的字串。

以下代码是将输入字符串里的dog全部用cat替换

public class ReplaceDemo {
     
 
    private static String REGEX = "dog";
    private static String INPUT =
        "The dog says meow. All dogs say meow.";
    private static String REPLACE = "cat";
 
    public static void main(String[] args) {
     
        Pattern p = Pattern.compile(REGEX);
        // get a matcher object
        Matcher m = p.matcher(INPUT);
        INPUT = m.replaceAll(REPLACE);  //把所有的dog都换成cat
        System.out.println(INPUT);
    }

变量名字格式化(驼峰命名)

 String s1 = "CONSTANT_NAME";
        String s2 = CaseFormat.UPPER_UNDERSCORE.to(CaseFormat.LOWER_CAMEL, s1);
        System.out.println(s2); //constantName;

字符串输入流

public class String2InputStream {
     

    public static void main(String[] args) {
     
    	//构造字符串列表
    	List<String> names = new LinkedList<String>();
        names.add("Xiaohong");
        names.add("Xiaoming");
        names.add("Daming");
        names.add("Xiaohei");
        
        //合并为一个字符串,以逗号相连
        String nameStr = String.join(",",names);
        
        //将字符串作为默认的输入流
        InputStream in = IOUtils.toInputStream(nameStr, Charsets.toCharset("UTF-8"));
        //重置系统的输入流
        System.setIn(in);
        
        //模拟键盘输入  这也是OJ平台测试用例输入的原理
        //此处也可以换成一个文件输入流
        Scanner sc=new Scanner(System.in);
        sc.useDelimiter(",");//将读入文件流以“,”分隔;
        while(sc.hasNext())//当遇到分隔符“,”则输出
        {
     
            System.out.println(sc.next());
        }
        
    }
}

你可能感兴趣的:(java)