java正则表达式 捕获组_Java正则表达式捕获组

我正在尝试了解此代码块。 在第一个中,我们在表达式中寻找什么?

我的理解是,它是任意字符(0或多次*),后跟0到9之间的任意数字(1或多次+),后跟任意字符(0或多次*)。

执行此操作时,结果为:

Found value: This order was placed for QT3000! OK?

Found value: This order was placed for QT300

Found value: 0

有人可以和我一起经历这个吗?

使用捕获组的优点是什么?

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class RegexTut3 {

public static void main(String args[]) {

String line ="This order was placed for QT3000! OK?";

String pattern ="(.*)(\\d+)(.*)";

// Create a Pattern object

Pattern r = Pattern.compile(pattern);

// Now create matcher object.

Matcher m = r.matcher(line);

if (m.find()) {

System.out.println("Found value:" + m.group(0));

System.out.println("Found value:" + m.group(1));

System.out.println("Found value:" + m.group(2));

} else {

System.out.println("NO MATCH");

}

}

}

要插入新行,请在行末放置2个空格。 有关降价语法的更多信息:en.wikipedia.org/wiki/Markdown-另请参见:stackoverflow.com/editing-help

您遇到的问题是量词的类型。您在第一组中使用贪婪量词(索引1-索引0代表整个Pattern),这意味着它将尽可能匹配(并且由于它是任何字符,因此将匹配尽可能多的字符)以便满足下一组的条件)。

简而言之,只要下一个组\\d+可以匹配某些内容(在本例中为最后一位),您的第一个组.*就会匹配任何内容。

按照第三组,它将匹配最后一位数字之后的任何内容。

如果将其更改为第1组中的勉强量词,您将得到我期望的结果,即3000部分。

请注意第一组中的问号。

String line ="This order was placed for QT3000! OK?";

Pattern pattern = Pattern.compile("(.*?)(\\d+)(.*)");

Matcher matcher = pattern.matcher(line);

while (matcher.find()) {

System.out.println("group 1:" + matcher.group(1));

System.out.println("group 2:" + matcher.group(2));

System.out.println("group 3:" + matcher.group(3));

}

输出:

group 1: This order was placed for QT

group 2: 3000

group 3: ! OK?

有关Java Pattern的更多信息,请参见此处。

最后,捕获组由圆括号分隔,一旦Pattern与输入匹配,捕获组便提供了一种非常有用的方法来使用向后引用。

在Java 6中,只能按组的顺序来引用组(请注意嵌套的组和排序的精妙性)。

在Java 7中,这很容易,因为您可以使用命名组。

谢谢! 原因是第2组之所以存储0,是因为整个行都被贪婪的量词占用了,然后它回退直到与一个或多个数字接触为止。 0满足此要求,因此表达式成功。 我发现第三组令人困惑,贪婪的量词是否也占用了整行,但退缩直到找到一个或多个应该在其前面的数字(\ d +)?

@Xivilai让我在回答中微调我的解释,只需几秒钟。

那是一个很好的解释。 因此,不情愿从左边开始,只取最小值,而对于贪婪,它会尽可能多地(从右边开始),仅在满足该条件的最后一位之前停止。 第三组剩下的。

@Xivilai或多或少。 在这种情况下,它始终从左侧开始。 这是有关量词的更多信息。

您可以在Java 5/6中通过named-regexp使用命名的捕获组。

完全可以

第一组(m.group(0))始终捕获正则表达式覆盖的整个区域。在这种情况下,它就是整个字符串。

正则表达式默认情况下是贪婪的,这意味着第一组在不违反正则表达式的情况下会捕获尽可能多的内容。 (.*)(\\d+)(正则表达式的第一部分)在第一个组中包含...QT300,在第二个组中包含0。

您可以通过使第一组为非贪婪来快速解决此问题:将(.*)更改为(.*?)。

有关贪婪与懒惰的更多信息,请访问此站点。

从文档:

Capturing groups are indexed from left

* to right, starting at one.  Group zero denotes the entire pattern, so

* the expression m.group(0) is equivalent to m.group().

因此捕获组0发送整行。

您的理解是正确的。但是,如果我们执行以下操作:

(.*)将吞下整个字符串;

它需要返回字符,以便满足(\\d+)的要求(这就是为什么0被捕获而不是3000的原因);

最后一个(.*)将捕获其余部分。

但是,我不确定作者的初衷是什么。

你可能感兴趣的:(java正则表达式,捕获组)