55分钟学会正则表达式

原文地址-Sam Hughes 转载源翻译文章地址

正则表达式（“regexes”）即增强查找/字符串替换操作。当在文本编辑器中编辑文字时，正则表达式经常用于：

检查文本是否包含一个给定的模式
查找任何匹配的模式
从文本中拉取信息（比如截断）
修改文本

和文本编辑器一样，绝大多数高级编程语言支持正则表达式。在本文中，“文本”仅仅是一个字符串变量，但是有效的操作却是一致的。某些编程语言（Perl，JavaScript）甚至为正则表达式提供专用的语法。

但是正则表达式是什么？

一个正则表达式仅仅为一个字符串。它没有长度限制，但是通常该字符串很短。下面看几个例子：

I had a \S+ day today
[A-Za-z0-9\-_]{3,16}
\d\d\d\d-\d\d-\d\d
v(\d+)(\.\d+)*
TotalMessages="(.*?)"
<[^<>]>

这个字符串实际上是一个极小的计算程序，并且正则表达式是一门语法小而简洁，领域特定的编程语言。牢记以下几点，它们不该在学习过程中让你感到惊讶：

每个正则表达式都能分解成一串指令。“找到这个，再找到那个，然后找到其中一个...”
一个正则表达式拥有输入（文本）和输出（模式匹配，和有些时候的自定义文本）。
存在语法错误——不是每个字符串都是合法的正则表达式！
语法有些怪异，也可以说是恐怖。
一个正则表达式有时候可以被编译以便更快运行。

正则实现一直有着显著的改变。对于本文，我所关注的是那些几乎每个正则表达式都实现了的核心语法。

正则表达式基础语法

字面值(Literals)

正则表达式由只代表自身的字面值和代表特定含义的元字符组成。

这里也有一些例子。我会对元字符进行高亮。

I had a \S+ day today
[A-Za-z0-9-_]{3,16}
\d\d\d\d-\d\d-\d\d
v(\d+)(.\d+)*
TotalMessages="(.*?)"
<[^<>]*>

大部分字符，包括字母数字字符，会以字面值的形式出现。这意味着它们查找的是自身。比如，正则表达式cat代表“先找到c，接着找到a，最后找到t”。

目前为止感觉良好。这的确很像

一个普通的查找对话框
Java中的String.indexOf()函数
PHP中的strpos()函数
等等

提示：除非特别说明，正则表达式是大小写敏感的。然而，绝大多数实现都会提供一个标记来开启不区分大小写的功能。

句点（dot）

我们第一个元字符是句号（译者注：句点，英文句号），.。一个.表示匹配任何单个字符。下面这个正则表达式c.t代表“先找到c，接着找到任何单个字符，再找到t”。

在一段文本中，这个表达式将会找到cat，cot，czt，甚至字面值为c.t的字符串（c，句点，t），但是不包括ct或者coot。

任何元字符如果用一个反斜杆\进行转义就会变成字面值。所以上述的正则表达式c\.t就代表“先找到c，接着找到句号，再找到t”。

反斜杠是一个元字符，这意味着它也可以使用反斜杠转义。所以正则表达式c\\t代表“先找到c，接着找到反斜杆，再找到t”。

注意！ 在一些实现中，. 会匹配任意字符除了 换行符。这意味着“换行符”在不同的实现中也会变化。要查看你的文档。在这篇文章中，我会确保. 会匹配任意字符。

在其它情况下，通常会有一个标记来调整这种行为，那就是`DOTALL`或类似的标记

你最终的正则表达式应该是z.......z会匹配到四个单词: razzamatazz，razzamatazzes，zwischenzug以及zwischenzugs。

字符类（Character classes）

字符类是字符在方括号中的集合。表示“找到其中任意的字符”。

正则表达式c[aeiou]t表示“找到c后跟一个元音字母，再找到t”。在一段文本中，将会匹配到cat，cet，cit，cot和cut。
正则表达式[0123456789]表示找到一个数字
正则表达式[a]和a意义相同：“找到a”

一些转义的例子：

\[a\]表示“找到一个左方括号紧跟着一个a，再跟着一个右方括号”。
[\[\]ab]表示“匹配一个左方括号或者右方括号或者a或者 b”。
[\\\[\]]表示“匹配一个反斜杆或者一个左方括号或者一个右方括号”。（呕！）

在字符类中顺序和重复字符并不重要。[dabaaabcc]跟[abcd]一样。

重要的提示

在字符类内部的“规则”和在字符类内部的规则有所不同。一些字符在字符类内部扮演着元字符的角色，但在字符类外部则充当字面值。还有一些字符做着相反的事。一些字符在两种情形都为元字符，但在各自情形里代表不同的含义。

特别地, .表示“匹配任意字符”，但是[.]表示“匹配句点”。不能并为一谈。

字符类区间（ranges）

你可以在字符类中使用连字符来表示一个字母或数字的区间：

[b-f]和[bcdef]都表示“找到一个b或c或d或 e或f”。
[A-Z]和[ABCDEFGHIJKLMNOPQRSTUVWXYZ]都表示“匹配大写字母”。
[1-9]和[123456789]都表示“匹配一个非零数字”。

连字符在字符类外部使用时并没有特别都含义。正则表达式a-z表示“找到一个a接着跟着一个连字符，然后匹配一个z”。

区间和单独的字符可能会共存于同一个字符类：

[0-9.,]表示“匹配一个数字或者一个句点或者一个逗号”。
[0-9a-fA-F]表示“匹配一位十六进制数”。
[a-zA-Z0-9\-]表示“匹配一个字母数字字符或连字符”。

虽然你可以尝试在区间内以非字母数字字符结束（比如abc[!-/]def），但这在其它实现中的语法不一定对。即使语法正确，但在这个区间内很难看出包含了哪个字符。请谨慎使用（我的意思是不要这么干）。

同样的，区间端点的范围应该一致。即使像[A-z]这种表达式在你选择的实现中合法，但结果可能不如你愿。（补充：可以有Z到a的区间范围）。

注意。 区间是字符的区间，不是数字的区间。正则表达式[1-31]表示“找到一个1或一个 2或一个3”，不是“找到一个从1到31的整数"。

字符类的否定（negation）

你可以通过在最开始的位置使用插入符号（译者注：^）来否定一个字符类。

[^a]表示“匹配除了a的任意字符”。
[^a-zA-Z0-9]表示“找到一个非字母也非数字的字符”。
[\^abc]表示“找到一个插入符或者a或者b或者c”。
[^\^]表示“找到除了插入符外的任意字符”。（呕！）

字符类补充

正则表达式\d含义与[0-9]一致：“匹配一个数字”。（为了匹配一个反斜杆后跟一个d，可以使用\\d。）

\w的含义与[0-9A-Za-z_]一致：“匹配一个单词字符（译者注：字母或数字或下划线或汉字）”。

\s表示“匹配任意空白字符（空格，tab，回车或者换行）”。

此外，

\D同[^0-9]：“匹配任意非数字的字符”。
\W同[^0-9A-Za-z_]：“匹配任意非单词字符（译者注：匹配任意不是字母，数字，下划线，汉字的字符）”。
\S表示“匹配任意不是空白符的字符”。

这些字符类都很常见，你必须学会。

你可能也注意到了，句点.本质上是一个包含任意字符的字符类。

许多实现提供了很多额外的字符类或标记，它们通过扩展现有的字符类来覆盖ASCII之外范围的字符。提示：Unicode包含更多的“数字字符”而不仅仅是0到9，这一点同样对于“单词”和“空格”也适用。注意你的文档所写。

乘法器（Multipliers）

你可以在一个字面值或者字符类后跟着一个大括号来使用乘法器。

正则表达式a{1}同a，表示“匹配一个a”。
a{3}表示“找到一个a后再跟一个a，最后找到一个a”。
a{0}表示“匹配空字符”。就其本身而言，这似乎没有用处。如果你在任何一段文本中使用该表达式，你会在你刚开始搜索的端点处立即得到一个匹配。即使你的文本为空字符串结果也为真。
a\{2\}代表“找到一个a，跟着一个左大括号，接着跟匹配一个2，然后跟着一个右大括号”。
在字符类中大括号没有特别的含义。[{}]代表“匹配一个左大括号或者一个右大括号”。

注意。 乘法器没有记忆。该正则表达式[abc]{2}表示“匹配a或者b或者c，接着匹配a或者b或者c。这跟“匹配aa或ab或ac或ba或bb或bc或ca或cb或cc”相同。这跟“匹配aa或bb或cc”含义不同！

乘法器区间

乘法器可能会有区间：

x{4,4}跟x{4}一样。
colou{0,1}r表示“匹配colour或color。
a{3,5}表示“匹配aaaaa或aaaa或aaa”。

值得注意的是优先选择更长的匹配，因为乘法器是贪婪的。如果你输入的文本是I had an aaaaawful day，该正则表达式就会在aaaaawful中匹配到aaaaa。不会在第三个a后就停止匹配。

乘法器是贪婪的，但它不会忽略一个更好的匹配。如果你的输入文本为I had an aaawful daaaaay，之后这个正则表达式会在第一次的匹配中于aaawful找到aaa。只有在你说“给我找到另一个匹配”的时候，它才会继续搜索然后在daaaaay中找到aaaaa。

乘法器区间可能是开区间：

a{1,}表示“在一列中找到一个或多个a”。然而你的乘法器将会是贪婪的。在找到第一个a后，它将会尽可能匹配到更多的a。
.{0,}表示“匹配任何情形”。不管你的输入文本是什么——甚至为空——这个正则表达式都会匹配整个字符串然后返回给你。

乘法器补充

?代表的含义与{0,1}相同。比如说，colou?r表示“匹配colour或color”。

*等于{0,}。比如说，.*表示“匹配一切”，跟上面提到的一样。

+等于{1,}。比如说，\w+表示“匹配一个单词”。这里的“单词”是1个或多个“单词字符”的序列，就像_var或AccountName1。

这些乘法器都很常见，你必须掌握。还有：

\?\*\+表示“匹配一个问号，接着找到一个星号，然后跟着一个加号”。
[?*+]表示“找到一个问号或者一个星号或者一个加号”。

惰性（Non-greed）

正则表达式".*"表示“找到一个双引号，接着找到尽可能多的字符，最后再找到一个双引号”。注意一下被.*匹配的内部字符，很可能包含多个双引号。这通常不是非常有用。

乘法器可通过追加问号来实现惰性。这里对优先顺序进行了反转：

\d{4,5}?表示“匹配\d\d\d\d或\d\d\d\d\d”。其实跟\d{4}行为一致。
colou??r就是colou{0,1}?r，表示“找到color或colour”。和colou?r行为一致。
".*?"表示“匹配一个双引号，跟着一个尽可能少的字符，再跟着一个双引号”。这个不像上面两个例子，实际上很有用。

分支（Alternation）

你可以使用管道符号来实现匹配多种选择：

cat|dog表示“匹配cat或dog”。
red|blue|和red||blue以及|red|blue都是同样的意思，“匹配red或blue或空字符串”。
a|b|c跟[abc]一样。
cat|dog|\|表示“匹配cat或dog或管道符号”。
[cat|dog]表示“找到a或c或d或d或g或o或t或一个管道符号”。

组合（Grouping）

你可以使用圆括号来组合表达式：

在一周中找到一天，使用(Mon|Tues|Wednes|Thurs|Fri|Satur|Sun)day。
(\w*)ility等同于\w*ility。都表示“找到以ility结尾的单词”。为什么第一种形式更有用，后面会看到...
表示“匹配一个左圆括号后，再匹配一个右圆括号”。
[()]表示“匹配一个左圆括号或一个右圆括号”。

组合可能会包含空字符串：

(red|blue|)表示“匹配red或blue或空字符串”。
abc()def等同于abcdef

可能你会在组合中使用乘法器：

(red|blue)?等同于(red|blue|)。
\w+(\s+\w+)*代表“找到一个或多个单词，它们以空格隔开”。

单词边界（Word boundaries）

单词边界是一个单词字符和非单词字符之间的位置。记住，一个单词字符是\w，它是[0-9A-Za-z_]，一个非单词字符是\W，也就是[^0-9A-Za-z_]。

文本的开头和结尾总是当作单词边界。

输入的文本it's a cat有八个单词边界。如果我们在cat后追加一个空格，这里就会有九个单词边界。

正则表达式\b表示“匹配一个单词边界”。
\b\w\w\w\b表示“匹配一个三个字母的单词”。
a\ba表示“找到a，跟着一个单词边界，接着找到b”。不管输入文本是什么，这个正则表达式永远都不会成功找到一个匹配。

单词边界不是字符。它们宽度为零.下面的正则表达式表示相同的含义：

(\bcat)\b
(\bcat\b)
\b(cat)\b
\b(cat\b)

行边界（Line boundaries）

每一块文本会分解成一个或多个行，用换行符分隔，像这样：

行
换行
行
换行
...
换行
行

注意文本不是以换行符结束，而是以行结束。然而，任何行，包括最后一行，可以包含零个字符。

起始行位置是在一个换行符和下一行的第一个字符之间。与单词边界一样，在文本的开头也算作一个起始的行。

结束行位置是在行的最后一个字符和换行符之间。与单词边界一样，文本结束也算作行结束。

所以我们都细分为：

起始行，行，结束行
换行
开始行，行，结束行
换行
...
换行
开始行，行，结束行

在此基础上，有：

正则表达式^表示“匹配开始行”。
正则表达式$表示“匹配结束行”。
^$表示“匹配空行”。
^.*$将会匹配整个文本，因为换行符是一个字符，所以.会匹配它。为了匹配单行，要使用惰性乘法器，^.*?$。
\^\$表示“匹配尖符号后跟着一个美元符号”。
[$]表示“匹配一个美元符”。然而，[^]是非法单正则表达式。要记住的是尖符号在方括号中时有不同的特殊含义。把尖符号放在字符类中，这么用[\^]。

像单词边界一样，行边界也不是字符。它们宽度为零。下面的正则表达式表示相同的含义：

(^cat)$
(^cat$)
^(cat)$
^(cat$)

文本边界（Text boundaries）

很多实现提供一个标记，通过改变它来改变^和$的含义。从“行开始”和“行结束”变成“文本开始”和“文本结束”。

其它的一些实现提供单独的元字符\A和\z来达到这个目的。

捕获和替换

这里就是正则表达式开始变得异常强大的地方。

捕获组

你已经知道，括号是用来表示组。它们也可以用来捕获子串。如果正则表达式是一个很小的电脑程序，这个捕获组就是它的输出（的一部分）。

正则表达式(\w*)ility表示“找到一个以ility结束的单词”。捕获组1就是匹配了部分内容的\w*。举个例子，如果我们的文本包含单词accessibility，捕获组1就是accessib。如果我们的文本自身只包含ility，捕获组1就是空字符串。

你可以拥有多个捕获组，它们甚至可以嵌套使用。捕获组从左到右进行编号。只要计算左圆括号。

假设我们到正则表达式是(\w+) had a ((\w+) \w+)。如果我们的输入文本是I had a nice day，那么

捕获组1是I。
捕获组2是nice day。
捕获组3是nice。

在一些实现中，你可能可以访问捕获组0，即完整匹配：I had a nice day。

是的，这确实意味着圆括号有些重复。一些实现就提供了一个独立语法来声明“非捕获组”，但是这个语法不符合标准，所以这里我们不涉及。

从一个成功返回的匹配中捕获组数量总是等于原来正则表达式中捕获组的数量。记住这一点，因为它可以帮助你理解一些令人困惑的情形。

正则表达式((cat)|dog)表示“匹配cat或dog”。这里总是存在两组捕获组。如果我们的输入文本是dog，那么捕获组1是dog，捕获组2是空字符串，因为另一个选择未被使用。

正则表达式a(\w)*表示“匹配一个以a开头的单词”。这里总是只有一个捕获组（译者注：除去捕获组0）：

如果输入文本是a，捕获组1是空字符串。
如果输入文本是ad，捕获组1是d。
如果输入文本是avocado，捕获组1是v。然而，捕获组0会是整个单词，avocado。

替换

一旦你用了正则表达式来查找字符串，你可以指定另一个字符串来替换它。第二个字符串时替换表达式。首先，就像：

传统的替换对话框
Java的String.replace()函数
PHP的String.replace()函数
等等

分别使用正则表达式[aeiou]和[AEIOU]，替换表达式r和R。

然而，你可以在你的替换表达式中引用捕获组。这是你可以在替换表达式唯一能的特殊的事，它是令人难以置信的强大，因为它意味着你不必完全销毁你刚刚发现的东西。

比方说，你尝试去用ISO 8691格式的日期（YYYY-MM-DD）去替换美式日期（MM/DD/YY）。

通过正则表达式(\d\d)/(\d\d)/(\d\d)开始。注意这里有三个捕获组：月，日和两个数字表示的年。
通过使用一个反斜杆和一个捕获组号来引用一个捕获组。所以，你的替换表达式为20\3-\1-\2。
如果我们的输入文本是03/04/05（表示 3月4号，2005年），那么
- 捕获组1是03
- 捕获组2是04
- 捕获组3是05
- 替换字符串为2005-03-04

你可以在替换表达式中多次引用捕获组。

使用正则表达式([aeiou])和替换表达式\1\1来让元音翻倍。

在替换表达式中的反斜杆必须进行转义。举个例子，你有一些在计算机程序的字面值中使用的文本。那就意味着你需要在普通文本中的每个双引号或者反斜杆前放置一个反斜杆。

正则表达式([\\"])中，捕获组1是双引号或者反斜杆。
替换表达式\\\1中，一个字面值反斜杆后跟着一个匹配的双引号或者反斜杆。

后向引用（Back-references）

你可以在同样的表达式中引用同一个捕获组。这称为后向引用。

举个例子，再次调用前面的表达式[abc]{2}表示“匹配aa或ab或ac or ba或bb或bc或ca或cb或cc”。但是表达式([abc])\1表示“匹配aa或bb或cc”。

结合正则表达式编程

一些具体的注意事项：

过度反斜线综合征（Excessive backslash syndrome）

在一些编程语言中，如Java，对于含有正则表达式的字符串没有提供特别的支持。字符串有自己的转义规则，这些规则与正则表达式的转义规则叠加，通常会导致反斜杆过多（overload）。比如（还是Java）：

为了匹配一个数字，正则表达式\d在源代码中变成String re = "\\d;"。
为了匹配一个双引号字符串，"[^"]*"变成String re = "\"[^\"]*\"";。
为了匹配一个反斜杆或者一个左方括号或者一个又方括号，正则表达式[\\\[\]]变成String re = "[\\\\\\[\\]]";。
String re = "\\s";和String re = "[ \t\r\n]";是一样的。注意不同的转义“优先级”。

在其它编程语言里，通过一个特殊标记来标识正则表达式，通常是正斜杆/。这里有一些JavaScript例子：

为了匹配一个数字，\d变成var regExp = /\d/;。
匹配一个反斜杆或者一个左方括号或者一个右方括号，var regExp = /[\\\[\]]/;。
var regExp = /\s/;和var regExp = /[ \t\r\n]/;一样。
当然，这意味着必须对正斜杠而不是双引号进行转义。匹配URL的前面部分：var regExp = /https?:\/\//;。

基于这一点，我希望你明白为什么我对你反复提及反斜杆。

偏移量（Offsets）

在文本编辑器中，会在你光标所在处开始搜索。这个编辑器会向前开始搜索文字，然后停在第一个匹配的地方。下一次搜索会在第一次完成搜索的地方的右侧开始。

当编程的时候，文本的偏移量是必须的。这个偏移量会在代码中有明确的支持，或保存在包含文本的对象中（如Perl），或包含正则表达式的对象中（如JavaScirpt）。（在Java里，这是一个由正则表达式和复合对象的字符串。）在任何情况下，默认值为0，表示文本的开始。搜索后，偏移量会自动更新，或者作为输出的一部分返回。

无论什么情况，通常很容易去使用循环来解决这个问题。

注意。正则表达式匹配空字符串是完全可能的。你可以立马实现的一个简单的例子是a{0}在这种情况下，新的偏移量等于旧偏移量，从而导致死循环。

一些实现可能保护你避免发生这些情况，但要查下对应的文档。

动态正则表达式

动态地构造一个正则表达式字符串时一定要小心。如果你使用的字符串不是固定的,那么它可能包含意想不到的元字符。这会导致语法错误。更糟糕的是，它可能产生一个语法正确，但行为不可预期的正则表达式。

有bug的Java代码：

String sep = System.getProperty("file.separator");
String[] directories = filePath.split(sep);

这个bug就是：String.split()认为sep是一个正则表达式。但是在Windows下，sep是由犯斜杆组成的字符串"\\".这不是一个语法正确的正则表达式。结果是：一个异常PatternSyntaxException。

任何一个优秀的编程语言都提供了一种机制，用以转义在一个字符串中出现的所有元字符。在Java中，你可以这么做：

String sep = System.getProperty("file.separator");
String[] directories = filePath.split(Pattern.quote(sep));

循环内的正则表达式

把正则表达式字符串编译进一个正在运行的“程序”中是一个代价昂贵的操作。如果你能避免在循环内这么做的话能提高程序性能。

各类建议

输入验证

正则表达式能用于用户输入验证。但过于严格的验证会让用户感到难受。下面举几个例子：

支付卡号

我在网页上输入我的卡号如1234 5678 8765 4321。会被这个站点拒绝。因为它使用\d{16}来进行验证。

该正则表达式允许出现空格和连字符。

其实，为什么不直接去掉所有非数字字符，然后再进行验证？要做到这一点，使用正则表达式\D和空字符串来替换表达式。

名字

不要使用正则表达式来验证用户的名字。其实，不需要验证名字，你无能无力。

Falsehoods programmers believe about names提到了：

名字不能包含空格。
名字不能包含标点符号。
名字只能使用ASCII字符。
名字会被限制在任何特定的字符集。
名字总是有像M字符那么长。
人总是有且只有一个用的名字。
人总是有且仅有一个中间名。
人总是有且只有一个姓。
...

邮件地址

不要使用正则表达式来验证邮件地址。

首先，这很难保证正确无误。电子邮件地址确实符合一个正则表达式，但是这个表达式长又复杂地让人联想到世界末日。任何缩略都会可能产生遗漏（false negatives）。（你知道吗？电子邮件地址可以包含注释！）

其次，即使所提供的电子邮件地址符合正则表达式，但也并不能证明它的存在。验证电子邮件地址的唯一方法是发送电子邮件给它。

标记

在正式的应用中，不要使用正则表达式来解析HTML或XML。解析HTML/XML是

不可能使用简单的正则
一般来说很难
一个已解决了的问题。

不妨找一个已有的解析库来为你搞定这些工作。

这就是55分钟内容

总结：

字面值：a b c d 1 2 3 4等等。
字符类：. [abc] [a-z] \d \w \s
- .表示“任何字符”
- \d表示“一个数字”
- \w表示“一个单词字符”，[0-9A-Za-z_]
- \s表示“一个空格，tab，回车或一个换行符”
- 否定字符类：[^abc] \D \W \S
乘法器：{4} {3,16} {1,} ? * +
- ?表示“没有或一个”
- *表示“没有或多个”
- +表示“一个或多个”
- 乘法器是贪婪的除非你在之后使用?
分支和组合：(Septem|Octo|Novem|Decem)ber
词、行和文本边界：\b ^ $ \A \z
反向捕获组：\1 \2 \3等等。（在替换表达式和匹配表达式中同时生效）
元字符列表：. \ [ ] { } ? * + | ( ) ^ $
字符类中使用到元字符列表：[ ] \ - ^
你总是可以使用反斜杆对元字符进行转义：\

感谢阅读

正则表达式无处不在，令人难以置信的有用。那些在编辑文本和写电脑程序方面将花费大量时间的人们应该学会如何使用它们。到目前为止，我们只接触了冰山一角。

原文章地址

你可能感兴趣的:(正则表达式)

python实现规则引擎_规则引擎python weixin_39601511 python实现规则引擎
广告关闭回望2020，你在技术之路上，有什么收获和成长么？对于未来，你有什么期待么？云+社区年度征文，各种定制好礼等你！我正在用python编写日志收集分析应用程序，我需要编写一个“规则引擎”来匹配和处理日志消息。它需要具有以下特点：正则表达式匹配消息本身消息严重性优先级的算术比较布尔运算符我设想一个例子规则可能是这样的：(message~program:messageandseverity>=h
Regular Expression 正则表达式 Aimyon_36 Data Development 正则表达式 redis 数据库
RegularExpression前言1.基本匹配2.元字符2.1点运算符.2.2字符集2.2.1否定字符集2.3重复次数2.3.1*号2.3.2+号2.3.3?号2.4{}号2.5(...)特征标群2.6|或运算符2.7转码特殊字符2.8锚点2.8.1^号2.8.2$号3.简写字符集4.零宽度断言（前后预查）4.1?=...正先行断言4.2?!...负先行断言4.3?Thefatcatsaton
Nginx从入门到实践(三) 听你讲故事啊
动静分离动静分离是将网站静态资源（JavaScript，CSS，img等文件）与后台应用分开部署，提高用户访问静态代码的速度，降低对后台应用访问。动静分离的一种做法是将静态资源部署在nginx上，后台项目部署到应用服务器上，根据一定规则静态资源的请求全部请求nginx服务器，达到动静分离的目标。rewrite规则Rewrite规则常见正则表达式Rewrite主要的功能就是实现URL的重写，Ngin
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
互联网 Java 工程师面试题（Java 面试题四）苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
下面列出这份Java面试问题列表包含的主题多线程，并发及线程基础数据类型转换的基本原则垃圾回收（GC）Java集合框架数组字符串GOF设计模式SOLID抽象类与接口Java基础，如equals和hashcode泛型与枚举JavaIO与NIO常用网络协议Java中的数据结构和算法正则表达式JVM底层Java最佳实JDBCDate,Time与CalendarJava处理XMLJUnit编程现在是时候给
【无标题】正则表达式笔记 qis_qis 正则表达式笔记
作用查找特殊规则的字符串编写一个正则表达式，用来查找所有以0开头，后面跟着2-3个数字，然后是一个连字号“-”，最后是7或8位数字的字符串(像010-12345678或0376-7654321)。0\d{2,3}-\d{7,8}基本匹配区分大小写cat会匹配"cat"CAt会匹配"CAt"元字符元字符是正则表达式的基本组成元素。元字符在这里跟它通常表达的意思不一样，而是以某种特殊的含义去解释。有些
python学习第七节：正则表达式一只会敲代码的小灰灰 python学习 python 学习正则表达式
python学习第七节：正则表达式正则表达式基本上在所有开发语言中都会使用到，在python中尤为重要。当我们使用python开发爬虫程序将目标网页扒下来之后我们要从网页中解析出我们想要的信息，这个时候就需要正则表达式去进行匹配。importrere的常量re模块中有9个常量，常量的值都是int类型！（知道就行）修饰符描述re.l使匹配对大小写不敏感re.L做本地化识别(locale-aware)
Linux三剑客之grep命令详解 promise524 Linux linux 服务器 python shell bash 后端运维
grep是Linux中最常用的文本搜索工具，用于在文件或文本输出中查找与指定模式匹配的行。它支持基本正则表达式、扩展正则表达式、多文件搜索、递归搜索等多种功能，非常适合过滤、搜索和提取文本内容。1.grep的基本语法grep[选项]模式[文件...]模式：搜索的文本模式，可以是普通字符串或正则表达式。[文件...]：要搜索的文件。如果没有指定文件，grep会从标准输入中读取数据。2.常用选项-i：
Linux三剑客与管道使用许琳珊
一、管道1、什么是管道linux提供管道符“|”将两个命令隔开，管道符左边命令的输出就会作为管道符右边命令的输入2、例子echo"hello123"|grep"hello"二、正则1、什么是正则正则表达式就是记录文本规则的代码2、正则的用法常用元字符代码说明.匹配除换行符以外的任意字符\w匹配字母或数字或下划线或汉字\s匹配任意的空白符\d匹配数字\b匹配单词的开始或结束^匹配字符串的开始$匹配字
Java 正则表达式详解艾伦~耶格尔 Java初级 java 正则表达式开发语言学习
正则表达式(RegularExpression，简称regex)是一种强大的文本处理工具，可以用来匹配、搜索和替换文本中的特定模式。在Java中，正则表达式由java.util.regex包提供支持。1.理解正则表达式语法正则表达式使用特殊的字符和符号来定义匹配模式。一些常用的元字符如下：.:匹配任意单个字符*:匹配前面的字符零次或多次+:匹配前面的字符一次或多次?:匹配前面的字符零次或一次[]:
Linux三剑客-sed krb___ linux 运维服务器
前言：sed是StreamEditor（字符流）的缩写，简称流编辑器。sed是操作、过滤和转换问吧内容的强大工具。sed是一次读取一行数据常用功能包括结合正则表达式对文件实现快速增删改查，其中查询的功能中最常用的两大功能是过滤（过滤指定字符串），取行（取出指定行）sed命令语法：sed[选项][sed内置命令字符][输入文件]选项参数解释-n取消默认sed的输出，常与sed内置命令p一起使用-i直
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Java中的数组和字符串 RenX000 Java SE java
文章目录数组一维数组创立默认值转型多维数组可变长参数基本格式应用字符串String类StringBuilder类裁剪正则表达式检测数组数组类型本身也是类，即使是基本类型的数组也是以对象形式存在的，并不是基本数据类型一维数组int[]array=newint[10];//创建数组时需要指定长度创立类型[]变量名称=new类型[数组大小];类型变量名称[]=new类型[数组大小];//支持C语言样式，
Linux如何使用sed命令进行文本替换 yang295242361 linux 运维服务器
在Linux中，sed（StreamEditor）是一个用于处理文本流的命令行工具，它非常适合用于执行基本的文本转换。sed可以读取输入的文本文件，根据指定的指令对文本进行处理，并将结果输出到标准输出设备。以下是如何使用sed命令进行文本替换的详细说明：1.基本语法sed命令的基本语法如下：sed's/regexp/replacement/flags'fileregexp：正则表达式，用于匹配要替
Linux 运维三剑客：grep、sed 和 awk 实战案例与命令参数详解 Lyle_Tu Linux 云计算运维运维 linux chrome 云计算服务器
在Linux运维中，grep、sed和awk是三个非常强大的文本处理工具，它们在处理文本数据时发挥着重要作用。本文将通过一些实战案例，展示这三个工具的使用方法和强大功能，并对它们的命令参数进行详解。grep：文本搜索利器grep是一个强大的文本搜索工具，它使用正则表达式来匹配文本模式。以下是grep的一些常用命令参数：-i：忽略大小写进行匹配。-v：反向查找，只打印不匹配的行。-n：显示匹配行的行
python核心编程课后习题答案--第一章 NewForMe
正则表达式1-1[bh][aiu]t;1-2\w+\w+;1-3\w+,\s\w+;1-4[A-Za-z_]+[\w_]+python有效标识符的定义：1.python中的标识符是区分大小写的。2.标示符以字母或下划线开头，可包括字母，下划线和数字。3.以下划线开头的标识符是有特殊意义的。1-5\d+(\s\w+)+1-6(1)^w{3}://.+com/?$(2)^\w+://.+?\.\w{3
Java 正则表达式南风_001
正则表达式定义了字符串的模式。正则表达式可以用来搜索、编辑或处理文本。正则表达式并不仅限于某一种语言，但是在每种语言中有细微的差别。正则表达式实例一个字符串其实就是一个简单的正则表达式，例如HelloWorld正则表达式匹配"HelloWorld"字符串。.（点号）也是一个正则表达式，它匹配任何一个字符如："a"或"1"。下表列出了一些正则表达式的实例及描述：正则表达式描述thisistext匹配
Linux shell sed 命令详解 BugBear1989
详细的sed命令详解，请参考https://my.oschina.net/u/3908182/blog/1921761一、sed命令工作机制：每次读取一行文本至“模式空间(patternspace)”中，在模式空间中完成处理；将处理结果输出至标准输出设备；语法：sed[OPTION]...{script}[input-file]...参数说明-r支持扩展正则表达式-n静默模式-escript1-e
用正则表达式过滤logcat中的多个tag的日志 fc82bb084ee7
在AndroidStudio中,在过滤器的byLogTag选项中配置.我配置了2个tagfilter方便开发,1.multi-tag-filter2.ignore-multi-tag-filter.过滤出指定tag的日志信息^(?:Watchdog|InputReader|ahking)Watchdog忽略指定tag的日志信息^(?!WifiMonitor|WifiHW)有些tag的无用log非常
Python实现对哈利波特小说单词统计胜天半月子 Python基础及应用 python 字符串列表正则表达式
文章目录要求一、打开文件正则表达式spilt()函数实例二、词频统计三、单词排序四、输出或写入文件python文件写入要求对HarryPotter5.txt英文小说进行词频统计，统计出前二十个频率最高的单词，并打印输出或写入文件一、打开文件打开文件并将单词中非单词字符用空格代替代码：#读取小说内容fp=open('HarryPotter5.txt')content=fp.read()#所有标点符号
javase笔记3----正则表达式芝奥小婷笔记
正则表达式简介正则表达式（RegularExpressions），是一个特殊的字符串，可以对普通的字符串进行校验检测等工作，校验一个字符串是否满足预设的规则。基本语法字符集合[]:表示匹配括号里的任意一个字符。[abc]:匹配a或者b或者c[^abc]:匹配任意一个字符，只要不是a,或b,或c就表示匹配成功[a-z]:表示匹配所有的小写字母的任意一个。[A-Za-z]:表示匹配所有的小写字母和大写
搜索结果关键字标红 — 正则月亮消失了.974 servlet html javascript
str是你的内容，key是关键字正则表达式匹配模式支持的三个标志（newregexp的第二个参数）g:global全文搜索，不添加则搜索到第一个匹配停止；i:ignorecase忽略大小写，默认大小写敏感；m:multiplelines多行搜索highlight(str,key){ varreg=newRegExp(`(${key})`,'gi'); v
正则表达式语法、运算符优先级 weixin_54668000 mvc
正则表达式(regularexpression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。例如：runoo+b，可以匹配runoob、runooob、runoooooob
shell脚本——正则表达式诚诚k 正则表达式
概述正则表达式是你所定义的模式模板，Linux工具可以用它来过滤文本。Linux工具（比如sed编辑器或gawk程序）能够在处理数据时使用正则表达式对数据进行模式匹配。如果数据匹配模式，它就会被接受并进一步处理；如果数据不匹配模式，它就会被滤掉。数据流--正则表达式---（1）匹配的数据（2）滤掉的数据正则表达式（或称RegularExpression，简称RE），是用于描述字符排列和匹配模式的一
正则表达式-运算符优先级一只小棉花正则表达式正则表达式-优先级
转自：http://www.runoob.com/regexp/regexp-operator.html
【Python】正则表达式丕羽 python 正则表达式 mysql
正则表达式正则表达式,全称是RegularExpression,正则表达式,即:正确的,符合特定规则的式子.用来校验和匹配数据,正则不独属于任意的一门语言,Java,Python…都支持,且:正则规则都是一样的,不同的是写法不一样.python中正则使用步骤:#1.导包importre#2.正则校验.re.match()re.search()re.compile().sub()#3.获取匹配结果.
re模块匿隱
defmain():""""""#1.compile(正则表达式)->将正则表达式转换成正则对象"""编译后可以直接通过对象调用相关的对象方法"""re_object=re.compile(r'\d{3}')re_object.fullmatch('432')#2.fullmatch(正则表达式,字符串)->让字符串和正则表达式完全匹配，匹配成功返回匹配对象，匹配失败返回None"""应用：检测字
Python 标准库一马归一码 Python python
目录1.一些常见的标准库：2.os模块的导入和使用3.re模块的导入与调用4.math模块的导入与调用5.datetime模块的导入与调用标准库：Python本身带着的一些标准的模块库，这些模块被直接构建在解析器里，虽然不是语言内置的功能，但可以高效地调用，甚至是系统级调用也可以。1.一些常见的标准库：os模块：提供了很多与操作系统相关联的函数re模块：为高级字符串处理提供了正则表达式工具，对于复
正则表达式他@ 正则表达式 php 数据库
一：正则表达式grep-a不要忽略二进制数据。-A除了显示符合范本样式的那一行之外，并显示该行之后的内容。-b在显示符合范本样式的那一行之外，并显示该行之前的内容。-c计算符合范本样式的列数。-C或-除了显示符合范本样式的那一列之外，并显示该列之前后的内容。-d当指定要查找的是目录而非文件时，必须使用这项参数，否则grep命令将回报信息并停止动作。-e指定字符串作为查找文件内容的范本样式。-E将范
14.JS-正则表达式的反向引用 WahFung_ js笔记正则表达式 js
选择字符：|com|cn|edu---选择其中一个(含有其中一个就能匹配成功)子表达式：用()包围的就是子表达式str="((/d)(/w))"第一个子表达式：((\d)(\w))第二个子表达式：(\d)第三个子表达式：(\w)子表达式：以第一个出现的(为第一个表达式捕获：将匹配到的子表达式保存在RegExp对象中RegExp.$1：保存第一个子表达式RegExp.$2：保存第二个子表达式RegE
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比