bossenc

Python3.7正则表达式官方文档

文章目录

简介
正则表达式语法
模块内容
正则表达式对象（正则对象）
匹配对象
正则表达式例子

检查对子
模拟 scanf()
search() vs. match()
建立一个电话本
文字整理
找到所有副词
找到所有副词和位置
原始字符记法
写一个词法分析器

简介

这个模块提供了与 Perl 语言类似的正则表达式匹配操作。

要搜索的样式和字符串可以是 Unicode 字符串 (str) 以及8位字节串(bytes)。但是，Unicode 字符串与8位字节串不能混用：也就是说，你不能用一个字节串样式去匹配 Unicode 字符串，反之亦然；类似地，当进行替换操作时，替换字符串必须与所用的样式和搜索字符串都为相同类型。

正则表达式使用反斜框字符 ('\') 来提示特殊形式或是允许使用特殊字符而又不启用它们的特殊含义。这会与 Python 在字符串字面值中出于相同目的而使用的相同字符发生冲突；例如，为了匹配一个反斜杠字面值，样式字符串就需要写成 '\\\\'，因为正则表达式必须写成 \\，而每个反斜杠在普通的Python 字符串字面值内又必须写成 \\。

解决办法是对于正则表达式样式使用 Python 的原始字符串表示法；在带有'r' 前缀的字符串字面值中，反斜杠不必做任何特殊处理。因此 r\n`` 表示包含 ``\ 和 n 两个字符的字符串，而 \n 则表示只包含一个换行符的字符串。样式在 Python 代码中通常都会使用这种原始字符串表示法来表示。

绝大部分正则表达式操作都提供为模块函数和方法，这些函数是一个捷径，不需要先编译一个正则对象，但是损失了一些优化参数。

参见: 第三方模块 regex , 提供了与标准库 re 模块兼容的API接口，同时还提供了额外的功能和更全面的Unicode支持。

正则表达式语法

一个正则表达式（或RE）指定了一集与之匹配的字符串；模块内的函数可以让你检查某个字符串是否跟给定的正则表达式匹配（或者一个正则表达式是否匹配到一个字符串，这两种说法含义相同）。

正则表达式可以拼接；如果 A 和 B 都是正则表达式，那么 AB 也是正则表达式。通常，如果字符串 p 匹配 A 并且另一个字符串 q 匹配B, 那么 pq 可以匹配 AB。除非 A 或者 B 包含低优先级操作，A 和B 存在边界条件，或者命名组引用。所以，复杂表达式可以很容易的从这里描述的简单源语表达式构建。

以下是正则表达式格式的简要说明。更详细的信息和演示，参考 Regular Expression HOWTO。

正则表达式可以包含普通或者特殊字符。绝大部分普通字符，比如 A，a，或者 0，都是最简单的正则表达式。它们就匹配自身。你可以拼接普通字符，所以 last 匹配字符串 'last'。（在这一节的其他部分，我们将用 this special style 这种方式表示正则表达式，通常不带引号，要匹配的字符串用 'in single quotes' ，单引号形式。）

有些字符，比如 | 或者 (，属于特殊字符。特殊字符既可以表示它的普通含义，也可以影响它旁边的正则表达式的解释。

重复修饰符 (*, +, ?, {m,n}, 等) 不能直接嵌套。这样避免了非贪婪后缀 ? 修饰符和其他实现中的修饰符产生的多义性。要应用一个内层重复嵌套，可以使用括号。比如，表达式 (?:a{6})* 匹配6个 'a' 字符重复任意次数。

特殊字符：

.
(点) 在默认模式，匹配除了换行的任意字符。如果指定了标签 DOTALL，它将匹配包括换行符的任意字符。

^
(插入符号) 匹配字符串的开头，并且在 MULTILINE 模式也匹配换行后的首个符号。

$
匹配字符串尾或者换行符的前一个字符，在 MULTILINE 模式匹配换行符的前一个字符。 foo 匹配 'foo' 和 'foobar' , 但正则 foo$ 只匹配 'foo'。更有趣的是，在 foo1\nfoo2\n 搜索 foo.$ ，通常匹配 'foo2' ，但在 MULTILINE 模式，可以匹配到 'foo1' ；在foo\n 搜索 $ 会找到两个空串：一个在换行前，一个在字符串最后。

*
对它前面的正则式匹配0到任意次重复，尽量多的匹配字符串。ab* 会匹配 'a'， 'ab'，或者 'a'后面跟随任意个'b'。

+
对它前面的正则式匹配1到任意次重复。 ab+ 会匹配 'a' 后面跟随1个以上到任意个 'b'，它不会匹配 'a'。

?
对它前面的正则式匹配0到1次重复。 ab? 会匹配 'a' 或者 'ab'。

*?, +?, ??

*, +，和 ? 修饰符都是 贪婪的 ；它们在字符串进行尽可能多的匹配。有时候并不需要这种行为。如果正则式 <.*> 希望找到 b ，它将会匹配整个字符串，而不仅是。在修饰符之后添加? 将使样式以 非贪婪 方式或者 :dfn: 最小方式进行匹配；尽量少的字符将会被匹配。使用正则式 <.*?> 将会仅仅匹配。

{m}
对其之前的正则式指定匹配 m 个重复；少于 m 的话就会导致匹配失败。比如，a{6} 将匹配6个 'a' , 但是不能是5个。

{m, n}
对正则式进行 m 到 n 次匹配，在 m 和 n 之间取尽量多。比如，a{3,5} 将匹配 3 到 5个 'a'。忽略 m 意为指定下界为0，忽略 n 指定上界为无限次。比如 a{4,}b 将匹配 'aaaab' 或者1000个 'a'尾随一个 'b'，但不能匹配 'aaab'。逗号不能省略，否则无法辨别修饰符应该忽略哪个边界。

{m,n}?
前一个修饰符的非贪婪模式，只匹配尽量少的字符次数。比如，对于 'aaaaaa'， a{3,5} 匹配 5个 'a' ，而 a{3,5}? 只匹配3个 'a'。

\
转义特殊字符（允许你匹配 *, ?, 或者此类其他），或者表示一个特殊序列；特殊序列之后进行讨论。

如果你没有使用原始字符串（ r'raw' ）来表达样式，要牢记Python也使用反斜杠作为转义序列；如果转义序列不被Python的分析器识别，反斜杠和字符才能出现在字符串中。如果Python可以识别这个序列，那么反斜杠就应该重复两次。这将导致理解障碍，所以高度推荐，就算是最简单的表达式，也要使用原始字符串。

[]
用于表示一个字符集合。在一个集合中：

字符可以单独列出，比如 [amk] 匹配 'a'， 'm'，或者 'k'。
可以表示字符范围，通过用 - 将两个字符连起来。比如 [a-z]将匹配任何小写ASCII字符， [0-5][0-9] 将匹配从 00 到 59 的两位数字， [0-9A-Fa-f] 将匹配任何十六进制数位。如果 - 进行了转义（比如 [a\-z]）或者它的位置在首位或者末尾（如 [-a] 或[a-] ），它就只表示普通字符 -。
特殊字符在集合中，失去它的特殊含义。比如 [(+*)] 只会匹配这几个文法字符 (, +, *, or )。
字符类如 \w 或者 \S (如下定义) 在集合内可以接受，它们可以匹配的字符由 ASCII 或者 LOCALE 模式决定。
不在集合范围内的字符可以通过取反来进行匹配。如果集合首字符是 ^ ，所有不在集合内的字符将会被匹配，比如 [^5] 将匹配除过5的所有字符， [^^] 将匹配所有字符，除了 '^'。 ^ 如果不在集合首位，就没有特殊含义。
在集合内要匹配一个字符 ']'，有两种方法，要么就在它之前加上反斜杠，要么就把它放到集合首位。比如， [()[\]{}] 和 []()[{}]都可以匹配括号。
Unicode Technical Standard 里的嵌套集合和集合操作支持可能在未来添加。这将会改变语法，所以为了帮助这个改变，一个FutureWarning 将会在有多义的情况里被 raise，包含以下几种情况，集合由 [ 开始，或者包含下列字符序列 --, &&,~~, 和 ||。为了避免警告，需要将它们用反斜杠转义。

在 3.7 版更改: 如果一个字符串构建的语义在未来会改变的话，一个FutureWarning 会 raise 。

(...)
（组合），匹配括号内的任意正则表达式，并标识出组合的开始和结尾。匹配完成后，组合的内容可以被获取，并可以在之后用 \number 转义序列进行再次匹配，之后进行详细说明。要匹配字符 '(' 或者 ')', 用$ 或 $, 或者把它们包含在字符集合里: [(], [)]。

(?…)
这是个扩展标记法（一个 ? 跟随 ( 并无含义）。 ? 后面的第一个字符决定了这个构建采用什么样的语法。这种扩展通常并不创建新的组合； (?P...) 是唯一的例外。以下是目前支持的扩展。

(?aiLmsux)
(a，i，L，m，s，u，x 中的一个或多个)这个组合匹配一个空字符串；这些字符对正则表达式设置以下标记:

re.A (只匹配ASCII字符)
re.I (忽略大小写)
re.L (语言依赖)
re.M (多行模式)
re.S (点dot匹配全部字符)
re.U (Unicode匹配)
re.X (冗长模式)

如果你想将这些标记包含在正则表达式中，这个方法就很有用，免去了在 re.compile() 中传递 flag 参数。标记应该在表达式字符串首位表示。

(?:…)
正则括号的非捕获版本。只识别，不取值。匹配在括号内的任何正则式，但匹配完成后，这个子串不做为结果被获取。比如 (?:a)bc 指定了匹配样式bc，但这个样式前面必须是字符 a，它可以匹配 'abc'，但不能匹配'bbc'，匹配完成后只返回 'bc' 作为匹配内容。

(?aiLmsux-imsx:…)
(a，i，L，m，s，u，x 中的0或者多个，之后可选跟随 - 在后面跟随 i，m，s，x 中的一到多个) 这些字符为表达式的其中一部分设置或者去除相应标记。re.A (只匹配ASCII)，re.I (忽略大小写)，re.L (语言依赖)，re.M (多行)，re.S (点匹配所有字符)，re.U (Unicode匹配)和re.X (冗长模式)。

a，L和u 作为内联标记是相互排斥的，所以它们不能结合在一起，或者跟随 - 。当他们中的某个出现在内联组中，它就覆盖了括号组内的匹配模式。在Unicode样式中，(?a:...) 切换为只匹配ASCII，(?u:...) 切换为Unicode匹配 (默认)。在bytes样式中 (?L:...) 切换为语言依赖模式，(?a:...) 切换为只匹配ASCII(默认)。这种方式只覆盖组合内匹配，括号外的匹配模式不受影响。

在 3.7 版更改: 符号 a, L 和 u 同样可以用在一个组合内。

(?P…)
（命名组合）类似正则组合，但是匹配到的子串组在外部是通过定义的name 来获取的。组合名必须是有效的Python标识符，并且每个组合名只能用一个正则表达式定义，只能定义一次。一个符号组合同样是一个数字组合，就像这个组合没有被命名一样。

命名组合可以在三种上下文中引用。如果样式是(?P["']).*?(?P=quote) （也就是说，匹配单引号或者双引号括起来的字符串)：

引用组合"quote"的上下文	引用方法
在正则表达式内	`(?P=quote)` `\1`
处理匹配对象`m`	`m.group('quote')` `m.end('quote')`(等)
传递到 `re.sub()` 里的 `repl` 参数中	`\g` `\g<1>` `\1`

(?P=name)
反向引用一个命名组合；它匹配前面那个叫 name 的命名组中匹配到的串同样的字串。

(?#…)
注释；里面的内容会被忽略。

(?=…)
匹配 … 的内容，但是并不消费样式的内容。这个叫做 lookahead assertion。比如，Isaac (?=Asimov)只有在Isaac 后面是 Asimov 时才匹配Isaac。

(?!…)
匹配 … 不符合的情况。这个叫 negative lookahead assertion 。比如说， Isaac (?!Asimov) 只有Isaac后面不是 Asimov 的时候才匹配 Isaac 。

(?<=…)
匹配字符串的当前位置，它的前面匹配 … 的内容到当前位置。这叫*positive lookbehind assertion*。(?<=abc)def 会在 abcdef 中找到一个匹配，因为后视会往后看3个字符并检查是否包含匹配的样式。包含的匹配样式必须是定长的，意思就是abc 或 a|b 是允许的，但是 a* 和 a{3,4} 不可以。注意以positive lookbehind assertions开始的样式，如 (?<=abc)def ，并不是从 a 开始搜索，而是从 d 往回看的。你可能更加愿意使用search()函数，而不是match()函数。

>>> import re
>>> m = re.search('(?<=abc)def', 'abcdef')
>>> m.group(0)
'def'

这个例子搜索一个跟随在连字符后的单词：

>>> m = re.search(r'(?<=-)\w+', 'spam-egg')
>>> m.group(0)
'egg'

在 3.5 版更改: 添加定长组合引用的支持。

(? 匹配当前位置之前不是 … 的样式。这个叫:negative lookbehind assertion。类似正向后视断定，包含的样式匹配必须是定长的。由 negative lookbehind assertion 开始的样式可以从字符串搜索开始的位置进行匹配。

(?(id/name)yes-pattern|no-pattern)
 如果给定的 id 或 name 存在，将会尝试匹配 yes-pattern ，否则就尝试匹配 no-pattern，no-pattern 可选，也可以被忽略。比如，(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$) 是一个email样式匹配，将匹配 或 [email protected] ，但不会匹配 ，也不会匹配 [email protected]>。
 
  由 \ 和一个字符组成的特殊序列在以下列出。 如果普通字符不是ASCII数位或者ASCII字母，那么正则样式将匹配第二个字符。比如，\$ 匹配字符$。 
  \number
 匹配数字代表的组合。每个括号是一个组合，组合从1开始编号。比如 (.+)\1 匹配 the the 或者 55 55, 但不会匹配 thethe (注意组合后面的空格)。这个特殊序列只能用于匹配前面99个组合。如果 number 的第一个数位是0， 或者 number 是三个八进制数，它将不会被看作是一个组合，而是八进制的数字值。在 [ 和 ] 字符集合内，任何数字转义都被看作是字符。 
  \A
 只匹配字符串开始。 
  \b
 匹配空字符串，但只在单词开始或结尾的位置。一个单词被定义为一个单词字符的序列。注意，通常 \b 定义为 \w 和\W 字符之间，或者 \w和字符串开始/结尾的边界， 意思就是 r'\bfoo\b 匹配 foo，foo.，(foo)，bar foo baz 但不匹配 foobar 或者foo3。 
  默认情况下，Unicode字母和数字是在Unicode样式中使用的，但是可以用ASCII 标记来更改。如果 LOCALE 标记被设置的话，词的边界是由当前语言区域设置决定的，\b 表示退格字符，以便与Python字符串文本兼容。 
  \B
 匹配空字符串，但 不 能在词的开头或者结尾。意思就是 r'py\B 匹配python，py3，py2，但不匹配 py，py.， 或者py!。\B 是 \b 的取非，所以Unicode样式的词语是由Unicode字母，数字或下划线构成的，虽然可以用 ASCII 标志来改变。如果使用了LOCALE 标志，则词的边界由当前语言区域设置。 
  \d 
   
    对于 Unicode (str) 样式：
 匹配任何Unicode十进制数（就是在Unicode字符目录[Nd]里的字符）。这包括了 [0-9] ，和很多其他的数字字符。如果设置了 ASCII 标志，就只匹配 [0-9] 。
  
    对于8位(bytes)样式：
 匹配任何十进制数，就是 [0-9]。
  
   
  \D
 匹配任何非十进制数字的字符。就是 \d 取非。 如果设置了 ASCII 标志，就相当于 [^0-9] 。 
  \s 
   
    对于 Unicode (str) 样式：
 匹配任何Unicode空白字符（包括 [ \t\n\r\f\v] ，还有很多其他字符，比如不同语言排版规则约定的不换行空格）。如果 ASCII 被设置，就只匹配 [ \t\n\r\f\v] 。
  
    对于8位(bytes)样式：
 匹配ASCII中的空白字符，就是 [ \t\n\r\f\v] 。
  
   
  \S
 匹配任何非空白字符。就是 \s 取非。如果设置了 ASCII 标志，就相当于 [^ \t\n\r\f\v] 。 
  \w 
   
    对于 Unicode (str) 样式：
 匹配Unicode词语的字符，包含了可以构成词语的绝大部分字符，也包括数字和下划线。如果设置了 ASCII 标志，就只匹配 [a-zA-Z0-9_]。
  
    对于8位(bytes)样式：
 匹配ASCII字符中的数字和字母和下划线，就是 [a-zA-Z0-9_] 。如果设置了 LOCALE 标记，就匹配当前语言区域的数字和字母和下划线。
  
   
  \W
 匹配任何非词语字符。是 \w 取非。如果设置了 ASCII 标记，就相当于[^a-zA-Z0-9_] 。如果设置了 LOCALE 标志，就匹配当前语言区域的 非 词语字符。 
  \Z
 只匹配字符串尾。 
  绝大部分Python的标准转义字符也被正则表达式分析器支持: 
  \a      \b      \f      \n
\r      \t      \u      \U
\v      \x      \\

 
  （注意 \b 被用于表示词语的边界，它只在字符集合内表示退格，比如[\b] 。） 
  \u 和 \U 转义序列只在Unicode样式中支持。bytes样式会显示错误。 
  八进制转义包含为一个有限形式。如果首位数字是 0， 或者有三个八进制数位，那么就认为它是八进制转义。其他的情况，就看作是组引用。对于字符串文本，八进制转义最多有三个数位长。 
   
   在 3.3 版更改: 增加了 \u 和 \U 转义序列。 
   
   
   在 3.6 版更改: 由 \ 和一个ASCII字符组成的未知转义会被看成错误。 
   
  模块内容 
  模块定义了几个函数，常量，和一个例外。有些函数是编译后的正则表达式方法的简化版本（少了一些特性）。绝大部分重要的应用，总是会先将正则表达式编译，之后在进行操作。 
   
   在 3.6 版更改: 标志常量现在是 RegexFlag 类的实例，这个类是enum.IntFlag 的子类。 
   
  re.compile(pattern, flags=0) 
  将正则表达式的样式编译为一个 正则表达式对象 （正则对象），可以用于匹配，通过这个对象的方法 match()，search() 以及其他如下描述。 
  这个表达式的行为可以通过指定 标记 的值来改变。值可以是以下任意变量，可以通过位的OR操作来结合（ | 操作符）。 
  表达式语句 
  prog = re.compile(pattern)
result = prog.match(string)
 
  等价于 
  result = re.match(pattern, string)
 
  如果需要多次使用这个正则表达式的话，使用 re.compile() 和保存这个正则对象以便复用，可以让程序更加高效。 
   
   注解: 通过 re.compile() 编译后的样式，和模块级的函数会被缓存，所以少 数的正则表达式使用无需考虑编译的问题。 
   
  re.A
 re.ASCII 
  让 \w, \W, \b, \B, \d, \D, \s 和 \S 只匹配ASCII，而不是Unicode。这只对Unicode样式有效，会被byte样式忽略。相当于前面语法中的内联标志 (?a) 。 
  注意，为了保持向后兼容， re.U 标记依然存在（还有他的同义re.UNICODE 和嵌入形式 (?u) ) ， 但是这些在Python 3 是冗余的，因为默认字符串已经是Unicode了（并且Unicode匹配不允许byte出现)。 
  re.DEBUG 
  显示编译时的debug信息，没有内联标记。 
  re.I
 re.IGNORECASE 
  进行忽略大小写匹配；表达式如 [A-Z] 也会匹配小写字符。Unicode匹配比如 Ü 匹配 ü）同样有用，除非设置了 re.ASCII 标记来禁用非ASCII匹配。当前语言区域不会改变这个标记，除非设置了 re.LOCALE 标记。这个相当于内联标记 (?i) 。 
  注意，当设置了 IGNORECASE 标记，搜索Unicode样式 [a-z] 或[A-Z] 的结合时，它将会匹配52个ASCII字符和4个额外的非ASCII字符：‘İ’ (U+0130, 拉丁大写的 I 带个点在上面), ‘ı’ (U+0131, 拉丁小写没有点的 I )，(U+017F, 拉丁小写长 s) 和 ‘K’ (U+212A, 开尔文符号)。如果使用 ASCII 标记，就只匹配 ‘a’ 到 ‘z’ 和 ‘A’ 到 ‘Z’ 。 
  re.L
 re.LOCALE 
  由当前语言区域决定 \w, \W, \b, \B 和大小写敏感匹配。这个标记只能对byte样式有效。这个标记不推荐使用，因为语言区域机制很不可靠，它一次只能处理一个 “习惯”，而且只对8位字节有效。Unicode匹配在Python 3 里默认启用，并可以处理不同语言。 这个对应内联标记 (?L)。 
   
   在 3.6 版更改: re.LOCALE 只能用于byte样式，而且不能和 re.ASCII一起用。 
   
   
   在 3.7 版更改: 设置了 re.LOCALE 标记的编译正则对象不再在编译时依赖语言区域设置。语言区域设置只在匹配的时候影响其结果。 
   
  re.M
 re.MULTILINE 
  设置以后，样式字符 ^ 匹配字符串的开始，和每一行的开始（换行符后面紧跟的符号）；样式字符 $ 匹配字符串尾，和每一行的结尾（换行符前面那个符号）。默认情况下，’^’ 匹配字符串头，$ 匹配字符串尾。对应内联标记 (?m) 。 
  re.S
 re.DOTALL 
  让 . 特殊字符匹配任何字符，包括换行符；如果没有这个标记，.就匹配 除了 换行符的其他任意字符。对应内联标记 (?s) 。 
  re.X
 re.VERBOSE 
  这个标记允许你编写更具可读性更友好的正则表达式。通过分段和添加注释。空白符号会被忽略，除非在一个字符集合当中或者由反斜杠转义，或者在*?, (?: or (?P<…> 分组之内。当一个行内有 # 不在字符集和转义序列，那么它之后的所有字符都是注释。意思就是下面两个正则表达式等价地匹配一个十进制数字： 
  a = re.compile(r```\d +  # the integral part
                   \.    # the decimal point
                   \d *  # some fractional digits```, re.X)
 
  b = re.compile(r`\d+\.\d*`)
 
  对应内联标记 (?x) 。 
  re.search(pattern, string, flags=0) 
  扫描整个 字符串 找到匹配样式的第一个位置，并返回一个相应的 匹配对象。如果没有匹配，就返回一个 None ； 注意这和找到一个零长度匹配是不同的。 
  re.match(pattern, string, flags=0) 
  如果 string 开始的0或者多个字符匹配到了正则表达式样式，就返回一个相应的 匹配对象 。 如果没有匹配，就返回 None ；注意它跟零长度匹配是不同的。 
  注意即便是 MULTILINE 多行模式， re.match() 也只匹配字符串的开始位置，而不匹配每行开始。 
  如果你想定位 string 的任何位置，使用 search() 来替代（也可参考search() vs. match() ） 
  re.fullmatch(pattern, string, flags=0) 
  如果整个 string 匹配到正则表达式样式，就返回一个相应的 匹配对象。 否则就返回一个 None ；注意这跟零长度匹配是不同的。 
   
   3.4 新版功能. 
   
  re.split(pattern, string, maxsplit=0, flags=0) 
  用 pattern 分开 string 。 如果在 pattern 中捕获到括号，那么所有的组里的文字也会包含在列表里。如果 maxsplit 非零， 最多进行 maxsplit 次分隔， 剩下的字符全部返回到列表的最后一个元素。 
  >>> re.split(r'\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split(r'(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split(r'\W+', 'Words, words, words.', 1)
['Words', 'words, words.']
>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)
['0', '3', '9']
 
  如果分隔符里有捕获组合，并且匹配到字符串的开始，那么结果将会以一个空字符串开始。对于结尾也是一样 
  >>> re.split(r'(\W+)', '...words, words...')
>>> ['', '...', 'words', ', ', 'words', '...', '']
 
  这样的话，分隔组将会出现在结果列表中同样的位置。 
  样式的空匹配将分开字符串，但只在不相临的状况生效。 
  >>> re.split(r'\b', 'Words, words, words.')
['', 'Words', ', ', 'words', ', ', 'words', '.']
>>> re.split(r'\W*', '...words...')
['', '', 'w', 'o', 'r', 'd', 's', '', '']
>>> re.split(r'(\W*)', '...words...')
['', '...', '', '', 'w', '', 'o', '', 'r', '', 'd', '', 's', '...', '', '', '']
 
   
   在 3.1 版更改: 增加了可选标记参数。 
   
   
   在 3.7 版更改: 增加了空字符串的样式分隔。 
   
  re.findall(pattern, string, flags=0) 
  对 string 返回一个不重复的 pattern 的匹配列表， string 从左到右进行扫描，匹配按找到的顺序返回。如果样式里存在一到多个组，就返回一个组合列表；就是一个元组的列表（如果样式里有超过一个组合的话）。空匹配也会包含在结果里。 
   
   在 3.7 版更改: 非空匹配现在可以在前一个空匹配之后出现了。 
   
  re.finditer(pattern, string, flags=0) 
  pattern 在 string 里所有的非重复匹配，返回为一个迭代器iterator 保存了 匹配对象 。 string 从左到右扫描，匹配按顺序排列。空匹配也包含在结果里。 
   
   在 3.7 版更改: 非空匹配现在可以在前一个空匹配之后出现了。 
   
  re.sub(pattern, repl, string, count=0, flags=0) 
  在 string 找到的第一个 pattern ，更换为 repl，并返回整个字符串。如果没找到样式，就直接返回 string ， repl 可以是字符串或者函数；如果是字符串，任何转义字符都会被处理。也就是说 \n 会转换成换行符，\r 会转换为 return，其余同理。未知转义比如 \& 保持原样。向后引用，比如 \6， 替换为匹配的第六个组。比如 
  >>> re.sub(r'def\s+([a-zA-Z_][a-zA-Z_0-9]*)\s*\(\s*\):',
...        r'static PyObject*\npy_\1(void)\n{',
...        'def myfunc():')
'static PyObject*\npy_myfunc(void)\n{'
 
  如果 repl 是一个函数，那它会对每个非重复的 pattern 的情况调用。这个函数只能有一个 匹配对象 参数，并返回一个替换后的字符串。比如 
  >>> def dashrepl(matchobj):
...     if matchobj.group(0) == '-': return ' '
...     else: return '-'
>>> re.sub('-{1,2}', dashrepl, 'pro----gram-files')
'pro--gram files'
>>> re.sub(r'\sAND\s', ' & ', 'Baked Beans And Spam', flags=re.IGNORECASE)
'Baked Beans & Spam'
 
  样式可以是一个字符串或者一个样式对象 。 
  可选参数 count 是要替换的最大次数；count 必须是非负整数。如果忽略这个参数，或者设置为0，所有的匹配都会被替换。空匹配只在不相临连续的情况被更替，所以 sub('x*', '-', 'abxd') 返回 -a-b--d- 。 
  在字符串类型的 repl 参数里，如上所述的转义和向后引用中，\g 会使用命名组合 name，（在 (?P…) 语法中定义）\g 会使用数字组；\g<2> 就是 \2，但它避免了二义性，如\g<2>0。 \20 就会被解释为组20，而不是组2后面跟随一个字符 0。向后引用 \g<0> 把 pattern 作为一整个组进行引用。 
   
   在 3.1 版更改: 增加了可选标记参数。 
   
   
   在 3.5 版更改: 不匹配的组合替换为空字符串。 
   
   
   在 3.6 版更改: pattern 中的未知转义（由 \ 和一个 ASCII 字符组成）被视为错误。 
   
   
   在 3.7 版更改: repl 中的未知转义（由 \ 和一个 ASCII 字符组成）被视为错误。样式中的空匹配相邻接时会被替换。 
   
  re.subn(pattern, repl, string, count=0, flags=0) 
  行为与 sub() 相同，但是返回一个元组 (字符串, 替换次数). 
   
   在 3.1 版更改: 增加了可选标记参数。 
   
   
   在 3.5 版更改: 不匹配的组合替换为空字符串。 
   
  re.escape(pattern) 
  转义 pattern 中的特殊字符。如果你想对任意可能包含正则表达式元字符的文本字符串进行匹配，它就是有用的。比如 
  >>> print(re.escape('python.exe'))
python\.exe
>>> legal_chars = string.ascii_lowercase + string.digits + `!#$%&'*+-.^_`|~:`
>>> print('[%s]+' % re.escape(legal_chars))
[abcdefghijklmnopqrstuvwxyz0123456789!\#\$%\&'\*\+\-\.\^_`\|\~:]+
>>> operators = ['+', '-', '*', '/', '**']
>>> print('|'.join(map(re.escape, sorted(operators, reverse=True))))
/|\-|\+|\*\*|\*
 
  这个函数不能用在 sub() 和 subn() 的替换字符串里，只有反斜杠应该被转义，比如说 
  >>> digits_re = r'\d+'
>>> sample = '/usr/sbin/sendmail - 0 errors, 12 warnings'
>>> print(re.sub(digits_re, digits_re.replace('\\', r'\\'), sample))
/usr/sbin/sendmail - \d+ errors, \d+ warnings
 
   
   在 3.3 版更改: _ 不再被转义。 
   
   
   在 3.7 版更改: 只有在正则表达式中可以产生特殊含义的字符会被转义。 
   
  re.purge() 
  清除正则表达式缓存。 
  exception re.error(msg, pattern=None, pos=None) 
  raise 一个例外。当传递到函数的字符串不是一个有效正则表达式的时候比如，包含一个不匹配的括号）或者其他错误在编译时或匹配时产生。如果字符串不包含样式匹配，是不会被视为错误的。 
  错误实例有以下附加属性： 
   
   msg 
   
  未格式化的错误消息。 
   
   pattern 
   
  正则表达式样式。 
   
   pos 
   
  编译失败的 pattern 的位置索引（可以是 None ）。 
   
   lineno 
   
  对应 pos (可以是 None) 的行号。 
   
   colno 
   
  对应 pos (可以是 None) 的列号。 
   
   在 3.5 版更改: 添加了附加属性。 
   
  正则表达式对象 （正则对象） 
  编译后的正则表达式对象支持一下方法和属性： 
  Pattern.search(string[, pos[, endpos]]) 
  扫描整个 string 寻找第一个匹配的位置， 并返回一个相应的 匹配对象。如果没有匹配，就返回 None ；注意它和零长度匹配是不同的。 可选的第二个参数 pos 给出了字符串中开始搜索的位置索引；默认为 0，它不完全等价于字符串切片； ^ 样式字符匹配字符串真正的开头，和换行符后面的第一个字符，但不会匹配索引规定开始的位置。 
  可选参数 endpos 限定了字符串搜索的结束；它假定字符串长度到 endpos ， 所以只有从 pos 到 endpos - 1 的字符会被匹配。 
  如果 endpos 小于 pos，就不会有匹配产生；另外，如果 rx 是一个编译后的正则对象， rx.search(string, 0, 50) 等价于rx.search(string[:50], 0)。 
  >>> pattern = re.compile(`d`)
>>> pattern.search(`dog`)     # Match at index 0
<re.Match object; span=(0, 1), match='d'>
>>> pattern.search(`dog`, 1)  # No match; search doesn't include the `d`
 
  Pattern.match(string[, pos[, endpos]]) 
  如果 string 的 开始位置 能够找到这个正则样式的任意个匹配，就返回一个相应的 匹配对象。如果不匹配，就返回 None ；注意它与零长度匹配是不同的。 
  可选参数 pos 和 endpos 与 search() 含义相同。 
  >>> pattern = re.compile(`o`)
>>> pattern.match(`dog`)      # No match as `o` is not at the start of `dog`.
>>> pattern.match(`dog`, 1)   # Match as `o` is the 2nd character of `dog`.
<re.Match object; span=(1, 2), match='o'>
 
  如果你想定位匹配在 string 中的位置，使用 search() 来替代（另参考 search() vs. match()）。 
  Pattern.fullmatch(string[, pos[, endpos]]) 
  如果整个 string 匹配这个正则表达式，就返回一个相应的 匹配对象 。否则就返回 None ； 注意跟零长度匹配是不同的。可选参数 pos 和 endpos 与 search() 含义相同。 
  >>> pattern = re.compile(`o[gh]`)
>>> pattern.fullmatch(`dog`)      # No match as `o` is not at the start of `dog`.
>>> pattern.fullmatch(`ogre`)     # No match as not the full string matches.
>>> pattern.fullmatch(`doggie`, 1, 3)   # Matches within given limits.
<re.Match object; span=(1, 3), match='og'>
 
   
   3.4 新版功能. 
   
  Pattern.split(string, maxsplit=0) 
  等价于 split() 函数，使用了编译后的样式。 
  Pattern.findall(string[, pos[, endpos]]) 
  类似函数 findall() ，使用了编译后样式，但也可以接收可选参数 pos 和 endpos ，限制搜索范围，就像search()`。 
  Pattern.finditer(string[, pos[, endpos]]) 
  类似函数 finiter() ，使用了编译后样式，但也可以接收可选参数 pos 和 endpos ，限制搜索范围，就像 search()。 
  Pattern.sub(repl, string, count=0) 
  等价于 sub() 函数，使用了编译后的样式。 
  Pattern.subn(repl, string, count=0) 
  等价于 subn() 函数，使用了编译后的样式。 
  Pattern.flags 
  正则匹配标记。这是可以传递给 compile() 的参数，任何 (?…) 内联标记，隐性标记比如 UNICODE 的结合。 
  Pattern.groups 
  捕获组合的数量。 
  Pattern.groupindex 
  映射由 (?P) 定义的命名符号组合和数字组合的字典。如果没有符号组，那字典就是空的。 
  Pattern.pattern 
  编译对象的原始样式字符串。 
   
   在 3.7 版更改: 添加 copy.copy() 和 copy.deepcopy() 函数的支持。编译后的正则表达式对象被认为是原子性的。 
   
  匹配对象 
  匹配对象总是有一个布尔值 True。如果没有匹配的话 match() 和search() 返回 None 所以你可以简单的用 if 语句来判断是否匹配 
  match = re.search(pattern, string)
if match:
    process(match)
 
  匹配对象支持以下方法和属性： 
  Match.expand(template) 
  对 template 进行反斜杠转义替换并且返回，就像 sub() 方法中一样。转义如同 \n 被转换成合适的字符，数字引用(\1, \2)和命名组合(\g<1>, \g) 替换为相应组合的内容。 
   
   在 3.5 版更改: 不匹配的组合替换为空字符串。 
   
  Match.group([group1, …]) 
  返回一个或者多个匹配的子组。如果只有一个参数，结果就是一个字符串，如果有多个参数，结果就是一个元组（每个参数对应一个项），如果没有参数，组1默认到0（整个匹配都被返回）。 如果一个组N 参数值为 0，相应的返回值就是整个匹配字符串；如果它是一个范围 [1…99]，结果就是相应的括号组字符串。如果一个组号是负数，或者大于样式中定义的组数，一个IndexError 索引错误就 raise。如果一个组包含在样式的一部分，并被匹配多次，就返回最后一个匹配。: 
  >>> m = re.match(r`(\w+) (\w+)`, `Isaac Newton, physicist`)
>>> m.group(0)       # The entire match
'Isaac Newton'
>>> m.group(1)       # The first parenthesized subgroup.
'Isaac'
>>> m.group(2)       # The second parenthesized subgroup.
'Newton'
>>> m.group(1, 2)    # Multiple arguments give us a tuple.
('Isaac', 'Newton')
 
  如果正则表达式使用了 (?P…) 语法， groupN 参数就也可能是命名组合的名字。如果一个字符串参数在样式中未定义为组合名，一个IndexError 就 raise。 
  一个相对复杂的例子 
  >>> m = re.match(r`(?P<first_name>\w+) (?P<last_name>\w+)`, `Malcolm Reynolds`)
>>> m.group('first_name')
'Malcolm'
>>> m.group('last_name')
'Reynolds'
 
  命名组合同样可以通过索引值引用 
  >>> m.group(1)
'Malcolm'
>>> m.group(2)
'Reynolds'
 
  如果一个组匹配成功多次，就只返回最后一个匹配 
  >>> m = re.match(r`(..)+`, `a1b2c3`)  # Matches 3 times.
>>> m.group(1)                        # Returns only the last match.
'c3'
 
  Match.getitem(g) 
  这个等价于 m.group(g)。这允许更方便的引用一个匹配 
  >>> m = re.match(r`(\w+) (\w+)`, `Isaac Newton, physicist`)
>>> m[0]       # The entire match
'Isaac Newton'
>>> m[1]       # The first parenthesized subgroup.
'Isaac'
>>> m[2]       # The second parenthesized subgroup.
'Newton'
 
   
   3.6 新版功能. 
   
  Match.groups(default=None) 
  返回一个元组，包含所有匹配的子组，在样式中出现的从1到任意多的组合。default 参数用于不参与匹配的情况，默认为 None。 
  例如 
  >>> m = re.match(r`(\d+)\.(\d+)`, `24.1632`)
>>> m.groups()
('24', '1632')
 
  如果我们使小数点可选，那么不是所有的组都会参与到匹配当中。这些组合默认会返回一个 None ，除非指定了 default 参数。 
  >>> m = re.match(r`(\d+)\.?(\d+)?`, `24`)
>>> m.groups()      # Second group defaults to None.
('24', None)
>>> m.groups('0')   # Now, the second group defaults to '0'.
('24', '0')
 
  Match.groupdict(default=None) 
  返回一个字典，包含了所有的 命名 子组。key就是组名。 default 参数用于不参与匹配的组合；默认为 None。 例如 
  >>> m = re.match(r`(?P<first_name>\w+) (?P<last_name>\w+)`, `Malcolm Reynolds`)
>>> m.groupdict()
{'first_name': 'Malcolm', 'last_name': 'Reynolds'}
 
  Match.start([group])
 Match.end([group]) 
  返回 group 匹配到的字串的开始和结束标号。group 默认为0（意思是整个匹配的子串）。如果 group 存在，但未产生匹配，就返回 -1 。对于一个匹配对象 m， 和一个未参与匹配的组 g ，组 g (等价于m.group(g))产生的匹配是 
  m.string[m.start(g):m.end(g)]
 
  注意 m.start(group) 将会等于 m.end(group) ，如果 group 匹配一个空字符串的话。 
  比如，在 m = re.search('b(c?)', 'cba') 之后，m.start(0) 为 1，m.end(0) 为 2，m.start(1) 和 m.end(1) 都是2， m.start(2) raise 一个 IndexError 例外。 
  这个例子会从email地址中移除掉 remove_this 
  >>> email = `tony@tiremove_thisger.net`
>>> m = re.search(`remove_this`, email)
>>> email[:m.start()] + email[m.end():]
'[email protected]'
 
  Match.span([group]) 
  对于一个匹配 m ， 返回一个二元组 (m.start(group), m.end(group))。 注意如果 group 没有在这个匹配中，就返回 (-1, -1) 。group 默认为0，就是整个匹配。 
  Match.pos 
  pos 的值，会传递给 search() 或 match() 的方法 a 正则对象 。这个是正则引擎开始在字符串搜索一个匹配的索引位置。 
  Match.endpos 
  endpos 的值，会传递给 search() 或 match() 的方法 a 正则对象。这个是正则引擎停止在字符串搜索一个匹配的索引位置。 
  Match.lastindex 
  捕获组的最后一个匹配的整数索引值，或者 None 如果没有匹配产生的话。比如，对于字符串 ab，表达式 (a)b, ((a)(b)), 和 ((ab)) 将得到 lastindex == 1 ， 而 (a)(b) 会得到 lastindex == 2 。 
  Match.lastgroup 
  最后一个匹配的命名组名字，或者 None 如果没有产生匹配的话。 
  Match.re 
  返回产生这个实例的 正则对象 ， 这个实例是由 正则对象的 match() 或search() 方法产生的。 
  Match.string 
  传递到 match() 或 search() 的字符串。 
   
   在 3.7 版更改: 添加了对 copy.copy() 和 copy.deepcopy() 的支持。匹配对象被看作是原子性的。 
   
  正则表达式例子 
  检查对子 
  在这个例子里，我们使用以下辅助函数来更好的显示匹配对象： 
  def displaymatch(match):
    if match is None:
        return None
        return '' % (match.group(), match.groups())
 
  假设你在写一个扑克程序，一个玩家的一手牌为五个字符的串，每个字符表示一张牌，“a” 就是 A, “k”就是 K， “q” 就是 Q, “j” 就是 J, “t” 为 10, “2” 到 “9” 表示2 到 9。 
  要看给定的字符串是否有效，我们可以按照以下步骤 
  >>> valid = re.compile(r`^[a2-9tjqk]{5}$`)
>>> displaymatch(valid.match(`akt5q`))  # Valid.
`<Match: 'akt5q', groups=()>`
>>> displaymatch(valid.match(`akt5e`))  # Invalid.
>>> displaymatch(valid.match(`akt`))    # Invalid.
>>> displaymatch(valid.match(`727ak`))  # Valid.
`<Match: '727ak', groups=()>`
 
  最后一手牌，727ak ，包含了一个对子，或者两张同样数值的牌。要用正则表达式匹配它，应该使用向后引用如下 
  >>> pair = re.compile(r`.*(.).*\1`)
>>> displaymatch(pair.match(`717ak`))     # Pair of 7s.
`<Match: '717', groups=('7',)>`
>>> displaymatch(pair.match(`718ak`))     # No pairs.
>>> displaymatch(pair.match(`354aa`))     # Pair of aces.
`<Match: '354aa', groups=('a',)>`
 
  要找到对子包含的是哪一张牌，应该按照下面的方式使用 group() 方法: 
  >>> pair.match(`717ak`).group(1)
'7'
# Error because re.match() returns None, which doesn't have a group() method:
... pair.match(`718ak`).group(1)
Traceback (most recent call last):
  File `<pyshell#23>`, line 1, in 
    re.match(r`.*(.).*\1`, `718ak`).group(1)
AttributeError: 'NoneType' object has no attribute 'group'
>>> pair.match(`354aa`).group(1)
'a'
 
  模拟 scanf() 
  Python 目前没有一个类似c函数 scanf() 的替代品。正则表达式通常比scanf() 格式字符串要更强大一些，但也带来更多复杂性。下面的表格提供了scanf() 格式符和正则表达式大致相同的映射。 
   
    
     
     scanf() 格式符 
     正则表达式 
     
    
    
     
     %c 
     . 
     
     
     %5c 
     .{5} 
     
     
     %d 
     [-+]?\d+ 
     
     
     %e, %E, %f, %g 
     [-+]?(\d+(\.\d*)?|\.\d+)([eE][-+]?\d+)? 
     
     
     %i 
     [-+]?(0[xX][\dA-Fa-f]+|0[0-7]*|\d+) 
     
     
     %o 
     [-+]?[0-7]+ 
     
     
     %s 
     \S+ 
     
     
     %u 
     \d+ 
     
     
     %x, %X 
     [-+]?(0[xX])?[\dA-Fa-f]+ 
     
    
   
  从文件名和数字提取字符串 
  /usr/sbin/sendmail - 0 errors, 4 warnings
 
  你可以使用 scanf() 格式化 
  %s - %d errors, %d warnings
 
  等价的正则表达式是： 
  (\S+) - (\d+) errors, (\d+) warnings
 
  search() vs. match() 
  Python 提供了两种不同的操作：基于 re.match() 检查字符串开头，或者re.search() 检查字符串的任意位置（默认Perl中的行为）。 
  例如 
  >>> re.match(`c`, `abcdef`)    # No match
>>> re.search(`c`, `abcdef`)   # Match
<re.Match object; span=(2, 3), match='c'>
 
  在 search() 中，可以用 ^ 作为开始来限制匹配到字符串的首位 
  >>> re.match(`c`, `abcdef`)    # No match
>>> re.search(`^c`, `abcdef`)  # No match
>>> re.search(`^a`, `abcdef`)  # Match
<re.Match object; span=(0, 1), match='a'>
 
  注意 MULTILINE 多行模式中函数 match() 只匹配字符串的开始，但使用search() 和以 ^ 开始的正则表达式会匹配每行的开始 
  >>> re.match('X', 'A\nB\nX', re.MULTILINE)  # No match
>>> re.search('^X', 'A\nB\nX', re.MULTILINE)  # Match
<re.Match object; span=(4, 5), match='X'>
 
  建立一个电话本 
  split() 将字符串用参数传递的样式分隔开。这个方法对于转换文本数据到易读而且容易修改的数据结构，是很有用的，如下面的例子证明。 
  首先，这里是输入。通常是一个文件，这里我们用三引号字符串语法 
  >>> text = ```Ross McFluff: 834.345.1254 155 Elm Street
...
... Ronald Heathmore: 892.345.3428 436 Finley Avenue
... Frank Burger: 925.541.7625 662 South Dogwood Way
...
...
... Heather Albrecht: 548.326.4584 919 Park Place```
 
  条目用一个或者多个换行符分开。现在我们将字符串转换为一个列表，每个非空行都有一个条目: 
  >>> entries = re.split(`\n+`, text)
>>> entries
['Ross McFluff: 834.345.1254 155 Elm Street',
'Ronald Heathmore: 892.345.3428 436 Finley Avenue',
'Frank Burger: 925.541.7625 662 South Dogwood Way',
'Heather Albrecht: 548.326.4584 919 Park Place']
 
  最终，将每个条目分割为一个由名字、姓氏、电话号码和地址组成的列表。我们为 split() 使用了 maxsplit 形参，因为地址中包含有被我们作为分割模式的空格符: 
  >>> [re.split(`:? `, entry, 3) for entry in entries]
[['Ross', 'McFluff', '834.345.1254', '155 Elm Street'],
['Ronald', 'Heathmore', '892.345.3428', '436 Finley Avenue'],
['Frank', 'Burger', '925.541.7625', '662 South Dogwood Way'],
['Heather', 'Albrecht', '548.326.4584', '919 Park Place']]
 
  :? 样式匹配姓后面的冒号，因此它不出现在结果列表中。如果 maxsplit设置为 4 ，我们还可以从地址中获取到房间号: 
  >>> [re.split(`:? `, entry, 4) for entry in entries]
[['Ross', 'McFluff', '834.345.1254', '155', 'Elm Street'],
['Ronald', 'Heathmore', '892.345.3428', '436', 'Finley Avenue'],
['Frank', 'Burger', '925.541.7625', '662', 'South Dogwood Way'],
['Heather', 'Albrecht', '548.326.4584', '919', 'Park Place']]
 
  文字整理 
  sub() 替换字符串中出现的样式的每一个实例。这个例子证明了使用
 sub() 来整理文字，或者随机化每个字符的位置，除了首位和末尾字符 
  >>> def repl(m):
...     inner_word = list(m.group(2))
...     random.shuffle(inner_word)
...     return m.group(1) + ``.join(inner_word) + m.group(3)
>>> text = `Professor Abdolmalek, please report your absences promptly.`
>>> re.sub(r`(\w)(\w+)(\w)`, repl, text)
'Poefsrosr Aealmlobdk, pslaee reorpt your abnseces plmrptoy.'
>>> re.sub(r`(\w)(\w+)(\w)`, repl, text)
'Pofsroser Aodlambelk, plasee reoprt yuor asnebces potlmrpy.'
 
  找到所有副词 
  findall() 匹配样式 所有 的出现，不仅是像 search() 中的第一个匹配。比如，如果一个作者希望找到文字中的所有副词，他可能会按照以下方法用findall() 
  >>> text = `He was carefully disguised but captured quickly by police.`
>>> re.findall(r`\w+ly`, text)
['carefully', 'quickly']
 
  找到所有副词和位置 
  如果需要匹配样式的更多信息， finditer() 可以起到作用，它提供了匹配对象 作为返回值，而不是字符串。继续上面的例子，如果一个作者希望找到所有副词和它的位置，可以按照下面方法使用 finditer() 
  >>> text = `He was carefully disguised but captured quickly by police.`
>>> for m in re.finditer(r`\w+ly`, text):
...     print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))
07-16: carefully
40-47: quickly
 
  原始字符记法 
  原始字符串记法 (rtext``) 保持正则表达式正常。否则，每个正则式里的反斜杠(\) 都必须前缀一个反斜杠来转义。比如，下面两行代码功能就是完全一致的 
  >>> re.match(r`\W(.)\1\W`, ` ff `)
<re.Match object; span=(0, 4), match=' ff '>
>>> re.match(`\\W(.)\\1\\W`, ` ff `)
<re.Match object; span=(0, 4), match=' ff '>
 
  当需要匹配一个字符反斜杠，它必须在正则表达式中转义。在原始字符串记法，就是 r\。否则就必须用\\``，来表示同样的意思 
  >>> re.match(r`\\`, r`\\`)
<re.Match object; span=(0, 1), match='\\'>
>>> re.match(`\\\\`, r`\\`)
<re.Match object; span=(0, 1), match='\\'>
 
  写一个词法分析器 
  一个 词法器或词法分析器 分析字符串，并分类成目录组。 这是写一个编译器或解释器的第一步。 
  文字目录是由正则表达式指定的。这个技术是通过将这些样式合并为一个主正则式，并且循环匹配来实现的 
  import collections
import re

Token = collections.namedtuple('Token', ['type', 'value', 'line', 'column'])


def tokenize(code):
    keywords = {'IF', 'THEN', 'ENDIF', 'FOR', 'NEXT', 'GOSUB', 'RETURN'}
    token_specification = [
        ('NUMBER', r'\d+(\.\d*)?'),  # Integer or decimal number
        ('ASSIGN', r':='),  # Assignment operator
        ('END', r';'),  # Statement terminator
        ('ID', r'[A-Za-z]+'),  # Identifiers
        ('OP', r'[+\-*/]'),  # Arithmetic operators
        ('NEWLINE', r'\n'),  # Line endings
        ('SKIP', r'[ \t]+'),  # Skip over spaces and tabs
        ('MISMATCH', r'.'),  # Any other character
    ]
    tok_regex = '|'.join('(?P<%s>%s)' % pair for pair in token_specification)
    line_num = 1
    line_start = 0
    for mo in re.finditer(tok_regex, code):
        kind = mo.lastgroup
        value = mo.group()
        column = mo.start() - line_start
        if kind == 'NUMBER':
            value = float(value) if '.' in value else int(value)
        elif kind == 'ID' and value in keywords:
            kind = value
        elif kind == 'NEWLINE':
            line_start = mo.end()
            line_num += 1
            continue
        elif kind == 'SKIP':
            continue
        elif kind == 'MISMATCH':
            raise RuntimeError(f'{value!r} unexpected on line {line_num}')
        yield Token(kind, value, line_num, column)


statements = '''
    IF quantity THEN
        total := total + price * quantity;
        tax := price * 0.05;
    ENDIF;
'''

for token in tokenize(statements):
    print(token)
 
  这个词法器产生以下输出 
  Token(type='IF', value='IF', line=2, column=4)
Token(type='ID', value='quantity', line=2, column=7)
Token(type='THEN', value='THEN', line=2, column=16)
Token(type='ID', value='total', line=3, column=8)
Token(type='ASSIGN', value=':=', line=3, column=14)
Token(type='ID', value='total', line=3, column=17)
Token(type='OP', value='+', line=3, column=23)
Token(type='ID', value='price', line=3, column=25)
Token(type='OP', value='*', line=3, column=31)
Token(type='ID', value='quantity', line=3, column=33)
Token(type='END', value=';', line=3, column=41)
Token(type='ID', value='tax', line=4, column=8)
Token(type='ASSIGN', value=':=', line=4, column=12)
Token(type='ID', value='price', line=4, column=15)
Token(type='OP', value='*', line=4, column=21)
Token(type='NUMBER', value=0.05, line=4, column=23)
Token(type='END', value=';', line=4, column=27)
Token(type='ENDIF', value='ENDIF', line=5, column=4)
Token(type='END', value=';', line=5, column=9)

`scanf()` 格式符	正则表达式
`%c`	`.`
`%5c`	`.{5}`
`%d`	`[-+]?\d+`
`%e`, `%E`, `%f`, `%g`	`[-+]?(\d+(\.\d*)?\|\.\d+)([eE][-+]?\d+)?`
`%i`	`[-+]?(0[xX][\dA-Fa-f]+\|0[0-7]*\|\d+)`
`%o`	`[-+]?[0-7]+`
`%s`	`\S+`
`%u`	`\d+`
`%x`, `%X`	`[-+]?(0[xX])?[\dA-Fa-f]+`

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

Python3.7正则表达式官方文档

文章目录

简介

正则表达式语法

模块内容

正则表达式对象 （正则对象）

匹配对象

正则表达式例子

检查对子

模拟 scanf()

search() vs. match()

建立一个电话本

文字整理

找到所有副词

找到所有副词和位置

原始字符记法

写一个词法分析器

你可能感兴趣的:(Python学习,Python,正则表达式)

正则表达式对象（正则对象）