远方那一抹云

part10-3 Python常见模块（正则表达式）

六、 Python 正则表达式

正则表达式（Regular Expression）用于描述一种字符串匹配的模式（Pattern），即可用于检查一个字符串是否含有某个子串，也可用于从字符串中提取匹配到的子串，或者对字符串中匹配到的子串执行替换操作。

正则表达式是一个非常实用的工具，它包含的知识点较多，它的模式匹配能力也非常强，学习需要由浅入深的学习。

熟练使用正则表达式是一个很重要的技能。可用正则表达式来开发数据抓取、网络爬虫等程序。在 Python 中的正则表达式就是几个常用函数，难点是正则表达式字符串的开发。

1、 Python 的正则表达式支持

导入 re 模块后，可使用 re.__all__ 命令查看该模块所包含的全部属性和函数。示例如下：

>>> import re
>>> re.__all__
['match', 'fullmatch', 'search', 'sub', 'subn', 'split', 'findall', 'finditer', 'compile', 'purge', 'template', 'escape', 'error', 'A', 'I', 'L', 'M', 'S', 'X', 'U', 'ASCII', 'IGNORECASE', 'LOCALE', 'MULTILINE', 'DOTALL', 'VERBOSE', 'UNICODE']

re 模块中的常用函数介绍：
（1）、re.compile(pattern,flags=0)：该函数用于将 pattern 代表的正则表达式字符串编译成 _sre.SRE_Pattern 对象，该对象是正则表达式编译之后在内存中的对象，编译后的对象可以缓存并复用正则表达式字符串。在代码中如果需要多次使用同一个正则表达式字符串，则可以先编译后再使用，这样可提高运行效率。

参数 flags 表示正则表达式的旗标。经过编译后的 _sre.SRE_Pattern 对象可以调用 re 模块中大部分函数。例如下面代码所示，将编译后的 _sre.SRE_Pattern 对象调用 re 模块的 search() 方法进行匹配。

import re
# 先编译正则表达式
p = re.compile('abc')
# 调用 _sre.SRE_Pattern 对象的 search() 方法 进行匹配
print(p.search('www.abc.com'))

# 下面代码直接使用 re 模块的 search() 函数匹配目标字符串
print(re.search('abc', 'www.abc.com'))

运行结果如下所示：
<_sre.SRE_Match object; span=(4, 7), match='abc'>
<_sre.SRE_Match object; span=(4, 7), match='abc'>

从输出可以看到，两次调用 search() 函数匹配到的结果是一样的，但是第一种方式预编译了正则表达式，可以复用 p 对象（该对象缓存了正则表达式字符串），有更好的性能。

（2）、re.match(pattern,string,flags=0)：根据 pattern 的正则模式从 string 字符串的开始位置进行匹配。如果从开始位置匹配不成功，match() 函数就返回 None。flags 参数代表正则表达式的匹配旗标。该函数返回 _sre.SRE_Match 对象，该对象包含的 span(n) 方法用于获取第 n+1 个组的匹配位置，group(n) 方法用于获取第 n+1 个组所匹配的子串。

（3）、re.search(pattern, string, flags=0)：根据 pattern 的正则模式在 string 代表的字符串中进行扫描，并返回字符串中第一处匹配 pattern 的匹配对象。flags 参数同样代表正则表达式的匹配旗标。该函数也返回 _sre.SRE_Match 对象。

match() 与 search() 的区别在于：match() 必须从字符串开始处就匹配，但 search() 可以搜索整个字符串。示例如下：

import re
m1 = re.match('www', 'www.michael.com')     # 从字符串开始处匹配
print(m1.span())        # span 返回匹配的位置，(0, 3)
print(m1.group())       # group 返回匹配的组，www
print(re.match('mich', 'www.mich.com'))     # 如果从开始位置匹配不到，返回 None
m2 = re.search('www', 'www.michael.com')    # 从开始位置匹配
print(m2.span())        # (0, 3)
print(m2.group())       # www
m3 = re.search('mich', 'www.michael.com')   # 从中间位置开始匹配，返回 Match 对象
print(m3.span())        # (4, 8)
print(m3.group())       # mich

运行代码，输出结果如下：
(0, 3)
www
None
(0, 3)
www
(4, 8)
mich

从上面代码的输出可知，match() 函数要求必须从字符串开始处匹配，而 search() 函数是扫描整个字符串，可以从字符串的任意位置开始匹配。

（4）、re.findall(pattern, string, flags=0)：根据 pattern 的匹配模式对 string 字符串整个扫描，并返回字符串中所有与pattern 模式匹配的子串组成的列表。flags 参数同样是正则表达式的匹配旗标。

（5）、re.finditer(pattern, string, flags=0)：根据 pattern 的匹配模式对 string 字符串整个扫描，并返回字符串中所有与 pattern 模式匹配的子串组成的迭代器，迭代器的元素是 _sre.SRE_Match 对象。flags 参数同样是正则表达式的匹配旗标。

findall() 和 finditer() 函数的功能基本相同，不同的是在于它们的返回值，findall() 返回所有匹配 pattern 的子串组成的
列表；而 finditer() 返回所有匹配 pattern 的子串组成的迭代器。

另外，search() 与 findall()、finditer() 的区别是，search() 只返回字符串中第一个匹配 pattern 的子串；而 findall() 和 finditer() 则返回字符串所有匹配 pattern 的子串。

findall() 和 finditer() 的使用示例如下：

import re
# 返回所有匹配 pattern 的子串组成的列表，re.I 旗标表示忽略大小写
print(re.findall('py', 'Py is very good, Py.org is official website', re.I))
# 返回所有匹配 pattern 的子串组成的迭代器，忽略大小写
it = re.finditer('py', 'Py is very good, Py.org is official website', re.I)
for i in it:
    print(str(i.span()) + "-->" + i.group())

运行代码，输出结果如下：
['Py', 'Py']
(0, 2)-->Py
(17, 19)-->Py

（6）、 re.fullmatch(pattern, string, flags=0)：该函数要求整个string字符串能匹配 pattern，如果匹配则返回包含匹配信息的 _sre.SRE_Match 对象；否则返回 None。

（7）、re.sub(pattern, repl, string, count=0, flags=0)：该函数用于将 string 字符串所有匹配 pattern 的内容替换成 repl；repl 可以是字符串，也可以是一个函数。count 参数控制最多替换多少次，如果指定 count为0，则表示全部替换。

sub() 函数的用法示例如下：

import re
my_date = '2019-11-11'
# 将 my_date 字符串中的 - 替换为 /
print(re.sub(r'-', '/', my_date))
# 只做一次替换
print(re.sub(r'-', '/', my_date, 1))

输出如下所示：
2019/11/11
2019/11-11

上面代码中的 r'-' 是原始字符串，r 代表原始字符串，可以避免对字符串中的特殊字符进行转义。sub() 在执行替换时可以基于被替换的内容进行改变。例如下面代码将字符串中的每个英文单词都变成一本图书的名字。示例如下：

import re
# 在匹配的字符串前后添加内容
def func(matched):
    # matched 就是匹配对象，通过该对象的 group() 方法可以获取被匹配的字符串
    result = '《' + matched.group('lang') + "入门到高级》"
    return result
s = 'Python 很好， Linux 也很好'
# 对 s 里面的英文单词进行替换，用 re.A 旗标控制单词
print(re.sub(r'(?P\w+)', func, s, flags=re.A))

运行结果如下所示：
《Python入门到高级》 很好， 《Linux入门到高级》 也很好

从输出结果可以看出，使用 sub() 函数执行替换时，指定使用 func() 函数作为替换内容，而 func() 函数负责在 pattern 匹配的字符串之前添加 “《”，在 pattern 匹配的字符串之后添加 “入门到高级》”。所以会看到上面的输出结果。

r'(?P\w+)' 正则表达式用圆括号表达式创建了一个组，并使用 “?P” 选项为该组起名为 lang，所起的组名要放在尖括号内。剩下的 “\w+” 才是正则表达式的内容，其中 “\w” 代表任意字符；“+” 限定前面的 “\w” 可出现一次到多次，因此，“\w+” 代表一个或多个任意字符。由于在后面指定的 re.A 选项，这样 “\w” 就只能匹配 ASCII 字符，不能匹配汉字。

在使用 sub() 函数执行替换时正则表达式 “\w+” 所匹配的内容可以通过组名 “lang” 来获取，这样 func() 函数就调用了 matched.group('lang') 来获取 “\w+” 所匹配的内容。

（8）、re.split(pattern, string, maxsplit=0, flags=0)：使用 pattern 对 string 进行分割，该函数返回分割得到的多个子串组成的列表。maxsplit 参数控制最多分割多少次，默认全部分割。

split() 函数用法示例如下：

import re
# 使用逗号对字符串进行分割
print(re.split(', ', 'python, linux, java'))
# 输出：['python', 'linux', 'java']
# 指定只分割一次，被分割成两个子串
print(re.split(', ', 'python, linux, java', 1))
# 输出：['python', 'linux, java']
# 使用 n 进行分割，未匹配成功时就不分割，比如使用 b 字符进行分割
print(re.split('n', 'python, linux, java'))
# 输出：['pytho', ', li', 'ux, java']

（9）、re.purge()：清除正则表达式缓存。

（10）、re.excape(pattern)：对模式中除 ASCII 字符、数值、下划线（_）之外的其他字符进行转义。也就是对模式中的特殊字符进行转义。

escape() 函数的用法示例如下：

import re
# 对模式中的特殊字符进行转义
print(re.escape(r'www.michael.com is very strong, I like it! 666'))
# 输出：www\.michael\.com\ is\ very\ strong\,\ I\ like\ it\!\ 666
print(re.escape(r'A-Zand0-9?'))
# 输出：A\-Zand0\-9\?

从上面代码的输出结果可知，escape() 函数对非 ASCII 字符、数值、下划线（_）之外的其他字符都进行了转义。

在 re 模块中还包含有两个类，分别是正则表达式对象（类型是 _sre.SRE_Pattern）和匹配（Match）对象。其中正则表达式对象是调用 re.compile() 函数的返回值，该对象的方法与 re 模块中的函数大致对应。但是正则表达对象的 search()、match()、fullmatch()、findall()、finditer()方法的功能要强大一些，因为这些方法可以额外指定 pos 和 endpos 两个参数，用于指定只处理目标字符串从 pos 开始到 endpos 结束之间的子串。下面代码示例用正则表达式对象的方法来执行匹配。代码如下：

import re
# 首先编译得到正则表达式对象，从类的角度来看就是在创建对象（或实例）pa
pa = re.compile('mich')
# 调用 pa 对象的 match 方法，该方法原本是从开始位置匹配的，
# 但是在这里可以指定开始匹配的位置，指定从索引 4 开始匹配
print(pa.match('www.michael.com', 4).span())    # (4, 8)
# 下面指定索引起始和结束位置，指定索引4 到 6 之间执行匹配，匹配失败
print(pa.match('www.michael.com', 4, 15))    # None
# 下面指定从索引 4 到索引 8 之间执行完全匹配，匹配成功
print(pa.fullmatch('www.michael.com', 4, 8).span())     # (4, 8)

上面代码中使用正则表达式对象来调用 match()、fullmatch()方法时指定了 pos 和 endpos 参数，这样可以只处理目标字符串的中间一段。在使用 compile() 函数编译正则表达式后，该函数所返回的对象就会缓存该正则表达式，从而可以多次调用该正则表达式执行匹配。例如上面代码多次使用了 pa 对象来执行匹配。

re 模块中的 Match 对象（类型是 _sre.SRE_Match）是 match()、search() 方法的返回值，该对象中包含了详细的正则表达式匹配信息，包括正则表达匹配的位置、正则表达式匹配的子串。

_sre.SRE_Match 对象（匹配对象）包含的方法和属性有下面这些：

（1）、match.group([group1, ...])：获取该匹配对象中指定组所匹配的字符串。

（2）、match.__getitem__(g)：这是 match.group(g) 的简化写法。由于 match 对象提供了 __getitem__() 方法，因此程序可使用 match[g] 来代替 match.group(g)。

（3）、match.groups(default=None)：返回 match 对象中所有组所匹配的字符串组成的元组。

（4）、match.groupdict(default=None)：返回 match 对象中所有组所匹配的字符串组成的字典。

（5）、match.start([group])：获取该匹配对象中指定组所匹配的字符串的开始位置。

（6）、match.end([group])：获取该匹配对象中指定组所匹配的字符串的结束位置。

（7）、match.span([group])：获取该匹配对象中指定组所匹配的字符串的开始位置和结束位置。该方法相当于同时返回 start() 和 end() 方法的返回值。

上面7个方法都涉及到组，在正则表达式中，用圆括号将多个表达式括起来就形成组。如果正则表达式中没有圆括号，则整个表达式就属于一个默认组。下面代码示例了使用组的情形：

import re
# 在正则表达式中使用组
m = re.search(r'(?Ppython).(?Porg)', r'www.python.org is official website')
print(m.group(0))       # python.org
# 调用简化的写法，底层是调用 m.__getitem__(0)
print(m[0])             # python.org
print(m.span(0))        # (4, 14)
print(m.group(1))       # python
# 调用简化的写法，底层是调用 m.__getitem__(1)
print(m[1])             # python
print(m.span(1))        # (4, 10)
print(m.group(2))       # org
# 调用简化的写法，底层是调用 m.__getitem__(2)
print(m[2])             # org
print(m.span(2))        # (11, 14)
# 返回所有组所匹配的字符串组成的元组
print(m.groups())       # ('python', 'org')
# 要返回字典的情况时，必须要为组起一个名字，名字就是字典的键
print(m.groupdict())    # {'py': 'python', 'o': 'org'}

运行代码，输出结果如下：
python.org
python.org
(4, 14)
python
python
(4, 10)
org
org
(11, 14)
('python', 'org')
{'py': 'python', 'o': 'org'}

上面代码中 search() 函数的正则表达式是 r'(?Ppython).(?Porg)'，这个正则表达式中有两个组，并且每个组都起了一个名字。接下来的代码中可以依次获取 group(0)、group(1)、group(2)的值，依次获取的是整个正则表达式所匹配的子串、第一个组匹配的子串、第二个组匹配的子串；也可以依次获取 span(0)、span(1)、span(2)的值，依次获取整个正则表达式所匹配子串的开始和结束位置、第一个组匹配子串的开始和结束位置、第二个组匹配子串的开始和结束位置。

只要正则表达式能匹配到结果，则不管正则表达是否包含组，group(0)、span(0)都能获取到内容。其中 group(0) 是获取整个匹配到的整个子串，span(0) 获取到的是整个子串的开始和结束位置。

在正则表达式中，使用 ?P 方式为组指定名字后，就可以调用 _sre.SRE_Match 对象（匹配对象）的 groupdict() 方法获得字典，字典的 key 是为组指定的名字，value 是匹配到的单组结果。

下面继续说下 _sre.SRE_Match 对象（匹配对象）的方法：

（8）、match.pos：该属性返回传给正则表达式对象的 search()、match() 等方法的 pos 参数。

（9）、match.endpos：是传给正则表达式对象的 search()、match()等方法的 endpos 参数值。

（10）、match.lastindex：最后一个正则匹配的捕获组的整数索引。如果没有组匹配，该属性值是 None。例如用 (a)b、((a)(b))或 ((ab)) 对字符串 'ab' 执行匹配，该属性都会返回 1；但如果使用 (a)(b) 正则表达式对 'ab' 执行匹配，则 lastindex 等于 2。

（11）、match.lastgroup：返回最一个匹配的捕获组的名字；如果该组没有名字或根本没有组匹配，该属性返回 None。

（12）、match.re：返回执行正则表达式匹配时所用的正则表达式。

（13）、match.string：返回执行正则表达式匹配时所用的字符串。被匹配的字符串string。

2、正则表达式旗标

Python 的正则表达式旗标都使用 re 模块中的属性来代表，旗标有下面这些：

（1）、re.A 或 re.ASCII：控制\w，\W，\b，\B，\d，\D，\s，\S 这些特殊符号只匹配 ASCII 字符，而不是匹配所有的 Unicode 字符。也可在正则表达式中使用 (?a) 行为旗标来代表。

（2）、re.DEBUG：显示编译正则表达式的 Debug 信息，没有行为旗标。

（3）、re.I 或 re.IGNORECASE：在匹配时不区分大小写。对应的行为旗标是 (?i)。

re.I 旗标示例如下：

# 默认要区分大小写，所以无匹配结果
>>> import re
>>> re.findall(r'pyth', 'Python is good, PYTHON is good')
[]
# 使用 re.I 旗标后，限定不区分大小写，现在有匹配结果
>>> re.findall(r'pyth', 'Python is good, PYTHON is good', re.I)
['Pyth', 'PYTH']
# 使用行为旗标 (?i) 限定不区分大小写，同样能匹配到结果
>>> re.findall(r'(?i)pyth', 'Python is good, PYTHON is good')
['Pyth', 'PYTH']

（4）、re.L 或 re.LOCALE：根据当前区域设置使用正则表达式匹配时不区分大小写。该旗标只对 bytes 模式起作用，对应的行内旗标是 (?L)。

（5）、re.M 或 re.MULTILINE：匹配多行模式的旗标。使用该旗标后，可以匹配每一行的开头，以及 “^” 符号能匹配字符串的开头；同时 “$” 符号能匹配字符串的末尾和每一行的末尾。没有该旗标的正则表达式，“^” 符号只匹配字符串的开头，“$” 符号只匹配字符串的结尾，或者匹配到字符串默认的换行符（如果有）之前。对应的行为旗标是 (?m)。

（6）、re.S 或 re.DOTALL：指定该旗标后，点（.）符号可以匹配换行符，默认不匹配换行符。行内旗标是 (?s)。

（7）、re.U 或 re.Unicode：控制\w，\W，\b，\B，\d，\D，\s，\S 这些特殊符号能匹配所有的 Unicode 字符。在 Python 3.x 版本中，默认匹配的就是所有 Unicode 字符，所以该旗标基本上没什么用。

（8）、re.X 或 re.VERBOSE：使用该旗标后，正则表达式可以换行，还可以为正则表达式添加注释，提高正则表达式可读性。对应的行内旗标是 (?x)。

re.X 旗标的用法示例如下：

import re
a = re.compile(r"""\d{3}  # 地方区号
                    \-  # 号码分界线
                    \d{8}   # 匹配8个数字""", re.X)
b = re.compile(r'\d{3}\-\d{8}')

print(a.search('你好，我成都的电话号码是：028-12345678').group())
print(b.search('你好，我首都的电话号码是：010-87654321').group())

运行代码，输出结果如下所示：
028-12345678
010-87654321

上面代码中在编译第一个正则表达式时使用 re.X 旗标，因此在表达式中可以换行，还可添加注释。将编译后的对象赋值给 a 变量，通过后面的调用语句的输出结果可以看到，该正则表达式完全没有问题。

3、创建正则表达式

正则表达式用于匹配一批字符串，正则表达式同时也是一个特殊的字符串。在正则表达中有它可以支持的合法字符、特殊字符、预定义字符、方括号表达式、边界匹配符。这些都是有特殊用途的。

（1）、正则表达式所支持的合法字符如下表所示

字符	释义
x	x表示任意合法的字符
\uhhhh	十六进制值0xhhhh所表示的Unicode字符
\t	制表符（'\u0009'）
\n	新行（换行）符（'\u000A'）
\r	回车符（'\u000D'）
\f	换页符（'\u000C'）
\a	报警（bell）符（'\u0007'）
\e	Escape符（'\u001B'）
\cx	x对应控制符，例如，\cM匹配Ctrl+M。x值必须是A~Z或a~z之一

（2）、正则表达式中的特殊字符
特殊字符有特殊用途，比如反斜线（\）是转义符。要匹配这些特殊字符，需要先将这些特殊字符转义，也就是在这些特殊字符前面添加一个反斜线（\）。正则表达式中的特殊字符如下所示：

特殊字符	说明
$	匹配一行的结尾。要匹配$字符本身，就使用$（下同）
^	匹配一行的开头
()	标记子表达式（也就是组）的开始位置和结束位置
[]	用于确定中括号表达式的开始位置和结束位置
{}	用于标记前面子表达式的出现次数，如{m,n}匹配前一个字符m到n次
*	指定前面的子表达式可以出现0次或多次
+	指定前面的子表达至少要出现1次，也可以出现多次
?	指定前面的子表达式可以出现0次或1次
.	匹配除换行符之外的任意单个字符
\	用于转义特殊字符，或者用于指定八进制、十六进制字符
\|	指定在两项之间任选一项

在正则表达中，通常都需要将多个字符拼接起来。示例如下：

>>> print(re.fullmatch(r'\u0041\\', 'A\\'))     # 匹配到：A\
<_sre.SRE_Match object; span=(0, 2), match='A\\'>
>>> print(re.fullmatch(r'\u0061\t', 'a\t'))     # 匹配到：a<制表符>
<_sre.SRE_Match object; span=(0, 2), match='a\t'>
>>> print(re.search(r'\?\[', 'python?[isgood')) # 匹配到：?[
<_sre.SRE_Match object; span=(6, 8), match='?['>

有了上面的这些特殊字符，在正则表达式中还需要使用通配符，通配符是可以匹配多个字符的特殊字符。正则表达式中的通配符被称为“预定义字符”。

（3）、正则表达式所支持的预定义字符
预定义字符有下面7个：

预定义字符	说明
.	默认可以匹配除换行符之外的任意字符。可使用re.S旗标来增加匹配换行符
\d	匹配0~9的所有数字
\D	匹配非数字
\s	匹配所有的空白字符，包括空格、制表符、回车符、换页符、换行符等
\S	匹配所有的非空白字符
\w	匹配所有的单词字符，包括0~9的所有数字、26个英文字母和下划线（_）、汉字
\W	匹配所有非单词字符

>>> re.findall(r'c\wt', 'cat, cbt, c8t, c_t')       # 匹配结果如下所示
['cat', 'cbt', 'c8t', 'c_t']
>>> re.findall(r'\d\d\d-\d\d\d-\d\d\d\d', '400-800-1234, 8001-5553-6666')   # 匹配结果如下所示
['400-800-1234']

有了上面这些预定义字符，还需要进一步使用方括号表达式来丰富正则表达式。

（4）、方括号表达式

方括号表达式	说明
表示枚举	例如[abc]，表示a、b、c其中任意一个字符
表示范围	例如[a-f]，表示 a~f 范围内的任意字符；[\u0041-\u0056]表示十六进制字符\u0041到\u0056范围的字符。范围可以和枚举结合使用，如[a-cx-z]表示a~c、x~z范围内的任意字符
表示求否：^	例如abc表示非a、b、c的任意字符；a-f表示不是a~f范围的任意字符

方括号表达式使用灵活，几乎可以匹配任意字符。例如要匹配所有的中文字符，可以利用 [\\u0041-\\u0056] 的形式，因为所有的中文字符的 Unicode 值是连续的，只要找出所有中文字符中最小、最大的 Unicode 值，就可以利用这种形式来匹配出所有中文字符。

（5）、边界匹配符
Python 的正则表达式还有边界匹配符，可用于匹配行的开头、结尾，单词的边界等。边界匹配符如下所示：

边界匹配符	说明
^	行的开头
$	行的结尾
\b	单词的边界，即只能匹配单词前后的空白
\B	非单词的边界，即只能匹配不在单词前后的空白
\A	只匹配字符串的开头
\Z	只匹配字符串的结尾，仅用于最后的结束符

4、子表达式

正则表达式还可以使用圆括号表达式，可将多表达式组成一个子表达式，在圆括号中可以使用“或”运算符（|）。圆括号表达式也是功能丰富的用法之一。圆括号表达式，也叫子表达式（组）支持的用法如下：
（1）、(exp)：匹配 exp 表达式并捕获成一个自动命名的组，后面可通过 “\1” 引用第一个捕获组所匹配的子串，通过 “\2” 引用第二个捕获组所匹配的子串，......，以此类推。示例如下：

>>> re.search(r'Windows (95|98|NT|2000)[\w ]+\1', 'Windows 98 publised in 98')
<_sre.SRE_Match object; span=(0, 25), match='Windows 98 publised in 98'>

上面代码用到的正则表达式是 r'Windows (95|98|NT|2000)[\w ]+\1'；紧接着的 [\w ]+ 表达式可匹配任意单词字符和空格，方括号后面的 “+” 表示方括号可出现1次或多次；最后是 “\1” 表示引用第一个组所匹配到的子串，假如第一个匹配到的是98，则 “\1”也必须是98，因此该正则表达式可匹配 “Windows 98 publised in 98”。如果将上面代码改为如下形式就不能匹配：

>>> print(re.search(r'Windows (95|98|NT|2000)[\w ]+\1', 'Windows 98 publised in 95'))
None

从输出可看出，未能成功匹配到结果，是因为第一个组匹配到的子串是98，因此 “\1” 也必须引用子串98，所以该正则表达式不能匹配 “Windows 98 publised in 95”

（2）、(?Pexp)：匹配 exp 表达式并捕获成命名组，该组的名字为 name。后面可通过 (?P=name) 来引用前面捕获的组。通过此处介绍可以看出，(exp) 和 (?Pexp) 的功能大致相同，只是 (exp) 捕获的组没有显式指定组名，因此后面只能使用\1、\2等方式来引用这种组所匹配的子串；而 (?Pexp) 捕获的组有名称，因此后面可通过 (?P=name) 的方式来引用命名组所匹配的子串。

（3）、(?P=name)：引用 name 命名组所匹配的子串。
示例代码如下所示：

>>> re.search(r'<(?P\w+)>\w+', 'hello')
<_sre.SRE_Match object; span=(0, 16), match='hello'>

上面代码中的正则表达式是 r'<(?P\w+)>\w+'，表达式开始是 “<” 符号，表示直接匹配该符号；接下来是一个命名组：(?P\w+)，组名是 tag，该组可以匹配1个或多个任意字符；紧接着后面是 “>” 符号，这部分用于匹配一个 HTML 或 XML 标签。尖括号外面的 “\w+” 用于匹配标签中的内容；后面定义的 “

>>> print(re.search(r'<(?P\w+)>\w+', 'hello
'))
None

这是由于前后两个标签不相同，因此不能匹配。

（4）、(?:exp)：匹配 exp 表达式并且不捕获。这种组与 (exp) 的区别就在于它是不捕获的，因此不能通过 \1、\2等方式来引用。例如下面这行代码运行时会报错：

re.search(r'Windows (?:95|98|NT|2000)[\w ]+\1', 'Windows 98 publised in 98')

将上面代码中的 \1 去掉后，表示不捕获前面匹配的组，就可以正常匹配：

>>> re.search(r'Windows (?:95|98|NT|2000)[\w ]+', 'Windows 98 publised in 98')
<_sre.SRE_Match object; span=(0, 25), match='Windows 98 publised in 98'>
# 如果不想匹配后面的数字，可将 [\w ]+ 部分修改为 [a-z ]+
>>> re.search(r'Windows (?:95|98|NT|2000)[a-z ]+', 'Windows 98 publised in 98')
<_sre.SRE_Match object; span=(0, 23), match='Windows 98 publised in '>

（5）、(?<=exp)：括号中的子模式必须出现在匹配内容的左侧，但 exp 不作为匹配结果的一部分。

（6）、(?=exp)：括号中的子模式必须出现在匹配内容的右侧，但 exp 不作为匹配结果的一部分。

上面两个子表达式主要用于对匹配内容进行限定，括号中的子模式本身不作为匹配的一部分。例如要获取 HMTL 代码中的标签的内容。

>>> re.search(r'(?<=).+?(?=)', 'hello! michael.com! technology')
<_sre.SRE_Match object; span=(10, 21), match='michael.com'>

在上面的正则表达式中 (?<=) 是一个限定组，该组的内容是，由于该组用了 (?<=exp) 声明，因此在被匹配内容的左侧必须有；后一个限定组是 (?=)，该组的内容是，该组用了 (?=exp) 声明，因此要求在被匹配内容的右侧必须出现。所以上面的正则表达式会将和之间的内容匹配出来。再例如：

>>> re.search(r'(?<=).+?(?=)', 'hello! michael! technology')
<_sre.SRE_Match object; span=(10, 28), match='michael'>

（7）、 (?：括号中的子模式必须不出现在匹配内容的左侧，且 exp 不作为匹配的一部分。这个是 (?<=exp) 的逆向表达。

（8）、(?!exp)：括号的子模式必须不出现在匹配内容的右侧，且 exp 不作为匹配的一部分。这个是 (?=exp) 的逆向表达。

（9）、(?#comment)：注释组。“?#” 后的内容是注释，不影响正则表达式本身。示例如下：

>>> re.search(r'[a-zA-Z0-9_]{3,}(?#username)@michael\.com', 'hello [email protected]') <_sre.SRE_Match object; span=(6, 23), match='[email protected]'>

上面代码中的 (?#username) 就是注释，对正则表达式不会有什么影响，只用于对部分内容进行说明。

（10）、(?aiLmsux)：旗标组，用于为整个正则表达式添加行内旗标，可同时指定一个或多个旗标。示例如下：

>>> re.findall(r'(?im)[a-z0-9]{3,}@michael\.com', '[email protected],\ ... [email protected]') ['[email protected]', '[email protected]']

上面代码中的 (?im) 组表示该正则表达式在匹配时不区分大小写，并且可以匹配多行。所以匹配到多个结果，并以列表形式返回结果。如果将该旗标组去掉，就不能匹配到结果。

（11）、(?imsx-imsx:exp)：只对当前组起作用的旗标。该组旗标与 (?aiLmsux) 组旗标的区别是，(?aiLmsux) 组旗标作用于整个正则表达式，而这组旗标只影响组内的子表达式。示例如下：

>>> re.search(r'(?i:[a-z0-9]){3,}@michael\.com', '[email protected]') <_sre.SRE_Match object; span=(0, 17), match='[email protected]'>

上面这个表达中的 (?i:[a-z0-9]) 组表示子表达式不区分大小写，但整个表达式依然区分大小写。因此这个表达式可以匹配 [email protected]，但不能匹配 [email protected]，因为后面部分依然要区分大小写。

如果在旗标前使用减号 “-”，则表明去掉该旗标。比如在执行 search() 方法时传入了 re.I 参数，这表示整个正则表达式不区分大小写；如果希望某个组内的表达式依然区分大小，则可使用 (-i:exp) 来表示。例如：

>>> re.search(r'(?-i:[a-z0-9]){3,}@michael\.com', '[email protected]', re.I) <_sre.SRE_Match object; span=(0, 17), match='[email protected]'>

在 search() 方法中指定了 re.I 选项，表示整个正则表达式在匹配时不区分大小写；但是又要求用户名必须区分大小写，于是就把用户名部分放在用组定义成的子表达中，并为该子表达式指定 “?-i:” 选项（表明去除 re.I 选项），这样在组内的子表达式就会区分大小写。所在上面这个表达式可以匹配 [email protected]、[email protected]，但不能匹配 [email protected]，因为用户名是区分大小写的。

5、贪婪模式与勉强模式

正则表达可以限定频度，用于限定前面的模式可以出现的次数。Python 正则表达式支持的频度限定有下面几种：

（1）、*：限定前面的子表达可以出现 0~N 次。例如 r'zo*' 能匹配 'z'，也能匹配 'zoo'、'zooo'等。这里 * 等价于 {0,}。

（2）、+：限定前面的子表达可以出现 1~N 次。例如 r'zo+' 不能匹配 'z'，可匹配 'zo'、'zoo'、'zooo'等。+ 等价于 {1,}。

（3）、?：限定前面的子表达出现 0~1 次。例如 r'zo?' 能匹配 'z' 和 'zo' 两个字符串。? 等价于 {0,1}。

（4）、{m,n}：m 和 n 均为大于 0 的整数，其中 m<=n，限定前面的子表达出现 m~n 次。例如 r'fo{1,3}d' 可匹配 'fod'、'food'、'foood'这三个字符串。

（5）、{n,}：n 是一个大于0的整数，限定前面的子表达式至少出现 n 次。例如 r'fo{2,}d' 可匹配 'food'、'foood'、'fooood'等字符串。

（6）、{,m}：m 是一个大于0的整数，限定前面的子表达最多出现 m 次。例如 r'fo{,3}d' 可匹配 'fd'、'fod'、'food'、'foood' 这四个字符串。

（7）、{n}：n 是一个大于0的整数，限定前面的子表达必须出现 n 次。例如 r'fo{2}d' 只能匹配 'food' 字符串。

在默认情况下，正则表达式的频度限定是贪婪模式的。贪婪模式指的是表达式中的模式会尽可能多的匹配字符。示例如下：

>>> re.search(r'@.+\.', '[email protected]') <_sre.SRE_Match object; span=(5, 18), match='@michael.com.'>

上面的正则表达式 r'@.+\.' 是匹配 @ 符号和点（.）号之间的全部内容，希望匹配的结果是 “@michael.”。但是由于在@和点号之间用的是 “.+” 表示匹配任意字符，而且此时是贪婪模式，因此 “.+” 会尽可多的进行匹配，只要最后有一个 “.” 结尾即可，所以匹配到的结果是 “@michael.com.”

只要在频度限定之后添加一个英文问号，贪婪模式就变成了勉强模式，勉强模式指的是表达式中的模式会尽可能少的匹配字符。示例如下：

>>> re.search(r'@.+?\.', '[email protected].') <_sre.SRE_Match object; span=(5, 14), match='@michael.'>

这次将正则表达式中间部分由 “.+” 改为 “.+?” 就成了勉强模式。该模式会尽可能少的匹配字符，只要它最后有一个“.”结尾即可，因此匹配结果是 '@michael.'。

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

part10-3 Python常见模块（正则表达式）

六、 Python 正则表达式

1、 Python 的正则表达式支持

2、 正则表达式旗标

3、 创建正则表达式

4、 子表达式

5、贪婪模式与勉强模式

你可能感兴趣的:(part10-3 Python常见模块（正则表达式）)

2、正则表达式旗标

3、创建正则表达式

4、子表达式