菜鸟清风

python正则表达式详解

正则表达式是一个很强大的字符串处理工具，几乎任何关于字符串的操作都可以使用正则表达式来完成，作为一个爬虫工作者，每天和字符串打交道，正则表达式更是不可或缺的技能，正则表达式的在不同的语言中使用方式可能不一样，不过只要学会了任意一门语言的正则表达式用法，其他语言中大部分也只是换了个函数的名称而已，本质都是一样的。下面，我来介绍一下python中的正则表达式是怎么使用的。

　　首先，python中的正则表达式大致分为以下几部分：

元字符
模式
函数
re 内置对象用法
分组用法
环视用法
　　所有关于正则表达式的操作都使用 python 标准库中的 re 模块。

一、元字符（参见 python 模块 re 文档）

. 匹配任意字符（不包括换行符）
^ 匹配开始位置，多行模式下匹配每一行的开始
$ 匹配结束位置，多行模式下匹配每一行的结束
* 匹配前一个元字符0到多次
+ 匹配前一个元字符1到多次
? 匹配前一个元字符0到1次
{m,n} 匹配前一个元字符m到n次
\ 转义字符，跟在其后的字符将失去作为特殊元字符的含义，例如\.只能匹配.，不能再匹配任意字符
[] 字符集，一个字符的集合，可匹配其中任意一个字符
| 逻辑表达式或，比如 a|b 代表可匹配 a 或者 b
(…) 分组，默认为捕获，即被分组的内容可以被单独取出，默认每个分组有个索引，从 1 开始，按照”(“的顺序决定索引值
(?iLmsux) 分组中可以设置模式，iLmsux之中的每个字符代表一个模式,用法参见模式 I
(?:…) 分组的不捕获模式，计算索引时会跳过这个分组
(?P…) 分组的命名模式，取此分组中的内容时可以使用索引也可以使用name
(?P=name) 分组的引用模式，可在同一个正则表达式用引用前面命名过的正则
(?#…) 注释，不影响正则表达式其它部分,用法参见模式 I
(?=…) 顺序肯定环视，表示所在位置右侧能够匹配括号内正则
(?!…) 顺序否定环视，表示所在位置右侧不能匹配括号内正则
(?<=…) 逆序肯定环视，表示所在位置左侧能够匹配括号内正则
(?

output> ‘Hello World!’

在正则表达式中指定模式以及注释

regex = re.compile(“(?#注释)(?i)hello world!”)
print regex.match(s).group()

output> ‘Hello World!’

复制代码
L LOCALE，字符集本地化。这个功能是为了支持多语言版本的字符集使用环境的，比如在转义符\w，在英文环境下，它代表[a-zA-Z0-9_]，即所以英文字符和数字。如果在一个法语环境下使用，缺省设置下，不能匹配”é” 或 “ç”。加上这L选项和就可以匹配了。不过这个对于中文环境似乎没有什么用，它仍然不能匹配中文字符。
M MULTILINE，多行模式, 改变 ^ 和 $ 的行为
复制代码
s = ”’first line
second line
third line”’

^

regex_start = re.compile(“^\w+”)
print regex_start.findall(s)

output> [‘first’]

regex_start_m = re.compile(“^\w+”, re.M)
print regex_start_m.findall(s)

output> [‘first’, ‘second’, ‘third’]

$

regex_end = re.compile(“\w+$”)
print regex_end.findall(s)

output> [‘line’]

regex_end_m = re.compile(“\w+$”, re.M)
print regex_end_m.findall(s)

output> [‘line’, ‘line’, ‘line’]

复制代码
S 　DOTALL，此模式下 ‘.’ 的匹配不受限制，可匹配任何字符，包括换行符
复制代码
s = ”’first line
second line
third line”’
#
regex = re.compile(“.+”)
print regex.findall(s)

output> [‘first line’, ‘second line’, ‘third line’]

re.S

regex_dotall = re.compile(“.+”, re.S)
print regex_dotall.findall(s)

output> [‘first line\nsecond line\nthird line’]

复制代码
X VERBOSE，冗余模式，此模式忽略正则表达式中的空白和#号的注释，例如写一个匹配邮箱的正则表达式
email_regex = re.compile(“[\w+.]+@[a-zA-Z\d]+.(com|cn)”)

email_regex = re.compile(“”“[\w+.]+ # 匹配@符前的部分
@ # @符
[a-zA-Z\d]+ # 邮箱类别
.(com|cn) # 邮箱后缀 “”“, re.X)

U UNICODE，使用 \w, \W, \b, \B 这些元字符时将按照 UNICODE 定义的属性.
正则表达式的模式是可以同时使用多个的，在 python 里面使用按位或运算符 | 同时添加多个模式

如 re.compile(”, re.I|re.M|re.S)

每个模式在 re 模块中其实就是不同的数字

复制代码
print re.I

output> 2

print re.L

output> 4

print re.M

output> 8

print re.S

output> 16

print re.X

output> 64

print re.U

output> 32

复制代码
三、函数（参见 python 模块 re 文档）

python 的 re 模块提供了很多方便的函数使你可以使用正则表达式来操作字符串，每种函数都有它自己的特性和使用场景，熟悉之后对你的工作会有很大帮助

compile(pattern, flags=0)
给定一个正则表达式 pattern，指定使用的模式 flags 默认为0 即不使用任何模式,然后会返回一个 SRE_Pattern (参见第四小节 re 内置对象用法) 对象

regex = re.compile(“.+”)
print regex

output> <_sre.SRE_Pattern object at 0x00000000026BB0B8>

这个对象可以调用其他函数来完成匹配，一般来说推荐使用 compile 函数预编译出一个正则模式之后再去使用，这样在后面的代码中可以很方便的复用它，当然大部分函数也可以不用 compile 直接使用，具体见 findall 函数

复制代码
s = ”’first line
second line
third line”’
#
regex = re.compile(“.+”)

调用 findall 函数

print regex.findall(s)

output> [‘first line’, ‘second line’, ‘third line’]

调用 search 函数

print regex.search(s).group()

output> first lin

复制代码
escape(pattern)
转义如果你需要操作的文本中含有正则的元字符，你在写正则的时候需要将元字符加上反斜扛 \ 去匹配自身，而当这样的字符很多时，写出来的正则表达式就看起来很乱而且写起来也挺麻烦的，这个时候你可以使用这个函数,用法如下

复制代码
s = “.+\d123”
#
regex_str = re.escape(“.+\d123”)

查看转义后的字符

print regex_str

output> .+\d123

查看匹配到的结果

for g in re.findall(regex_str, s):
print g

output> .+\d123

复制代码
findall(pattern, string, flags=0)
参数 pattern 为正则表达式, string 为待操作字符串, flags 为所用模式，函数作用为在待操作字符串中寻找所有匹配正则表达式的字串，返回一个列表，如果没有匹配到任何子串，返回一个空列表。

复制代码
s = ”’first line
second line
third line”’

compile 预编译后使用 findall

regex = re.compile(“\w+”)
print regex.findall(s)

output> [‘first’, ‘line’, ‘second’, ‘line’, ‘third’, ‘line’]

不使用 compile 直接使用 findall

print re.findall(“\w+”, s)

output> [‘first’, ‘line’, ‘second’, ‘line’, ‘third’, ‘line’]

复制代码
finditer(pattern, string, flags=0)
参数和作用与 findall 一样，不同之处在于 findall 返回一个列表， finditer 返回一个迭代器(参见 http://www.cnblogs.com/huxi/archive/2011/07/01/2095931.html )，而且迭代器每次返回的值并不是字符串，而是一个 SRE_Match (参见第四小节 re 内置对象用法) 对象，这个对象的具体用法见 match 函数。

复制代码
s = ”’first line
second line
third line”’

regex = re.compile(“\w+”)
print regex.finditer(s)

output>

for i in regex.finditer(s):
print i

output> <_sre.SRE_Match object at 0x0000000002B7A920>

<_sre.SRE_Match object at 0x0000000002B7A8B8>

<_sre.SRE_Match object at 0x0000000002B7A920>

<_sre.SRE_Match object at 0x0000000002B7A8B8>

<_sre.SRE_Match object at 0x0000000002B7A920>

<_sre.SRE_Match object at 0x0000000002B7A8B8>

复制代码
match(pattern, string, flags=0)
使用指定正则去待操作字符串中寻找可以匹配的子串, 返回匹配上的第一个字串，并且不再继续找，需要注意的是 match 函数是从字符串开始处开始查找的，如果开始处不匹配，则不再继续寻找，返回值为一个 SRE_Match (参见第四小节 re 内置对象用法) 对象，找不到时返回 None

复制代码
s = ”’first line
second line
third line”’

compile

regex = re.compile(“\w+”)
m = regex.match(s)
print m

output> <_sre.SRE_Match object at 0x0000000002BCA8B8>

print m.group()

output> first

s 的开头是 “f”, 但正则中限制了开始为 i 所以找不到

regex = re.compile(“^i\w+”)
print regex.match(s)

output> None

复制代码
purge()
当你在程序中使用 re 模块，无论是先使用 compile 还是直接使用比如 findall 来使用正则表达式操作文本，re 模块都会将正则表达式先编译一下，并且会将编译过后的正则表达式放到缓存中，这样下次使用同样的正则表达式的时候就不需要再次编译，因为编译其实是很费时的，这样可以提升效率，而默认缓存的正则表达式的个数是 100, 当你需要频繁使用少量正则表达式的时候，缓存可以提升效率，而使用的正则表达式过多时，缓存带来的优势就不明显了 (参考《python re.compile对性能的影响》http://blog.trytofix.com/article/detail/13/)，这个函数的作用是清除缓存中的正则表达式，可能在你需要优化占用内存的时候会用到。

search(pattern, string, flags=0)
函数类似于 match，不同之处在于不限制正则表达式的开始匹配位置

复制代码
s = ”’first line
second line
third line”’

需要从开始处匹配所以匹配不到

print re.match(‘i\w+’, s)

output> None

没有限制起始匹配位置

print re.search(‘i\w+’, s)

output> <_sre.SRE_Match object at 0x0000000002C6A920>

print re.search(‘i\w+’, s).group()

output> irst

复制代码
split(pattern, string, maxsplit=0, flags=0)
参数 maxsplit 指定切分次数，函数使用给定正则表达式寻找切分字符串位置，返回包含切分后子串的列表，如果匹配不到，则返回包含原字符串的一个列表

复制代码
s = ”’first 111 line
second 222 line
third 333 line”’

按照数字切分

print re.split(‘\d+’, s)

output> [‘first ‘, ’ line\nsecond ‘, ’ line\nthird ‘, ’ line’]

.+ 匹配不到返回包含自身的列表

print re.split(‘.+’, s, 1)

output> [‘first 111 line\nsecond 222 line\nthird 333 line’]

maxsplit 参数

print re.split(‘\d+’, s, 1)

output> [‘first ‘, ’ line\nsecond 222 line\nthird 333 line’]

复制代码

sub(pattern, repl, string, count=0, flags=0)
替换函数，将正则表达式 pattern 匹配到的字符串替换为 repl 指定的字符串, 参数 count 用于指定最大替换次数

复制代码
s = “the sum of 7 and 9 is [7+9].”

基本用法将目标替换为固定字符串

print re.sub(‘[7+9]’, ‘16’, s)

output> the sum of 7 and 9 is 16.

高级用法 1 使用前面匹配的到的内容 \1 代表 pattern 中捕获到的第一个分组的内容

print re.sub(‘[(7)+(9)]’, r’\2\1’, s)

output> the sum of 7 and 9 is 97.

高级用法 2 使用函数型 repl 参数, 处理匹配到的 SRE_Match 对象

def replacement(m):
p_str = m.group()
if p_str == ‘7’:
return ‘77’
if p_str == ‘9’:
return ‘99’
return ”
print re.sub(‘\d’, replacement, s)

output> the sum of 77 and 99 is [77+99].

高级用法 3 使用函数型 repl 参数, 处理匹配到的 SRE_Match 对象增加作用域自动计算

scope = {}
example_string_1 = “the sum of 7 and 9 is [7+9].”
example_string_2 = “[name = ‘Mr.Gumby’]Hello,[name]”

def replacement(m):
code = m.group(1)
st = ”
try:
st = str(eval(code, scope))
except SyntaxError:
exec code in scope
return st

解析: code=’7+9’

str(eval(code, scope))=’16’

print re.sub(‘[(.+?)]’, replacement, example_string_1)

output> the sum of 7 and 9 is 16.

两次替换

解析1: code=”name = ‘Mr.Gumby’”

eval(code)

raise SyntaxError

exec code in scope

在命名空间 scope 中将 “Mr.Gumby” 赋给了变量 name

解析2: code=”name”

eval(name) 返回变量 name 的值 Mr.Gumby

print re.sub(‘[(.+?)]’, replacement, example_string_2)

output> Hello,Mr.Gumby

复制代码
subn(pattern, repl, string, count=0, flags=0)
作用与函数 sub 一样，唯一不同之处在于返回值为一个元组，第一个值为替换后的字符串，第二个值为发生替换的次数

template(pattern, flags=0)
这个吧，咋一看和 compile 差不多，不过不支持 +、？、*、｛｝等这样的元字符，只要是需要有重复功能的元字符，就不支持，查了查资料，貌似没人知道这个函数到底是干嘛的…

　　四、re 内置对象用法

SRE_Pattern 这个对象是一个编译后的正则表达式，编译后不仅能够复用和提升效率，同时也能够获得一些其他的关于正则表达式的信息
属性：

flags 编译时指定的模式
groupindex 以正则表达式中有别名的组的别名为键、以该组对应的编号为值的字典，没有别名的组不包含在内。
groups 正则表达式中分组的数量
pattern 编译时用的正则表达式
复制代码
s = ‘Hello, Mr.Gumby : 2016/10/26’
p = re.compile(”’(?: # 构造一个不捕获分组用于使用 |
(?P\w+.\w+) # 匹配 Mr.Gumby
| # 或
(?P\s+.\w+) # 一个匹配不到的命名分组
)
.*? # 匹配 :
(\d+) # 匹配 2016
”’, re.X)

#
print p.flags

output> 64

print p.groupindex

output> {‘name’: 1, ‘no’: 2}

print p.groups

output> 3

print p.pattern

output> (?: # 构造一个不捕获分组用于使用 |

(?P\w+.\w+) # 匹配 Mr.Gumby

| # 或

(?P\s+.\w+) # 一个匹配不到的命名分组

)

.*? # 匹配 :

(\d+) # 匹配 2016

复制代码

函数：可使用 findall、finditer、match、search、split、sub、subn 等函数

SRE_Match 这个对象会保存本次匹配的结果，包含很多关于匹配过程以及匹配结果的信息
属性：

endpos 本次搜索结束位置索引
lastgroup 本次搜索匹配到的最后一个分组的别名
lastindex 本次搜索匹配到的最后一个分组的索引
pos 本次搜索开始位置索引
re 本次搜索使用的 SRE_Pattern 对象
regs 列表，元素为元组，包含本次搜索匹配到的所有分组的起止位置
string 本次搜索操作的字符串
复制代码
s = ‘Hello, Mr.Gumby : 2016/10/26’
m = re.search(‘, (?P\w+.\w+).*?(\d+)’, s)

本次搜索的结束位置索引

print m.endpos

output> 28

本次搜索匹配到的最后一个分组的别名

本次匹配最后一个分组没有别名

print m.lastgroup

output> None

本次搜索匹配到的最后一个分组的索引

print m.lastindex

output> 2

本次搜索开始位置索引

print m.pos

output> 0

本次搜索使用的 SRE_Pattern 对象

print m.re

output> <_sre.SRE_Pattern object at 0x000000000277E158>

列表，元素为元组，包含本次搜索匹配到的所有分组的起止位置第一个元组为正则表达式匹配范围

print m.regs

output> ((7, 22), (7, 15), (18, 22))

本次搜索操作的字符串

print m.string

output> Hello, Mr.Gumby : 2016/10/26

复制代码

函数：

end([group=0]) 返回指定分组的结束位置，默认返回正则表达式所匹配到的最后一个字符的索引
expand(template) 根据模版返回相应的字符串，类似与 sub 函数里面的 repl，可使用 \1 或者 \g 来选择分组
group([group1, …]) 根据提供的索引或名字返回响应分组的内容，默认返回 start() 到 end() 之间的字符串，提供多个参数将返回一个元组
groupdict([default=None]) 返回返回一个包含所有匹配到的命名分组的字典，没有命名的分组不包含在内，key 为组名， value 为匹配到的内容，参数 default 为没有参与本次匹配的命名分组提供默认值
groups([default=None]) 以元组形式返回每一个分组匹配到的字符串，包括没有参与匹配的分组，其值为 default
span([group]) 返回指定分组的起止位置组成的元组，默认返回由 start() 和 end() 组成的元组
start([group]) 返回指定分组的开始位置，默认返回正则表达式所匹配到的第一个字符的索引
复制代码
s = ‘Hello, Mr.Gumby : 2016/10/26’
m = re.search(”’(?: # 构造一个不捕获分组用于使用 |
(?P\w+.\w+) # 匹配 Mr.Gumby
| # 或
(?P\s+.\w+) # 一个匹配不到的命名分组
)
.*? # 匹配 :
(\d+) # 匹配 2016
”’,
s, re.X)

返回指定分组的结束位置，默认返回正则表达式所匹配到的最后一个字符的索引

print m.end()

output> 22

根据模版返回相应的字符串，类似与 sub 函数里面的 repl，可使用 \1 或者 \g 来选择分组

print m.expand(“my name is \1”)

output> my name is Mr.Gumby

根据提供的索引或名字返回响应分组的内容，默认返回 start() 到 end() 之间的字符串，提供多个参数将返回一个元组

print m.group()

output> Mr.Gumby : 2016

print m.group(1,2)

output> (‘Mr.Gumby’, None)

返回返回一个包含所有匹配到的命名分组的字典，没有命名的分组不包含在内，key 为组名， value 为匹配到的内容，参数 default 为没有参与本次匹配的命名分组提供默认值

print m.groupdict(‘default_string’)

output> {‘name’: ‘Mr.Gumby’, ‘no’: ‘default_string’}

以元组形式返回每一个分组匹配到的字符串，包括没有参与匹配的分组，其值为 default

print m.groups(‘default_string’)

output> (‘Mr.Gumby’, ‘default_string’, ‘2016’)

返回指定分组的起止未知组成的元组，默认返回由 start() 和 end() 组成的元组

print m.span(3)

output> (18, 22)

返回指定分组的开始位置，默认返回正则表达式所匹配到的第一个字符的索引

print m.start(3)

output> 18

复制代码
五、分组用法

python 的正则表达式中用小括号 "(" 表示分组，按照每个分组中前半部分出现的顺序 "(" 判定分组的索引，索引从 1 开始，每个分组在访问的时候可以使用索引，也可以使用别名

复制代码
s = ‘Hello, Mr.Gumby : 2016/10/26’
p = re.compile(“(?P\w+.\w+).*?(\d+)(?#comment)”)
m = p.search(s)

使用别名访问

print m.group(‘name’)

output> Mr.Gumby

使用分组访问

print m.group(2)

output> 2016

复制代码
有时候可能只是为了把正则表达式分组，而不需要捕获其中的内容，这时候可以使用非捕获分组

复制代码
s = ‘Hello, Mr.Gumby : 2016/10/26’
p = re.compile(“””
(?: # 非捕获分组标志用于使用 |
(?P\w+.\w+)
|
(\d+/)
)
“”“, re.X)
m = p.search(s)

使用非捕获分组

此分组将不计入 SRE_Pattern 的分组计数

print p.groups

output> 2

不计入 SRE_Match 的分组

print m.groups()

output> (‘Mr.Gumby’, None)

复制代码
如果你在写正则的时候需要在正则里面重复书写某个表达式，那么你可以使用正则的引用分组功能，需要注意的是引用的不是前面分组的正则表达式而是捕获到的内容，并且引用的分组不算在分组总数中.

复制代码
s = ‘Hello, Mr.Gumby : 2016/2016/26’
p = re.compile(“””
(?: # 非捕获分组标志用于使用 |
(?P\w+.\w+)
|
(\d+/)
)
.*?(?P\d+)/(?P=number)/
“”“, re.X)
m = p.search(s)

使用引用分组

此分组将不计入 SRE_Pattern 的分组计数

print p.groups

output> 3

不计入 SRE_Match 的分组

print m.groups()

output> (‘Mr.Gumby’, None, ‘2016’)

查看匹配到的字符串

print m.group()

output> Mr.Gumby : 2016/2016/

复制代码

六、环视用法

环视还有其他的名字，例如界定、断言、预搜索等，叫法不一。

环视是一种特殊的正则语法，它匹配的不是字符串，而是位置，其实就是使用正则来说明这个位置的左右应该是什么或者应该不是什么，然后去寻找这个位置。

环视的语法有四种，见第一小节元字符，基本用法如下。

复制代码
s = ‘Hello, Mr.Gumby : 2016/10/26 Hello,r.Gumby : 2016/10/26’

不加环视限定

print re.compile(“(?P\w+.\w+)”).findall(s)

output> [‘Mr.Gumby’, ‘r.Gumby’]

环视表达式所在位置左边为 “Hello, “

print re.compile(“(?<=Hello, )(?P\w+.\w+)”).findall(s)

output> [‘Mr.Gumby’]

环视表达式所在位置左边不为 “,”

print re.compile(“(?

output> [‘Mr.Gumby’]

环视表达式所在位置右边为 “M”

print re.compile(“(?=M)(?P\w+.\w+)”).findall(s)

output> [‘Mr.Gumby’]

环视表达式所在位置右边不为 r

print re.compile(“(?!r)(?P\w+.\w+)”).findall(s)

output> [‘Mr.Gumby’]

复制代码
高级一些的例子参见《正则基础之——环视(Lookaround)》(http://www.cnblogs.com/kernel0815/p/3375249.html)

Python爬虫-爬取汽车之家燃油车月销量榜数据写python的鑫哥爬虫案例1000讲 python 爬虫汽车之家燃油车月销量榜单数据
前言本文是该专栏的第48篇，后面会持续分享python爬虫干货知识，记得关注。在本文中，笔者已整理18篇汽车平台相关的爬虫项目案例。对此感兴趣的同学，可以直接翻阅查看。而本文，笔者将以汽车之家平台为例子。基于Python爬虫，实现批量爬取全部“燃油车”的月销量数据。废话不多说，具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。接下来，跟着笔者直接往下看正文详细内容。（附带完整代码）正文
Python 函数的关键字参数与位置参数是什么？ Python趣味知识 AI Agent首席体验官 python java 前端
1.关键字参数（KeywordArguments）详解在Python中，关键字参数是通过指定参数名称来传递的参数。这与位置参数（PositionalArguments）不同，位置参数是根据参数的位置来传递的，而关键字参数通过明确指定参数的名称进行传递。1.关键字参数的定义关键字参数是在函数调用时通过指定参数名称来传递的。其格式是：函数名(参数名=参数值)例如：defgreet(name,age):
Trae智能协作AI编程工具IDE：如何在MacBook Pro下载、安装和配置使用Trae？
Trae智能协作AI编程工具IDE：如何在MacBookPro下载、安装和配置使用Trae？一、为什么选择Trae智能协作IDE？在AI编程新时代，Trae通过以下突破性功能重新定义开发体验：双向智能增强：AI不仅提供代码补全，更能理解上下文主动建议架构优化方案自然语言编程：支持"用Python写一个带JWT验证的FastAPI用户系统"式开发实时协作画布：可视化呈现AI生成的代码逻辑，支持多模态
【总结】Pytest vs Behave，BDD 测试框架哪家强？软件测试 pytest behave
引言在测试驱动开发(TDD)和行为驱动开发(BDD)流行的今天，Pytest和Behave成为了Python生态中最常见的自动化测试框架。那么，究竟该选择哪一个？它们各自有哪些优缺点？本篇文章将为你全面解析！1.什么是Pytest？Pytest是一个强大且灵活的Python测试框架，适用于单元测试、功能测试和API测试。它支持简单的函数式测试，同时具备强大的插件机制。Pytest的核心特点：✅语法
【Python】测试数据生成工具 --- Faker pythonfaker数据分析
Faker库介绍Faker是一个强大的库，能够帮助开发者和测试人员生成大量的假数据，但这些数据看起来却非常真实。它支持生成多种类型的数据，如姓名、地址、公司名称、电子邮件等，甚至能够根据不同国家的特定文化生成相应的数据。Faker的应用不仅限于测试，它还广泛应用于数据分析、机器学习训练集的准备以及任何需要大量样本数据的场景。Faker安装前提：已安装python、pip安装命令如下：pipinst
意境级讲解二分查找算法、python 炫云云大数据算法和数据结构机器学习数据结构算法 python 人工智能
文章目录问题定义模版一查找一个数寻找第一个的满足条件的位置寻找最后一个的满足条件的值二分查找的问题变种把待搜索区间分成两个部分搜索插入位置模版二寻找第一个的满足条件的位置寻找最后一个的满足条件的值x的平方根方法二：牛顿迭代猜数字大小搜索旋转排序数组搜索旋转排序数组II第一个错误的版本寻找峰值寻找旋转排序数组中的最小值模板三在排序数组中查找元素的第一个和最后一个位置查找最接近且小于target的元素
Java、Python、PHP、Go：网站开发语言全维度对比与选择指南生信天地开发语言 java python
在数字化转型浪潮中，网站开发技术的选择直接影响着项目的成败。Java、Python、PHP、Go四门语言凭借各自特性，在不同场景中展现出独特的竞争力。根据Statista2024年开发者调查报告，Java仍以34%的企业级应用占比位居榜首，而Go以27%的增速成为云原生领域新宠。本文基于技术特性、行业案例及发展趋势，深度解析四大语言的优劣势，助您做出精准技术选型。一、性能与并发能力：高负载场景的生
PyCharm 2024.1最新变化望舒巴巴 pycharm
截至2024年1月，PyCharm2024.1的最新变化是：支持Python4.0：PyCharm2024.1更新了对Python4.0的支持，包括语法高亮、代码补全和调试功能等。新的代码分析工具：PyCharm2024.1引入了新的代码分析工具，可以更准确地检测代码中的错误和潜在问题，并提供相关建议。增强的调试功能：PyCharm2024.1改进了调试器，增加了更多的调试选项和功能。现在，开发人
基于Python的tkinter开发的一个工具，解析图片文件名并将数据自动化导出为Excel文件帅帅的Python GUI python基础知识 python 自动化 excel
文章目录一、开发背景与业务价值二、系统架构设计1.分层架构图解2.核心类结构3.文件解析流程三、关键技术实现详解1.高性能文件名解析引擎2.可视化数据展示3.智能Excel导出模块四、完整代码五、行业应用展望一、开发背景与业务价值在零售行业会员管理场景中，线下门店每日会产生大量客户充值凭证照片。传统人工整理方式存在三个痛点：效率低下：运营人员需要手动截图-粘贴-重命名图片文件数据孤立：财务系统无法
最新xhs旋转滑块验证码分析（含识别与轨迹算法）吴秋霖深耕爬虫领域算法验证码滑块验证 Python
文章目录1.写在前面2.接口分析3.验证轨迹4.算法还原【作者主页】：吴秋霖【作者介绍】：擅长爬虫与JS加密逆向分析！Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作！【作者推荐】：对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》未来作者会持续更新所用到、学到、看到的技术知识！
使用 DeepSeek-R1 为 RAG 运行本地 Gradio 应用程序呱牛 do IT 人工智能 deepseek
让我们使用Gradio构建一个简单的演示应用程序，以使用DeepSeek-R1查询和分析文档。第1步：先决条件在深入研究实现之前，我们确保已安装以下工具和库：Python3.8+Python3.8+版Langchain：用于构建由大型语言模型（）LLMs提供支持的应用程序的框架，支持轻松检索、推理和工具集成Chromadb：一个高性能的向量数据库，专为高效的相似性搜索和嵌入存储而设计。Gradio
大语言模型的训练数据清洗策略 gs80140 AI python
目录大语言模型的训练数据清洗策略1.数据去重与标准化问题解决方案示例代码（Python实现数据去重）：2.过滤有害内容问题解决方案示例代码（基于关键词过滤有害内容）：3.纠正数据不均衡问题解决方案示例代码（欠采样非均衡数据）：4.识别和纠正刻板印象问题解决方案示例代码（简单的数据增强）：5.处理低质量与无关数据问题解决方案示例代码（去除HTML标签）：6.处理时效性数据问题解决方案示例代码（基于时
Spring Boot Starter 设计原理与实战：打造企业级自定义启动器 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBootStarter设计原理与实战：打造企业级自定义启动器一、引言在当今的企业级Ja
用VSCode做前端开发北子ALF 杂谈 vscode ide 编辑器
vscode写前端和记markdown还是很好用的，虽然在C++,Java和Python大型项目开发的体验不如vs,idea和pycharm自动生成html骨架打个感叹号预览网页：liveserver插件
震惊！Python包管理神器uv横空出世，速度快到让pip瑟瑟发抖！ weixin_316716198 技术文章推荐
震惊！Python包管理神器uv横空出世，速度快到让pip瑟瑟发抖！近年来，Python的生态系统蓬勃发展，但包管理工具的效率问题却一直困扰着开发者们。漫长的安装时间、复杂的依赖管理，以及繁琐的虚拟环境操作，无不让人感到头疼。然而，就在大家以为现状难以改变时，一款名为uv的全新工具横空出世，彻底颠覆了传统的Python包管理方式，为开发者们带来了前所未有的高效体验！uv：速度与效率的完美融合uv的
python面向对象之抽象类 liangblog python基础技能抽象类 python 面向对象
抽象类概念：抽象类是一个特殊的类，它的特殊之处在于只能被继承，不能被实例化，需要借助python模块实现；抽象类是从一堆类中抽取相同的内容而来的，内容包括数据属性和函数属性。抽象类与普通类的不同之处在于：抽象类中有抽象方法，该类不能被实例化，只能被继承，且子类必须实现抽象方法python中的abc模块python中需要利用abc模块实现抽象类importabc#利用abc模块实现抽象类classs
python局部变量和全局变量例题_Python的局部和全局变量,python,局部变量 steventey
局部变量是函数内部定义的变量，只能在函数内部使用全局变量实在函数外部定义的变量(没有定义在某一个函数内)，所有函数内部都可以使用这个变量局部变量是在函数内部定义的变量，只能在函数内部使用，函数执行结束后，函数内部的局部变量，会被系统回收；不同的函数，可以定义相同的名字的局部变量，但是各用个的不会产生影响局部变量的生命周期所谓的生命周期就是从被创建到被系统回收的过程局部变量在函数被执行时才会被创建，
Python的Pytest（2）活跃家族 python pytest 开发语言
1、思考：完整项目框架里每个模块单独用一个py文件管理，注册模块-py文件，登录模块-py文件==放在用例层目录下管理，testcases多个模块、py文件里的用例，批量执行==需要收集所有模块的用例，一起执行。1、pytest智能自动收集所有用例：pytest.main():自动在这个文件所在目录下收集符合命名规则的用例=pytest.main()通常写在入口文件run.py或main.py。2
Python的路径pathlib库活跃家族 python 开发语言
1、读取文件默认只会从当前代码操作文件的目录下读取文件。找不到就会报错。解决方式：1、方式一：绝对路径是指：电脑里从根目录开始的一个完整的路径--不推荐注意事项：路径特殊符号\t一定要转义在路径前面加一个r绝对路径弊端：1）移植给其他人电脑上用，文件前面的目录不对，要手动修改。2）\/不同平台路径分隔符不一样，绝对路径不能兼容不同平台。2、相对路径：不会写死每一级的路径，相对层级管理，找文件路径借
Python的Pytest测试框架（1）活跃家族 python pytest 开发语言
1、Pytest测试框架手工执行测试：熟悉业务写用例（分模块）执行用例并记录生成本轮的测试报告自动化测试:熟悉业务写用例（手工用例转化为自动化测试用例）用代码表达用例（代码写出用例）代码收集测试用例代码执行测试用例代码生成测试报告。自动化的思路基本是跟手工测试一样的，建立在手工测试基础上的一种更高效率的进阶和升华的方式。测试框架：unittestpytest，技术栈，提供了表示测试用例，发现测试用
Selenium与MySQL数据校验自动化噔噔噔噔@ 软件测试面试题专栏软件测试基础及工具分享自动化运维 selenium 集成测试
在使用Selenium进行UI自动化测试时，如果需要连接MySQL数据库进行数据校验，可以通过以下步骤实现：1.安装必要的库首先，确保你已经安装了以下Python库：selenium：用于UI自动化。mysql-connector-python或pymysql：用于连接MySQL数据库。你可以使用以下命令安装这些库：pipinstallseleniummysql-connector-python2
对接马来西亚、印度、韩国、越南等全球金融数据示例 CryptoPP 金融 python windows
Python对接StockTV全球金融数据API的封装实现及使用教程：importrequestsimportwebsocketsimportasynciofromtypingimportDict,List,Optional,UnionfromdatetimeimportdatetimeclassStockTVClient:"""StockTV全球金融数据API客户端支持股票、外汇、期货、加密货币
python局部变量和全局变量 yqd666 python 开发语言数据库
文章目录1.局部变量和全局变量2.局部变量2.1局部变量的作用2.2局部变量的生命周期3.全局变量3.1函数不能直接修改`全局变量的引用`3.2在函数内部修改全局变量的值3.3全局变量定义的位置3.4全局变量命名的建议1.局部变量和全局变量（1）局部变量是在函数内部定义的变量，只能在函数内部使用（2）全局变量是在函数外部定义的变量（没有定义在某一个函数内），所有函数内部都可以使用这个变量（3）提示
Python 地图基础教程教程小白教程 python python Python地图 Python基础教程 Python地图教程 Python地图入门 Python绘制地图 Python地图源码
文章目录前言1.环境准备1.1Python安装1.2选择Python开发环境1.3安装必要库二、绘制基本世界地图1.导入必要的库：2.加载世界地图数据：3.绘制地图：三、自定义地图样式1.按面积给国家着色：2.突出显示特定国家：四、添加地理信息1.显示国家名称：2.添加其他地理要素：五、保存地图前言地图在生活、科研、商业等诸多领域都有着广泛的应用，从日常出行的导航，到地理信息系统（GIS）中的数据
安装（python 版） C-haidragon mysql
安装安装sudoapt-getinstallmysql-servermysql-client然后按照提示输入管理服务启动servicemysqlstart停止servicemysqlstop重启servicemysqlrestart允许远程连接找到mysql配置文件并修改sudovi/etc/mysql/mysql.conf.d/mysqld.cnf将bind-address=127.0.0.1注
tkinter报错 tcl和tk报错 _tkinter.TclError: Can‘t find a usable init.tcl in the following directories: 大博士.J java 数据库 python
问了好几个GPT回答的都不是解决问题的，胡编乱造的目前经过尝试好几个解决方案，终于破案了win10系统使用安装python时自动将tcl和tk识别到了新创建的虚拟环境继承中win11系统则需要手动去做一些操作，才可以解决问题我这报错的问题是这样的self.tk=_tkinter.create(screenName,baseName,className,interactive,wantobjects
python怎么爬取网页数据,python爬取网页数据步骤 ab524100 python
这篇文章主要介绍了python爬取网页数据表格会超出索引，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。前言：用python的爬虫爬取数据真的很简单，只要掌握这六步就好，也不复杂python源码库。以前还以为爬虫很难，结果一上手，从初学到把东西爬下来，一个小时都不到就解决了。python爬虫六步走第一步：安装requests库和Beaut
基于Python的大学生思想政治教育平台mysql(Django Flask Vue Pycharm ) QQ_188083800 python mysql django
文章目录具体实现截图项目技术介绍研究方案源码获取详细视频演示：文章底部获取博主联系方式！！！！系统设计核心代码部分展示django项目示例源码/演示视频获取方式具体实现截图项目技术介绍我国主流校园使用的是传统开发基于Java语言通过SpringBoot框架开发管理系统，开发周期长，开发人员学习成本高。使用如Django或Flask开发框架可以大量的减少开发者需要写的代码量，使开发人员可以最少的代码
Python 视频爬取教程小白教程 python Python Python 视频爬取教程 Python 视频爬取 Python教程 Python 视频教程
文章目录前言基本原理环境准备Python安装选择Python开发环境安装必要库示例1：爬取简单直链视频示例2：爬取基于HTML5的视频（以某简单视频网站为例）前言以下是一个较为完整的Python视频爬取教程，包含基本原理、不同网站的爬取示例以及注意事项。基本原理视频爬取本质上是模拟浏览器向服务器发送请求，获取包含视频信息的网页内容，解析出视频的真实下载地址，然后将视频文件下载到本地。一般会用到re
用python制作抢票脚本  笔记 python
本片文章给大家介绍如何使用python，仅供参考学习，不能用于其他活动，遵守社会法律法规，标题：使用Python编写抢票脚本**摘要：本文旨在介绍如何使用Python编写一个高效的抢票脚本，以帮助用户在抢票高峰期自动化购票过程，提高成功率。我们将深入讨论抢票脚本的实现原理、关键技术和实际应用场景。简介：在现代社会，随着交通网络的日益完善和人们生活水平的提高，出行已成为人们日常生活中不可或缺的一部分
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

python正则表达式详解

output> ‘Hello World!’

在正则表达式中指定模式以及注释

output> ‘Hello World!’

^

output> [‘first’]

output> [‘first’, ‘second’, ‘third’]

$

output> [‘line’]

output> [‘line’, ‘line’, ‘line’]

output> [‘first line’, ‘second line’, ‘third line’]

re.S

output> [‘first line\nsecond line\nthird line’]

output> 2

output> 4

output> 8

output> 16

output> 64

output> 32

output> <_sre.SRE_Pattern object at 0x00000000026BB0B8>

调用 findall 函数

output> [‘first line’, ‘second line’, ‘third line’]

调用 search 函数

output> first lin

查看转义后的字符

output> .+\d123

查看匹配到的结果

output> .+\d123

compile 预编译后使用 findall

output> [‘first’, ‘line’, ‘second’, ‘line’, ‘third’, ‘line’]

不使用 compile 直接使用 findall

output> [‘first’, ‘line’, ‘second’, ‘line’, ‘third’, ‘line’]

output>

output> <_sre.SRE_Match object at 0x0000000002B7A920>

<_sre.SRE_Match object at 0x0000000002B7A8B8>

<_sre.SRE_Match object at 0x0000000002B7A920>

<_sre.SRE_Match object at 0x0000000002B7A8B8>

<_sre.SRE_Match object at 0x0000000002B7A920>

<_sre.SRE_Match object at 0x0000000002B7A8B8>

compile

output> <_sre.SRE_Match object at 0x0000000002BCA8B8>

output> first

s 的开头是 “f”, 但正则中限制了开始为 i 所以找不到

output> None

需要从开始处匹配 所以匹配不到

output> None

没有限制起始匹配位置

output> <_sre.SRE_Match object at 0x0000000002C6A920>

output> irst

按照数字切分

output> [‘first ‘, ’ line\nsecond ‘, ’ line\nthird ‘, ’ line’]

.+ 匹配不到 返回包含自身的列表

output> [‘first 111 line\nsecond 222 line\nthird 333 line’]

maxsplit 参数

output> [‘first ‘, ’ line\nsecond 222 line\nthird 333 line’]

基本用法 将目标替换为固定字符串

output> the sum of 7 and 9 is 16.

高级用法 1 使用前面匹配的到的内容 \1 代表 pattern 中捕获到的第一个分组的内容

output> the sum of 7 and 9 is 97.

高级用法 2 使用函数型 repl 参数, 处理匹配到的 SRE_Match 对象

output> the sum of 77 and 99 is [77+99].

高级用法 3 使用函数型 repl 参数, 处理匹配到的 SRE_Match 对象 增加作用域 自动计算

解析: code=’7+9’

str(eval(code, scope))=’16’

output> the sum of 7 and 9 is 16.

两次替换

解析1: code=”name = ‘Mr.Gumby’”

eval(code)

raise SyntaxError

exec code in scope

在命名空间 scope 中将 “Mr.Gumby” 赋给了变量 name

解析2: code=”name”

eval(name) 返回变量 name 的值 Mr.Gumby

output> Hello,Mr.Gumby

output> 64

output> {‘name’: 1, ‘no’: 2}

output> 3

output> (?: # 构造一个不捕获分组 用于使用 |

(?P\w+.\w+) # 匹配 Mr.Gumby

| # 或

需要从开始处匹配所以匹配不到

.+ 匹配不到返回包含自身的列表

基本用法将目标替换为固定字符串

高级用法 3 使用函数型 repl 参数, 处理匹配到的 SRE_Match 对象增加作用域自动计算

output> (?: # 构造一个不捕获分组用于使用 |

列表，元素为元组，包含本次搜索匹配到的所有分组的起止位置第一个元组为正则表达式匹配范围

根据模版返回相应的字符串，类似与 sub 函数里面的 repl，可使用 \1 或者 \g 来选择分组

根据提供的索引或名字返回响应分组的内容，默认返回 start() 到 end() 之间的字符串，提供多个参数将返回一个元组

返回返回一个包含所有匹配到的命名分组的字典，没有命名的分组不包含在内，key 为组名， value 为匹配到的内容，参数 default 为没有参与本次匹配的命名分组提供默认值

此分组将不计入 SRE_Pattern 的分组计数

此分组将不计入 SRE_Pattern 的分组计数

环视表达式所在位置左边为 “Hello, “

环视表达式所在位置左边不为 “,”

环视表达式所在位置右边为 “M”

环视表达式所在位置右边不为 r