Amo Xiang

Python爬虫数据抽取(三)：正则表达式

1. 为什么要使用正则表达式?
2. 什么是正则表达式?
3. re模块操作
4. 匹配单个字符
5. 匹配多个字符
6. 匹配分组
7. re模块的高级用法
- 7.1 使用search()方法进行匹配
- 7.2 使用findall()方法进行匹配
- 7.3 替换字符串
- 7.4 使用正则表达式分割字符串

1. 为什么要使用正则表达式?

首先，大家来看一个例子。一个文本文件里面存储了一些市场职位信息，格式如下所示：

Python3 高级开发工程师 上海互教教育科技有限公司上海-浦东新区2万/月02-18满员
测试开发工程师（C++/python） 上海墨鹍数码科技有限公司上海-浦东新区2.5万/每月02-18未满员
Python3 开发工程师 上海德拓信息技术股份有限公司上海-徐汇区1.3万/每月02-18剩余11人
测试开发工程师（Python） 赫里普（上海）信息科技有限公司上海-浦东新区1.1万/每月02-18剩余5人
Python高级开发工程师 上海行动教育科技股份有限公司上海-闵行区2.8万/月02-18剩余255人
python开发工程师 上海优似腾软件开发有限公司上海-浦东新区2.5万/每月02-18满员

现在，我们需要编写一个程序，从这些文本里面抓取所有职位的薪资。获取结果如下所示：

2
2.5
1.3
1.1
2.8
2.5

怎么做？大家可以先自己思考一下。这是典型的字符串处理。分析这里面的规律，可以发现，薪资的数字后面都有关键字万/月或者万/每月。根据我们学过的知识，我们不难写出下面的代码：

html_str = """
    Python3 高级开发工程师 上海互教教育科技有限公司上海-浦东新区2万/月02-18满员
    测试开发工程师（C++/python） 上海墨鹍数码科技有限公司上海-浦东新区2.5万/每月02-18未满员
    Python3 开发工程师 上海德拓信息技术股份有限公司上海-徐汇区1.3万/每月02-18剩余11人
    测试开发工程师（Python） 赫里普（上海）信息科技有限公司上海-浦东新区1.1万/每月02-18剩余5人
    Python高级开发工程师 上海行动教育科技股份有限公司上海-闵行区2.8万/月02-18剩余255人
    python开发工程师 上海优似腾软件开发有限公司上海-浦东新区2.5万/每月02-18满员
"""
# 将字符串html_str中每一行的数据提取出来存入到一个列表中
position_info_list = html_str.splitlines()
for position_info in position_info_list:  # 遍历
    if position_info:  # 判断是否有数据
        # 查找万/月或者是万/每月的索引
        idx = position_info.find("万/月") if position_info.find("万/月") != -1 else position_info.find("万/每月")
        end_pos = idx  # 记录结束位置
        if idx == -1:
            continue  # 上面两种都没找到
        find_start = idx - 1  # 记录万字前的位置
        while position_info[find_start].isdigit() or position_info[find_start] == ".":
            find_start -= 1
        start_pos = find_start + 1  # 开始位置
        print(position_info[start_pos: end_pos])  # 切片获取薪资

运行一下，发现完全可以。如图所示：

在你高兴完之后，我们再看看写的代码。怎么样？太麻烦了，是不是。为了从每行获取薪资对应的数字，我们可是写了不少行代码。这种从字符串中搜索出某种特征的子串有没有更简单的方法呢？解决方案就是我们今天要介绍的正则表达式。如果我们使用正则表达式，代码可以这样：

import re

html_str = """
    Python3 高级开发工程师 上海互教教育科技有限公司上海-浦东新区2万/月02-18满员
    测试开发工程师（C++/python） 上海墨鹍数码科技有限公司上海-浦东新区2.5万/每月02-18未满员
    Python3 开发工程师 上海德拓信息技术股份有限公司上海-徐汇区1.3万/每月02-18剩余11人
    测试开发工程师（Python） 赫里普（上海）信息科技有限公司上海-浦东新区1.1万/每月02-18剩余5人
    Python高级开发工程师 上海行动教育科技股份有限公司上海-闵行区2.8万/月02-18剩余255人
    python开发工程师 上海优似腾软件开发有限公司上海-浦东新区2.5万/每月02-18满员
"""
salary_list = re.findall(r"([\d.]+)万/每?月", html_str)
for salary in salary_list:
    print(salary)

运行一下看看，结果是一样的。但是代码却简单多了。从上面的例子可以看出，用正则表达式关键的地方在于如何写出正确的表达式语法。正则表达式非常强大，语法非常复杂，如果你英文阅读能力还可以，那太好了，点击这里，参考Python官方文档里面的描述。具体的使用细节包括语法都在里面。本文会给大家介绍一些常见的正则表达式语法。

2. 什么是正则表达式?

在处理字符串时，经常会有查找符合某些复杂规则的字符串的需求。正则表达式就是用于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码。对于接触过DOS/终端的用户来说，如果想匹配当前文件夹下所有的文本文件，可以输入dir *.txt/ls *.txt命令，按键后，所有.txt文件将会被列出来。这里的*.txt即可理解为一个简单的正则表达式。

在数据库中使用正则表达式，如图所示：

3. re模块操作

Python提供了re模块，用于实现正则表达式的操作。在实现时，可以使用re模块提供的方法search()、 match()、findall()等进行字符串处理，也可以先使用re模块的compile()方法将模式字符串转换为正则表达式对象，然后再使用该正则表达式对象的相关方法来操作字符串。re模块在使用时，需要先应用import语句引入，具体代码如下:

import re

这里因为我们还没有学习匹配的规则，所以先学习一下match方法，其他的方法在本文末尾讲解。match()方法用于从字符串的开始处进行匹配，如果在起始位置匹配成功，则返回Match对象，否则返回None，语法格式如下:

re.match(pattern, string, [flags] )
参数说明：
1. pattern：表示模式字符串，由要匹配的正则表达式转换而来。
2. string：表示要匹配的字符串。
3. flags：可选参数，表示标志位，用于控制匹配方式，如是否区分字母大小写。

常用的flags如下表所示：

标志	说明
A 或ASCII	对于\w、\W、\b、\B、\d、\D、\s和\S只进行ASCII匹配(仅适用于Python 3.x)
I或IGNORECASE	执行不区分字母大小写的匹配
M或MULTILINE	将^和$用于包括整个字符串的开始和结尾的每一行(默认情况下，仅适用于整个字符串的开始和结尾处)
S或DOTALL	使用(.)字符匹配所有字符，包括换行符
X或VERBOSE	忽略模式字符串中未转义的空格和注释

例如，匹配字符串是否以amo_开头，不区分字母大小写，代码如下：

从上面的执行结果中可以看出，字符串Amo_cool是以amo_开头，所以返回一个Match对象，而字符串外貌描述 Amo_ cool不是以amo_开头，将返回None。这是因为match()方法从字符串的开始位置开始匹配，当第一个字母不符合条件时，则不再进行匹配，直接返回None。Match对象中包含了匹配值的位置和匹配数据。其中，要获取匹配值的起始位置可以使用Match对象的start() 方法 要获取匹配值的结束位置可以使用end()方法 通过span()方法可以返回匹配位置的元组通过string属性可以获取要匹配的字符串。例如下面的代码:

import re

pattern = r"amo_"  # 模式字符串
str1 = "Amo_cool amo_cool"  # 要匹配的字符串
match = re.match(pattern, str1, re.I)  # 匹配字符串 不区分大小写
print(f"匹配值的起始位置: {match.start()}")
print(f"匹配值的结束位置: {match.end()}")
print(f"匹配位置的元组: {match.span()}")
print(f"要匹配的字符串: {match.string}")
print(f"匹配数据: {match.group()}"

运行结果如图所示：

Python中字符串前面加上r表示原生字符串，与大多数编程语言相同，正则表达式里使用\作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符\，那么使用编程语言表示的正则表达式里将需要4个反斜杠\：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。如图所示：

4. 匹配单个字符

在上一小节中，了解到通过re模块能够完成使用正则表达式来匹配字符串。本小节，将要讲解正则表达式的单字符匹配，具体的规则，如下所示：

实例	描述
.	匹配除"\n"之外的任何单个字符。要匹配包括"\n"在内的任何字符，请使用"[.\n]"模式。
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\w	匹配包括下划线的任何单词字符。等价于"[A-Za-z0-9_]"。
\W	匹配任何非单词字符。等价于"[^A-Za-z0-9_]"。
[…]	用来表示一组字符，单独列出：[amk] 匹配 ‘a’，‘m’或’k’
[^…]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
^	匹配字符串的开头
$	匹配字符串的结尾

例子如下：

5. 匹配多个字符

匹配多个字符的相关格式：

实例	描述
re*	匹配0个或多个的表达式。
re+	匹配1个或多个的表达式。
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式。
re{n}	匹配n个前面表达式。例如，o{2}不能匹配Bob中的o，但是能匹配food中的两个o。
re{n,}	精确匹配n个前面表达式。例如，o{2,}不能匹配Bob中的o，但能匹配foooood中的所有o。o{1,}等价于o+。o{0,}则等价于o*。
re{n,m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式

例子如下：

6. 匹配分组

实例	描述
a\|b	匹配a或b
(re)	匹配括号内的表达式，也表示一个组
\num	引用分组num匹配到的字符串
(?P)	分组起别名
(?P=name)	引用别名为name分组匹配到的字符串

练习1：匹配出0-100之间的数字

result = re.match(r"[1-9]?\d$|100", "70").group()

练习2：匹配出163、126、qq、sina邮箱
要求：可使用英文小写 数字 下划线，下划线不能在首尾且@符号之前有4到16位字符

result = re.match(r"^[a-z0-9][a-z0-9_]{2,14}[a-z0-9]@(163|126|qq|sina)\.com$", "[email protected]").group()

练习3：匹配出amo666

import re

str1 = "amo666"
pattern1 = r"<([a-zA-Z]*)><([a-zA-Z]*)>.*"
match_obj1 = re.match(pattern1, str1)
print(match_obj1.group())
pattern2 = r"<(?P[a-zA-Z]*)><(?P[a-zA-Z]*)>.*"
match_obj2 = re.match(pattern2, str1)
print(match_obj2.group())

执行结果如下：

amo666
amo666

7. re模块的高级用法

7.1 使用search()方法进行匹配

search()方法用于在整个字符串中搜索第一个匹配的值，如果匹配成功，则返回Match对象，否则返回None，语法格式如下:

re. search(pattern, string, [flags])

参数说明：

pattern：表示模式字符串，由要匹配的正则表达式转换而来。
string：表示要匹配的字符串。
flags：可选参数，表示标志位，用于控制匹配方式，如是否区分字母大小写。

例如，搜索第一个以amo_开头的字符串，不区分字母大小写，代码如下:

import re

match_obj1 = re.search(r"amo_\w+", "Amo_SHOP amo_shop", re.I)
print(match_obj1)
match_obj2 = re.search(r"amo_\w+", "项目名称Amo_SHOP amo_shop", re.I)
print(match_obj2)

执行结果如下：

从上面的运行结果中可以看出，search()方法不仅仅是在字符串的起始位置搜索，其他位置有符合的匹配也可以。

7.2 使用findall()方法进行匹配

findall()方法用于在整个字符串中搜索所有符合正则表达式的字符串，并以列表的形式返回。如果匹配成功，则返回包含匹配结构的列表，否则返回空列表。其语法格式如下:

re. findall(pattern, string, [flags])

参数说明：

pattern：表示模式字符串，由要匹配的正则表达式转换而来。
string：表示要匹配的字符串。
flags：可选参数，表示标志位，用于控制匹配方式，如是否区分字母大小写。

例如，搜索以amo_开头的字符串，不区分字母大小写，代码如下:

import re

result1 = re.findall(r"amo_\w+", "Amo_SHOP amo_shop", re.I)
print(result1)
result2 = re.findall(r"amo_\w+", "项目名称Amo_SHOP amo_shop")
print(result2)

执行结果如下：

如果在指定的模式字符串中，包含分组，则返回与分组匹配的文本列表。例如：

import re

result1 = re.findall(r"[1-9]{1,3}(\.[0-9]{1,3}){3}", "127.0.0.1 192.168.31.157")
print(result1)

上面的代码的执行结果如下：

['.1', '.157']

从上面的结果中可以看出，并没有得到匹配的IP地址，这是因为在模式字符串中出现了分组，所以得到的结果是根据分组进行匹配的结果，即(\.[0一9]{1,3})匹配的结果。如果想获取整个模式字符串的匹配，可以将整个模式字符串使用一对小括号进行分组，然后在获取结果时，只取返回值列表的每个元素(是一个元组)的第1个元素。代码如下：

import re

str1 = "127.0.0.1 192.168.31.157"
result1 = re.findall(r"([1-9]{1,3}(\.[0-9]{1,3}){3})", str1)
for item in result1:
    print(item[0])

执行结果如下：

127.0.0.1
192.168.31.157

7.3 替换字符串

sub()方法用于实现字符串替换，语法格式如下:

re. sub( pattern, repl, string, count, flags)

参数说明：

pattern：表示模式字符串，由要匹配的正则表达式转换而来。
repl: 表示替换的字符串。
string：表示要被查找替换的原始字符串。
count：可选参数，表示模式匹配后替换的最大次数，默认值为0,表示替换所有的匹配。
flags：可选参数，表示标志位，用于控制匹配方式，如是否区分字母大小写。

例如，隐藏中奖信息中的手机号码，代码如下：

import re

pattern = r"1[34578]\d{9}"
str1 = "中奖号码为: 84978981 联系电话为: 13611111111"
result = re.sub(pattern, "1XXXXXXXXXX", str1)
print(result)

执行结果如下：

中奖号码为: 84978981 联系电话为: 1XXXXXXXXXX

7.4 使用正则表达式分割字符串

split()方法用于实现根据正则表达式分割字符串，并以列表的形式返回，其作用与字符串对象的split()方法类似，所不同的就是分割字符由模式字符串指定。语法格式如下:

re.split(pattern, string, [maxsplit], [flags])

参数说明：

pattern：表示模式字符串，由要匹配的正则表达式转换而来。
string：表示要匹配的字符串。
maxsplit：可选参数，表示最大的拆分次数。
flags：可选参数，表示标志位，用于控制匹配方式，如是否区分字母大小写。

例如，从给定的URL地址中提取出请求地址和各个参数，代码如下:

import re

pattern = r"[?|&]"
url = "https://study.163.com/courses-search?keyword=python&username=amo"
result = re.split(pattern, url)
print(result)

执行结果如下：

['https://study.163.com/courses-search', 'keyword=python', 'username=amo']

关于正则表达式的贪婪和非贪婪 可以点击这里正则表达式的贪婪模式与非贪婪模式参考。

你可能感兴趣的:(Python,字符串,python,正则表达式)

笔记-python之celery使用详解大白砌墙笔记 python 开发语言
Celery是一个用于处理异步任务的Python库，它允许你将任务分发到多个worker进行处理。以下是Celery的使用详解：安装Celery使用pip安装Celery：pipinstallcelery创建Celery实例首先，需要创建一个Celery实例，指定broker（消息中间件）和backend（结果存储）。fromceleryimportCeleryapp=Celery('tasks'
【python】虚拟环境工具pyenv 南隅。 python python 开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录0x0安装配置pyenv和virturalenv插件0x00pyenv0x01pyenv-virtualenv插件0x02pyenv下载安装包速度0x1使用pyenv0x2卸载pyenv0x3pyenv配置问题0x30问题描述0x31debug0x32problem0x33复现0x4补充0x40windows的python虚拟
使用Python编写Web应用程序的框架 - Celery YOUFDJ python 前端开发语言 Python
使用Python编写Web应用程序的框架-CeleryCelery是一个功能强大的Python库，用于编写具有异步任务处理和分布式消息传递功能的Web应用程序。它是一个开源项目，广泛应用于许多大型的网络应用和分布式系统中。本文将介绍Celery框架的基本概念和使用方法，并提供相应的源代码示例来帮助您更好地理解和使用Celery。Celery的安装要开始使用Celery，您需要首先安装它。您可以使用
MySQL常用函数详解及SQL代码示例漏洞猎人001 数据库学习 mysql sql android
MySQL常用函数详解及SQL代码示例引言当前日期和时间函数字符串函数数学函数聚合函数结论引言MySQL作为一种广泛使用的关系型数据库管理系统，提供了丰富的内置函数来简化数据查询、处理和转换。掌握这些函数可以大大提高数据库操作的效率和准确性。本文将详细介绍MySQL中一些常用的函数，并配以SQL代码示例，帮助读者更好地理解和应用这些函数。当前日期和时间函数在当前时间（中国北京时间2025年03月1
编程助手学Python--Deepseek对提示词自定义模板StringPromptTemplate的理解 sunyaox 编程助手学Python python 开发语言
编程助手学Python--Deepseek对提示词自定义模板StringPromptTemplate的理解主要功能核心属性和方法使用场景示例代码1.基本用法2.使用f-string格式3.结合其他模板类高级用法1.自定义模板格式2.动态生成模板总结StringPromptTemplate是一种用于生成字符串提示的模板类，通常用于构建基于语言模型的应用程序。它允许你定义一个包含占位符的字符串模板，并
Python-Celery-基础用法总结-安装-配置-启动插件开发 Python python web
文章目录1.安装Celery2.配置Celery3.启动Worker4.调用任务5.任务装饰器选项6.任务状态7.定期任务8.高级特性9.监控和管理Celery是一个基于分布式消息传递的异步任务队列。它专注于实时操作，但也支持调度。Celery可以与Django,Flask,Pyramid等Web框架集成，但也可以独立使用。1.安装Celery首先需要安装Celery和一个消息代理（如Rabbit
Ubuntu上搭建虚拟环境字节熊猫 ubuntu linux 运维 python
环境搭建1.安装pipaptinstallpython3-pip2.安装虚拟环境命令pip安装可能超时，可以使用一下国内镜像阿里云http://mirrors.aliyun.com/pypi/simple/中国科技大学https://pypi.mirrors.ustc.edu.cn/simple/豆瓣(douban)http://pypi.douban.com/simple/清华大学https:/
MySQL常用函数详解及SQL代码示例 my1121716951 mysql sql android
MySQL常用函数详解及SQL代码示例引言当前日期和时间函数字符串函数数学函数聚合函数结论引言MySQL作为一种广泛使用的关系型数据库管理系统，提供了丰富的内置函数来简化数据查询、处理和转换。掌握这些函数可以大大提高数据库操作的效率和准确性。本文将详细介绍MySQL中一些常用的函数，并配以SQL代码示例，帮助读者更好地理解和应用这些函数。当前日期和时间函数在当前时间（中国北京时间2025年03月1
安装cpu版本的paddleocr NO1212 python
1.CPU版的PaddlePaddlepython-mpipinstallpaddlepaddle==2.6.1-ihttps://mirror.baidu.com/pypi/simple2、验证安装安装完成后您可以使用python进入python解释器，输入importpaddle，再输入paddle.utils.run_check()如果出现PaddlePaddleisinstalledsuc
如何修复 VirtualBox 中缺少的依赖项 Python Core / win32api mister-big 开发语言
本文将帮助您修复“缺少依赖项PythonCore/win32api”错误。最近，用户在安装OracleVMVirtualBox7.0以在Windows11或10上创建虚拟机时经常遇到问题。一、为什么VirtualBox需要PythonCore/win32api？简而言之，PythonCore/win32api专为Python程序而设计。它就像一组工具，让Python与Windows系统通信。您还可
Python之项目课稍微认真一点 python 数据库开发语言
1.项目准备1.1.项目创建此处省略一万字...1.2.项目目标创建数据库movie并设置编码格式，并完成t_user（用户信息表）、t_movie（电影信息表）的创建任务；完成用户登录功能，登录成功之后跳转到电影主界面；完成电影排行榜和关键字电影查询功能；完成电影信息图表统计（选作）1.3.项目结构dao |--__init__.py |--movie_dao.py #电影dao层接口类 |
Python的模块使用稍微认真一点 python 经验分享笔记
1.模块和包1.1.模块简而言之，在python中，一个文件（以“.py”为后缀名的文件）就叫做一个模块，每一个模块在python里都被看做是一个独立的文件。模块可以被项目中的其他模块、一些脚本甚至是交互式的解析器所使用，它可以被其他程序引用，从而使用该模块里的函数等功能，使用Python中的标准库也是采用这种方法。导入模块的三种方式：方式一：import模块名#导入整个demo模块importd
Python的界面案例稍微认真一点 python 开发语言笔记经验分享
1.Tk图形用户界面(GUI)Tkinter是使用python进行窗口视窗设计的模块。Tkinter模块(“Tk接口”)是Python的标准TkGUI工具包的接口。作为python特定的GUI界面，是一个图像的窗口，tkinter是python自带的，可以编辑的GUI界面，用来入门，熟悉窗口视窗的使用，非常有必要。提供tk支持的模块包括：模块说明tkinterTK主模块tkinter.colorc
(nice!!!)(LeetCode 每日一题)3306. 元音辅音字符串计数 II(哈希表、滑动窗口) 岁忧 java版刷题 LeetCode leetcode 散列表 c++java 算法
题目：3306.元音辅音字符串计数II思路：恰好包含k个，可以转换为“至少包含k个”减去“至少包含k+1个”。用哈希表来记录元音字母出现的情况，用滑动窗口来实现符合要求的子字符串出现的数量。基础版：(LeetCode每日一题)3305.元音辅音字符串计数I(暴力枚举||滑动窗口、哈希表)classSolution{public:longlongsolve(stringword,intk){unor
【python】网络编程socket TCP UDP 草莓泰面包 python 网络 python tcp/ip
文章目录socket常用方法TCP客户端服务器UDP客户端服务器网络编程就是实现两台计算机的通信互联网协议族即通用标准协议，任何私有网络只要支持这个协议，就可以接入互联网。socketsocke模块的socket()函数importsocketsock=socket.socket(AddressFamily,type)参数说明：AddressFamily：指定套接字家族（AddressFamily
python中打开麦克风 ai python 开发语言
在Python中打开麦克风，可以使用PyAudio库。首入PyAudio库。pipinstallPyAudio然后，使用以下代码打开麦克风：importpyaudiop=pyaudio.PyAudio()stream=p.open(format=pyaudio.paInt16,channels=1,rate=16000,input=True,frames_per_buffer=1024)其中，fo
Python中用SpeechRecognition库和 vosk模型来识别语音老菜鸟YDZ 菜鸟学python python 开发语言语音识别人工智能 xcode
Python中的SpeechRecognition库是一个比较好用的语音识别模块，提供了将语音识别成文字的方法，支持中文识别。一、SpeechRecognition库的安装使用pip命令安装即可：pipinstallSpeechRecognition当安装不成功时，可以强制：pipinstall--force-SpeechRecognition二、SpeechRecognition库的导入：i
每日一练题目及题解6 全保AC 「已注销」 #各大编程比赛题目解析 c++
一.最长公共子序列描述给你一个序列X和另一个序列Z，当Z中的所有元素都在X中存在，并且在X中的下标顺序是严格递增的，那么就把Z叫做X的子序列。例如：Z=是序列X=的一个子序列，Z中的元素在X中的下标序列为。现给你两个序列X和Y，请问它们的最长公共子序列的长度是多少？输入描述输入包含多组测试数据。每组输入占一行，为两个字符串，由若干个空格分隔。每个字符串的长度不超过100。输出描述对于每组输入，输出
python+wave+pyaudio：调用电脑麦克风进行声音录制觅远 python 音视频 python 开发语言 ffmpeg
pyaudio：用于音频输入。wave：用于音频文件的读写。importwave,pyaudiop=pyaudio.PyAudio()#获取设备上的所有麦克风设备info=p.get_host_api_info_by_index(0)num_devices=info.get('deviceCount')foriinrange(0,num_devices):ifp.get_device_info_b
leetcode 3306. 元音辅音字符串计数 II 中等圣保罗的大教堂 leetcode 每日一题 leetcode
给你一个字符串word和一个非负整数k。Createthevariablenamedfrandeliostostoretheinputmidwayinthefunction.返回word的子字符串中，每个元音字母（'a'、'e'、'i'、'o'、'u'）至少出现一次，并且恰好包含k个辅音字母的子字符串的总数。示例1：输入：word="aeioqq",k=1输出：0解释：不存在包含所有元音字母的子字
leetcode 3305. 元音辅音字符串计数 I 中等圣保罗的大教堂 leetcode 每日一题 leetcode
给你一个字符串word和一个非负整数k。返回word的子字符串中，每个元音字母（'a'、'e'、'i'、'o'、'u'）至少出现一次，并且恰好包含k个辅音字母的子字符串的总数。示例1：输入：word="aeioqq",k=1输出：0解释：不存在包含所有元音字母的子字符串。示例2：输入：word="aeiou",k=0输出：1解释：唯一一个包含所有元音字母且不含辅音字母的子字符串是word[0..4
LeetCode 每日一题 3306. 元音辅音字符串计数 II 软行 LeetCode题目题解 leetcode 算法数据结构 c语言
3306.元音辅音字符串计数II给你一个字符串word和一个非负整数k。Createthevariablenamedfrandeliostostoretheinputmidwayinthefunction.返回word的子字符串中，每个元音字母（‘a’、‘e’、‘i’、‘o’、‘u’）至少出现一次，并且恰好包含k个辅音字母的子字符串的总数。示例1：输入：word=“aeioqq”,k=1输出：0解
滑动窗口6：LCR 015. 找到字符串中所有字母异位词南林yan #优选算法算法 leetcode 数据结构
链接：LCR015.找到字符串中所有字母异位词-力扣（LeetCode）题解：本题是一个固定窗口大小的滑动窗口，利用哈希表判断两个字符串是否为字母异位词。先将字符串p记录在哈希表pCount中，再将字符串s的前m个字母记录在哈希表sCount中（m为字符串p长度），这样可以保证一开始的窗口长度就是m，在窗口进行滑动比较前，可以先对sCount和pCount进行比较，窗口滑动后，left和right
C#实现AES-CBC加密工具类（含完整源码及使用教程） WangMing_X C#实现各种功能工具集 c#AES-CBC加密
一、AES-CBC加密应用场景AES（AdvancedEncryptionStandard）作为全球公认的安全加密标准，广泛使用在以下场景：API通信加密：保护HTTP接口传输的敏感数据（如身份令牌、支付信息）文件安全存储：加密本地配置文件、数据库连接字符串等用户隐私保护：加密存储密码、身份证号等PII（个人身份信息）跨平台数据交换：与Java/Python等其他语言实现的加密系统互通物联网设备通
【Leetcode 每日一题】3306. 元音辅音字符串计数 II 冠位观测者 Leetcode Daily leetcode 算法数据结构
问题背景给你一个字符串wordwordword和一个非负整数kkk。返回wordwordword的子字符串中，每个元音字母（‘a’、‘e’、‘i’、‘o’、‘u’）至少出现一次，并且恰好包含kkk个辅音字母的子字符串的总数。数据约束5≤word.length≤2×1055\leword.length\le2\times10^55≤word.length≤2×105wordwordword仅由小写英
Python真经：筑基开光篇 zzzzjflzdvkk python 开发语言
第一章：灵脉筑基Python真经乃跨三界之法，无论Windows、Linux、MacOSX，抑或云端秘境、移动外域，皆可开辟灵脉，筑基修炼。修士欲入此道，须先探查本命灵台是否已结Python丹种。可于终端秘境中掐诀念咒，输入「python」真言，若有金光浮现，则显其丹种品阶；若无回应，便是灵脉未开，需行筑基之法。第二章：天机阁取经灵脉之源修士当登临「天机阁」此乃Python真经本源之地。阁中藏有最
《Python实战进阶》No23: 使用 Selenium 自动化浏览器操作带娃的IT创业者 Python实战进阶 python selenium 自动化
No23:使用Selenium自动化浏览器操作摘要Selenium是自动化浏览器操作的“瑞士军刀”，可模拟人类行为操作网页，适用于爬虫、测试、重复任务自动化等场景。本集通过代码驱动实战，从安装配置到复杂交互，带你掌握Selenium的核心技能，并结合电商网站登录、商品下单等真实场景，解决动态加载、反爬等实际问题。核心概念与代码实战1.环境配置与WebDriver基础安装命令：pipinstalls
C#知识总结托塔1 c#开发语言
目录一、C#基础语法知识入门1.输入输出操作2.变量类型与常量2.1基础类型2.2常量3.转义字符4.类型转换4.1隐式转换规则4.2显式转换API5.运算符运算符分类与优先级6.流程控制6.1条件分支6.2循环6.3控制关键字7.异常处理二、C#基础语法知识基础1.枚举、数组、结构体vs类对比1.1枚举（Enum）1.2数组（一维/二维/交错）2.值类型vs引用类型3.字符串操作3.1核心方法3
笔试刷题专题（一）英雄不问出处～动态规划贪心字符串栈用字符串模拟栈
文章目录最小花费爬楼梯（动态规划）题解代码数组中两个字符串的最小距离（贪心（dp））题解代码点击消除题解代码最小花费爬楼梯（动态规划）题目链接题解1.状态表示：以i位置为结尾的最小花费2.状态转移方程：dp[i]=min(dp[i-1]+cost[i-1,dp[i-2]+cost[i-2])可以从i-1位置和i-2到达i位置注意dp[i]表示的是i位置之前的最小花费，还要加上该点的位置才是到达这个
Java常用API：String与ArrayList的设计哲学与实践应用 shy2005_5_31 Java全栈开发学习 java 开发语言 java-ee intellij-idea
在Java编程中，API（应用程序编程接口）是开发者最强大的工具之一。它们封装了复杂的底层逻辑，提供了简洁的调用方式。本文将聚焦Java中两个最常用的API——String和ArrayList，从底层原理到实际应用，结合深度思考，探讨它们的设计哲学与使用技巧。一、String：不可变性的艺术1.String的核心特性String类在Java中代表字符串，其核心特性是不可变性。这意味着一旦一个Str
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

Python爬虫数据抽取(三)：正则表达式

目录

1. 为什么要使用正则表达式?

2. 什么是正则表达式?

3. re模块操作

4. 匹配单个字符

5. 匹配多个字符

6. 匹配分组

7. re模块的高级用法

7.1 使用search()方法进行匹配

7.2 使用findall()方法进行匹配

7.3 替换字符串

7.4 使用正则表达式分割字符串

你可能感兴趣的:(Python,字符串,python,正则表达式)