blues_C

Python 爬虫入门（十二）：正则表达式「详细介绍」

Python 爬虫入门（十二）：正则表达式

前言
一、正则表达式的用途
二、正则表达式的基本组成元素
- 2.1 特殊字符
- 2.2 量词
- 2.3 位置锚点
- 2.4 断言
- 2.5 字符集
- 2.6 字符类
- - 2.6.1 基本字符类
  - 2.6.2 常见字符类简写
  - 2.6.3 POSIX字符类
  - 2.6.4 组合使用
三、正则表达式语法规则
四、高级特性
- 4.1 回溯引用（捕获组）
- - 示例：匹配重复的单词
- 4.2 非捕获组
- - 示例：非捕获组的使用
- 4.3 贪婪与非贪婪匹配
- - 示例：贪婪与非贪婪的区别
- 4.4 零宽断言
- - 示例：使用零宽断言匹配特定模式
五、实战案例
- 5.1 网页数据抓取
- - 代码示例：提取图片地址
- 5.2 数据清洗
- - 代码示例：清理电话号码中的特殊字符
- 5.3 提取超链接
- - 代码示例：提取所有的URL
- 5.4 提取网页中的文本内容
- - 代码示例：提取段落文本
- 5.5 从JSON数据中提取特定键值对
- - 代码示例：提取JSON中的特定值
- 5.6 清理HTML标签
- - 代码示例：去除HTML标签
六、总结

前言

正则表达式（Regular Expression），在编程语言中通常缩写为regex或regexp，是一种用于字符串搜索和操作的模式描述方法。它通过定义一系列的规则来匹配、查找和管理文本数据。

正则表达式在线校验： https://tool.oschina.net/regex/

一、正则表达式的用途

正则表达式在各种编程任务中都有广泛的应用。以下是一些常见的用途：

网页数据抓取：通过解析HTML、JSON等格式化数据，爬虫可以精确定位并提取目标数据，例如从网页中提取标题、链接、图片地址等；
数据验证：用于验证用户输入是否符合特定格式，如邮箱地址、电话号码、邮政编码等；
文本搜索和替换：能够高效地在文本中查找和替换特定的字符串或模式；
字符串操作：用于复杂的字符串操作，如拆分、拼接、重构字符串等。

二、正则表达式的基本组成元素

在介绍正则表达式之前，我们需要了解一些基本的组成元素：

2.1 特殊字符

任意字符：. 匹配除换行符之外的任意单个字符。
任意数字：\d 等同于 [0-9]，匹配任意一个数字字符。
任意非数字：\D 等同于 [^0-9]，匹配任意一个非数字字符。
任意字母：[a-z] 匹配任意一个英文小写字母。
任意非字母：[^a-z] 匹配任意一个非英文小写字母的字符。

2.2 量词

*：出现0次或多次。
+：出现1次或多次。
?：出现0次或1次。
{n}：确定出现n次。
{n,}：至少出现n次。
{n,m}：出现n到m次。

2.3 位置锚点

^：行的开头。
$：行的结尾。

2.4 断言

\b：单词边界。
\B：非单词边界。

2.5 字符集

[]：定义一个字符集，匹配其中的任意单个字符。
[^]：取反，匹配不在字符集中的任意单个字符。

2.6 字符类

字符类用于定义一组可以匹配的字符。它们通过方括号[]来表示，在匹配过程中，只要目标字符属于字符类中定义的范围，就会成功匹配。

2.6.1 基本字符类

[abc]：匹配a、b或c中的任意一个字符。例如，正则表达式[abc]可以匹配字符串cat中的c。
[^abc]：匹配除a、b或c之外的任意字符。例如，正则表达式[^abc]可以匹配字符串dog中的d。
[a-z]：匹配所有小写字母（从a到z）。例如，正则表达式[a-z]可以匹配字符串hello中的h。
[A-Z]：匹配所有大写字母（从A到Z）。例如，正则表达式[A-Z]可以匹配字符串Hello中的H。
[0-9]：匹配所有数字字符（从0到9）。例如，正则表达式[0-9]可以匹配字符串year2024中的2。
[a-zA-Z0-9]：匹配所有字母和数字，即大小写字母和数字组合。例如，正则表达式[a-zA-Z0-9]可以匹配字符串Pass123中的P、a、s等字符。

2.6.2 常见字符类简写

在正则表达式中，为了方便书写和理解，常用字符类通常会有一些简写形式：

\d：匹配任意一个数字字符，等同于[0-9]。
\D：匹配任意一个非数字字符，等同于[^0-9]。
\w：匹配任意一个字母、数字或下划线字符，等同于[a-zA-Z0-9_]。
\W：匹配任意一个非字母、非数字和非下划线字符，等同于[^a-zA-Z0-9_]。
\s：匹配任意一个空白字符，包括空格、制表符、换行符等，等同于[ \t\n\r\f\v]。
\S：匹配任意一个非空白字符，等同于[^ \t\n\r\f\v]。

2.6.3 POSIX字符类

在一些编程语言和工具中，还支持POSIX字符类，它们是预定义的一些字符类，用于匹配特定类型的字符。

[:alnum:]：匹配所有字母和数字字符，等同于[a-zA-Z0-9]。
[:alpha:]：匹配所有字母字符，等同于[a-zA-Z]。
[:digit:]：匹配所有数字字符，等同于[0-9]。
[:lower:]：匹配所有小写字母字符，等同于[a-z]。
[:upper:]：匹配所有大写字母字符，等同于[A-Z]。
[:punct:]：匹配所有标点符号字符。
[:space:]：匹配所有空白字符，等同于\s。

示例：字符类的使用

import re

# 匹配所有小写字母
pattern = r'[a-z]'
text = "Hello World!"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['e', 'l', 'l', 'o', 'o', 'r', 'l', 'd']

# 匹配所有数字字符
pattern = r'\d'
text = "Contact: 123-456-7890"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['1', '2', '3', '4', '5', '6', '7', '8', '9', '0']

# 使用POSIX字符类匹配所有字母字符
pattern = r'[[:alpha:]]'
text = "Regex 101!"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['R', 'e', 'g', 'e', 'x']

2.6.4 组合使用

字符类可以与其他正则表达式元素结合使用，形成更加复杂的匹配模式。

# 匹配由字母和数字组成的字符串
pattern = r'\w+'
text = "User123 logged in."
matches = re.findall(pattern, text)
print(matches)  # 输出: ['User123', 'logged', 'in']

# 匹配以小写字母开头且后面跟着数字的字符串
pattern = r'[a-z]\d+'
text = "a123 B456 c789"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['a123', 'c789']

三、正则表达式语法规则

正则表达式的语法规则是构建有效正则表达式的基础。以下是一些常见的语法规则：

组合：使用|来表示“或”，例如ab|cd可以匹配“ab”或“cd”。
分组：使用圆括号()来创建子表达式，允许对正则表达式的部分进行分组。
量词：使用量词来指定模式出现的次数。
转义特殊字符：使用反斜线\来转义特殊字符，使其作为普通字符匹配。

四、高级特性

正则表达式除了基本的字符匹配和量词之外，还包含一些高级特性，用于构建更为复杂的匹配模式。

4.1 回溯引用（捕获组）

捕获组不仅可以用于分组，还可以在正则表达式的其他部分进行引用。引用捕获组可以通过反斜线加上捕获组的编号来实现。

()：用来定义捕获组。
\1：表示对第一个捕获组的引用。

示例：匹配重复的单词

import re
pattern = r'\b(\w+)\s+\1\b'
text = "This is a test test string"
match = re.search(pattern, text)
if match:
    print(f"Matched: {match.group(0)}")  # 输出: 'test test'

4.2 非捕获组

有时我们需要分组但不希望它被捕获用于后续引用，可以使用非捕获组(?:...)。

示例：非捕获组的使用

pattern = r'(?:ab|cd)+'
text = "ababcdbcd"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['ababcd', 'bcd']

4.3 贪婪与非贪婪匹配

正则表达式的匹配模式默认是贪婪的，即它会尽可能多地匹配字符。可以通过在量词后加上?来使匹配变为非贪婪的，匹配尽可能少的字符。

示例：贪婪与非贪婪的区别

import re

text = "hello
world
"

# 贪婪匹配
greedy_pattern = r'<.*>'
greedy_match = re.findall(greedy_pattern, text)
print(greedy_match)  # 输出: ['hello
world
']

# 非贪婪匹配
non_greedy_pattern = r'<.*?>'
non_greedy_match = re.findall(non_greedy_pattern, text)
print(non_greedy_match)  # 输出: ['', '
', '', '
']

4.4 零宽断言

零宽断言用于在不消费字符的情况下进行匹配。它分为正向零宽断言（Lookahead）和反向零宽断言（Lookbehind）。

(?=...)：正向零宽断言，表示某位置后必须匹配某模式。
(?<=...)：反向零宽断言，表示某位置前必须匹配某模式。
(?!...)：负向零宽断言，表示某位置后不能匹配某模式。
(?：负向反向零宽断言，表示某位置前不能匹配某模式。

 
  示例：使用零宽断言匹配特定模式 
  # 匹配'fox'前面是'quick'的单词
pattern = r'(?<=quick\s)fox'
text = "The quick brown fox jumps over the lazy dog"
match = re.search(pattern, text)
if match:
    print(f"Matched: {match.group(0)}")  # 输出: 'fox'

# 匹配'fox'后面跟随'jumps'的单词
pattern = r'fox(?=\sjumps)'
text = "The quick brown fox jumps over the lazy dog"
match = re.search(pattern, text)
if match:
    print(f"Matched: {match.group(0)}")  # 输出: 'fox'
 
  五、 实战案例 
  5.1 网页数据抓取 
   
   使用正则表达式从HTML中提取特定内容。 
   
  代码示例：提取图片地址 
  import re

html_content = '''



'''

pattern = r'
images = re.findall(pattern, html_content)
print(images)  # 输出: ['image1.png', 'image2.jpg', 'image3.gif']
 
  5.2 数据清洗 
   
   在数据分析过程中，经常需要对数据进行清洗，去除无关字符或格式化数据。 
   
  代码示例：清理电话号码中的特殊字符 
  import re

text = "Call us at (123) 456-7890 or 123.456.7890!"
cleaned_numbers = re.sub(r'[^\d]', '', text)
print(cleaned_numbers)  # 输出: '12345678901234567890'
 
  5.3 提取超链接 
   
   从HTML文档中提取所有的超链接。 
   
  代码示例：提取所有的URL 
  import re

html_content = '''
Page 1
Page 2
Page 3
'''

pattern = r''
links = re.findall(pattern, html_content)
print(links)  # 输出: ['http://example.com/page1', 'https://example.com/page2', 'http://example.com/page3']
 
  5.4 提取网页中的文本内容 
   
   提取HTML标签中的文本内容，如提取所有段落标签  
    中的文本。 
   
  代码示例：提取段落文本 
  import re

html_content = '''
This is the first paragraph.
Here is the second paragraph with a link.
And the third paragraph.
'''

pattern = r'(.*?)
'
paragraphs = re.findall(pattern, html_content, re.DOTALL)
print(paragraphs)  # 输出: ['This is the first paragraph.', 'Here is the second paragraph with a link.', 'And the third paragraph.']
 
  5.5 从JSON数据中提取特定键值对 
   
   在处理API返回的JSON数据时，可以使用正则表达式快速提取特定的键值对。 
   
  代码示例：提取JSON中的特定值 
  import re

json_data = '''
{
    "name": "John Doe",
    "email": "[email protected]",
    "phone": "+123-456-7890",
    "address": "123 Main St, Anytown, USA"
}
'''

pattern = r'"phone":\s*"(.*?)"'
phone_number = re.search(pattern, json_data).group(1)
print(phone_number)  # 输出: '+123-456-7890'
 
  5.6 清理HTML标签 
   
   清理文本中的HTML标签，提取纯文本内容。 
   
  代码示例：去除HTML标签 
  import re

html_content = '''
Title
This is a bold statement.
Here is a link and some italic text.
'''

clean_text = re.sub(r'<.*?>', '', html_content)
print(clean_text)  # 输出: 'Title\nThis is a bold statement.\nHere is a link and some italic text.'
 
  六、 总结 
  本文详细介绍了正则表达式的基础知识、语法规则及高级特性，并结合实际案例展示了正则表达式在编程中的重要作用。通过掌握正则表达式，你可以更高效地处理文本数据，解决各种复杂的字符串匹配问题。

基于python+flask框架的某图书馆书籍推荐系统的设计与实现（开题+程序+论文）计算机毕设 zhihao502 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景在数字化时代，图书馆作为知识传播与积累的重要场所，面临着如何更有效地服务于广大读者的挑战。随着信息量的爆炸式增长，读者在浩瀚的书海中寻找符合个人兴趣和需求的书籍变得日益困难。传统的图书检索方式已难以满足读者快速、精准获取推荐书籍的需求。因此，开发一套智能化的图书馆
【Python】深入解析 Hydra 库宅男很神经 python 开发语言
第一章:混沌的终结：在配置泥潭中挣扎与Hydra的曙光在任何一个软件项目的生命周期中，无论是小型的个人脚本，还是大型的企业级分布式系统，我们都无法回避一个核心问题：如何管理配置。配置，是连接我们静态的代码逻辑与动态的运行环境之间的桥梁。它决定了我们的程序连接哪个数据库、使用哪个API密钥、以多大的批次处理数据、模型的学习率应该是多少、日志应该输出到哪里、以何种级别输出…可以说，配置定义了程序的行为
“解锁自动化新可能：使用Robocorp构建Python机器人“ sjufgwgfhoia 自动化 python 服务器
在这个快速变化的技术时代，自动化已经成为提高生产力和效率的关键驱动力。Robocorp提供了一种强大且灵活的平台，帮助开发者构建和运行Python机器人，以满足各类业务需求。引言在本文中，我们将深入探讨如何使用Robocorp构建和操作可以运行在任何地方且具备任意规模的Python工作器。本文旨在帮助你快速上手Robocorp平台的安装和设置，并分享如何在实践中应用它。主要内容1.Robocorp
Conda 虚拟环境与 venv、virtualenv、pipenv 的对比 drebander conda virtualenv python
1.引言在Python开发中，虚拟环境是解决不同项目依赖冲突的关键工具。Python提供了多种虚拟环境管理工具，包括Conda、venv、virtualenv和pipenv。每种工具都有其独特的特点和适用场景。本篇博客将简要对比这些工具，帮助你选择最适合的虚拟环境管理工具。2.Conda虚拟环境2.1Conda概述Conda是Anaconda提供的跨平台、跨语言的包和环境管理工具。除了管理Pyth
量化开发（系列第3篇）： C++在高性能量化交易中的核心应用与技术栈深度解析 Natsume1710 c++开发语言性能优化 python
本文为《量化开发》系列第3篇参考GitHub项目：Awesome-QuantDev-Learn前言在量化交易领域，Python以其开发效率高、生态系统丰富等优势，成为策略研究、数据分析及中低频交易的首选语言。在本系列前两篇文章中，我们详细探讨了Python在量化入门与策略回测中的实践。然而，当进入对延迟要求极为严苛的高频交易（High-FrequencyTrading,HFT）领域时，Python
使用Robocorp和LangChain构建可扩展的Python自动化工作流 qq_37836323 langchain python 自动化
使用Robocorp和LangChain构建可扩展的Python自动化工作流引言在当今快速发展的技术世界中，自动化已成为提高效率和生产力的关键。Robocorp是一个强大的平台，它允许开发者构建和运行可在任何地方、任何规模无缝运行的Python工作流。本文将探讨如何结合Robocorp和LangChain来创建灵活、可扩展的自动化解决方案。Robocorp简介Robocorp是一个现代化的自动化平
Robocorp自动化框架使用教程
Robocorp自动化框架使用教程robocorpCreatePythonAIActionsandAutomations,anddeploy&operatethemanywhere项目地址:https://gitcode.com/gh_mirrors/ro/robocorp1.项目介绍Robocorp是一个开源自动化框架，旨在帮助开发者创建PythonAIActions和自动化任务，这些任务可以部
Python量化策略与回测框架实战：从“纸上谈兵”到“真金白银”的第一步（系列第2篇） Natsume1710 python 开发语言 github
作者：GitHub项目地址Awesome-QuantDev-Learn本文为量化开发学习路线系列第2篇，欢迎收藏与关注。引言：为什么选择Python作为量化入门的起点？在上一篇文章中，我们详细讲解了量化开发的基本框架与开发者思维的转变路径。那么，具体要如何开始第一步实践呢？答案是：从Python入门。Python以其快速原型开发能力、丰富的数据分析工具包，以及良好的社区生态，已经成为全球范围内量化
【Python】Python 3.10 新特性月落一寸光 Python新特性 python 开发语言
文章目录前言：一、新特性1.1PEP617；带括号的上下文管理器1.2更清楚的错误消息1.3PEP634：结构化模式匹配（match）1.4PEP604：有关类型提示的新增特性1.5PEP613：类型别名二、改进的模块2.1`asyncio`2.2`argparse`2.3`base64`2.4`collections.abc`2.5`dataclasses``__slots__`2.6`trac
程序代码篇---Python指明函数参数类型
文章目录前言简介一、函数参数的类型指定1.基本类型提示2.默认参数3.可变参数4.联合类型（Union）5.可选类型（Optional）6.复杂类型二、返回值的类型指定1.基本返回类型2.无返回值（None）3.返回多个值（Tuple）4.生成器（Generator）三、高级类型提示用法1.类型别名（TypeAliases）2.泛型（Generics）3.可调用对象（Callable）4.NewT
五、Python新特性指定类型用法 ZingKings Python python
1.什么是类型注解类型注解是Python3.5+引入的特性，用于为变量、函数参数和返回值指定类型。它不会影响代码运行，但有助于代码可读性和IDE支持。2.基本类型注解#变量类型注解name:str="张三"age:int=25height:float=175.5is_student:bool=True#列表类型注解numbers:list[int]=[1,2,3,4,5]names:list[st
python笔记-Selenium谷歌浏览器驱动下载 hero.zhong python 笔记 selenium
Selenium谷歌浏览器驱动下载地址：https://googlechromelabs.github.io/chrome-for-testing/#stable下面是遇到的问题：python网络爬虫技术中使用谷歌浏览器代码，报错：OSError:[WinError193]%1不是有效的Win32应用程序：遇到错误OSError:[WinError193]%1不是有效的Win32应用程序通常意味着
网络编程底层通信（socket） En^_^Joy python应用网络 python
文章目录一、socket函数介绍二、TCP/IP服务端/客户端三、UDP/IP服务端/客户端四、多线程服务器（threading）五、网络编程常见问题（地址复用、粘包、数据长度）网络编程指通过计算机网络实现程序间通信的技术。Python提供了丰富的库支持各种网络协议和编程模式套接字是网络通信的基本操作单元，是应用层与TCP/IP协议族通信的中间软件抽象层。它提供了一组接口，允许不同主机或同一主机的
python unicode汉字转成各种进制，以及进制互相转换丧尽天良的良！ python python
例如，汉字：“五”的unicode编码为：4e94，使用二进制的结果为：100111010010100，转换为十进制是：20116对应转换如下：
Python办公—Excel嵌入图片提取&重命名(包含重复图片) 小庄-Python办公 Python办公自动化 python excel Excel图片获取 Excel批量获取嵌入图片 Excel嵌入图片
目录专栏导读背景解决方案1、背景介绍2、库的介绍①：openpyxl3、库的安装4、核心代码5、完整代码总结专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅此外还有python基础专栏：请点击—
Python 是如何执行我的代码的？冰糖心书房 Python python java linux
理解Python如何执行你的代码，可以帮助我们解释很多“为什么”——为什么会有.pyc文件？为什么Python相对较慢？多线程为什么不能利用多核？我们可以用一个“厨师做菜”的比喻来理解整个过程，然后再深入技术细节。一、比喻：厨师（Python）根据菜谱（你的代码）做菜想象一下，你是一位顾客，写了一份非常精确的菜谱（你的.py文件）交给一位名叫CPython的大厨（最常见的Python解释器）。第一
探索Cachier：Python函数的持久化缓存利器胡同琥Randolph
探索Cachier：Python函数的持久化缓存利器cachierPersistent,stale-free,localandcross-machinecachingforPythonfunctions.项目地址:https://gitcode.com/gh_mirrors/ca/cachier在Python开发的世界中，性能优化和资源管理是永恒的话题。今天，我们要介绍的是一个强大的开源项目——C
Pyramda：Python 中的函数式编程利器惠悦颖
Pyramda：Python中的函数式编程利器pyramdaPythonpackagesupportingheavyfunctionalprogrammingthroughcurrying.TranslationoftheRamdalibraryfromjavascripttopython.项目地址:https://gitcode.com/gh_mirrors/py/pyramdaPyramda是
[特殊字符] Excel 读取收件人 + Outlook 批量发送带附件邮件 —— Python 自动化实战 happydog007 python自动化办公 excel outlook python
许多公司定期需要将不同部门或客户的报告发送给指定人员。手动操作容易出错、耗时且繁琐。今天这篇文章教你如何利用Python实现：从Excel中读取“收件人+抄送人+附件文件路径”；使用win32com.client调用Outlook自动生成并发送邮件；✅附加模板正文，并保持批量发送规范无需手工操作。从Excel中读取部门、收件人与附件路径fromopenpyxlimportload_workbook
[特殊字符] Python 实战 | 批量统计中文文档词频并导出 Excel happydog007 python自动化办公 python 开发语言
本文展示如何用Python脚本：批量读取文件夹中的多篇中文文档；用jieba分词并统计词频（过滤停用词与单字符）；将各文档词频输出为对应Excel文件；是文本分析、内容审查、报告编写中的实用技巧。Step1：批量加载文件夹中文本文件路径importospath='主要业务'files=[os.path.join(path,f)forfinos.listdir(path)]使用标准库os.listd
探索开源虚拟 Excel 函数模块：Python 中的 Excel 功能利器
在数据处理和分析的领域中，Excel一直是一款备受青睐的工具，它提供了丰富多样的函数，帮助用户高效地完成各种数据操作。而现在，我（董翔）开发一个基于Python的虚拟Excel函数模块，它将Excel的强大功能带到了Python的世界里，让你在Python环境中也能轻松使用类似Excel的函数。这个模块我已经在GitHub上发布，项目链接为：https://github.com/dxiang-wi
写测试太烦？Copilot + Jest 让你 3 分钟搞定单元测试
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
60天python训练营打卡day46
学习目标：60天python训练营打卡学习内容：DAY46通道注意力(SE注意力)知识点回顾：1.不同CNN层的特征图：不同通道的特征图2.什么是注意力：注意力家族，类似于动物园，都是不同的模块，好不好试了才知道。3.通道注意力：模型的定义和插入的位置4.通道注意力后的特征图和热力图学习时间：2025.06.29@浙大疏锦行
python规划 t_hj python
-----------动态内容与反爬策略----------动态页面处理Selenium：自动化浏览器（点击、滚动、表单提交）Playwright（更现代的替代方案）API逆向工程分析Ajax请求（ChromeDevTools）直接调用API接口（如知乎热榜API）反爬应对User-Agent轮换、IP代理（免费/付费代理池）验证码处理（简单验证码用OCR，复杂验证码需打码平台）请求频率控制（ti
Python 训练营打卡 Day 46 2401_86382089 Python打卡 python
通道注意力一、什么是注意力注意力机制是一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。transformer中的叫做自注意力机制，他是一种自己学习自己的机制，他可以自动学习到图片中的主体，并忽略背景。我们现在说的很多模块，比如通道注意力、空间注意力、通道注意力等等，都是基于自注意力机制的。从数学角度看，注意力机制是对输入特征进行加权求
Python训练营打卡 Day53 yunvwugua__ python自学打卡 python 开发语言
对抗生成网络知识点回顾：对抗生成网络的思想：关注损失从何而来生成器、判别器nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法leakyReLU介绍：避免relu的神经元失活现象对抗生成网络（GAN）知识点回顾对抗生成网络的思想思想：就像在餐厅中，有一个厨师（生成器）负责制作假菜，一个评论家（判别器）负责区分真菜和假菜。厨师的目标是制作出评论家无法区分的假菜，而评论家的目标是找
华为OD机试 2025B卷 - 货币单位转换(C++&Python&JAVA&JS&C语言) YOLO大师华为od c++python 华为OD机试华为OD机试2025B卷华为OD2025B卷华为OD机考2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述记账本上记录了若干条多国货币金额，需要转换成人民币分（fen），汇总后输出。每行记录一条金额，金额带有货币单位，格式为数字+单位，可能是单独元，或者单独分，或者元与分的组合。要求将这些货币全部换算成人民币分（fen）后进行汇总，汇总结果仅保留整数，小数部分舍弃。元和分的换算关系都是
Python 训练营打卡 Day 50 2401_86382089 Python打卡 python
预训练模型CBAM注意力现在我们思考下，是否可以对于预训练模型增加模块来优化其效果，这里我们会遇到一个问题：预训练模型的结构和权重是固定的，如果修改其中的模型结构，是否会大幅影响其性能。其次是训练的时候如何训练才可以更好的避免破坏原有的特征提取器的参数。所以今天的内容，我们需要回答2个问题。resnet18中如何插入cbam模块？采用什么样的预训练策略，能够更好的提高效率？可以很明显的想到，如果是
Python训练营打卡 Day50
预训练模型+CBAM模块知识点回顾：resnet结构解析CBAM放置位置的思考针对预训练模型的训练策略差异化学习率三阶段微调预训练模型+CBAM模块知识点回顾ResNet结构解析残差块：ResNet的核心是残差块，它通过残差连接解决了深层网络的梯度消失问题。残差块允许梯度直接传播到后面的层，从而使得网络能够训练得更深。网络结构：ResNet由多个残差块组成，每个残差块包含两个或三个卷积层，以及一个
Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

Python 爬虫入门（十二）：正则表达式「详细介绍」

Python 爬虫入门（十二）：正则表达式

前言

一、正则表达式的用途

二、正则表达式的基本组成元素

2.1 特殊字符

2.2 量词

2.3 位置锚点

2.4 断言

2.5 字符集

2.6 字符类

2.6.1 基本字符类

2.6.2 常见字符类简写

2.6.3 POSIX字符类

2.6.4 组合使用

三、 正则表达式语法规则

四、高级特性

4.1 回溯引用（捕获组）

示例：匹配重复的单词

4.2 非捕获组

示例：非捕获组的使用

4.3 贪婪与非贪婪匹配

示例：贪婪与非贪婪的区别

4.4 零宽断言

示例：使用零宽断言匹配特定模式

五、 实战案例

5.1 网页数据抓取

代码示例：提取图片地址

5.2 数据清洗

代码示例：清理电话号码中的特殊字符

5.3 提取超链接

代码示例：提取所有的URL

5.4 提取网页中的文本内容

代码示例：提取段落文本

5.5 从JSON数据中提取特定键值对

代码示例：提取JSON中的特定值

5.6 清理HTML标签

代码示例：去除HTML标签

Title

六、 总结

你可能感兴趣的:(Python爬虫实战,python,爬虫,正则表达式)

三、正则表达式语法规则

五、实战案例

六、总结