天天501

05.数据解析之正则表达式

1、正则表达式

正则表达式，又称规则表达式。（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。——百度百科

下面是正则表达式常见的使用场景：

检查字符串的合法性

验证用户名（a-z，0-9，不能全是数字，不能全是字母）
验证邮箱格式 ([email protected])
验证电话号码 (11位数字)
验证身份证 (18位 )
验证QQ号码格式（5-12纯数字，第一位不能为0）；

提取字符串中信息

提取一条短信中数字；
提取文件名的后缀；
采集器(网络爬虫)

替换字符串

替换字符串中的非法字符；
对电话号码进行屏蔽；（18520102）
替换占位符 “hello {{name}} ” hello 王老二（模板框架）

分割字符串

将一个字符串按照指定的规则进行分割；

在爬虫中，使用正则表达式提取我们想要的数据。去掉多余的数据。

场景：找所有邮件地址

百度贴吧邮箱信息：http://tieba.baidu.com/p/5781191467

text = """
回复(2)4楼2018-07-04 11:48

哥哥口袋有糖
初识物联1
[email protected]

收起回复5楼2018-07-04 14:10

Super劫Zed: [email protected]
2018-8-8 16:00回复
我也说一句

RAVV2017
物联硕士4
以上的邮箱，已发，还需要的请回复邮箱。两套物联网学习资料。

回复(4)7楼2018-07-04 16:06

儒雅的刘飞3
初识物联1
[email protected]，谢谢楼主

收起回复8楼2018-07-04 16:20

RAVV2017: 已发送，麻烦请查收，谢谢
2018-7-4 16:23回复
我也说一句
 
该来的总会来
物联博士5
[email protected]
谢谢谢谢

回复9楼2018-07-04 17:18来自Android客户端
BLACKPINK_罗捷
深入物联2
[email protected]
"""

1、1 元字符

使用元字符匹配单个字符

字符	功能
.	匹配任意1个字符（除了\n）
[ ]	匹配[ ]中列举的字符
\d	匹配数字，即0-9
\D	匹配非数字，即不是数字
\s	匹配空白，即空格，tab键，换行
\S	匹配非空白（数字、英文字符、特殊符号）
\w	匹配单词字符，即a-z、A-Z、0-9、_
\W	匹配非单词字符
*	匹配前一个字符出现0次或者无限次，即可有可无
+	匹配前一个字符出现1次或者无限次，即至少有1次

\d匹配数字

#coding=utf-8

import re

res = re.findall("\d"，'[email protected]')
print(res)

运行结果：

['3'， '4'， '6'， '5'， '0'， '4'， '1'， '0'， '8']

+ * 匹配多个字符

import re

res = re.findall("\d+"，'[email protected]')
print(res)

运行结果：

['346504108']

\d与`[]`(字符集)

可能会出现的一些情况

[123456zxcv] 字符集只能匹配一个出现在集合里面的值

\d代表0到9的所有数字，[0123456789] 与\d等效

import re

res = re.findall("\d+"，'[email protected]')
print(res)

res1 = re.findall("[0123456789]+"，'[email protected]')
print(res1)

运行结果：

['346504108']
['346504108']

思考：邮箱可能出现为字符串，该如何处理？

例如：[email protected]

提示: [a-z]

使用点匹配任意字符

案例：匹配中国电信手机号码

中国电信号段
133. 153. 180. 189
号码总长度为11位

实现方式：

编写电信号码的正则
进行匹配
打印结果

import re

str_phone = """13357024777
电信 浙江省 衢州 尾数AAA 号码吉凶
18948121234 
电信 广东省 茂名 尾数ABCD 号码吉凶
13873179698 
移动 湖南省 长沙 个性靓号 号码吉凶
15802648889 
移动 湖南省 长沙 尾数AAABAAAB号码吉凶
"""

# 第一位都是以1开头 第二位可以为34578 第三位没有6与9 后面都是数字
res = re.findall('1[358][039]\d+'， str_phone)
print(res)

使用.*匹配任意多个字符

思考：匹配 Hello 与 Demo 之间的内容

import re

content = 'Hello 1234567 World_This is a Rexgex Demo'
result = re.findall('Hel.* Rexgex Demo'， content)
print(result)

1、2 数量词

使用数量词匹配多个字符

字符	功能
{m}	匹配前一个字符出现0 到 m 次
{m,n}	匹配前一个字符出现从m到n次

需求：匹配出，8到20位的密码，可以是大小写英文字母、数字、下划线

#coding=utf-8
import re

res = re.findall("[a-zA-Z0-9]{8}"，"ash2e223 3424kjkljkljf 34523nmkdsjf")
print(res)

ret = re.findall("[a-zA-Z0-9_]{8，20}"，"ash2e223 3424kjkljkljf 34523nmkdsadsjf")
print(ret)

案例：QQ 号码匹配

QQ 号规则
1. 第一位数字不能为0
2. 可能是 5-12 位

qq_str = """
[email protected]
Super劫Zed: [email protected]
[email protected]，谢谢楼主
[email protected]
"""

result = re.findall("[1-9][0-9]{4，11}"，qq_str)
print(result)

运行结果：

['346504108'， '540775360'， '397872410'， '1459543548']

1、3 精确匹配与泛匹配

泛匹配

泛匹配是匹配所有的东西

import re

content = 'Hello 1234567 World_This is a Rexgex Demo'

result = re.find('Hello.*Demo'， content)
print(result)

精确匹配

精确匹配是匹配括号里面的东西

import re

content = 'Hello 1234567 World_This is a Rexgex Demo'
result = re.findall('Hello (\d+).*Demo'， content)
print(result)

1、4 贪婪匹配与非贪婪匹配

Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；

非贪婪则相反，总是尝试匹配尽可能少的字符。

在"*“，”?“，”+“，”{m,n}"后面加上？，使贪婪变成非贪婪。

import re

content = 'Hello 1234567 World_This is a Rexgex Demo'
result = re.findall('Hel.*(\d+)'， content)
print(result)

正则表达式模式中使用到通配字，那它在从左到右的顺序求值时，会尽量“抓取”满足匹配最长字符串，在我们上面的例子里面，“.+”会从字符串的启始处抓取满足模式的最长字符，其中包括我们想得到的第一个整型字段的中的大部分，“\d+”只需一位字符就可以匹配，所以它匹配了数字“4”，而“.+”则匹配了从字符串起始到这个第一位数字4之前的所有字符。

解决方式：非贪婪操作符“？”，这个操作符可以用在"*“，”+“，”?"的后面，要求正则匹配的越少越好。

2、re模块

一直以来我们都是使用 re.search() 函数，其实在正则表达式模块中还有一些函数可以很方便的对字符串进行操作。re模块的使用可以分为两种：第一种是对象式的方式，第二种是函数式的方式。

2、1re.match

match() 用于查找字符串的头部（也可以指定起始位置），它是一次匹配，只要找到了一个匹配的结果就返回，而不是查找所有匹配的结果。它的一般使用形式如下：

match(pattern， string[， flag])

其中，pattern是正则表达式规则字符串，string 是待匹配的字符串，flag 是可选参数。

当匹配成功时，返回一个 Match 对象，如果没有匹配上，则返回 None。

# 导入模块
import re
# 正则
pattern = 'Python'
# 字符串
string = 'PythonahsdgjasghPythonasdjajsk'
# 匹配
result = re.match(pattern, string)
# 结果
print(result)

2、2 re.search

search() 用于查找字符串的任何位置，它也是一次匹配，只要找到了一个匹配的结果就返回，而不是查找所有匹配的结果，它的一般使用形式如下：

search(pattern， string[， flag])

当匹配成功时，返回一个 Match 对象，如果没有匹配上，则返回 None。

ret = re.search('\d+', "python = 9999， c = 7890， c++ = 12345")
ret.group()

2、3 re.findall

上面的 match 和 search 方法都是一次匹配，只要找到了一个匹配的结果就返回。然而，在大多数时候，我们需要搜索整个字符串，获得所有匹配的结果。findall() 的使用形式如下：

findall(pattern， string[， flag])

findall() 以列表形式返回全部能匹配的子串，如果没有匹配，则返回一个空列表。

ret = re.findall(r"\d+", "python = 9999， c = 7890， c++ = 12345")
print(ret)

2、4 re.split

split()按照能够匹配的子串将字符串分割后返回列表，它的使用形式如下：

split(pattern， string[， maxsplit， flags])

其中，maxsplit 用于指定最大分割次数，不指定将全部分割。

'''
split():
    分割字符串 去掉了匹配到的字符串 
    结果是列表形式
    maxsplit: 默认是0 表示全部切割
                1 代表切割一次
                2 代表切割两次
'''
import re
pattern = '\d+'
string = 'Pythonasdkjasd464654adhuiaghsdk564654akjsdhkashdkja'
result = re.split(pattern， string， 2)
print(result)

2、5 re.sub

sub()用于替换，使用形式如下：

sub(pattern， repl， string[， count， flags])

第一个参数为对应的正则表达式，第二个参数为要替换成的字符串，第三个参数为源字符串，第四个参数为可选项，代表最多替换的次数，如果忽略不写，则会将符合模式的结果全部替换。

'''
re.sub(pattern， repl， string， count=0， flags=0): 
    替换匹配到的字符串 
    pattern: 正则
    repl: 要替换的字符串
    string: 待替换的字符串
    count: 替换的次数0 全部替换 
            1 --> 替换一次
            2 --> 替换两次
            
'''
import re
pattern = 'Java'
repl = 'Python'
string = 'PythonasdkjasdJavaadhuiaghsdkJavaakjsdhkashdkja'
result = re.sub(pattern, repl, string)
print(result)

参数flags

方法1：

ret = re.sub(r"\d+", '998', "python = 997")
print(ret)

运行结果：

python = 998

方法2：

def add(temp):
    strNum = temp.group()
    num = int(strNum) + 1
    return str(num)


ret = re.sub(r"\d+", add, "python = 997 python = 996")
print(ret)

运行结果：

python = 998

2、6 re.compile

使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象。通过该对象提供的一系列方法对文本进行匹配查找，获得匹配结果（Match对象）。编译可以实现更高效的匹配查找等。

compile()函数

compile() 函数用于编译正则表达式，生成一个 Pattern 对象，它的一般使用形式如下：

import re
# 将正则表达式编译成 Pattern 对象
pattern = re.compile('\d+', re.S)

在上面，我们已将一个正则表达式编译成 Pattern 对象，接下来，我们就可以利用 pattern 的一系列方法对文本进行匹配查找了。

将正则表达式字符串编译成正则对象，以便于复用该模式

results1 = re.findall(pattern, '[email protected]')
results2 = re.findall(pattern, "python = 9999， c = 7890， c++ = 12345")
results3 = re.findall(pattern, "python = 997")
print(results1, results2, results3)

示例1：

需求：匹配出0-100之间的数字

#coding=utf-8

import re

ret = re.match("[1-9]?\d"，"8")
print(ret.group())  # 8

ret = re.match("[1-9]?\d"，"78")
print(ret.group())  # 78

# 不正确的情况
ret = re.match("[1-9]?\d"，"08")
print(ret.group())  # 0

# 修正之后的
ret = re.match("[1-9]?\d$"，"08")
if ret:
    print(ret.group())
else:
    print("不在0-100之间")

# 添加|
ret = re.match("[1-9]?\d$|100"，"8")
print(ret.group())  # 8

ret = re.match("[1-9]?\d$|100"，"78")
print(ret.group())  # 78

ret = re.match("[1-9]?\d$|100"，"08")
# print(ret.group())  # 不是0-100之间

ret = re.match("[1-9]?\d$|100"，"100")
print(ret.group())  # 100

示例2：

需求：匹配出163、126、qq邮箱

#coding=utf-8

import re

ret = re.match("\w{4，20}@163\.com"， "[email protected]")
print(ret.group())  # [email protected]

ret = re.match("\w{4，20}@(163|126|qq)\.com"， "[email protected]")
print(ret.group())  # [email protected]

ret = re.match("\w{4，20}@(163|126|qq)\.com"， "[email protected]")
print(ret.group())  # [email protected]

ret = re.match("\w{4，20}@(163|126|qq)\.com"， "[email protected]")
if ret:
    print(ret.group())
else:
    print("不是163、126、qq邮箱")  # 不是163、126、qq邮箱

不是以4、7结尾的手机号码(11位)

import re

tels = ["13100001234"， "18912344321"， "10086"， "18800007777"]

for tel in tels:
    ret = re.match("1\d{9}[0-35-68-9]"， tel)
    if ret:
        print(ret.group())
    else:
        print("%s 不是想要的手机号" % tel)

2、7 原始字符串

>>> mm = "c:\\a\\b\\c"
>>> mm
'c:\\a\\b\\c'
>>> print(mm)
c:\a\b\c
>>> re.match("c:\\\\"，mm).group()
'c:\\'
>>> ret = re.match("c:\\\\"，mm).group()
>>> print(ret)
c:\
>>> ret = re.match("c:\\\\a"，mm).group()
>>> print(ret)
c:\a
>>> ret = re.match(r"c:\\a"，mm).group()
>>> print(ret)
c:\a
>>> ret = re.match(r"c:\a"，mm).group()
Traceback (most recent call last):
  File ""， line 1， in <module>
AttributeError: 'NoneType' object has no attribute 'group'
>>>

Python中字符串前面加上 r 表示原生字符串，

与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"“，那么使用编程语言表示的正则表达式里将需要4个反斜杠”\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。

Python里的原生字符串很好地解决了这个问题，有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

>>> ret = re.match(r"c:\\a"，mm).group()
>>> print(ret)
c:\a

2、8 匹配开头结尾

字符	功能
^	匹配字符串开头
$	匹配字符串结尾

末尾匹配

需求：匹配163.com的邮箱地址

#coding=utf-8

import re

email_list = ["[email protected]"， "[email protected]"， "[email protected]"]

for email in email_list:
    ret = re.match("[\w]{4，20}@163\.com"， email)
    if ret:
        print("%s 是符合规定的邮件地址，匹配后的结果是:%s" % (email， ret.group()))
    else:
        print("%s 不符合要求" % email)

运行结果:

xiaoWang@163.com 是符合规定的邮件地址，匹配后的结果是:xiaoWang@163.com
xiaoWang@163.comheihei 是符合规定的邮件地址，匹配后的结果是:xiaoWang@163.com
.com.xiaowang@qq.com 不符合要求

完善后

email_list = ["[email protected]"， "[email protected]"， "[email protected]"]

for email in email_list:
    ret = re.match("[\w]{4，20}@163\.com$"， email)
    if ret:
        print("%s 是符合规定的邮件地址，匹配后的结果是:%s" % (email， ret.group()))
    else:
        print("%s 不符合要求" % email)

运行结果：

xiaoWang@163.com 是符合规定的邮件地址，匹配后的结果是:xiaoWang@163.com
xiaoWang@163.comheihei 不符合要求
.com.xiaowang@qq.com 不符合要求

万能正则

(.\*?) 匹配除了换行以外的任意字符串。无论长短，最多匹配一次，非贪婪匹配。

这个正则表达式可以解决你想要提取的大部分数据，在写正则表达式的时候可以首先尝试这个组合，也许能达到事半功倍的效果。并且常常结合re.findall()函数。

Python爬虫：Requests与Beautiful Soup库详解 Pu_Nine_9 Python爬虫的学习 python 爬虫 requests beautifulsoup
前言在当今数据驱动的时代，网络爬虫成为了获取网络信息的重要工具。Python作为最流行的爬虫语言之一，拥有丰富的库支持。今天我们就来介绍两个最基础也最强大的爬虫库：Requests和BeautifulSoup，并补充关于lxml解析器和RequestsSession的内容。一、Requests库：让HTTP请求变得简单Requests是一个优雅而简单的HTTP库，它让发送HTTP请求变得非常简单，
【2025最新】AI大模型项目实战教程大揭秘！超详细攻略，手把手带你飞，记得收藏！大模型教程人工智能产品经理大模型大模型教程大数据大模型学习程序员
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
python爬虫登录校验之滑块验证、图形验证码（OCR） yuwinter Python python 爬虫 ocr 滑块验证
在爬虫过程中，验证码和滑块验证是常见的反爬措施。针对这些挑战，通常采用OCR识别图形验证码和模拟滑块拖动来处理滑块验证。以下是如何处理这两种类型验证的详细方法。1.图形验证码（OCR）a.使用tesserocr和Pillow处理图形验证码tesserocr是基于TesseractOCR引擎的Python封装，常用来识别简单的图形验证码。如果验证码不太复杂，可以用它来识别文本。步骤：安装依赖：pip
Python爬虫实战：研究MarkupSafe库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 MarkupSafe
1.引言1.1研究背景与意义随着互联网数据量的爆炸式增长，网页内容自动提取与分析技术在信息检索、舆情监控、数据挖掘等领域的需求日益凸显。网络爬虫作为获取网页内容的核心工具，能够自动化采集互联网信息。然而，直接渲染爬取的网页内容存在安全隐患，特别是跨站脚本攻击（XSS）风险。攻击者可能通过注入恶意脚本窃取用户信息或破坏网站功能。MarkupSafe作为Python的安全字符串处理库，能够有效处理不可
Python爬虫实战：研究sanitize库相关技术 ylfhpy 爬虫项目实战 python 爬虫网络开发语言安全 sanitize
1.引言1.1研究背景与意义在当今数字化时代，互联网已成为人们获取信息、交流互动的重要平台。随着Web2.0技术的发展，用户生成内容(UGC)、社交媒体嵌入、第三方插件等功能极大丰富了网页的内容和交互性，但也带来了严峻的安全挑战。根据Web应用安全联盟(WAS)的统计数据，2025年全球范围内因网页安全漏洞导致的数据泄露事件超过15万起，造成的经济损失高达250亿美元。其中，跨站脚本攻击(XSS)
Python爬虫实战：研究xmltodict库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 xmltodict
1.引言1.1研究背景与意义气象数据在农业生产、交通规划、灾害预警等多个领域具有重要应用价值。传统的气象数据获取方式主要依赖于气象部门发布的统计信息，存在更新不及时、数据维度有限等问题。随着互联网技术的发展，气象网站提供了丰富的实时气象数据，但这些数据通常以HTML、XML等非结构化或半结构化形式存在，难以直接利用。因此，开发高效的数据采集与解析系统具有重要的现实意义。1.2国内外研究现状网络爬虫
Python爬虫实战：研究difflib库相关技术 ylfhpy 爬虫项目实战 python 爬虫 easyui 开发语言前端 difflib
1.引言1.1研究背景与意义在信息爆炸的数字时代，互联网每天产生海量文本内容。据统计，全球新闻网站日均发布文章超过300万篇，社交媒体平台产生的文本信息量更以亿级单位增长。这种信息过载带来了内容同质化、抄袭剽窃等问题，给新闻媒体行业、学术研究领域和搜索引擎优化等带来了挑战。文本相似度分析作为自然语言处理的重要分支，能够有效识别内容间的相似程度，具有重要的应用价值：新闻媒体行业：通过检测新闻抄袭和重
HarmonyOS NEXT仓颉开发语言实现画板案例营养师老鲜 harmonyos 开发语言华为
合集-仓颉教程(29)1.详解鸿蒙仓颉开发语言中的日志打印问题05-212.鸿蒙仓颉开发语言实战教程：实现商城应用首页05-223.鸿蒙仓颉开发语言实战教程：页面跳转和传参05-254.鸿蒙仓颉语言开发教程：页面和组件的生命周期05-285.鸿蒙仓颉语言开发实战教程：购物车页面06-036.鸿蒙仓颉语言开发实战教程：商城登录页06-047.鸿蒙仓颉语言开发实战教程：商城搜索页06-058.鸿蒙仓颉
鸿蒙Next仓颉语言开发实战教程：店铺详情页杨凌晨 harmonyos 华为
合集-仓颉教程(27)1.详解鸿蒙仓颉开发语言中的日志打印问题05-212.鸿蒙仓颉开发语言实战教程：实现商城应用首页05-223.鸿蒙仓颉开发语言实战教程：页面跳转和传参05-254.鸿蒙仓颉语言开发教程：页面和组件的生命周期05-285.鸿蒙仓颉语言开发实战教程：购物车页面06-036.鸿蒙仓颉语言开发实战教程：商城登录页06-047.鸿蒙仓颉语言开发实战教程：商城搜索页06-058.鸿蒙仓颉
HarmonyOS NEXT仓颉开发语言实战案例：动态广场 SSA丝社APP harmonyos 开发语言华为
合集-仓颉教程(29)1.详解鸿蒙仓颉开发语言中的日志打印问题05-212.鸿蒙仓颉开发语言实战教程：实现商城应用首页05-223.鸿蒙仓颉开发语言实战教程：页面跳转和传参05-254.鸿蒙仓颉语言开发教程：页面和组件的生命周期05-285.鸿蒙仓颉语言开发实战教程：购物车页面06-036.鸿蒙仓颉语言开发实战教程：商城登录页06-047.鸿蒙仓颉语言开发实战教程：商城搜索页06-058.鸿蒙仓颉
Python爬虫实战：使用Scrapy+Selenium+Playwright高效爬取Stack Overflow问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 微信开发语言科技 selenium
摘要本文将详细介绍如何使用Python生态中最先进的爬虫技术组合（Scrapy+Selenium+Playwright）来爬取StackOverflow的问答数据。我们将从基础爬虫原理讲起，逐步深入到分布式爬虫、反反爬策略、数据存储等高级话题，并提供完整的可运行代码示例。本文适合有一定Python基础，想要掌握专业级网络爬虫技术的开发者阅读。1.爬虫技术概述1.1为什么选择StackOverflo
Python爬虫实战：使用Scrapy+Selenium+Playwright高效爬取Coursera课程信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 微信开发语言科技 selenium
前言在当今信息爆炸的时代，在线教育平台如Coursera提供了海量的高质量课程资源。对于学习者、教育研究者和数据分析师来说，获取这些平台的课程信息具有重要价值。本文将详细介绍如何使用Python爬虫技术高效爬取Coursera课程信息，并分析其中的技术难点与解决方案。1.Coursera网站分析Coursera是一个典型的现代Web应用，具有以下特点：采用React/Vue等前端框架构建，大量内容
Python爬虫实战：借助工具高效采集微信公众号文章 Python爬虫项目 python 爬虫微信 facebook 音视频开发语言
导语微信公众号作为信息传播的重要平台，涵盖了新闻、技术、生活等各个领域的优质内容。对于数据分析师、内容整理者或研究人员而言，系统地采集公众号文章内容具有重要意义。然而，微信公众号对爬虫设置了较强的反爬机制，直接采集存在一定难度。本文将结合实际案例，介绍如何借助工具和Python技术高效采集微信公众号文章。1.项目目标与需求定义目标：采集指定微信公众号的历史文章，包括标题、链接、发布时间等信息；支持
Qt 各种功能学习笔记栈不收 qt 学习笔记
目录1.Qt关于数据库1.1Qt链接数据库1.2将数据库的模型显示在控件中2.Qt关于控件2.1用正则表达式设置输入框只能输入正浮点数2.2设置QDateTimeEdit的时间格式和设置为当前时间1.Qt关于数据库1.1Qt链接数据库基础教学：使用Qt链接MySql数据库_qt连接mysql_栈不收的博客-CSDN博客需要注意的问题：在链接MySQL的时候，首先要确保MySQL已经安装成功在目录Q
Python爬虫：爬取物流公司运输数据与包裹跟踪信息 Python爬虫项目 python 爬虫开发语言数据挖掘旅游
一、前言随着电商行业的蓬勃发展，物流服务已成为不可或缺的一部分。消费者对物流运输状态的关注越来越高，实时查询包裹的运输进度成为日常生活的一部分。物流公司爬虫正是为了自动化获取物流公司的运输数据和包裹的跟踪信息，帮助消费者、商家以及物流公司本身进行数据分析、优化物流链条和提高客户体验。本文将详细介绍如何使用Python爬虫从多个物流公司网站或API接口中抓取运输数据、包裹跟踪信息以及相关的统计分析数
python 爬虫 selenium作用_详解python爬虫利器Selenium使用方法 weixin_39585974 python 爬虫 selenium作用
简介：用pyhon爬取动态页面时普通的urllib2无法实现，例如下面的京东首页，随着滚动条的下拉会加载新的内容，而urllib2就无法抓取这些内容，此时就需要今天的主角selenium。Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE、MozillaFirefox、MozillaSuite等。使用它爬取页面
Python爬虫网安-request+示例 Whoisshutiao python爬虫网安 python 爬虫开发语言网络安全
目录get&post自定义请求头文件上传添加cookie获取网页使用cookiejarsessionssl证书校验超时身份认证（httpbasicAuth）代理配置get&post#！/usr/bin/envpythonimportrequests#get#r=requests.get('http://httpbin.org/get')#print(r.text)#添加参数的get请求data={
从数据抓取到分析：用Python爬虫获取、清洗与可视化数据程序员威哥 python 爬虫 c++
在数据科学领域，数据的获取、清洗与分析是整个数据处理过程中的关键步骤。随着互联网上数据的不断增多，使用Python爬虫抓取网站数据并进行分析已成为数据科学家和分析师的常见任务。本篇文章将通过具体的实例，展示如何使用Python从零开始抓取数据，清洗数据，并进行数据分析和可视化。1.数据抓取：用Python爬虫获取网页数据1.1选择爬虫工具Python提供了多个强大的爬虫框架和库，常用的工具包括：r
【实战演练】运维工程师初试必胜指南：解析公司笔试真题与技巧分享江湖有缘运维工程师面试专栏运维服务器 Linux 面试求职
【实战演练】运维工程师初试必胜指南：解析公司笔试真题与技巧分享一、填空题1.第1题：修改网卡IP地址2.第2题：基本文件相关命令解释3.第3题：新建用户4.第4题：设置文件权限5.第5题：路由协议RIP6.第6题：ping命令相关7.第7题：创建目录8.第8题：正则表达式9.第9题：列出文件10.第10题：如何查看系统信息11.第11题：重命名文件12.第12题：修改用户密码13.第13题：如何向
Python爬虫实战：研究Bleach库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php 开发语言 Bleach
1.引言在大数据时代，网络内容采集已成为信息获取的重要手段。Python凭借其丰富的爬虫库（如Requests、Scrapy）和灵活的数据处理能力，成为网页爬虫开发的首选语言。然而，从互联网获取的内容往往包含恶意脚本、不安全标签等安全隐患，直接使用可能导致XSS(跨站脚本攻击)、数据泄露等风险。Bleach作为专业的HTML净化库，通过白名单机制提供了可靠的内容安全过滤方案。本文将结合实际案例，详
Python爬虫实战：研究untangle库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php 开发语言 untangle
1.引言在大数据时代，网络数据已成为重要的信息资源。XML和HTML作为互联网上最常用的数据表示格式，广泛应用于API接口、网站结构和数据交换等场景。Python凭借其丰富的爬虫库（如Requests、Scrapy）和灵活的数据处理能力，成为网络数据采集的首选语言。然而，从复杂的XML/HTML文档中提取结构化数据仍然面临诸多挑战，如文档结构多样性、动态内容渲染和数据格式转换等问题。Untangl
Golang动态路由实现：灵活处理URL路径 Golang编程笔记 Golang编程笔记 Golang开发实战 golang 开发语言后端 ai
Golang动态路由实现：灵活处理URL路径关键词：Golang动态路由、URL路径处理、参数化路由、通配符匹配、路由算法、HTTP框架、RESTful设计摘要：本文深入探讨Golang中动态路由的实现原理与实践方法，从基础概念到复杂场景逐步解析。通过对比标准库与第三方框架的路由机制，详细讲解参数捕获、通配符匹配、正则表达式路由等核心技术。结合具体代码示例演示如何构建高性能路由系统，涵盖路由匹配算
Python爬虫短视频平台数据抓取：抓取视频和评论技术方案数据狐（DataFox） 2025年爬虫实战项目 python 爬虫开发语言
一、摘要本方案提供完整的Python爬虫实现流程，涵盖短视频平台(以抖音为例)的视频与评论数据采集技术，包含环境配置、核心代码实现及反爬优化策略。通过模拟浏览器操作、API接口分析及数据持久化处理，实现高效合规的数据采集。二、引言短视频平台数据具有巨大商业价值，但直接爬取面临动态渲染、加密参数等反爬机制挑战。本方案采用混合技术路线，结合网页解析与移动端API分析，平衡效率与成功率。三、环境配置基础
力扣第10题-正则表达式匹配清风序来力扣算法(python)leetcode 正则表达式服务器
力扣链接：10.正则表达式匹配-力扣（LeetCode）给你一个字符串s和一个字符规律p，请你来实现一个支持'.'和'*'的正则表达式匹配。'.'匹配任意单个字符'*'匹配零个或多个前面的那一个元素所谓匹配，是要涵盖整个字符串s的，而不是部分字符串。示例1：输入：s="aa",p="a"输出：false解释："a"无法匹配"aa"整个字符串。示例2:输入：s="aa",p="a*"输出：true解
正则表达式半匹配Markdown中的图片/链接格式薄荷你玩_ 机器学习/深度学习正则表达式 Markdown 大模型
使用正则表达式匹配Markdown中的图片格式，判断文本是否是图片/链接的开头（不完整）：判断文本结尾是否符合Markdown中图片的格式要求Markdown中图片的格式：![图片描述](图片链接)正则表达式：.*\!(\[([^[\]]*(\](\([^)]*)?)?)?)?$defis_incomplete_image_markdown(s):"""检查chunk是否是图片的部分:params
机器学习模型监控警报系统设计：Prometheus+Evidently 实战教程大熊计算机机器学习 prometheus 人工智能
1.系统架构设计：从数据采集到智能告警（1）监控系统核心组件交互图预测请求监控指标告警规则通知渠道预测结果质量报告时序数据模型服务PrometheusExporterPrometheusServerAlertmanager邮件/Slack/WebhookEvidently服务可视化仪表盘图解：系统采用双引擎架构，Prometheus负责基础监控指标采集与告警触发，Evidently执行深度模型分析
Java-Matcher类 Lowjin_ Java 开发语言 java
Matcher类是Java正则表达式API的核心组件之一（位于java.util.regex包），用于执行复杂的字符串匹配操作。它与Pattern类配合使用，提供查找、替换、分组提取等功能。1.Matcher类的作用对输入字符串执行匹配操作（查找、替换等）支持分组提取（通过()捕获的子表达式）提供位置信息（匹配的起始和结束索引）支持多次匹配和重置2.创建Matcher对象Matcher对象必须通过
Java-Scanner类 Lowjin_ Java 开发语言 java
Scanner是Java中一个实用的文本扫描工具类（位于java.util包），主要用于从输入流（如键盘、文件或字符串）中解析基本数据类型和字符串。它通过正则表达式将输入分解为标记（tokens），并提供了多种方法来读取和转换这些标记。1.Scanner的核心功能功能说明读取输入从键盘、文件、字符串等来源读取数据。按类型解析自动将输入的文本转换为int、double、String等类型。分隔符控制
Python爬虫技术实战：高效市场趋势分析与数据采集 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 easyui 汽车
摘要本文将深入探讨如何利用最新的Python爬虫技术进行市场趋势分析，涵盖异步IO、无头浏览器、智能解析等前沿技术，并提供完整可运行的代码示例。文章将系统介绍从基础爬虫到高级反反爬策略的全套解决方案，帮助读者掌握市场数据采集的核心技能。1.市场趋势分析与爬虫技术概述市场趋势分析已成为现代商业决策的核心环节，而数据采集则是分析的基石。根据2024年最新统计，全球83%的企业已将网络爬虫技术纳入其数据
Python 常用正则表达式大全朱公子的Note python 爬虫正则表达式
你是否在写Python爬虫时，总是卡在“正则提取”这一步？明明页面源码已经拿到，却怎么也匹配不到目标数据……不是提取失败，就是提取不全，搞得调试半天还抓不到核心字段？别急！今天我们就来一次**“正则一网打尽”**，专为爬虫而生的表达式宝典，让你写起爬虫来如虎添翼！在当下数据驱动时代，网络数据是企业的“金矿”，而Python爬虫则是挖掘这金矿的“利器”！从电商价格到社交媒体评论，爬虫技术让数据采集变
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

05.数据解析之正则表达式

1、正则表达式

1、1 元字符

\d匹配数字

+ * 匹配多个字符

\d与[](字符集)

使用点匹配任意字符

使用.*匹配任意多个字符

1、2 数量词

1、3 精确匹配与泛匹配

泛匹配

精确匹配

1、4 贪婪匹配与非贪婪匹配

2、re模块

2、1re.match

2、2 re.search

2、3 re.findall

2、4 re.split

2、5 re.sub

2、6 re.compile

示例1：

示例2：

2、7 原始字符串

2、8 匹配开头结尾

末尾匹配

你可能感兴趣的:(python爬虫实战教程,正则表达式)

\d与`[]`(字符集)