*Labyrinthine Leo

爬虫入门—数据解析基础之正则表达式

爬虫入门—数据解析基础之正则表达式

Author： Labyrinthine Leo Init_time： 2021.02.22

Key Words： Spider、re

公众号：Leo的博客城堡

爬虫网页数据解析

**前言：**前几节学习了如何使用requests模块对普通静态页面和异步加载数据页面信息进行爬取，这些都是对整个网页获取数据或者获取响应的json数据，还未涉及到开头之前降到的聚焦爬虫中的数据解析。从这一节开始进行网页数据解析的案例实战。

1、爬虫常用的数据解析分类：

正则表达式（万金油）
Beautiful Soup库
xpath方法（最常用）

2、爬虫数据解析原理概述

其实聚焦爬虫中关注的局部文本内容，通常是在页面HTML源码中的标签之间或者标签对应的属性中。

进行指定标签的定位
标签或者标签对应的属性中存储的数据值进行提取解析

正则表达式

1、概要

正则表达式，大家应该听得很熟了，那它到底是什么，为什么爬虫中经常使用，那就一看究竟。

正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。通俗理解：就是使用一种规则性的表达式来寻找文本字符串中通用的数据。

这里博主为了方便大家快速入门，只会对基础的语法知识进行讲解，如要进阶还需查阅更多官网文档。

2、常见语法

正则表达式包括普通字符和特殊字符，而这里的特殊字符其实就是元字符，因此本文主要对元字符进行简单讲解。

2.1、点（`.`）

点（.）可以匹配所有字符：匹配出换行符以外的任意单个字符（按行匹配）

示例：

# coding  : utf-8
# fun     : 正则表达式demo
# @Author : Labyrinthine Leo
# @Time   : 2021.02.01

import re

content = """苹果是绿色的
橙子是橙色的
香蕉是黄色的
乌鸦是黑色的
"""

p = re.compile(r'.色')
for one in p.findall(content):
    print(one)

注意：re模块是使用正则表达式的python官方库，在使用之前需要进行import，其中re.compile()表示对正则表达式进行编译，将普通的字符串编译为可通配的正则表达式。p.findall(content)用于在文本中通过表达式进行匹配数据。结果如下：

2.2、星号（`*`）

星号（*）重复匹配任意次：表示匹配前面的子表达式任意次，包括0次

示例：

# coding  : utf-8
# fun     : 正则表达式demo
# @Author : Labyrinthine Leo
# @Time   : 2021.02.01

import re

content = """苹果，是绿色的
橙子，是橙色的
香蕉，是黄色的
乌鸦，是黑色的
猴子，
"""

p = re.compile(r'，.*')
for i in p.findall(content):
    print(i)

解析：'，.*'表示匹配前面一个字符是全角逗号，后面紧接着多个字符，可以发现结果都是按行匹配的。结果如下：

2.3、加号（`+`）

加号（+）重复匹配多次：表示匹配前面的子表达式一次或多次，不包括0次（用法同上）

2.4、花括号（`{}`）

花括号（{}）匹配指定次数：表示前面的字符匹配指定的次数，其表示范围（最小次数和最大次数）

示例：

# coding  : utf-8
# fun     : 正则表达式demo
# @Author : Labyrinthine Leo
# @Time   : 2021.02.01

import re

content = """
红彤彤，绿油油，黑乎乎，绿油油油
"""
p = re.compile(r"绿油{3,4}")
for i in p.findall(content):
    print(i)

解析：'绿油{3,4}'表示匹配绿字且紧接着的油字出现最少3次最多4次的字符串，符合的只有绿油油油和绿油油油油。结果如下：

2.5、问号（`？`）

问号（？）匹配0或1次：表示前面的字符匹配0或1次，等价于{0,1}

2.6、贪婪模式和非贪婪模式

假设我们需要将下面字符串中所有的html标签提取出来：

source = 'Title'

得到这样的列表：

['','',''</span><span class="token punctuation">,</span><span class="token string">'']

于是我们使用以下代码：

import re
p = re.compile(r'<.*>')
print(p.findall(source))

出现的匹配结果如下：

['Title']

我们代码中r'<.*>'表示匹配所以包含左右尖括号，中间含任意个字符的字符串，即我们想要的html标签，但是匹配的结果与我们预想的并不一样，这是为何呢？因为我们前面讲述的*、+、?都是贪婪性质的，所谓贪婪，是指其尽可能匹配更多的字符内容。而在这里我们想要的是让其一个标签一个标签的匹配，那就需要非贪婪模式，非贪婪模式其实就在匹配次数后加?即可，这里的话我们使用r'<.*?>'会发现即可将标签一个一个匹配出来。

示例：

# coding  : utf-8
# fun     : 正则表达式demo
# @Author : Labyrinthine Leo
# @Time   : 2021.02.01

import re

source = 'Title'
p = re.compile(r'<.*?>')
print(p.findall(source))

结果如下：

2.7、反斜杠（`\`）

反斜杠（\）对元字符转义：在正则表达式中有多种用途

比如说，点表示匹配任意单个字符，如果我们本身需要匹配点这个字符，则需要使用其进行转义，示例：

# coding  : utf-8
# fun     : 正则表达式demo：反斜杠转义
# @Author : Labyrinthine Leo
# @Time   : 2021.02.01

import re

content = """
苹果. 是绿色的
橙子. 是橙色的
香蕉. 是黄色的
乌鸦. 是黑色的
"""
p = re.compile(r'.*\.')
for i in p.findall(content):
       print(i)

结果：

反斜杠后面接一些字符，表示匹配某种类型的单个字符：

\d 匹配0-9之间任意一个数字字符，等价于表达式 [0-9]

\D 匹配任意一个不是0-9之间的数字字符，等价于表达式 [^0-9]

\s 匹配任意一个空白字符，包括空格、tab、换行符等，等价于表达式 [\t\n\r\f\v]

\S 匹配任意一个非空白字符，等价于表达式 [^ \t\n\r\f\v]

\w 匹配任意一个文字字符，包括大小写字母、数字、下划线，等价于表达式 [a-zA-Z0-9_]。注意：缺省情况也包括 unicode文字字符，如果指定 ASCII码标记，则只包括ASCII字母。示例：
# coding  : utf-8
# fun     : 正则表达式demo：多行匹配
# @Author : Labyrinthine Leo
# @Time   : 2021.02.01

import re

source = """
王亚辉
tony
刘文典
"""

p = re.compile(r'\w{2,4}',re.A) # re.A参数表示匹配ASCII字符
print(p.findall(source))
结果：

\W 匹配任意一个非文字字符，等价于表达式 [^a-zA-Z0-9_]

2.8、方括号（`[]`）

方括号（[]）匹配单个字符：即匹配其中包含的字符，如[abc]可以匹配abc中的任意一个字符；[a-z]匹配范围内的字符；[^a-z]表示非小写字母。

2.9、起始位置和单行、多行模式

^表示匹配文本的起始位置，正则表达式中可以设定单行模式和多行模式。如果是单行模式，表示匹配整个文本的开头位置；如果是多行模式，表示匹配文本每行的开头位置。

示例：

# coding  : utf-8
# fun     : 正则表达式demo：多行匹配
# @Author : Labyrinthine Leo
# @Time   : 2021.02.01

import re

content = """
001-苹果价格-60，
002-橙子价格-70,
003-香蕉价格-80,
"""

# 欲匹配编号，如果使用'\d+'则会将价格也匹配到，所以要匹配开头位置的信息
p = re.compile(r'^\d+', re.M) # 添加开头信息标识符，M表示MULTILINE，多行模式
print(p.findall(content))

结果：

$ 表示匹配文本的结束位置，单行多行同上，如\d+$。

2.10、括号（`()`）：组选择

括号（()）称之为正则表达式的组选择，即从正则表达式匹配的内容里面扣取出其中的某些需要的部分。

示例：

# coding  : utf-8
# fun     : 正则表达式demo：组选择
# @Author : Labyrinthine Leo
# @Time   : 2021.02.01

import re

content = """
苹果，是绿色的
橙子，是橙色的
香蕉，是黄色的
乌鸦，是黑色的
"""

p = re.compile(r'^(.*)，', re.M)
for i in p.findall(content):
    print(i) # 打印的是组选择

结果：

注：如果多行匹配的多个组，则每一行都是一个组选择的元组

示例：

# coding  : utf-8
# fun     : 正则表达式demo：多行多个组选择
# @Author : Labyrinthine Leo
# @Time   : 2021.02.01

import re

content = """
张三，手机号码15945678901
李四，手机号码13945677701
王二，手机号码13845666901
"""

p = re.compile(r'^(.+)，.+(\d{11})', re.MULTILINE)
for one in  p.findall(content):
    print(one)

结果：

2.11、正则表达式切割字符串

示例：

# coding  : utf-8
# fun     : 正则表达式demo：切割字符串
# @Author : Labyrinthine Leo
# @Time   : 2021.02.01

import re

names = '关羽; 张飞, 赵云,   马超, 黄忠  李逵'
namelist = re.split(r'[;,\s]\s*', names)
print(namelist)

结果：

2.12、匹配换行符

前面说过，点（.）不能匹配换行符，如果我们使用时想让其匹配换行符，可以在compile()方法中添加re.DOTALL参数。

2.13、匹配模式替换

使用sub方法进行替换

示例：

# coding  : utf-8
# fun     : 正则表达式demo：sub方法模式替换
# @Author : Labyrinthine Leo
# @Time   : 2021.02.01

import re

names = '''
下面是这学期要学习的课程：
点击这里，边看视频讲解，边学习以下内容
这节讲的是牛顿第2运动定律
'''
newStr = re.sub(r'/av\d+?/', '/cn345677/', names)
print(newStr)

结果：

使用指数函数替换

示例：

# coding  : utf-8
# fun     : 正则表达式demo：指数函数模式替换
# @Author : Labyrinthine Leo
# @Time   : 2021.02.01

import re

names = '''
下面是这学期要学习的课程：
点击这里，边看视频讲解，边学习以下内容
这节讲的是牛顿第2运动定律
点击这里，边看视频讲解，边学习以下内容
这节讲的是毕达哥拉斯公式
点击这里，边看视频讲解，边学习以下内容
这节讲的是切割磁力线
'''
# 替换函数，参数是 Match对象
def subFunc(match):
    # Match对象 的 group(0) 返回的是整个匹配上的字符串
    src = match.group(0)

    # Match对象 的 group(1) 返回的是第一个group分组的内容
    number = int(match.group(1)) + 6
    dest = f'/av{number}/'

    print(f'{src} 替换为 {dest}')

    # 返回值就是最终替换的字符串
    return dest

newStr = re.sub(r'/av(\d+?)/', subFunc , names)
print(newStr)

结果：

临渊羡鱼不如退而结网
创作不易，如果您觉得这篇文章对你有用，可以点个赞，算是对笔者的支持和激励！这里是Leo的博客城堡，以Python为核，ML&DL为主，泛之形形色色，输寥寥拙见，摄浮光掠影，讲三两故事。临渊羡鱼，不如退而结网，持续干货输出，有趣的灵魂值得你的关注！
原文可以去笔者的github主页：https://github.com/LabyrinthineLeo/Yxs_Git_Learning_repos查看（如果可以，点个star也无妨呀，嘿嘿）。

你可能感兴趣的:(Spider入门,python,爬虫,正则表达式)

基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
Python标准模块--importlib
作者：zhbzz2007出处：http://www.cnblogs.com/zhbzz2007欢迎转载，也请保留这段声明。谢谢！1模块简介Python提供了importlib包作为标准库的一部分。目的就是提供Python中import语句的实现（以及__import__函数）。另外，importlib允许程序员创建他们自定义的对象，可用于引入过程（也称为importer）。什么是imp？另外有一个
Python模块的动态加载机制 weixin_30632089 运维 python
Python在运行环境初始化中，就将sysmodule加载到了内存中，实际上，Python是将一大批的module加载到了内存中。但是为了使local名字空间能够达到最干净的效果，Python并没有将这些符号暴露在当前的local名字空间中，而是需要用户显式的通过import机制通知Python：需要将这个符号引入到local名字空间中。这些预先被加载进内存的module存放在sys.module
python学习打卡：DAY 18 推断聚类后簇的类型西西西仓鼠 python训练营 python 学习聚类
@浙大疏锦行聚类后的分析：推断簇的类型知识点回顾：推断簇含义的2个思路：先选特征和后选特征通过可视化图形借助ai定义簇的含义科研逻辑闭环:通过精度判断特征工程价值作业：参考示例代码对心脏病数据集采取类似操作，并且评估特征工程后模型效果有无提升。在聚类分析中，推断簇的类型是理解数据内在结构和业务意义的关键步骤。以下是系统化的推断方法及常见簇类型的总结：一、簇的基本类型明显分离的簇特征：不同簇中任意两
python 协程进阶 cliffordl async python python 开发语言
python协程实现python协程进阶python生成器的作用协程在多个模型流式输出中的使用实例文章目录1.协程基础1.1.协程名词解释1.2.基本工作流程1.3.async协程执行1.3.1.协程顺序执行（asyncio.run）1.3.2.协程顺序执行（await）1.3.3.协程同步执行（asyncio.create_task）2.可等待对象（Awaitables）2.1.Coroutin
python 基于 httpx 的流式请求
文章目录1.环境介绍2.同步客户端2.1.面向过程2.1.1.流式输出2.1.2.非流式输出2.2.面向对象3.异步客户端3.1.面向过程3.2.面向对象3.3.Attemptedtocallasynciteratoronanasyncstream.参考：https://www.jb51.net/article/262636.htm次要参考：https://blog.csdn.net/gitblo
Python实现动态加载模块的方法后端架构魔法构筑者 Python
在Python中，动态加载模块是一种常见的技术，它允许我们在运行时根据需要加载和使用模块，而不是在程序启动时就将所有模块都导入。这种方式可以提高程序的灵活性和性能。下面我将详细介绍几种实现动态加载模块的方法，并提供相应的源代码示例。使用importlib模块importlib是Python的一个内置模块，它提供了一些函数来实现动态加载模块。下面是一个简单的示例：importimportlibdef
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
Python打卡Day11 常见的调参方式
核心知识：1.模型=算法+实例化设置的外参（超参数）+训练得到的内参2.只要调参就需要考2次所以如果不做交叉验证，就需要划分验证集和测试集，但是很多调参方法中都默认有交叉验证，所以实际中可以省去划分验证集和测试集的步骤基线模型（基准模型）:首先运行一个使用默认参数的模型，记录其性能作为比较的基准。超参数调整数据1.网格搜索(GridSearchCV):-需要定义参数的网格（param_grid），
Python爬虫实战：深入无限滚动页面抓取原理与Playwright实现 Python爬虫项目 python 爬虫开发语言区块链 json
一、前言：无限滚动页面的挑战在现代Web开发中，「无限滚动（InfiniteScrolling）」早已取代了传统的分页模式。以微博热搜流、知乎首页、抖音推荐页为例，用户向下滚动时会自动加载更多内容，这种体验虽提升了交互性，却让传统爬虫面临巨大挑战：页面初始只加载一部分内容剩余内容由JavaScript在滚动事件中动态加载requests类爬虫无法感知页面行为为什么传统爬虫抓不到数据？因为页面数据不
autodl云计算平台使用ollama 部署lightrag 加入streamlit界面 42fourtytoo 云计算深度学习 pytorch 学习
1到autodl的算力市场里开一台机器镜像选择：PyTorch2.3.0、Python3.12(ubuntu22.04)、Cuda12.1我本来选择的Cuda12.4，但版本过高疑似会使ollama不使用GPU而只用CPU，后来换个镜像就好了2下载lightrag从lightrag的GitHub界面下载zip开机，上传zip，解压到autodl-tmp/lightrag下安装依赖，在文件夹下：pi
YOLO V8+Python训练手写数字识别 yuanpan YOLO python 开发语言
以下是针对Windows11+Python环境的详细步骤说明，从数据集整理到模型训练，全部适配YOLOv8流程。1.数据集整理（MNIST→YOLO格式）1.1下载MNIST数据集MNIST数据集可通过Python直接下载（无需手动下载）：python复制fromtorchvision.datasetsimportMNISTimportos#自动下载MNIST数据集（图片和标签）train_dat
python学智能算法（二十七）|SVM-拉格朗日函数求解上西猫雷婶机器学习人工智能 python学习笔记支持向量机 python 机器学习算法人工智能
【1】引言前序学习进程中，我们已经掌握了支持向量机算法中，为寻找最佳分割超平面，如何用向量表达超平面方程，如何为超平面方程建立拉格朗日函数。本篇文章的学习目标是：求解SVM拉格朗日函数。【2】求解方法【2.1】待求解函数支持量机算法的拉格朗日函数为：L(w,b,α)=12∥w∥2−∑i=1mαi[yi(w⋅xi+b−1)]L(w,b,\alpha)=\frac{1}{2}{\left\|w\rig
Python importlib 动态加载 cliffordl python python 数据库开发语言
文章目录1.importlib库概述2.导入模块（import_module()）2.1.导入已安装的模块2.2.导入子模块2.3通过字符串变量导入模块3.重新加载模块（reload()）4.检查模块是否存在（find_spec()）5.获取模块路径（find_spec().origin）6.加载.py文件为模块（spec_from_file_location()）7.读取模块资源（importl
Python爬虫实战：研究Korean库相关技术 ylfhpy 爬虫项目实战 python 爬虫 easyui korean
一、引言1.1研究背景与意义随着韩流文化在全球的传播，韩语网页内容急剧增加。韩国在科技、娱乐等领域的信息具有重要研究价值。然而，韩语独特的黏着语特性（如助词体系、词尾变化）给信息处理带来挑战。传统爬虫缺乏对韩语语言特点的针对性处理，本研究旨在开发一套完整的韩语网页内容分析系统，填补这一技术空白。1.2研究目标与方法研究目标：设计高效的韩语网页爬虫框架实现精准的韩语内容识别与处理构建多维度的韩语内容
Python爬虫实战：研究Genius库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 genius
1.引言在当今数字化时代，音乐数据的分析与挖掘成为了音乐学、计算机科学等领域的研究热点。歌词作为音乐的重要组成部分，蕴含着丰富的情感、文化和社会信息。通过对歌词数据的分析，可以揭示音乐风格的演变、流行趋势的变化以及社会情绪的波动等。Genius是一个专注于歌词解析与音乐知识分享的平台，拥有大量的歌词文本以及用户对歌词的注释和解读。Genius提供了API接口，允许开发者获取歌曲、艺术家和歌词等信息
【Python】通过注释插桩替换代码实现开源自动化 ChrisEighteen18 python python
需求提出在特定的标签注释后写上开源后的代码实现开源替换答疑解惑调用如下的代码即可实现defreplace_java_code_in_one_line_by_tag(patch_file_path,update_java_code_line_tag):"""本方法对包含update_java_code_line_tag的之前本行内所有内容进行删除操作;适用于对java文件的代码替换，即在包含upda
python量化实战_Python与量化投资从基础到实战.pdf weixin_39841709 python量化实战
作者：王小川出版发行:北京：电子工业出版社,2018.03ISBN号：978-7-121-33857-1页数：408原书定价:99.00开本:16开主题词:软件工具-程序设计-应用-投资中图法分类号:F830.59-39(经济->财政、金融->金融、银行->金融、银行理论)内容提要:本书主要讲解如何利用Python进行量化投资，包括对数据的获取、整理、分析挖掘、信号构建、策略构建、回测、策略分析等
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
Python量化实战：基于索提诺比率的价值投资策略回测量化价值投资入门到精通 python 网络开发语言 ai
Python量化实战：基于索提诺比率的价值投资策略回测关键词：Python量化分析、索提诺比率、价值投资策略、回测框架、风险调整收益、下行风险、量化实战摘要：本文深入探讨如何利用Python构建基于索提诺比率（SortinoRatio）的价值投资策略，并通过完整的回测框架验证策略有效性。首先解析索提诺比率的数学原理与核心优势，对比传统夏普比率的差异；其次详细演示价值投资策略的构建步骤，包括低估值因
Python+Allpairspy实战：高效正交法测试用例设计全攻略聪明的一休哥哥测试开发技术大全 python 测试用例自动化测试
引言：正交法的核心价值正交实验法是一种通过科学筛选参数组合来优化测试用例设计的技术。其核心思想是从所有可能的参数组合中，选择最具代表性的N个组合进行测试，既能显著减少用例数量（通常可减少30%-70%），又能保证覆盖关键场景。例如：传统全组合测试：3因素×3水平=27种组合正交法优化后：仅需4-9种组合即可覆盖核心场景1、Allpairspy库安装与基础使用1.1、安装命令pipinstallal
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
Python包高级开发技术：性能优化与系统集成软考和人工智能学堂 Python开发经验深度学习强化学习 python 性能优化开发语言
引言掌握Python包的高级开发技术是构建工业级应用的关键。本文将深入探讨Python包的性能优化策略、C扩展开发、异步IO集成以及跨语言互操作等高级主题，帮助你将Python包提升到专业水平。1.性能优化技术1.1性能分析工具链#性能分析工具矩阵perf_tools={'cProfile':'标准库分析器，提供函数级耗时统计','line_profiler':'行级分析器，需要@profile装
2、Python 测试全攻略：自动化与驱动开发辣条鉴定师 Python测试自动化测试测试驱动开发
Python测试全攻略：自动化与驱动开发1.测试的乐趣与收益编程过程中，测试常被视为徒劳或浪费时间的事。但实际上，测试可以变得轻松有趣且富有成效。比如回忆一下曾遇到的恼人bug，可能是数据库模式不匹配、数据结构错误等。若有一小段代码能在恰当时间捕捉到该bug并告知你，而所有代码都配有这样易执行的测试代码，那bug存活时间会大大缩短。基本思路是用简单易写的代码片段告知计算机期望结果，让计算机在编码过
华为OD机考2025B卷 - 表达式括号匹配（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od java python javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述(1+(2+3)*(3+(8+0))+1-2)这是一个简单的数学表达式,今天不是计算它的值,而是比较它的括号匹配是否正确。前面这个式子可以简化为(()(()))这样的括号我们认为它是匹配正确的,而((())这样的我们就说他是错误的。注意括号里面的表达式可能是错
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
Python.03 唯怡委员 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程是Linux中资源分配的基本单位，代表程序在内存中的执行实例，拥有独立的地址空间和系统资源。通过ps、top命令查看，kill命令终止，或使用systemctl管理服务进程。线程是进程内的轻量级执行单元，共享进程资源（如内存），切换开销小。Linux通过POSIX线程（pthread）库实现，可用htop查
Python.01 唯怡委员 python
Python.011.技术面试题（1）TCP与UDP的区别是什么？（2）DHCP和DNS的作用是什么？（3）简述Linux文件系统的目录结构，其中/boot、/var、/usr目录的作用分别是什么？（4）Linux系统突然无法访问外网，但内网通信正常。请列出至少5个可能的故障点及排查步骤。2.HR面试题（1）假如你成功入职，却发现直属领导能力远不如你，你会如何与他共事？（2）你简历上的经历并不突出
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他