小袁ITSuper

100天精通Python—第34天：正则表达式大总结

文章目录

每篇前言
一、正则表达式概述
- 1、语法大全
- 2、修饰符 - 可选标志
- 3、运算符优先级
- 4、实例简单字符匹配
二、re 模块
- 1、re模块操作
- 2、匹配单个字符
- 3、匹配多个字符
- 4、匹配开头结尾
- 5、匹配分组
- 6、高级用法
- - re.search
  - re.findall
  - re.sub
  - re.split
- 7、特殊语法讲解
- - (?:pattern)
  - (?=pattern)
  - (?!pattern)
- 8、python贪婪和非贪婪
- 9、r的作用
- 10、实战案例

每篇前言

作者介绍：Python领域优质创作者、华为云享专家、阿里云专家博主、2021年CSDN博客新星Top6

本文已收录于Python全栈系列专栏：《100天精通Python从入门到就业》

此专栏文章是专门针对Python零基础小白所准备的一套完整教学，从0到100的不断进阶深入的学习，各知识点环环相扣

订阅专栏后续可以阅读Python从入门到就业100篇文章；还可私聊进两百人Python全栈交流群（手把手教学，问题解答）； 进群可领取80GPython全栈教程视频 + 300本计算机书籍：基础、Web、爬虫、数据分析、可视化、机器学习、深度学习、人工智能、算法、面试题等。

加入我一起学习进步，一个人可以走的很快，一群人才能走的更远！

一、正则表达式概述

正则表达式是一个强大的字符串处理工具，几乎所有的字符串操作都可以通过正则表达式来完成，其本质是一个特殊的字符序列，可以方便的检查一个字符串是否与我们定义的字符序列的某种模式相匹配。

在Python中经常会用在：爬虫爬取数据时、数据开发、文本检索和数据筛选的时候常用正则来检索字符串等等，正则表达式已经内嵌在Python中，通过import re模块就可以使用。作为刚学Python的新手大多数都听说“正则”这个术语，本文将详细讲解从正则表达式的基础到Python中正则表达式所有语法，保证所有小白从入门到精通！！！

1、语法大全

由于正则表达式通常都包含反斜杠，所以你最好使用原始字符串来表示它们。模式元素(如 r'\t'，等价于 \\t )匹配相应的特殊字符。

下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数，某些模式元素的含义会改变。

模式	描述
`^`	匹配字符串的开头
`$`	匹配字符串的末尾。
`.`	匹配除 “\n” 之外的任何单个字符。要匹配包括 ‘\n’ 在内的任何字符，请使用象 ‘[.\n]’ 的模式。
`[...]`	用来表示一组字符,单独列出：[amk] 匹配 ‘a’，‘m’或’k’
`[^...]`	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
`re*`	匹配0个或多个的表达式。
`re+`	匹配1个或多个的表达式。
`re?`	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
`re{n}`	匹配n个前面表达式。例如，"o{2}“不能匹配"Bob"中的"o”，但是能匹配"food"中的两个o。
`re{ n,}`	精确匹配n个前面表达式。例如，"o{2,}“不能匹配"Bob"中的"o”，但能匹配"foooood"中的所有o。"o{1,}“等价于"o+”。"o{0,}“则等价于"o*”。
`re{ n, m}`	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
`a\| b`	匹配a或b
`(re)`	匹配括号内的表达式，也表示一个组
`(?imx)`	正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。
`(?-imx)`	正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
`(?: re)`	类似 (…), 但是不表示一个组
`(?imx: re)`	在括号中使用i, m, 或 x 可选标志
`(?-imx: re)`	在括号中不使用i, m, 或 x 可选标志
`(?#...)`	注释.
`(?= re)`	前向肯定界定符。如果所含正则表达式，以 … 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。
`(?! re)`	前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功。
`(?> re)`	匹配的独立模式，省去回溯。
`\w`	匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]’。
`\W`	匹配任何非单词字符。等价于 ‘[^A-Za-z0-9_]’。
`\s`	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
`\S`	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
`\d`	匹配任意数字，等价于 [0-9]。
`\D`	匹配一个非数字字符。等价于 [^0-9]。
`\A`	匹配字符串开始
`\Z`	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。
`\z`	匹配字符串结束
`\G`	匹配最后匹配完成的位置。
`\b`	匹配一个单词边界，也就是指单词和空格间的位置。例如， ‘er\b’ 可以匹配"never" 中的 ‘er’，但不能匹配 “verb” 中的 ‘er’。
`\B`	匹配非单词边界。‘er\B’ 能匹配 “verb” 中的 ‘er’，但不能匹配 “never” 中的 ‘er’。
`\n, \t, 等。`	匹配一个换行符。匹配一个制表符, 等
`\1...\9`	匹配第n个分组的内容。
`\10`	匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。

PS：上表中re代表自己写的某一个具体匹配模式

2、修饰符 - 可选标志

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：

修饰符	描述
`re.I`	使匹配对大小写不敏感
`re.L`	做本地化识别（locale-aware）匹配
`re.M`	多行匹配，影响 ^ 和 $
`re.S`	使 `.` 匹配包括换行在内的所有字符
`re.U`	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
`re.X`	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

3、运算符优先级

正则表达式从左到右进行计算，并遵循优先级顺序，这与算术表达式非常类似。

相同优先级的从左到右进行运算，不同优先级的运算先高后低。下表从最高到最低说明了各种正则表达式运算符的优先级顺序：

运算符	描述
`\`	转义符
`(), (?:), (?=), []`	圆括号和方括号
`*, +, ?, {n}, {n,}, {n,m}`	限定符
`^, $, \任何元字符、任何字符`	定位点和序列（即：位置和顺序）
`\|`	替换，“或"操作字符具有高于替换运算符的优先级，使得”`m\|food`“匹配"m"或"food”。若要匹配"mood"或"food"，请使用括号创建子表达式，从而产生"`(m\|f)ood`"。

4、实例简单字符匹配

实例	描述
`[Pp]ython`	匹配 “Python” 或 “python”
`rub[ye]`	匹配 “ruby” 或 “rube”
`[aeiou]`	匹配中括号内的任意一个字母
`[0-9]`	匹配任何数字。类似于 [0123456789]
`[a-z]`	匹配任何小写字母
`[A-Z]`	匹配任何大写字母
`[a-zA-Z0-9]`	匹配任何字母及数字
`[^aeiou]`	除了aeiou字母以外的所有字符
`[^0-9]`	匹配除了数字外的字符

二、re 模块

1、re模块操作

在Python中需要通过正则表达式对字符串进行匹配的时候，可以使用一个模块，名字为re

1. re模块的使用过程

# 导入re模块
import re

# 使用match方法进行匹配操作
result = re.match(正则表达式,要匹配的字符串)

# 如果上一步匹配到数据的话，可以使用group方法来提取数据
result.group()

2. 示例（匹配以itcast开头的语句）


>>> import re

>>> result = re.match("itcast","itcast.cn")
>>> result.group()
'itcast'

3. re.match(pattern, string, flags=0)

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

参数说明：

pattern：匹配的正则表达式
string：要匹配的字符串。
flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

2、匹配单个字符

在上一小节中，了解到通过re模块能够完成使用正则表达式来匹配字符串

本小节，将要讲解正则表达式的单字符匹配

字符	功能
`.`	匹配任意1个字符（除了\n）
`[ ]`	匹配[ ]中列举的字符
`\d`	匹配数字，即0-9
`\D`	匹配非数字，即不是数字
`\s`	匹配空白，即空格，tab键
`\S`	匹配非空白
`\w`	匹配单词字符，即a-z、A-Z、0-9、_
`\W`	匹配非单词字符

示例1：.的用法

>>> import re

>>> ret = re.match(".","M")
>>> print(ret.group())
M

>>> ret = re.match("t.o","too")
>>> print(ret.group())
too

>>> ret = re.match("t.o","two")
>>> print(ret.group())
two

示例2：[ ]的用法

>>> import re

>>> # 如果hello的首字符小写，那么正则表达式需要小写的h
>>> ret = re.match("h","hello Python")
>>> print(ret.group())
h

>>> # 如果hello的首字符大写，那么正则表达式需要大写的H
>>> ret = re.match("H","Hello Python")
>>> print(ret.group())
H

>>> # 大小写h都可以的情况
>>> ret = re.match("[hH]","hello Python")
>>> print(ret.group())
h
>>> ret = re.match("[hH]","Hello Python")
>>> print(ret.group())
H
>>> ret = re.match("[hH]ello Python","Hello Python")
>>> print(ret.group())
Hello Python

>>> # 匹配0到9第一种写法
>>> ret = re.match("[0123456789]Hello Python","7Hello Python")
>>> print(ret.group())
7Hello Python

>>> # 匹配0到9第二种写法
>>> ret = re.match("[0-9]Hello Python","7Hello Python")
>>> print(ret.group())
7Hello Python

>>> ret = re.match("[0-35-9]Hello Python","7Hello Python")
>>> print(ret.group())
7Hello Python

>>> # 下面这个正则不能够匹配到数字4，因此ret为None
>>> ret = re.match("[0-35-9]Hello Python","4Hello Python")
>>> print(ret.group())
Traceback (most recent call last):
  File "", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

示例3：\d用法

>>> import re

>>> # 普通的匹配方式
>>> ret = re.match("嫦娥1号","嫦娥1号发射成功")
>>> print(ret.group())
嫦娥1号

>>> ret = re.match("嫦娥2号","嫦娥2号发射成功")
>>> print(ret.group())
嫦娥2号

>>> ret = re.match("嫦娥3号","嫦娥3号发射成功")
>>> print(ret.group())
嫦娥3号

>>> # 使用\d进行匹配
>>> ret = re.match("嫦娥\d号","嫦娥1号发射成功")
>>> print(ret.group())
嫦娥1号

>>> ret = re.match("嫦娥\d号","嫦娥2号发射成功")
>>> print(ret.group())
嫦娥2号

>>> ret = re.match("嫦娥\d号","嫦娥3号发射成功")
>>> print(ret.group())
嫦娥3号

其他的匹配符参见后面章节的讲解

3、匹配多个字符

匹配多个字符的相关格式

字符	功能
`*`	匹配前一个字符出现0次或者无限次，即可有可无
`+`	匹配前一个字符出现1次或者无限次，即至少有1次
`?`	匹配前一个字符出现1次或者0次，即要么有1次，要么没有
`{m}`	匹配前一个字符出现m次
`{m,n}`	匹配前一个字符出现从m到n次

示例1：*用法

需求：匹配出，一个字符串第一个字母为大小字符，后面都是小写字母并且这些小写字母可有可无

>>> import re

>>> ret = re.match("[A-Z][a-z]*","M")
>>> print(ret.group())
M

>>> ret = re.match("[A-Z][a-z]*","MnnM")
>>> print(ret.group())
Mnn

>>> ret = re.match("[A-Z][a-z]*","Aabcdef")
>>> print(ret.group())
Aabcdef

示例2：+用法

需求：匹配出，变量名是否有效

import re

names = ["name1", "_name", "2_name", "__name__"]

for name in names:
    ret = re.match("[a-zA-Z_]+[\w]*",name)
    if ret:
        print("变量名 %s 符合要求" % ret.group())
    else:
        print("变量名 %s 非法" % name)

输出结果：

变量名 name1 符合要求
变量名 _name 符合要求
变量名 2_name 非法
变量名 __name__ 符合要求

示例3：?用法

需求：匹配出，0到99之间的数字

>>> import re

>>> ret = re.match("[1-9]?[0-9]","7")
>>> print(ret.group())
7

>>> ret = re.match("[1-9]?\d","33")
>>> print(ret.group())
33

>>> ret = re.match("[1-9]?\d","09")
>>> print(ret.group())
0 # 这个结果并不是想要的，利用$才能解决

示例4：{m}用法

需求：匹配出，8到20位的密码，可以是大小写英文字母、数字、下划线

>>> import re

>>> ret = re.match("[a-zA-Z0-9_]{6}","12a3g45678")
>>> print(ret.group())
12a3g4

>>> ret = re.match("[a-zA-Z0-9_]{8,20}","1ad12f23s34455ff66")
>>> print(ret.group())
1ad12f23s34455ff66

4、匹配开头结尾

字符	功能
`^`	匹配字符串开头
`$`	匹配字符串结尾

示例1： ^用法

需要：匹配以135开头的电话号码

>>> import re

>>> ret = re.match("^135[0-9]{8}","13588888888")
>>> print(ret.group())
13588888888

>>> ret = re.match("^135[0-9]{8}","13512345678")
>>> print(ret.group())
13512345678

# 136开头的没法匹配就会报错
>>> ret = re.match("^135[0-9]{8}","13688888888")
>>> print(ret.group())
Traceback (most recent call last):
  File "", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

示例2：$

需求：匹配出163的邮箱地址，且@符号之前有4到20位，例如hello@163.com

import re

email_list = ["xiaoWang@163.com", "xiaoWang@163.comheihei", ".com.xiaowang@qq.com"]

for email in email_list:
    ret = re.match("[\w]{4,20}@163\.com$", email)
    if ret:
        print("%s 是符合规定的邮件地址,匹配后的结果是:%s" % (email, ret.group()))
    else:
        print("%s 不符合要求" % email)

输出结果：

xiaoWang@163.com 是符合规定的邮件地址,匹配后的结果是:xiaoWang@163.com
xiaoWang@163.comheihei 不符合要求
.com.xiaowang@qq.com 不符合要求

5、匹配分组

字符	功能
`\|`	匹配左右任意一个表达式
`(ab)`	将括号中字符作为一个分组
`\num`	引用分组num匹配到的字符串
`(?P)`	分组起别名
`(?P=name)`	引用别名为name分组匹配到的字符串

示例1：|用法

需求：匹配出0-100之间的数字

>>> import re

>>> ret = re.match("[1-9]?\d","8")
>>> print(ret.group())
8

>>> ret = re.match("[1-9]?\d","78")
>>> print(ret.group())
78

>>> # 不正确的情况
>>> ret = re.match("[1-9]?\d","08")
>>> print(ret.group())
0

>>> # 修正之后的
>>> ret = re.match("[1-9]?\d$","08")
>>> if ret:
...     print(ret.group())
... else:
...     print("不在0-100之间")
...
不在0-100之间

>>> # 添加|
>>> ret = re.match("[1-9]?\d$|100","8")
>>> print(ret.group())  # 8
8

>>> ret = re.match("[1-9]?\d$|100","78")
>>> print(ret.group())  # 78
78

>>> ret = re.match("[1-9]?\d$|100","08")
>>> # print(ret.group())  # 不是0-100之间

>>> ret = re.match("[1-9]?\d$|100","100")
>>> print(ret.group())  # 100
100

示例2：()用法

需求：匹配出163、126、qq邮箱

>>> import re

>>> ret = re.match("\w{4,20}@163\.com", "test@163.com")
>>> print(ret.group())
test@163.com

>>> ret = re.match("\w{4,20}@(163|126|qq)\.com", "test@126.com")
>>> print(ret.group())
test@126.com

>>> ret = re.match("\w{4,20}@(163|126|qq)\.com", "test@qq.com")
>>> print(ret.group())
test@qq.com

>>> ret = re.match("\w{4,20}@(163|126|qq)\.com", "test@gmail.com")
>>> if ret:
...     print(ret.group())
... else:
...     print("不是163、126、qq邮箱")
...
不是163、126、qq邮箱

需求：不是以4、7结尾的手机号码(11位)

import re

tels = ["13100001234", "18912344321", "10086", "18800007777"]

for tel in tels:
    ret = re.match("1\d{9}[0-35-68-9]", tel)
    if ret:
        print(ret.group())
    else:
        print("%s 不是想要的手机号" % tel)

输出结果：

18912344321
10086 不是想要的手机号
18800007777 不是想要的手机号

需求：提取区号和电话号码

>>> import re

>>> ret = re.match("([^-]*)-(\d+)","010-12345678")
>>> print(ret.group())
010-12345678

>>> print(ret.group(1))
010

>>> print(ret.group(2))
12345678

示例3：\用法

需求：匹配出hh

>>> import re

>>> # 能够完成对正确的字符串的匹配
>>> ret = re.match("<[a-zA-Z]*>\w*", "hh")
>>> print(ret.group())
<html>hh</html>

>>> # 如果遇到非正常的html格式字符串，匹配出错
>>> ret = re.match("<[a-zA-Z]*>\w*", "hh")
>>> print(ret.group())
<html>hh</htmlbalabala>

# 正确的理解思路：如果在第一对<>中是什么，按理说在后面的那对<>中就应该是什么

# 通过引用分组中匹配到的数据即可，但是要注意是元字符串，即类似 r""这种格式
>>> ret = re.match(r"<([a-zA-Z]*)>\w*", "hh")
>>> print(ret.group())
<html>hh</html>

# 因为2对<>中的数据不一致，所以没有匹配出来
>>> test_label = "hh"
>>> ret = re.match(r"<([a-zA-Z]*)>\w*", test_label)
>>> if ret:
...     print(ret.group())
... else:
...     print("%s 这是一对不正确的标签" % test_label)
...
<html>hh</htmlbalabala> 这是一对不正确的标签

示例4：\number用法

需求：匹配出

`www.itcast.cn`

import re

labels = ["www.itcast.cn
", "www.itcast.cn
"]

for label in labels:
    ret = re.match(r"<(\w*)><(\w*)>.*", label)
    if ret:
        print("%s 是符合要求的标签" % ret.group())
    else:
        print("%s 不符合要求" % label)

输出结果：

<html><h1>www.itcast.cn</h1></html> 是符合要求的标签
<html><h1>www.itcast.cn</h2></html> 不符合要求

示例5：(?P) (?P=name)用法

需求：匹配出

`www.itcast.cn`

>>> import re

>>> ret = re.match(r"<(?P\w*)><(?P\w*)>.*", "www.itcast.cn
")
>>> print(ret.group())
<html><h1>www.itcast.cn</h1></html>

>>> ret = re.match(r"<(?P\w*)><(?P\w*)>.*", "www.itcast.cn
")
>>> print(ret.group())
Traceback (most recent call last):
  File "", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

注意：(?P)和(?P=name)中的字母p大写

6、高级用法

re.search

re.search 扫描整个字符串并返回第一个成功的匹配；匹配成功re.search方法返回一个匹配的对象，否则返回None。

函数语法：re.search(pattern, string, flags=0)

参数说明：

pattern：匹配的正则表达式
string：要匹配的字符串。
flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

案例：

import re
 
line = "Cats are smarter than dogs"
 
searchObj = re.search( r'(.*) are (.*?) .*', line, re.M|re.I)
 
if searchObj:
   print ("searchObj.group() : ", searchObj.group())
   print ("searchObj.group(1) : ", searchObj.group(1))
   print ("searchObj.group(2) : ", searchObj.group(2))
else:
   print ("Nothing found!!")

输出结果：

searchObj.group() :  Cats are smarter than dogs
searchObj.group(1) :  Cats
searchObj.group(2) :  smarter

re.match与re.search的区别

re.match 只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回 None，而 re.search 匹配整个字符串，直到找到一个匹配。

import re
 
line = "Cats are smarter than dogs"
 
matchObj = re.match( r'dogs', line, re.M|re.I)
if matchObj:
   print ("match --> matchObj.group() : ", matchObj.group())
else:
   print ("No match!!")
 
matchObj = re.search( r'dogs', line, re.M|re.I)
if matchObj:
   print ("search --> matchObj.group() : ", matchObj.group())
else:
   print ("No match!!")

输出结果：

No match!!
search --> matchObj.group() :  dogs

re.findall

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果有多个匹配模式，则返回元组列表，如果没有找到匹配的，则返回空列表。

注意： match 和 search 是匹配一次 findall 匹配所有。

函数语法：re.findall(pattern, string, flags=0)

参数说明：

pattern：匹配的正则表达式
string：要匹配的字符串。
flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

案例：统计出python、c、c++相应文章阅读的次数

>>> import re

>>> ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
>>> print(ret)
['9999', '7890', '12345']

案例：多个匹配模式，返回元组列表

>>> import re

>>> result = re.findall(r'(\w+)=(\d+)', 'set width=20 and height=10')
>>> print(result)
[('width', '20'), ('height', '10')]

re.sub

将匹配到的数据进行替换

函数语法：re.sub(pattern, repl, string, count=0, flags=0)

参数说明（前三个为必选参数，后两个为可选参数。）：

pattern : 正则中的模式字符串。
repl : 替换的字符串，也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。
flags : 编译时用的匹配模式，数字形式。

案例：

>>> import re
>>>
>>> phone = "2004-959-559 # 这是一个电话号码"
>>>
>>> # 删除注释
>>> num = re.sub(r'#.*$', "", phone)
>>> print ("电话号码 : ", num)
电话号码 :  2004-959-559
>>>
>>> # 移除非数字的内容
>>> num = re.sub(r'\D', "", phone)
>>> print ("电话号码 : ", num)
电话号码 :  2004959559

repl 参数是一个函数

案例：将字符串中的匹配的数字乘于 2

import re
 
# 将匹配的数字乘于 2
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)
 
s = 'A23G4HFD567'
print(re.sub('(?P\d+)', double, s))

输出结果：

A46G8HFD1134

re.split

根据匹配进行切割字符串，并返回一个列表

函数语法：re.split(pattern, string[, maxsplit=0, flags=0])

参数说明：

pattern：匹配的正则表达式
string：要匹配的字符串。
maxsplit：分割次数，maxsplit=1 分割一次，默认为 0，不限制次数。
flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

案例：以:或者空格切割字符串“info:xiaoZhang 33 shandong”

>>> import re

>>> ret = re.split(r":| ","info:xiaoZhang 33 shandong")
>>> print(ret)
['info', 'xiaoZhang', '33', 'shandong']

案例：对于一个找不到匹配的字符串而言，split 不会对其作出分割

>>> import re

>>> re.split('a', 'hello world')
['hello world']

7、特殊语法讲解

(?:pattern)

()表示捕获分组，()会把每个分组里的匹配的值保存起来，从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。而(?:)表示非捕获分组，和捕获分组唯一的区别在于，非捕获分组匹配的值不会保存起来。

>>> import re

>>> a = "123abc456"

# 捕获所有分组
>>> ret = re.search("([0-9]*)([a-z]*)([0-9]*)",a)
>>> print(ret.group(1))
123
>>> print(ret.group(2))
abc
>>> print(ret.group(3))
456

# 仅捕获后两个分组
>>> ret = re.search("(?:[0-9]*)([a-z]*)([0-9]*)",a)
>>> print(ret.group(1))
abc
>>> print(ret.group(2))
456
>>> print(ret.group(3)) # 因为第一个括号中的分组并未捕获所有只有两个分组数据
Traceback (most recent call last):
  File "", line 1, in <module>
IndexError: no such group

说明：(?:pattern)匹配 pattern 但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。

(?=pattern)

正向肯定预查（look ahead positive assert），匹配pattern前面的位置。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。

>>> import re

>>> ret = re.search("Windows(?=95|98|NT|2000)","Windows2000")
>>> print(ret.group())
Windows

>>> ret = re.search("Windows(?=95|98|NT|2000)","Windows3.1")
>>> print(ret.group())
Traceback (most recent call last):
  File "", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

说明："Windows(?=95|98|NT|2000)"能匹配"Windows2000"中的 Windows，但不能匹配"Windows3.1"中的 Windows。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。

(?:pattern)和(?=pattern)的区别：

(?:pattern) 匹配得到的结果包含pattern，(?=pattern) 则不包含。如：

>>> import re

# (?:pattern)
>>> ret = re.search("industr(?:y|ies)","industry abc")
>>> print(ret.group())
industry

# (?=pattern)
>>> ret = re.search("industr(?=y|ies)","industry abc")
>>> print(ret.group())
industr

(?:pattern) 消耗字符，下一字符匹配会从已匹配后的位置开始。(?=pattern) 不消耗字符，下一字符匹配会从预查之前的位置开始，如：

(?!pattern)

正向否定预查(negative assert)，在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。

>>> import re

>>> ret = re.search("Windows(?!95|98|NT|2000)","Windows2000")
>>> print(ret.group())
Traceback (most recent call last):
  File "", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'
 
>>> ret = re.search("Windows(?!95|98|NT|2000)","Windows3.1")
>>> print(ret.group())
Windows

说明："Windows(?=95|98|NT|2000)"不能匹配"Windows2000"中的 Windows，但能匹配"Windows3.1"中的 Windows。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。与(?=pattern)相反

8、python贪婪和非贪婪

正则表达式模式中使用到通配字，那它在从左到右的顺序求值时，会尽量“抓取”满足匹配最长字符串。Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪则相反，总是尝试匹配尽可能少的字符。在"*","?","+","{m,n}"后面加上？，使贪婪变成非贪婪。

>>> import re

>>> str = 'www.baidu.com/path'

# ‘+’贪婪模式，匹配1个或多个
>>> ret = re.match(r'\w+', str)
>>> print(ret.group())
www

# ‘+?’非贪婪模式，匹配1个
>>> ret = re.match(r'\w+?', str)
>>> print(ret.group())
w

# {2,5}贪婪模式最少匹配2个，最多匹配5个
>>> ret = re.match(r'\w{2,5}', str)
>>> print(ret.group())
www

# {2,5}?非贪婪模式，匹配两个
>>> ret = re.match(r'\w{2,5}?', str)
>>> print(ret.group())
ww

9、r的作用

与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。

Python里的原生字符串r'很好地解决了这个问题，有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

>>> import re
>>> mm = "c:\\a\\b\\c"
>>> mm
'c:\\a\\b\\c'

>>> print(mm)
c:\a\b\c
>>> re.match("c:\\\\",mm).group()
'c:\\'

>>> ret = re.match("c:\\\\",mm).group()
>>> print(ret)
c:\

>>> ret = re.match("c:\\\\a",mm).group()
>>> print(ret)
c:\a

>>> ret = re.match(r"c:\\a",mm).group()
>>> print(ret)
c:\a

>>> ret = re.match(r"c:\a",mm).group()
Traceback (most recent call last):
  File "", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'
>>>

说明：Python中字符串前面加上 r 表示原生字符串，

>>> ret = re.match(r"c:\\a",mm).group()
>>> print(ret)
c:\a

10、实战案例

练习1：从下面的字符串中取出文本

字符串：

<div>
<p>岗位职责：</p>
<p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p>
<p><br></p>
<p>必备要求：</p>
<p>良好的自我驱动力和职业素养，工作积极主动、结果导向</p>
<p>&nbsp;<br></p>
<p>技术要求：</p>
<p>1、一年以上 Python 开发经验，掌握面向对象分析和设计，了解设计模式</p>
<p>2、掌握HTTP协议，熟悉MVC、MVVM等概念以及相关WEB开发框架</p>
<p>3、掌握关系数据库开发设计，掌握 SQL，熟练使用 MySQL/PostgreSQL 中的一种<br></p>
<p>4、掌握NoSQL、MQ，熟练使用对应技术解决方案</p>
<p>5、熟悉 Javascript/CSS/HTML5，JQuery、React、Vue.js</p>
<p>&nbsp;<br></p>
<p>加分项：</p>
<p>大数据，数理统计，机器学习，sklearn，高性能，大并发。</p>
</div>

参考答案：re.sub(r"<[^>]*>| |\n", "", test_str)

练习2：提取img标签中的图片链接地址

字符串为：

<img data-original="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" src="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" style="display: inline;">

参考答案：re.search(r"https://.*?\.jpg", test_str)

练习3：排除指定字符串

使用^(?!.*abc).*$，其中的abc为要排除的字符串

import re

partten = r'^(?!.*abc).*$'
strs = ['abc222', '111abc222', '111abc', 'defg']
for i in strs:
    print(re.findall(partten, i))

输出结果：

[]
[]
[]
['defg']

分析：

^和$表示从字符串开头开始，匹配到结尾
(?!.*)表示排除形如’…abc’的部分
后面的.*表示’abc’后面还可以有内容

你可能感兴趣的:(python,爬虫,网络爬虫,正则表达式)

DeepSeek 在 Windows 环境下的具体部署步骤及常见问题解决方案 Python测试之道 python 测试提效人工智能 python
DeepSeek是一个开源的智能语义搜索框架，其本地部署可以帮助企业或个人在保证数据隐私的前提下实现快速搜索和检索。以下是针对Windows环境的具体部署步骤以及常见问题的解决方法。一、部署环境要求在Windows环境下部署DeepSeek，需要具备以下条件：1.系统要求Windows10或更高版本64位操作系统2.必备软件Python：推荐Python3.8或以上版本（确保安装时勾选“添加到PA
Rockchip RK3588 Linux SDK 快速入门撸一串代码 RK3588 平台从入门到精通 linux 驱动开发
RockchipRK3588LinuxSDK快速入门目录文章目录RockchipRK3588LinuxSDK快速入门@[toc]1.SDK预编译镜像2.开发环境搭建准备开发环境安装库和工具集检查和升级主机的`python`版本检查和升级主机的`make`版本检查和升级主机的`lz4`版本3.Docker环境搭建4.软件开发指南开发向导芯片资料Buildroot开发指南Debian开发指南第三方OS
基于深度学习YOLOv8的海洋动物检测系统（Python+PySide6界面+训练代码）深度学习&目标检测实战项目深度学习 YOLO python 目标检测人工智能开发语言
引言近年来，计算机视觉技术在各行各业中得到了广泛的应用，特别是在智能监控、自动驾驶、医疗诊断等领域。深度学习，尤其是卷积神经网络（CNN）的出现，极大地提高了计算机处理图像和视频的能力。在这一领域，YOLO（YouOnlyLookOnce）系列模型以其高效且准确的目标检测能力，成为了当下最为流行的深度学习模型之一。在海洋生物保护、海洋环境监测等应用中，快速识别和检测海洋动物种类对于科学研究和保护工
我用DeepSeek写代码一周后，发现了这些惊人的秘密 fangwulongtian python 开发语言人工智能
大家好，我是武哥。作为一名有着10年开发经验的程序员，最近我深度体验了DeepSeek的代码能力，不得不说，这款国产大模型给了我太多惊喜。今天，我要和大家分享使用DeepSeek一周以来的心得体会，以及我发现的一些不为人知的"秘密武器"。1.惊人发现一：超强的代码理解能力1.1精准的代码解析先看一个实际案例：# 一个较为复杂的Python类class DataProcessor: def _
python利用matplotlib画图湘妞妞 matplotlib python 开发语言
一、折线图importmatplotlib.pyplotasplty1=[10,13,5,40,30,60,70,12,55,25]x1=range(0,10)x2=range(0,10)y2=[5,8,0,30,20,40,50,10,40,15]plt.plot(x1,y1,label='Fristline',linewidth=3,color='r',marker='o',markerfac
python学习环境 HelloWorld！ python使用 python
python学习环境python的安装Anaconda的安装Anaconda虚拟环境pythonIDE的选择pycharm项目的环境变量选择从这篇文章开始，记录python学习的过程。本篇从python学习的环境开始展开。python的安装我主要是在windows环境下进行python3的学习。我所了解到主要有两种常见的python安装方法。直接在python官方网站上下载python，然后进行安
python原生代码中的列表，元组和数组的区别,一个表格搞明白涛涛讲AI AI编程效率工具 python 开发语言
经常搞混，以备后用。在Python原生代码里，数组一般是指由array模块创建的数组，下面以表格形式呈现列表、元组和array模块数组的区别：在Python原生代码里，数组一般是指由array模块创建的数组，下面以表格形式呈现列表、元组和array模块数组的区别：对比维度列表（list）元组（tuple）数组（array.array）定义语法使用方括号[]定义，元素间用逗号分隔。示例：my_lis
实现python命令行 FLY@CYX python 服务器 linux
如何在python程序中自定义python命令行输入参数及相关提示呢？让我们来学习一下吧。1.首先明确用到的模块，要导入optparse和sys模块，前者用于解析参数，后者用于获取终端参数。2.其次编写readcommand函数，具体实现如代码所示，大致流程可理解为：编写提示词->添加可选参数项->解析参数,并取得参数->返回处理参数后得到的字典，便于后续调用。importsysdefdefaul
Python-Matplotlib可视化（2）——自定义颜色绘制精美统计图 2401_87373347 python matplotlib 开发语言
使用自定义颜色绘制曲线图使用自定义颜色绘制散点图为所有点使用相同的颜色为每个点定义不同的颜色为散点图中数据点的边使用自定义颜色使用自定义颜色绘制条形图使用自定义颜色绘制饼图使用自定义颜色绘制箱型图使用色彩映射绘制散点图使用色彩映射绘制条形图创建自定义配色方案系列链接前言matplotlib提供的所有绘图都带有默认样式。虽然这可以进行快速绘图，但有时可能需要自定义绘图的颜色和样式，以对绘制更加精美、
Python基于Django的漏洞扫描系统【附源码、文档说明】 Java老徐 Python 毕业设计 python django 漏洞扫描系统漏洞扫描 Python漏洞扫描系统 Python Django
博主介绍：✌Java老徐、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2024-2025年Java毕业设计选题推荐Python基于Django的微博热搜、微博舆论可视化系统（V3.0）基于PythonDjango的北极星招聘数据可视化系统感兴趣的可以先收
什么是python uv，如何在windows上安装uv，基础的用法有哪些？几道之旅 python uv windows
什么是PythonUV？UV是由Astral公司（Rust工具Ruff的开发者）推出的高性能Python包管理工具，基于Rust编写，旨在替代传统的pip和pip-tools。其核心优势在于极快的速度（比pip快10-100倍）、轻量级设计（仅几十MB）以及现代化的依赖管理（支持pyproject.toml和uv.lock文件）。UV集成了虚拟环境管理、Python版本控制、依赖解析等功能，目标是
正则表达式--元字符-边界符（3）叶不休正则表达式 javascript 前端 css3 chrome css html
边界元字符1.^------表示开头2.$------表示结尾Documentconstreg1=/\d///表示字符串至少出现一个数字console.log(reg1.test('abc123def'))//trueconstreg2=/^\d///表示字符串开头是一个数字console.log(reg2.test('abc123def'))//falseconsole.log(reg2.tes
汽车行业汽车召回数据爬虫：抓取汽车召回数据，分析产品质量和安全问题西攻城狮北汽车爬虫安全 python 实战案例
目录一、搭建开发环境1.依赖库安装2.配置虚拟环境（可选）二、目标网站分析1.网页结构分析2.动态内容识别三、编写爬虫代码1.从静态页面抓取数据1.1获取页面内容1.2解析HTML1.3完整示例2.抓取动态加载内容2.1配置Selenium和ChromeDriver2.2模拟浏览器抓取3.处理分页四、数据清洗与存储1.数据清洗2.数据存储五、数据分析与可视化1.数据分析2.数据可视化六、项目优化1
【Python爬虫①】专栏开篇：夯实Python基础奔跑吧邓邓子 Python爬虫 python 爬虫开发语言基础知识
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、Python语法基础2.1变量2.2数据类型2.3运算
Blazor 组件库 BootstrapBlazor 中Editor组件介绍虚幻私塾 python 计算机
优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统组件介绍Editor组件是对Summernote组件的二次封装。组件分为div模式和editor模式。默认状态下edito
Python学习笔记 - 探索正则表达式re元字符 Mr数据杨 Python 编程基础正则表达式 python 编程基础元字符
在Python编程中，正则表达式（RegularExpressions，简称re）是一种强大的工具，用于匹配字符串中的特定模式。无论是在数据清洗、文本解析，还是在日常脚本编写中，正则表达式都可以极高的效率完成复杂的字符串操作任务。然而，正则表达式的语法略显复杂，尤其是其中的元字符（Metacharacters），初学者在使用时往往感到困惑。本教程旨在通过详细的概念解释、操作指导以及实际应用示例，帮
python面试题 python
以下是一些Python面试题：一、基础语法Python中的列表（list）和元组（tuple）有什么区别？答案：可变性：列表是可变的，可以修改列表中的元素、添加或删除元素；元组是不可变的，一旦创建就不能修改。语法：列表使用方括号[]定义，元组使用圆括号()定义（单个元素的元组需要在元素后面加逗号，如(1,)）。性能：由于元组的不可变性，在某些情况下元组的性能比列表略高，例如在用作字典的键时（字典的
Python机器学习舆情分析项目案例分享数澜悠客数字化转型 python 机器学习开发语言
数据收集与准备1.数据收集多样化数据源：从社交媒体平台（如微博、Twitter）、新闻网站、论坛等多渠道收集数据，以获取更全面的舆情信息。可以使用Python的requests库和网页解析库（如BeautifulSoup）进行网页数据爬取，使用Tweepy库获取Twitter数据。数据标注：对于监督学习，需要对收集到的数据进行标注，标记为积极、消极或中性等类别。可以使用人工标注的方式，也可以利用半
开源ERP系统odoo的安装与配置 catmes 开源 ERP python postgresql OpenERP
开源ERP系统odoo的安装与配置安装下载源码安装PostgreSQL安装Python3下载odoo依赖配置启动安装安装方式有两种:分发包安装:https://www.odoo.com/documentation/16.0/administration/install/packages.html源码安装:https://www.odoo.com/documentation/16.0/adminis
2月第五讲：深度剖析 Python 编程中的数据处理与机器学习应用 2501_90442144 python 机器学习开发语言
一、引言在当今数字化时代，编程已经成为推动各个领域发展的关键力量。Python作为一种高级编程语言，以其简洁、易读、功能强大等特点，在数据处理、机器学习、人工智能等众多领域得到了广泛的应用。本文将深入探讨Python在数据处理和机器学习方面的应用，通过实际案例展示其强大的功能和灵活性，帮助读者更好地理解和掌握Python编程在这些领域的应用技巧。二、Python基础概述2.1Python的特点与优
对正则表达式说不！！！哒啵Q297 正则表达式
可能大家都会和我一样，时常会遇到正则表达式，有时候会忘记某些字符而苦恼。今天就帮助大家克服它，虽然不多，但我认为掌握这些足够了，万变不离其宗，以不变应万变。一、正则表达式内容分类1.字符类[abc]：匹配方括号内的任意一个字符，如a、b或c。[^abc]：匹配方括号内不在的任意一个字符，即匹配除a、b、c之外的任何字符。[a-z]：匹配任意一个小写字母（范围从a到z）。[A-Z]：匹配任意一个大写
基于Python实现的缓存淘汰替换策略算法，该算法将缓存分区 go5463158465 算法 python python 缓存算法
以下是一个基于Python实现的缓存淘汰替换策略算法，该算法将缓存分区，并根据不同分区的优先级进行淘汰，同时会自适应地调整缓存汰换的时机和力度，还会与GPTCache自带的LRU和FIFO策略进行对比。importtimefromgptcache.managerimportCacheBase,VectorBase,get_data_managerfromgptcache.processor.pre
正则表达式(竞赛篇) alien爱吃蛋挞 Java java
为了更深入了解正则表达式，我们需要首先学习与正则表达式有关的类以及方法。如Pattern和Matcher类，以及部分字符串方法。我们这里先将简单的字符串方法(String类)进行讲解在Java中，String类提供了许多用于字符串操作的方法，其中matches()、split()和replaceAll()等方法是非常有用的几个。这些方法在进行字符串匹配、分割和替换操作时非常高效。同时，Java也提
Python中的序列类型-列表 Merlyn10 Python python
在Python中的序列类型包括：列表（list）,元组（tuple）,字典（dict)和集合（set）。list和tuple较为相似，都按顺序保存元素，占用一块连续的内存，通过索引访问元素。不同之处在于list可以修改，而tuple不可以修改。dict和set存储的数据是无序的，每个元素占用不同的内存。列表（List）1.所有元素，放在一对中括号[]里，相邻元素“，”分隔；2.同一个列表可以包含不
【2023】LeetCode HOT 100——滑动窗口&子串「已注销」 leetcode 算法数据结构
目录1.无重复字符的最长子串1.1C++实现1.2Python实现1.3时空分析2.找到字符串中所有字母异位词2.1C++实现2.2Python实现2.3时空分析3.和为K的子数组3.1C++实现3.2Python实现3.3时空分析4.滑动窗口最大值4.1C++实现4.2Python实现4.3时空分析5.最小覆盖子串5.1C++实现5.2Python实现5.3时空分析1.无重复字符的最长子串原题链
python期权定价：欧式香草期权-二叉树 2401_88673555 期权定价 python 金融
1、函数实现：binomial_european_option_price函数基于二叉树模型计算欧式期权的价格，其中：二叉树构建：通过上涨因子u=e^(σ√Δt)和下跌因子d=1/u模拟标的资产价格路径。风险中性概率：p=(e^(rΔt)-d)/(u-d)，用于计算未来现金流的期望值。折现因子：df=e^(-rΔt)，将未来价值折现到当前。初始化到期价值：计算到期时所有可能价格路径的期权内在价值。
爬虫自动化之drissionpage实现随时切换代理ip 十一姐 python爬虫逆向案例中高级爬虫自动化代理
目录一、视频二、dp首次启动设置代理三、dp利用插件随时切换代理一、视频视频直接点击学习SwitchyOmega插件使用其它二、dp首次启动设置代理fromDrissionPageimportChromiumPage,ChromiumOptionsfromloguruimportloggerco
pythonweb项目实例-Python Web项目实战Day05 - 编写Web框架 weixin_39593427
在正式开始Web开发前，我们需要编写一个Web框架。aiohttp已经是一个Web框架了，为什么我们还需要自己封装一个？原因是从使用者的角度来说，aiohttp相对比较底层，编写一个URL的处理函数需要这么几步：第一步，编写一个用@asyncio.coroutine装饰的函数：@asyncio.coroutinedefhandle_url_xxx(request):pass第二步，传入的参数需要自
一个神奇的自动化爬虫利器 - DrissionPagae Art_s 自动化爬虫运维
DrissionPagaeDrissionPage：类似selenuium的网页自动化工具。这是一个基于Python的网页自动化工具，支持Chromium内核浏览器。它将控制浏览器和收发请求两大功能合二为一，并提供了统一、简洁的接口。环境操作系统：Windows、Linux或Mac。python版本：3.6及以上支持应用：Chromium内核浏览器（如Chrome、Edge），electron应用
【OpenCV】双目相机计算深度图和点云 AI大权计算机视觉 opencv 双目相机点云 python
双目相机计算深度图的基本原理是通过两台相机从不同角度拍摄同一场景，然后利用视差来计算物体的距离。本文的Python实现示例，使用OpenCV库来处理图像和计算深度图。1、数据集介绍Mobilestereodatasets由PanGuanghan、SunTiansheng、TobyWeed和DanielScharstein在2019-2021年期间创建的，使用了RogerDai、KyleMeredi
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 alxw4616@msn.com * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，