骇客567

深入浅出Python正则表达式：原理与应用

1、元字符

^ 匹配开始位置

text = 'https://www.baidu.com/'
match = re.match('^http', text)
print(match) # 

text = '今天是2023年10月15日'
match = re.match('^http', text)
print(match) # None


text = """http://www.baidu.com
https://www.baidu.com/
ftp://192.168.1.1
"""
# 支持多行匹配
match = re.findall('^http.*', text, re.MULTILINE)
print(match) # ['http://www.baidu.com', 'https://www.baidu.com/']

$ 匹配结束位置

text = 'code_img.jpg'
# 只匹配jpg结尾的字符
match = re.findall('.*jpg$', text)
print(match) # ['code_img.jpg']

text = 'code_img.png'
match = re.findall('.*jpg$', text)
print(match) # []


text = """code_img.jpg
photo.png
qrcode.jpg"""
# 支持多行匹配
match = re.findall('.*jpg$', text, re.MULTILINE)
print(match)

. 除换行外的任意字符

text = """今天，
是10月1.5日\n。"""
match = re.findall('.', text)
print(match)
['今', '天', '，', '是', '1', '0', '月', '1', '.', '5', '日', '。']

匹配前面的子表达式零次或多次（bo* 可以匹配 boooool,book,boy,by）

text = 'boooool,book,boy,by'
# bo* 匹配b或bo开始的字符
match = re.findall('bo*', text)
print(match)
['booooo', 'boo', 'bo', 'b']

匹配前面的子表达式一次或多次（bo+ 可以匹配 boooool为booooo,book为boo,boy为bo,不会匹配b）

text = 'boooool,book,boy,by'
# bo+ 匹配必须bo开始的字符串
match = re.findall('bo+', text)
print(match)
['booooo', 'boo', 'bo']

? 匹配前面的子表达式零次或一次，ab? 会匹配 ‘a’ 或者 ‘ab’
(. * ?都是贪婪的匹配尽量多的，加上?后就变成非贪婪的)

text = 'boooool,book,boy,bo,by'
match = re.findall('bo?', text)
print(match) # ['bo', 'bo', 'bo', 'bo', 'b']

| 或关系 a|b 匹配a或b

text = '我们，还会。在网站上、使用网站！和像素标签。'
match = re.findall('，|、|！|。', text)
print(match) 
['，', '。', '、', '！', '。']

\ 转义字符(如果没有使用r’')

text = 'this * is book.'
match = re.findall('.', text)
print(match)
['t', 'h', 'i', 's', ' ', '*', ' ', 'i', 's', ' ', 'b', 'o', 'o', 'k', '.']
# 将.字符转义为普通字符
match = re.findall('\.', text)
print(match)
['.']

text = 'F:\\comcode\\Java'
# 匹配路径
match = re.findall('\\\\Java', text)
print(match)
['\\Java']

\d 匹配任意单个数字

text = '10月25日'
match = re.findall('\d', text)
print(match)
['1', '0', '2', '5']

\D 匹配任意单个非数字

text = '10月25日'
match = re.findall('\D', text)
print(match)
['月', '日']

\w 匹配任意除标点符号外的单个字符

text = '1.0月25日.'
match = re.findall('\w', text)
print(match)
['1', '0', '月', '2', '5', '日']

\W 与\w 正好相反，匹配标点符号（包括换行符、制表符等）

text = '1.0月25日.'
match = re.findall('\W', text)
print(match)
['.', '.']

\s 匹配任意空白，空格、换行、制表等等 [ \t\n\r\f\v]

text = """\ftab space enter
"""
match = re.findall('\s', text)
print(match)
['\x0c', ' ', ' ', '\n']

\S 匹配任意非空白

text = """\ftab space enter
"""
match = re.findall('\S', text)
print(match)
['t', 'a', 'b', 's', 'p', 'a', 'c', 'e', 'e', 'n', 't', 'e', 'r']

\b 表示单词边界。它匹配一个单词的开始或结束的位置，不匹配实际的字符,意思就是 r’\bfoo\b’ 匹配 ‘foo’, ‘foo.’, ‘(foo)’, ‘bar foo baz’ 但不匹配 ‘foobar’ 或者 ‘3foo’。

text = 'foo foo.(foo)bar foo baz'
match = re.findall(r'\bfoo\b', text)
print(match)
['foo', 'foo', 'foo', 'foo']

text = 'foobar 3foo'
match = re.findall(r'\bfoo\b', text)
print(match)
[]

\B 与\b相反，就是r’py\B’ 匹配 ‘python’, ‘py3’, ‘py2’, 但不匹配 ‘py’, ‘py.’, 或者 ‘py!’

text = 'xfoobar 3fooy'
match = re.findall(r'\Bfoo\B', text)
print(match)

[] 匹配 [] 中任意一个字符

text = 'https://www.baidu.com;http://www.douyin.com'
match = re.findall('[abcd]', text)
print(match)
['b', 'a', 'd', 'c', 'd', 'c']

text = """今日访问统计 https://www.baidu.com 5679 次"""
# 匹配所有数字
match = re.findall('[0-9]', text)
print(match)
['5', '6', '7', '9']
# 匹配所有字母
match = re.findall('[a-z]', text)
print(match)
['h', 't', 't', 'p', 's', 'w', 'w', 'w', 'b', 'a', 'i', 'd', 'u', 'c', 'o', 'm']

# 匹配所有汉字
match = re.findall('[\u4e00-\u9fa5]', text)
print(match)
['今', '日', '访', '问', '统', '计', '次']

text = """今日访问统计 https://www.baidu.com 5679 次"""
# [^a-z]表示匹配不包含a-z的所有字符
match = re.findall('[^a-z]', text)
print(match)

{m}匹配 {}前面的字符 m 次

text = 'boookbookbooookbok'
# 匹配3次o
match = re.findall('bo{3}', text)
print(match)
['booo', 'booo']

# 匹配至少2次o
match = re.findall('bo{2,}', text)
print(match)
['booo', 'boo', 'boooo']

# 匹配至少2次o，最多3次o
match = re.findall('bo{2,3}', text)
print(match)
['booo', 'boo', 'booo']

# 加上?后变成非贪婪模式，只匹配尽量少的字符次数 bo{2,3}? 只匹配2个o
match = re.findall('bo{2,3}?', text)
print(match)
['boo', 'boo', 'boo']

? 当该字符紧跟在任何一个其他限制符*, +, ?, {n}, {n,}, {n,m}后面时，表示非贪婪模式，尽可能少的匹配



text = "This is a sample
"
# .* 匹配除了\n之外任意字符0次或多次
# 贪婪模式，<.*> 匹配<>中尽可能多的内容
matches = re.findall(r"<.*>", text)
print(matches)
['This is a sample
']

# 非贪婪模式，近可能少的匹配<>中的内容
matches = re.findall(r"<.*?>", text)
print(matches)
['', '', '', '
']

# .+ 匹配除了\n之外任意字符1次或多次
matches = re.findall(r"<.+>", text)
print(matches)

# 非贪婪模式
matches = re.findall(r"<.+?>", text)
print(matches)

() 分组将括号中的内容当作整体对待

# (?aiLmsux)  
# 'a', 'i', 'L', 'm', 's', 'u', 'x' 对应 re.A (只匹配ASCII字符), re.I (忽略大小写), re.L (语言依赖), re.M (多行模式), re.S (点dot匹配全部字符), re.U (Unicode匹配), and re.X (冗长模式)
# 忽略大小写
text = "HI have 2 cat and 3 cot."
matches = re.findall(r"h(?i)", text)
print(matches)
['H', 'h']


text = "HI has 42 apples and 30 oranges."
# 使用正则表达式查找匹配数字的位置，同时使用命名组将数字命名为 "num"
pattern = re.compile(r"(?P\d+)")
matches = pattern.finditer(text)

for match in matches:
    start, end = match.span()
    matched_text = text[start:end]
    number = match.group("num")
    print(f"Matched: {matched_text}, Number: {number}")

Matched: 42, Number: 42
Matched: 30, Number: 30

# (?Pexp)	为分组命名
text = 'cook  120yuan'
pattern = re.compile(r'(?Po+).*?(?P\d+)')
match = pattern.search(text)
print(match.group('name'))
# oo
print(match.group('price'))
# 120

# (?P=name)	引用命名为的分组匹配到的字符串，例如 (?Pd)abc(?P=name)
text = 'cook-is-book'
pattern = re.compile(r'(?Po+).*(?P=name)')
match = pattern.search(text)
print(match.group())
# ook-is-boo

text = "01x86acf"
# (?=exp)	匹配字符串前的位置
match = re.findall(r'(?=x86).', text)
print(match)
['x']

# (?<=exp)	匹配字符串后的位置
match = re.findall(r'(?<=x86).', text)
print(match)
['a']

# (?!exp)	不匹配字符串前的位置
match = re.findall(r'(?!x86).', text)
print(match)
['0', '1', '8', '6', 'a', 'c', 'f']

# (?
match = re.findall(r'(?, text)
print(match)
['0', '1', 'x', '8', '6', 'c', 'f']

2、re 模块

2.1 正则表达式标志

re.A 或 re.ASCII
让 \w, \W, \b, \B, \d, \D, \s 和 \S 只匹配ASCII 字符，而不是Unicode。

text = "This is an example text 我是 567 Hello, world! "
matches = re.findall(r'\w+', text)
# 正常匹配结果，使用Unicode匹配
print(matches) # ['This', 'is', '我是', '567', 'Hello', 'world']
matches = re.findall(r'\w+', text, re.ASCII)
# 只匹配ASCII
print(matches) # ['This', 'is', '567', 'Hello', 'world']

re.I 或 re.IGNORECASE
匹配时忽略字母的大小写；表达式如 [A-Z] 也会匹配小写字符。默认 Unicode匹配（比如 Ü 匹配 ü）。

text = "Helloü, world! "
match = re.findall(r'helloÜ', text, re.IGNORECASE)
print(match) # ['Helloü']

re.L 或 re.LOCALE
由当前语言区域决定 \w, \W, \b, \B 和大小写敏感匹配。这个标记只能对byte样式有效。这个标记不推荐使用，因为语言区域机制很不可靠，3.7 不能在编译模式中使用。

text = "Café".encode()  # 包含特定字符 'é'
matches = re.findall(b'.*', text, re.LOCALE)

print(matches) # [b'Caf\xc3\xa9', b'']

re.M 或 re.MULTILINE
用于多行匹配，会影响 ^ 和 $ 会匹配每一行的开头和结尾，而不仅仅是整个文本的开头和结尾。

当不使用 re.MULTILINE 时，^ 和 $ 分别匹配整个字符串的开头和结尾。
当使用 re.MULTILINE 时，^ 和 $ 分别匹配每一行的开头和结尾。

text = '''no1: Hello
no2:World,
no3:im BUlie
line4:ok'''
matches = re.findall(r'^no\d+', text, re.MULTILINE)

print(matches) # ['no1', 'no2', 'no3']

re.S 或 re.DOTALL
让 ‘.’ 特殊字符匹配任何字符，包括换行符。

当不使用 re.S 时，. 只匹配除了换行符以外的任何字符。
当使用 re.S 时，. 会匹配包括换行符在内的任何字符。

text = """我是布鲁斯.
im learn re module,
are you ok."""

# 使用默认标志，不匹配换行符
matches = re.findall(r'.+', text)
print(matches) # ['我是布鲁斯.', 'im learn re module,', 'are you ok.']	

# 使用 re.S 标志，匹配包括换行符在内的任何字符
matches = re.findall(r'.+', text, re.S)
print(matches) # ['我是布鲁斯.\nim learn re module,\nare you ok.']

re.X 或 re.VERBOSE
在复杂的正则表达式中添加注释和空白字符，以提高可读性，以#开始注释。

text = "张三: 35, 李四: 28, 王大王: 42,"

# 使用 re.X 标志，更可读的正则表达式
matches = re.findall(r'''
    (?P\w+): \s*     # 匹配名字
    (?P\d+),\s*      # 匹配年龄
''', text, re.X)
print(matches) # [('张三', '35'), ('李四', '28'), ('王大王', '42')]

2.2 混合使用

text = '''no1: Hello
No2:World,
no3:im BUlie
line4:ok
NO5:bad'''
# 匹配多行，并且忽略大小写
matches = re.findall(r'^no\d+', text, re.MULTILINE | re.IGNORECASE)

print(matches)
# ['no1', 'No2', 'no3', 'NO5']

2.3 函数

re.compile(pattern, flags=0)
将正则表达式的样式编译为一个正则表达式对象，可以用于匹配，通过这个对象的方法 match(), search() ，如果需要多次使用这个正则表达式的话，使用 re.compile() 可以让程序更加高效。

text1 = '10月，住建部公布2022年城市建设统计年鉴'
text2 = '城区总人口突破1000万'

pattern = re.compile(r'\d+')  # 编译一个匹配数字的正则表达式
match = pattern.findall(text1)
print(match) # ['10', '2022']
match = pattern.findall(text2)
print(match) # ['1000']

re.search(pattern, string, flags=0)
扫描整个 字符串 找到匹配样式的第一个位置，并返回一个相应的匹配对象。如果没有匹配，就返回一个 None 。

text = '今年10月，住建部公布2022年城市建设统计年鉴'
match = re.search(r'\d+', text)
print(match) # 返回一个匹配对象
print(match.group()) # 返回第一个匹配到的 10

re.match(pattern, string, flags=0)
如果 string 开始的0或者多个字符匹配到了正则表达式样式，就返回一个相应的匹配对象。如果没有匹配，就返回 None 。注意即便是 MULTILINE 多行模式， re.match() 也只匹配字符串的开始位置，而不匹配每行开始。

text = '2023年10月，住建部公布2022年城市建设统计年鉴'
match = re.match(r'^\d+', text)
print(match) # 返回匹配对象
print(match.group()) # 如果匹配到了 就返回 2023

text = """
今年10月，城区总人口突破
1000万
"""
match = re.match(r'^\d+', text, re.MULTILINE)
print(match) # None 多行的情况也只匹配第一行

re.fullmatch(pattern, string, flags=0)
如果整个 string 匹配到正则表达式样式，就返回一个相应的匹配对象。否则就返回一个 None 。

text = "123456789"
match = re.fullmatch(r"\d+", text)
print(match) # 匹配对象
print(match.group()) # 123456789

text = "123456789a"
match = re.fullmatch(r"\d+", text)
print(match) # None

re.split(pattern, string, maxsplit=0, flags=0)
用 pattern 分开 string 。如果在 pattern 中捕获到括号，那么所有的组里的文字也会包含在列表里。如果 maxsplit 非零，最多进行 maxsplit 次分隔，剩下的字符全部返回到列表的最后一个元素。

text = """Since 2004, providing @ music events.
ok big project"""

# \W+ 使用多个任何非单词字符作为分隔符
match = re.split('\W+', text)  
print(match)
['Since', '2004', 'providing', 'music', 'events', 'ok', 'big', 'project']

# 加上()会将分隔符也返回
match = re.split('(\W+)', text)  
print(match)
['Since', ' ', '2004', ', ', 'providing', ' @ ', 'music', ' ', 'events', '.\n', 'ok', ' ', 'big', ' ', 'project']

# 只分割2次
match = re.split('(\W+)', text, maxsplit=2)  
print(match)
['Since', ' ', '2004', ', ', 'providing @ music events.\nok big project']

# 没有匹配到分隔符就返回原字符串
match = re.split('xyz', text)  
print(match)
['Since 2004, providing @ music events.\nok big project']

# 使用多个分隔符
match = re.split('[,@.\n]', text)  
print(match)
['Since 2004', ' providing ', ' music events', '', 'ok big project']

# 匹配字符串中数字
text = '2003从2004年10月3日'
match = re.split(r'[^0-9]+', text)
print(match)
['2003', '2004', '10', '3', '']

# 忽略字符串大小写，并匹配数字
text = "9peopleBeen2hours30Minutesand15Seconds"
match = re.split(r'[a-z]+', text, flags=re.IGNORECASE)
print(match)

# 分割路径中的盘符、目录名、文件名、后缀
text = 'D:\\comcode\\Java\\disruptor-master\\gradlew.ext'
match = re.split('[\\\, .]', text)
print(match)
['D:', 'comcode', 'Java', 'disruptor-master', 'gradlew', 'ext']

re.findall(pattern, string, flags=0)
对 string 返回一个不重复的 pattern 的匹配列表， string 从左到右进行扫描，匹配按找到的顺序返回。会返回一个列表包含所有匹配结果，空匹配也会包含在结果里。

text = "9peopleBeen2hours30Minutesand15Seconds"
match = re.findall(r"\d+", text)
print(match)
['9', '2', '30', '15']

re.finditer(pattern, string, flags=0)
pattern 在 string 里所有的非重复匹配，返回为一个迭代器 iterator 保存了匹配对象。 string 从左到右扫描，匹配按顺序排列。空匹配也包含在结果里。

from collections.abc import Iterable
text = "9peopleBeen2hours30Minutesand15Seconds"
matches = re.finditer(r"\d+", text)
isiterable = isinstance(match, Iterable) 
print(isiterable) # True
for match in matches:
    print("Match found:", match.group())

re.sub(pattern, repl, string, count=0, flags=0)
如果 repl 是字符串将匹配到的结果，替换为 repl（其中任何反斜杠转义序列都会被处理）。如果 repl 是函数，就替换为函数的返回值。如果样式没有找到，则不加改变地返回 string。

text = '今年10月，住建部公布2022年城市建设统计年鉴'

# 将所有数字字符替换为*
result = re.sub(r'\d', '*', text)
print(result)
# 今年**月，住建部公布****年城市建设统计年鉴

# 将所有连续数字字符替换成一个*
result = re.sub(r'\d+', '*', text)
print(result)
# 今年*月，住建部公布*年城市建设统计年鉴


text = """
关注数：66
粉丝数：988
IP 属地：山东
"""
matches = re.findall(r'', text)
print(matches)

# 匹配html标签中的数据
for match in matches:
    tmp = re.sub('', '', match)
    res = re.sub('

', '', tmp)
    print(res)

# 关注数：66
# 粉丝数：988
# IP 属地：山东


text = '今天是2023年11月25日'

# ()将匹配到的数据进行分组 \1 \2 \3 表示分组后的索引
# 将中文日期格式化
result = re.sub("(\d{4})年(\d{2})月(\d{2})日", r"\1-\2-\3", text)
print(result)

# repl可以是自定义的函数
text = 'today this cote sale 75% off'
def add_sale(match) -> str:
    '''返回匹配的值加5'''
    value = match.group()
    return str(int(value) + 5)


result = re.sub(r'(\d+)', add_sale, text)
print(result)
# today this cote sale 80% off

re.subn(pattern, repl, string, count=0, flags=0)
行为与 sub() 相同，但是返回一个元组 (字符串, 替换次数).

text = '今天是2023年11月25日'
result = re.subn("\d+", r"*", text)
print(result)
# ('今天是*年*月*日', 3)

re.escape(pattern)
转义 pattern 中的特殊字符。正则表达式中使用特殊字符（例如 .，*，+，? 等）时，我们需要在它们前面加上一个反斜杠 \ 来避免与正则表达式的特殊含义冲突。re.escape 可以自动识别并转义

text = '今年是[2023]年(兔年)，人口增长了5.6%'
result = re.escape(text)
print(result)
# 今年是\[2023\]年\(兔年\)，人口增长了5\.6%

re.purge()
清除正则表达式缓存。

pattern = re.compile(r"\d+")
text = "123 456 789"
result = pattern.findall(text)
print("Matches:", result)

re.purge()  # 清除缓存

pattern = re.compile(r"[A-Z]+")
text = "HELLO WORLD"
result = pattern.findall(text)
print("Matches:", result)

3、常用的匹配规则

匹配 ipv4 地址

text = '192.168.1.1; 255.255.255.255; 0.0.0.0。0.1.2.1 266.344.123.1'
ipv4_pattern = r"\b(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\b"

match = re.findall(ipv4_pattern, text)
print(match)
['192.168.1.1', '255.255.255.255', '0.0.0.0', '0.1.2.1']

匹配 Email 地址

text = '[email protected];[email protected];[email protected]'
email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,7}\b'
match = re.findall(email_pattern, text)
print(match)
['[email protected]', '[email protected]', '[email protected]']

匹配手机号

text = '13809182233; 19278676767'
phone_pattern = '\+?[1-9]\d{1,14}'
match = re.findall(phone_pattern, text)
print(match)

匹配空白行

text = """
Hello

World


This is a blank line.
"""
pattern = r"^\s*$"
matches = re.findall(pattern, text, re.MULTILINE)

print(matches)  # 输出：['\n', '\n', '\n']

匹配网址

url_pattern = r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'
text = "Visit our website at https://www.example.com:8080/index?query=example or check out this FTP link: ftp://ftp.example.com"

matches = re.findall(url_pattern, text)
print(matches)

你可能感兴趣的:(Python,python,正则表达式)

python汇率_用Python抓取汇率
抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
Python爬虫实战：使用最新技术爬取头条新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言：Python爬虫在现代数据获取中的重要性在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为数据获取的重要手段，网络爬虫技术在各个领域发挥着越来越重要的作用。Python凭借其简洁的语法、丰富的库生态系统和强大的社区支持，已经成为网络爬虫开发的首选语言。本文将详细介绍如何使用Python及其最新的爬虫技术来爬取头条新闻数据。我们将从基础概念讲起，逐步深入到高级技巧，最后给出完整的爬虫
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
【Python】（一）面试题和Py基础题戏精亿点点菜 python 开发语言
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（TransmissionControlProtocol，传输控制协议）提供的是面向连接，可靠的字节流服务。即客户和服务器交换数据前，必须现在双方之间建立一个TCP连接，之后才能传输数据。并且提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP（UserDataProtocol，用户数据报协议）是一个简单
Python 爬虫实战：实时采集外汇汇率数据的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南一、项目概述大家好！今天给大家带来一个干货满满的实战项目——基于ESP32S3硬件和Python后端的智能语音助手系统。这个项目将物联网技术与AI技术完美结合，打造一个可以实时对话、意图识别的智能语音交互系统。相比传统的离线语音系统只能识别固定命令词，我们这套系统可以：实现自然语言理解，支持多种表达方式无需预设固定命令词，更
Python 领域 pytest 的测试用例的可维护性设计
Python领域pytest的测试用例的可维护性设计关键词：pytest、测试用例、可维护性、测试框架、自动化测试、测试设计模式、重构摘要：本文深入探讨了如何在Python测试框架pytest中设计可维护的测试用例。我们将从测试用例可维护性的核心原则出发，分析pytest的特性和最佳实践，介绍多种提高测试代码可维护性的设计模式和技巧。文章包含实际代码示例、项目实战案例以及可维护性评估指标，帮助开发
Python爬虫小白入门指南，成为大牛必须经历的三个阶段
学习任何一门技术，都应该带着目标去学习，目标就像一座灯塔，指引你前进，很多人学着学着就学放弃了，很大部分原因是没有明确目标，所以，一定要明确学习目的，在你准备学爬虫前，先问问自己为什么要学习爬虫。有些人是为了一份工作，有些人是为了好玩，也有些人是为了实现某个黑科技功能。不过可以肯定的是，学会了爬虫能给你的工作提供很多便利。小白入门必读作为零基础小白，大体上可分为三个阶段去实现。第一阶段是入门，掌握
python 包管理工具uv
uv--versionuvpythonfinduvpythonlistexportUV_DEFAULT_INDEX="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"#换成私有的repoexportUV_HTTP_TIMEOUT=120uvpythoninstall3.12uvvenvmyenv--python3.12--seeduvhtt
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
C语言正则表达式使用详解
标准的C和C++都不支持正则表达式，但有正则表达式的函数库提供这功能.C语言处理正则表达式常用的函数有regcomp()、regexec()、regfree()和regerror()。使用正则表达式步骤：1)编译正则表达式regcomp()2)匹配正则表达式regexec()3)释放正则表达式regfree()4)获取regcomp或者regexec产生错误，获取包含错误信息的字符串函数声明如下：
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
Python 爬虫实战：精准抓取母婴电商平台数据，深入分析用户评价洞察市场趋势程序员威哥最新爬虫实战项目 python 爬虫开发语言
前言随着生活水平的提高，越来越多的年轻父母开始关注母婴产品的质量和品牌。而母婴电商平台成为了他们选择和购买产品的主要渠道之一。母婴产品市场也因此变得异常活跃且充满竞争。在这样的市场环境下，用户评价不仅反映了产品的实际质量，也揭示了消费者的需求和偏好，成为品牌决策的核心依据之一。Python爬虫是获取电商平台用户评价数据、产品详情、价格等关键信息的强大工具。通过抓取和分析这些数据，品牌商可以实时了解
*Python爬虫应用：从社交媒体数据中提取有价值的用户行为洞察程序员威哥 python 爬虫媒体
引言在现代数字化时代，社交媒体已成为获取用户行为数据的重要来源。每秒钟，数百万条信息在平台上传播，用户的互动行为——点赞、评论、分享、关注等，构成了大量宝贵的行为数据。企业和个人通过分析这些数据，不仅可以理解用户需求、改进产品，还能精准制定营销策略。然而，如何高效地抓取、分析并从中提取有价值的用户行为洞察？这正是Python爬虫和数据分析技术的优势所在。本文将介绍如何利用Python爬虫从社交媒体
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
python 异步编程：协程与 asyncio 花_城 Python 开发语言后端异步协程
文章目录一、协程（coroutine）1.1协程的概念1.2实现协程的方式二、asyncio异步编程2.1事件循环2.2快速上手2.3运行协程2.4await关键字2.5可等待对象2.5.1协程2.5.2任务（Task）2.5.3asyncio.Future三、concurrent.futures.Future（补充）3.1爬虫案例（asyncio+不支持异步的模块）四、asyncio异步迭代器五
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
Python面试题：Python中的异步编程：详细讲解asyncio库的使用超哥同学 Python系列 python 开发语言面试编程
Python的异步编程是实现高效并发处理的一种方法，它使得程序能够在等待I/O操作时继续执行其他任务。在Python中，asyncio库是实现异步编程的主要工具。asyncio提供了一种机制来编写可以在单线程内并发执行的代码，适用于I/O密集型任务。以下是对asyncio库的详细讲解，包括基本概念、用法、示例以及注意事项。1.基本概念1.1协程（Coroutines）协程是一个特殊的函数，它可以被
Python 爬虫实战：如何搭建高效的分布式爬虫架构，突破数据抓取极限程序员威哥 python 爬虫分布式
随着互联网数据量的飞速增长，单一爬虫在抓取大量数据时的效率和稳定性往往无法满足需求。在这种情况下，分布式爬虫架构应运而生。分布式爬虫通过多节点并行工作，可以大大提高数据抓取的速度，同时减少单点故障的风险。本文将深入探讨如何使用Python构建一个高效的分布式爬虫架构，从架构设计到技术实现，帮助你突破数据抓取的极限。一、什么是分布式爬虫？分布式爬虫系统将爬虫任务拆分为多个子任务，分布到不同的服务器或
python程序基本架构_Python 程序基本架构尤尔小喵喵 python程序基本架构
Python的一般程序基本架构为：输入，处理，输出，这三块。输入：包括两个内容，变量赋值与输入语句处理：包括算术运算，逻辑运算，算法处理这三方面输出：包括打印输出，写入文件，写入数据库这三块下面举两个例子具体了解一下Python的程序基本架构1输入：变量赋值处理：算术运算输出：打印输出x=12#变量赋值x=12y=13#变量赋值y=13z=x+y#算术运算print(z)#打印输出252输入：输入
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
如何创建Python工程目录九月恒心 Python python 自动测试
如何创建一个简单但是比较规范的python工程目录，本文是学习了LearnPythontheHardWay相关内容后做的一些笔记。安装python第三方包1.pipfromhttp://pypi.python.org/pypi/pip用于安装python第三方包的工具2.distributefromhttp://pypi.python.org/pypi/distribute已被弃用，是SetupT
从单体脚本到模块化设计：Python工程师的架构思维跃迁
引言：从“一团乱麻”到“乐高积木”你是否曾经打开一个Python脚本，里面密密麻麻挤着上千行代码？函数相互缠绕，全局变量随处可见，想改一个小功能却心惊胆战，生怕牵一发而动全身？这就是典型的“单体脚本”(MonolithicScript)困境。作为过来人，我深知这种痛苦。本文将手把手带你跳出这个泥潭，掌握模块化设计的核心思想，并初步建立宝贵的架构设计思维，让你的代码从“勉强运行”跃迁到“优雅可维护”
python json 反序列化-V1 CATTLECODE python json 开发语言
在编程中，‌反序列化函数‌用于将序列化后的数据（如JSON、XML等格式）重新转换为程序可操作的对象或数据结构。以下是不同语言和场景下的实现方式及特点：‌1.Python中的反序列化‌‌(1)标准库json模块‌‌json.loads()‌：将JSON字符串反序列化为Python对象（如字典、列表）。importjsonjson_str='{"name":"Alice","age":25}'dat
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag