1. python 正则表达式总结
1.1 字符串替换
- 去除字符串中所有\u开头数字或字母结尾的字符?
import re
s = r"\ue627\uf893e古力娜扎超话娜扎的最新海岛度假照,这白到发光的皮肤真是让人羡慕。肤白如雪,就是形容这样的小姐姐的?,"
s1 = re.sub(r"\\u.*[a-zA-Z0-9]", "", s)
print(s1)
- 去除字符串中的?#~????等字符和\u开头字母或数字结尾的字符,保留逗号句号等分隔符
import re
s = r"\ue627\uf893e古力娜扎?#~超话娜扎的最新海岛度假照,这白到发光的皮肤真是让人羡慕。肤白如雪,??就是形容这样的??小姐姐的?,"
# 先去除字符串中的\u开始字母或数字结尾的字符,再在这个字符中找到所有的单词和分隔符,将分隔符用空字符连接起来。
s1 = "".join(re.findall("[\w,.,;;。?]", re.sub(r"\\u.*[a-zA-Z0-9]", "", s)))
print(s1)
- 获取div中的所有文本,除去div中的所有标签,但是保留标签中的内容,例如a标签中的内容,并且去除html中的 ;
import re
s = """
2018年11月6日 -
Python注释基础 要用Python编写注释,只需将“#”放在您的注释内容之前: Python会忽略在#标记之后到行尾的所有内容,您可以在代码中的任何位置插入它们,...
"""
s1 = "".join(re.findall("[\w,.;?,。?;]", re.sub(r"<.*?>| ", "", s, re.M), re.M))
print(s1)
- 提取字符串中的a标签的文本及href,去除title中的特殊字符
import re
div = """
"""
# 获取所有的a标签
a_list = re.findall(".*?", div, re.M)
# 定义数据列表
url_list = list()
for a in a_list:
# 去除title中的特殊字符
title = "".join(re.findall("[\w,.;?,。?;]", re.sub(r"<.*?>| ", "", a, re.M), re.M))
# 提取a标签中的 href属性
href = re.findall('', a, re.M)[0]
# 将数据以字典形式保存,并将数据加入数据列表中
url_list.append({"title": title, "href": href})
print(url_list)