python正则表达式

1. python 正则表达式总结

1.1 字符串替换

  1. 去除字符串中所有\u开头数字或字母结尾的字符?
import re


s = r"\ue627\uf893e古力娜扎超话娜扎的最新海岛度假照,这白到发光的皮肤真是让人羡慕。肤白如雪,就是形容这样的小姐姐的?,"
s1 = re.sub(r"\\u.*[a-zA-Z0-9]", "", s) 
print(s1)

  1. 去除字符串中的?#~​​​​????等字符和\u开头字母或数字结尾的字符,保留逗号句号等分隔符
import re


s = r"\ue627\uf893e古力娜扎?#~超话娜扎的最新海岛度假照,这白到发光的皮肤真是让人羡慕。肤白如雪,​​​​??就是形容这样的??小姐姐的?,"
# 先去除字符串中的\u开始字母或数字结尾的字符,再在这个字符中找到所有的单词和分隔符,将分隔符用空字符连接起来。
s1 = "".join(re.findall("[\w,.,;;。?]", re.sub(r"\\u.*[a-zA-Z0-9]", "", s)))
print(s1)

  1. 获取div中的所有文本,除去div中的所有标签,但是保留标签中的内容,例如a标签中的内容,并且去除html中的 ;
import re 


s = """
2018年11月6日 -  Python注释基础 要用Python编写注释,只需将“#”放在您的注释内容之前: Python会忽略在#标记之后到行尾的所有内容,您可以在代码中的任何位置插入它们,...
""" s1 = "".join(re.findall("[\w,.;?,。?;]", re.sub(r"<.*?>| ", "", s, re.M), re.M)) print(s1)
  1. 提取字符串中的a标签的文本及href,去除title中的特殊字符
import re

div = """
哈士奇超话#铲屎官的自我修养#二哈:我腿卡住了,快来救救我! L二哈哈哈哈呵的微博视频 ​​​​
""" # 获取所有的a标签 a_list = re.findall(".*?", div, re.M) # 定义数据列表 url_list = list() for a in a_list: # 去除title中的特殊字符 title = "".join(re.findall("[\w,.;?,。?;]", re.sub(r"<.*?>| ", "", a, re.M), re.M)) # 提取a标签中的 href属性 href = re.findall('', a, re.M)[0] # 将数据以字典形式保存,并将数据加入数据列表中 url_list.append({"title": title, "href": href}) print(url_list)

你可能感兴趣的:(python)