python正则表达式记录

最近工作用用到抽取网页信息,由于刚接触python,所以把用到的正则表达式做一下记录。

找到所有满足匹配的列表。

def findAbstract(text):

urlTag = re.findall(urlTagRegex,text)

for tag in urlTag:

print(tag)


def regSearch(pattern, text):

"""

使用正则表达式匹配目标

"""

compiledPattern = re.compile(pattern, re.I)

return re.search(compiledPattern, text)


保留高亮显示<em></em>标签

gex = r'<[^(/*em)][\s\S]*?>|</[^(em)][\s\S]*?>'

匹配摘要链接位置

urlTagRegex = r'><[^<]*?>[a-z]+\.'


你可能感兴趣的:(python,正则表达式)