最近工作用用到抽取网页信息,由于刚接触python,所以把用到的正则表达式做一下记录。
找到所有满足匹配的列表。
def findAbstract(text):
urlTag = re.findall(urlTagRegex,text)
for tag in urlTag:
print(tag)
def regSearch(pattern, text):
"""
使用正则表达式匹配目标
"""
compiledPattern = re.compile(pattern, re.I)
return re.search(compiledPattern, text)
保留高亮显示<em></em>标签
gex = r'<[^(/*em)][\s\S]*?>|</[^(em)][\s\S]*?>'
匹配摘要链接位置
urlTagRegex = r'><[^<]*?>[a-z]+\.'