python中对正则表达式的记录

re模块的一般使用步骤

  1. 使用compile()函数将则这表达式以字符串的形式编译为一个pattern类型的对象。
  2. 通过Pattern对象提供的依稀累方法对文本进行查找或替换,得到一个处理结果。
  3. 使用处理结果提供的属性和方法获得信息,图匹配到的字符串。

大部分网站爬取下来的内容没有汉字,如果需要对汉字进行匹配,就需要知道其对应的正则表达式,中文队形的Unicode编码范围为[u4e00-ufa5] 注意,这个范围并不完整,其中不包含全椒(中文)标点,但是大多是情况下是可以适用的。
例如:把“你好,hello,中国”中的汉字

import re
#度匹配的字符串
title = "你好,hello,中国"
#穿件正则表达式,只适用于中文
pattern = re.compile(r'[\u4e00-\u9fa5]+')
#检索整个字符串,将匹配到的中文就放到列表中,
result = pattern.findall(title)
#打印匹配到的结果
print(result)

你可能感兴趣的:(python中对正则表达式的记录)