python3 正则对str去掉标点符号及符号,及提取字符

import re

def remove(text):
   punctuation = '[{?!,;+"\''  # \ 无法去掉,空格可以去掉
    text = re.sub(r'[{}]+'.format(punctuation), '', text)
    return text.strip().lower()
    
text = " '[{!,; + ? Hello, world 你好世界! "
print(remove(text))
print(re.sub(r"[^a-zA-Z0-9\u4e00-\u9fa5]", '',text))  #提取字符
print(re.sub(r"[\u4e00-\u9fa5]", '',text))  #提取中文

你可能感兴趣的:(Python3)