过滤特殊符号

在处理微博数据时,因为有很多不需要的特殊字符,所以需要过滤掉。
使用re模块中的re.sub(arg1,arg2,arg3) 函数

arg1:想要过滤掉的字符串的正则表达式,
arg2:想要替换成的字符串,
arg3:待处理的字符串。

在对微博内容进行过滤时,最关键的环节是构建合适的正则表达式,我使用的正则表达式匹配所有除汉字英文字母数字标点以外的所有字符,所以特殊字符被尽数剔除。

你可能感兴趣的:(过滤特殊符号)