乱码三千,只取中文

弱水三千,只取一瓢饮
繁华三千,只为一人饮尽悲欢


任凭弱水三千,我只取一瓢饮
  • 乱码取中文, 如果有一堆字符串,只想获取中文, 可以使用re模块来实现

直接上代码,看下图
# -*- coding:utf-8 -*-
str ="""

  """ import re pattern = "[\u4e00-\u9fa5]+" regex = re.compile(pattern) result = regex.findall(str) china_str = "".join(result) print(china_str)

代码运行结果,看下图

弱水三千只取一瓢饮繁华三千只为一人饮尽悲欢

对于英文,中文,日文,韩文,常见的unicode字符范围如下

  1. epre = re.compile(r"[\s\w]+")
  2. chre = re.compile(ur".[\u4E00-\u9FA5]+.")
  3. jpre = re.compile(ur".[\u3040-\u30FF\u31F0-\u31FF]+.")
  4. hgre = re.compile(ur".[\u1100-\u11FF\u3130-\u318F\uAC00-\uD7AF]+.")

你可能感兴趣的:(乱码三千,只取中文)