什么是Unicode?
Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
什么是字符串?
字符串或串(String)是由数字、字母、下划线组成的一串字符。一般记为 s=“a1a2···an”(n>=0)。它是编程语言中表示文本的数据类型。在程序设计中,字符串(string)为符号或数值的一个连续序列,如符号串(一串字符)或二进制数字串(一串二进制数字)。
普通字符串(在python中字符串默认使用unicode编码)
item = "肯德基"
unicode字符串,声明字符串用unicode编码
item = u"肯德基"
将中文转换为unicode
item = "肯德基"
res = item.encode('unicode-escape').decode()
print(f"res:{res}")
输出:
res:\u80af\u5fb7\u57fa
有些网站把\转换为了%
kw = res.replace("\\", "%")
print(f"kw:{kw}")
输出:
kw:%u80af%u5fb7%u57fa
将unicode转换为中文
uitem = "\u80af\u5fb7\u57fa"
print(f"uitem:{uitem}")
输出:
uitem:肯德基