1、Unicode码表。

2、关于java正则表达式的汉字写法。(参见这里)

String regex = "[\\p{InCJK Unified Ideographs}&&\\P{Cn}]]";

3、Python3中str与bytes转换:The bytes/str dichotomy in Python 3

Unicode Tips_第1张图片

4、Binary-to-text encoding (维基百科)

5、关于utf8的bom头。(Python3下)

>>> import codecs
>>> codecs.BOM_UTF8
b'\xef\xbb\xbf'
>>> len(b'\xef\xbb\xbf')
3
>>> codecs.BOM_UTF8.decode('utf8')
'\ufeff'
>>> len('\ufeff')
1

6、一些编码字符集的关系:

(1)、gb2312-1980 < gbk-1995 < gb18030-2000 < gb18030-2005

# 收录汉字个数
gb2312-1980:6763
gbk-1995:21003
gb18030-2000:27533
gb18030-2005:70244

(2)、ANSI = Windows 1252 = CP 1252 = Windows code page 1252 = Windows Latin-1(ANSI字符编码和Windows 1252)


【相关阅读】

  • UNICODE和UCS

  • 关于 Python3 的编码

  • 关于 base32 编码


*** walker ***