编程中常用的编码判断

UTF-8

目前比较常见的支持各国语言的编码,python3默认编码

GBK, GBK2312

我国常用的编码
经常很多国家单位的网站会使用这个编码

BASE64

将字符转化为可读,也经常在网页中用于压缩图片
标志性的是编码后后面会比较常有=号

\xe2 16进制

\u232 unicode 编码

在 python 的列表中经常会显示这个样子
将列表循环使用 print 打印可以在终端显示成中文

MD5 加密

常用于密码

URL encode

bname=%C9%CF%B7%E1%C2%B71483%C5%AA8%BA%C5
上丰路1483弄8号
可以在这个网站去街边吗
支持 GBK 的 URL Decode
http://www.mytju.com/classcode/tools/urldecode_gb2312.asp

网页获取的编码

使用脚本爬取网站的时候
有时候网站使用的是 GBK 编码,会导致网页在终端显示为乱码
为了防止网页爬取

00111010010101

二进制的编码

不可见字符的显示方式

\n
\t
等等

Unicode符号范围 | UTF-8编码方式
(十六进制) | (二进制)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

搜索关键字 各种编码 各种乱码

参考:
百度百科 字符编码
https://baike.baidu.com/item/%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81

你可能感兴趣的:(编程中常用的编码判断)