各种编码格式文件头简析(默认,unicode-16,unicode-16B,ansi)

今天上网搜搜,终于基本了解字符编码的信息了,用UE仔细查看了下,做出以下对比,同样是“严0”这两个字,一个是汉字,一个是数字0,不同编码16进制文件如下:(保存格式在UE的另存为中选择)

 

ANSI-ASICC:       D1 CF 30  。D1CF即为  “严”在GB2312的字符编码,30即是0的ASICC码。ANSI-ASICC中文就用GB2312格式,英文和数字按照ASICC来编码

 

UTF-16即是我们常说的unicode,无论是什么都用两字节存储。在另存为中存在四种UTF-16保存格式:

UTF-16:       FF FE 25 4E 30 00      

UTF-16 NOBOM:              25 4E 30 00      

UTF-16 BIG-INDIAN:        FE FF 4E 25 00 30                           

UTF-16 BIG-INDIAN NOBOM:     4E 25 00 30

默认的UTF-16是小端,FFFE是”零宽度非换行空格“(ZERO WIDTH NO-BREAK SPACE)

FE FF   大端 高位在前

FF FE   小端 低位在前 

 

UTF-8:         EF BB BF E4 B8 A5 30            EFBBBF是UTF-8的文件头,E4B8A5 是“严”字的UNICODE码号按照UTF-8编码转换而来,占了三位,原来是2位,30是0的ASICC码,所以说UTF-8是变长字符编码。

 

默认:            5C 75 34 45 32 35 30                            ; /u4E250

这个网上没有说,但是我自己理解,这个是保存的是UNICODE编码,5C是‘/’ 75是“u”后面的 五位是 4E250,正好是两个字的UNICODE码号....30就是0

 

真累。。。。呵呵

你可能感兴趣的:(其它)