2013-10-28,文件编码初探(留给自己看)

今天有些郁闷,上午把替换字符串的文本交给了chenxu。下午就折腾了个c读取不同文件编码,弄得头晕乎乎的

1.文件存储在电脑上,同样的内容不同编码不一样。如同样是1234,用ascii码和unicode完全不一样
2.notepad查看二进制文件有问题,16进制显示不全,下次用ue
3.UCS就是unicode编码,UCS-2代表一个字符用两个字节存储。它又分为小端法和大端法,无论大小端,都指的是文件的存储内容。而用c语言读出来的都是正确的,如12存储到文件时0x0031,0x0032,用c读出来都是1和2,这是不会错的。大小端的区别在于文件的二进制。小端法存储的是0x3100,0x3200;大端存储的是0x0031,0x0032
4.一个文本文件,有的会带文件头标识编码,有的不会带。最好是用二进制读取,不会出错。
5.用二进制写文件,不指定编码,比如写入12,就会存储为不带文件头的12,存储的格式默认应该是ascii码

你可能感兴趣的:(编码,文件)