如何判断一个文件的编码格式是gb2312还是gbk等


GB2312-80编码的编码范围是高位0xa1-0xfe,低位是 0xa1-0xfe ,其中汉字范围为 0xb0a1 和 0xf7fe,如果只是简单地判断汉字,则只要查看高字节是否大于等于0xa1就可以了,还有就是,全角字符的高字节统统等于0xa3,所以很容易可以区别出全角字符来。


 Unicode:FF、FE
    Unicode big endian:FE、FF
    UTF-8:EF、BB、BF
   这些都可以用UltraEdit看出来


GBK编码:
第一个字节:0x81-0xFE(129-254)
第二个字节:0x40-0xFE(64-254)

UTF-8:EF、BB、BF


用这个方法判断文件是Unicode,
如果不是,再根据GB2312-80编码的编码范围是高位0xa1-0xfe,低位是 0xa1-0xfe ,其中汉字范围为 0xb0a1 和 0xf7fe,
判断是gb2312 或GBK,GBK是gb2312的超集,它们是包含关系。

网上的说法:
txt没有文件头.   1. 看后缀名  2. txt是文本内容的(但要注意各种编码,就是上面的).
各种常见文件头——16进制形式
JPEG (jpg),文件头:FFD8FF

PNG (png),文件头:89504E47                       

GIF (gif),文件头:47494638

TIFF (tif),文件头:49492A00                       

Windows Bitmap (bmp),文件头:424D

CAD (dwg),文件头:41433130                       

Adobe Photoshop (psd),文件头:38425053                       

Rich Text Format (rtf),文件头:7B5C727466

XML (xml),文件头:3C3F786D6C                       

HTML (html),文件头:68746D6C3E                      

Email [thorough only]

(eml),文件头:44656C69766572792D646174653A                      

Outlook Express (dbx),文件头:CFAD12FEC5FD746F

Outlook (pst),文件头:2142444E

MS Word/Excel (xls.or.doc),文件头:D0CF11E0

MS Access (mdb),文件头:5374616E64617264204A

WordPerfect (wpd),文件头:FF575043

Postscript. (eps.or.ps),文件头:252150532D41646F6265                       

Adobe Acrobat (pdf),文件头:255044462D312E                       

Quicken (qdf),文件头:AC9EBD8F                       

Windows Password (pwl),文件头:E3828596

ZIP Archive (zip),文件头:504B0304

RAR Archive (rar),文件头:52617221

Wave (wav),文件头:57415645

AVI (avi),文件头:41564920

Real Audio (ram),文件头:2E7261FD                     

Real Media (rm),文件头:2E524D46

MPEG (mpg),文件头:000001BA                       

MPEG (mpg),文件头:000001B3

Quicktime (mov),文件头:6D6F6F76                       

Windows Media (asf),文件头:3026B2758E66CF11

MIDI (mid),文件头:4D546864 


用PilotEdit Lite,
PilotEdit Lite可以自动检测编码。
比如你在一个文本文件中输入“没”,然后重新打开,PilotEdit是唯一一个可以正确识别这个汉字的文本编辑器。

你可能感兴趣的:(如何判断一个文件的编码格式是gb2312还是gbk等)