对各字符集编码范围的总结

对各字符集编码范围的总结

url: http://in.sdo.com/?p=1184

 

网上关于GBKGB2312BIG5编码范围的资料比较多,但是日文的资料比较少,我总结了一下,希望能对大家在正则中判断

这些字符集尤其是日文字符集的各种字、标点以及特殊符号的时候有所帮助。

 

UTF8: [\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xff][\x80-\xbf]{3} 

 

UTF16: [\x00-\xd7][\xe0-\xff]|[\xd8-\xdf][\x00-\xff]{2} 

 

JIS: [\x20-\x7e]|[\x21-\x5f]|[\x21-\x7e]{2} 

 

SJIS: [\x20-\x7e]|[\xa1-\xdf]|([\x81-\x9f]|[\xe0-\xef])([\x40-\x7e]|[\x80-\xfc]) 

 

BIG5: [\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|[\xa1-\xfe]) 

 

GBK: [\x01-\x7f]|[\x81-\xfe][\x40-\xfe] 

 

GB2312汉字: [\xb0-\xf7][\xa0-\xfe] 

 

GB2312半角标点符号及特殊符号: \xa1[\xa2-\xfe] 

 

GB2312罗马数组及项目序号: \xa2([\xa1-\xaa]|[\xb1-\xbf]|[\xc0-\xdf]|[\xe0-\xe2]|[\xe5-\xee]|[\xf1-\xfc]) 

 

GB2312全角标点及全角字母: \xa3[\xa1-\xfe] 

 

GB18030: [\x00-\x7f]|[\x81-\xfe][\x40-\xfe]|[\x81-\xfe][\x30-\x39][\x81-\xfe][\x30-\x39] 

 

 

 

你可能感兴趣的:(对各字符集编码范围的总结)