Linux操作系统中的iconv命令/函数可以将一种已知的字符集文件转换成另一种已知的字符集文件。
在使用它进行GBK到BIG5的编码转换时,遇到"iconv:illeagal input sequence at positon xx ”的错误。
有个一个文本文件gbk.txt,只有四个汉字,内容如下:
喜欢德芙
使用下面的命令,在shell中进行转换
iconv -f gbk -t big5 gbk.txt -o big5.txt
失败报错
iconv:illeagal input sequence at positon 2
根据错误提示,是由于“欢”字导致转换失败的。
其GBK编码为BBB6,对应的繁体“歡”,GBK编码为9A67,BIG5编码为C577。
iconv在进行编码转换时输入GBK编码为BBB6的“欢”,其在BIG5中没有对应的编码,会导致转换失败。
如果是对GBK编码为9A67的“歡”进行到BIG5的转换,则会成功转换为C577。
创建gbk_1.txt,内容如下
喜歡德芙
执行
iconv -f gbk -t big5 gbk_1.txt -o big5.txt
可以成功的通过iconv完成到big5的编码转换。
对于GB2312,它是GBK的子集,“欢”字在GB2312中的编码与GBK中相同都为BBB6。因为GB2312中不包含“歡”字,所以将“欢”字的源编码指定为GB2312,可以成功转换为BIG5编码。执行
iconv -f gb2312 -t big5 gbk.txt -o big5.txt
繁简转换则是一个更为复杂的问题,包括GB2312到BIG5的转换、GBK内部简繁之间的转换,还存在一个简体字对应多个繁体字情况,例如
干字对应三个汉字:(干)涉,(乾)燥,(幹)部
后字对应两个汉字:(後)面,皇(后)
结论:
1、 GB2312中的字符可以转换到BIG5;
2、 GBK中同时存在简繁体的汉字,简体字向BIG5转换不会成功;
3、 GBK到BIG5的编码转换不等价于简繁转换,GBK中也有繁体字;
4、 简->繁困难,繁->简容易;
中文编码转换的可行性
GBK->Unicode,Big5-Unicode (总是OK) Unicode->GBK (当里面仅包含英文及简体时OK) Unicode->BIG5 (当里面仅包含英文及繁体时OK) GBK->Big5 (基本上不行,除非某些字没有特别的简体字) GBK->Big5是汉字的简繁转换 GB2312->BIG5(多数OK)
另附GBK繁简转换码表
下载地址:
http://download.csdn.net/detail/littlefang/8460263
参考
http://zhidao.baidu.com/question/162366537.html 中tobyliu415的回答
《一个简化字对应两个或多个繁体字的情况》http://wenku.baidu.com/link?url=vhQELM2h2-x_1yDoyf8hB1Rf6O638anAy5x07IpE783FHNUTen8HyqG7DIhMcH4sh7i5kDvouOC-Xo4oBnqkW6nlkBIWPMfNst7bjqOPeWG
BIG5内码表 http://www.me.tnu.edu.tw/~me006/vb/tutor/r05/index.htm
《GBK,BIG5等字符集编码范围的具体说明》 http://www.cnblogs.com/chenwenbiao/archive/2011/09/16/2178372.html
《iconv遇到无法转码的字符时中断内容丢失及解决方法》http://www.zoneself.org/2012/02/21/content_653.html