vim乱码问题在网上一搜一大堆,眼花缭乱。
经过我自己的理解,总结如下:
一、什么是fileencodings、fileencoding、encoding 和 termencoding
二、vim工作顺序
(1)Vim 启动,根据配置文件当中设置的 encoding 的值来设置 buffer、菜单文本、消息文的字符编码方式。
(2)读取需要编辑的文件,根据 fileencodings 中列出的字符编码方式逐一探测该文件编码方式。并设置 fileencoding 为探测到看起来是正确的 字符编码方式,如果没有找到合适的编码,就用latin-1(ASCII)编码打开。
(3) 对比 fileencoding 和 encoding 的值,若不同则调用 iconv 将文件内容转换为 encoding 所描述的字符编码方式,并且把转换后的内容放到为此文件开辟的 buffer 里,此时我们就可以开始编辑这个文件了。
(4)编辑完成后保存文件时,再次对比 fileencoding 和 encoding 的值。若不同,再次调用 iconv 将即将保存的 buffer 中的文本转换为 fileencoding 所描述的字符编码方式,并保存到指定的文件中。
三、举例
用vim打开一个编码为gbk的文件,文件内容为“abc你好”
初始环境:
locale=utf-8
fileencodings=ucs-bom,utf-8,latin1
encoding没有设置,因此encoding=locale=utf-8
fileencoding和termencoding都没有设置,因此都为utf-8
secureCRT当中“选项-会话选项-外观”当中的编码为utf-8
打开文件时,vim以fileencodings中配置的类型逐个去推测,ucs-bom不对,utf-8也不对,最后推测的结果为latin1,也就是fileencoding=latin1(在vim打开文件后输入:set fileencoding可以看到这个推测的结果)。这个时候encoding != fileencoding,那vim就要转换了,转换为encoding,也就是utf-8。以latin1打开gbk的文件,肯定是乱码了,转为utf-8后,仍然是乱码:
如果用“:e ++enc=cp936”命令重新加载文件,则显示正常,此时fileencoding=cp936。
此时输入中文“联通”,保存,则提示转换失败:
因为你输入的内容是utf-8(encoding)编码,保存时转换为latin1(fileencoding),因此转换失败。
这个时候修改fileencodings:
set fileencodings=ucs-bom,utf-8,cp936,latin1
再去重复上述操作。可以看到,此时vim推测的结果是cp936(gbk),打开和输入、保存都没问题了。但是仍然会提示在cp936和utf-8之间有转换:
四、中文的几种编码
大体上可以认为:
GB18030 > GBK(CP936) > GB2312
参考文章:
http://www.cnblogs.com/joeyupdo/archive/2013/03/03/2941737.html
http://edyfox.codecarver.org/html/vim_fileencodings_detection.html
http://www.cnblogs.com/chnking/archive/2007/08/16/857743.html