ubuntu终端显示乱码的解决

ubuntu终端显示乱码的解决

背景

在ubuntu终端,用diff命令比较两个源文件时,发现输出乱码,如下图所示:

原因

Ubuntu默认编码是UTF-8,可以用locale命令查看,在我电脑上查看结果如下:

LANG=zh_CN.UTF-8
LANGUAGE=zh_CN:en_US:en
LC_CTYPE="zh_CN.UTF-8"
LC_NUMERIC=zh_CN.UTF-8
LC_TIME=zh_CN.UTF-8
LC_COLLATE="zh_CN.UTF-8"
LC_MONETARY=zh_CN.UTF-8
LC_MESSAGES="zh_CN.UTF-8"
LC_PAPER=zh_CN.UTF-8
LC_NAME=zh_CN.UTF-8
LC_ADDRESS=zh_CN.UTF-8
LC_TELEPHONE=zh_CN.UTF-8
LC_MEASUREMENT=zh_CN.UTF-8
LC_IDENTIFICATION=zh_CN.UTF-8
LC_ALL=

之所以会乱码,是因为我用diff命令比较的文件(这个文件是在windows环境下创建的,而Windows操作系统的简体中文默认编码字符集是GBK,GBK向下兼容GB2312编码)是GB2312的编码,而不是UTF-8编码。

UTF-8

UTF-8:Unicode TransformationFormat-8bit,允许含BOM,但通常不含BOM。是用以解决国际上字符的一种多字节编码,它对英文使用1个字节,中文使用2~4个字节来编码。UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。

GBK

GBK是在国家标准GB2312的基础上扩容后的标准,它兼容GB2312。GBK的文字编码是用双字节来表示的,即不论中、英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1。GBK包含全部中文字符,是国家编码。

关于字符编码的知识,可以参考我的博文:
字符编码的故事:ASCII,GB2312,Unicode,UTF-8,UTF-16

解决方法

解决方法有很多,这里写出我用的方法。
考虑到UTF-8是国际编码,通用性强,所以把GB2312编码的文件转换为UTF-8编码的就OK了。
转换工具是windows下的Notepad++;

Notepad++ is a free (as in “free speech” and also as in “free beer”) source code editor and Notepad replacement that supports several languages. Running in the MS Windows environment, its use is governed by GPL License.

这个软件的下载地址是:
https://notepad-plus-plus.org/

下载好后,我们用Notepad++打开需要转换的文件,在右下角会显示出文件的编码格式,比如:

我们选择【格式】-【转为UTF-8无BOM编码格式】,然后保存即可。

至于为什么要转换成无BOM,还是我刚才提到的那篇博文。祝学习愉快!

你可能感兴趣的:(工具,乱码,ubuntu,utf-8,编码)