操作系统巴别塔

使用Mac版的Excel导出CSV文件,然后在命令行看该文件,可以充分体现出Windows、Mac、Linux的编码差别。

Windows的汉字是使用UTF16编码的,中文的编码是GB312, GB18030, GBK等。换行符是“CR/LF”(0D0A, "\r\n")

Linux统一使用UTF8编码。换行符是LF(0A,"\n")

Mac上使用UTF8编码。换行符是CR(0D, "\r")

Excel导出的CSV文件在Windows中是以逗号(,)分隔符,在Mac中的版本则是分号(;)。CSV是Comma Seperated Values的缩写,但是并没有形成以逗号分隔的标准。其中一个原因是逗号在德语中是小数点的含义。

要在Mac命令行下看Excel导出的CSV文件,第一步是做编码转换:
$ iconv -c -f GBK -t UTF-8 gbkfile.csv > utf8file.csv

(Mac下的Terminal似乎不能像Linux一样通过改变LANG=GBK来看非UTF8编码的文件)

第二步是换行符转换,这个很头痛,尝试用sed和tr转换均失败,在vi中通过":%s/\r/\n/g"转换,结果是\r全部变成0(我也不确定是不是我用错了正则表达式)。最后使用dos2unix来转换:
$ dos2unix -c mac utf8file.csv

(提示:dos2unix可以通过fink安装)

你可能感兴趣的:(操作系统巴别塔)