Windows & Linux 文件格式之迷 < VI下删除文本中的^M>

关于回车与换行
很久以前,老式的电传打字机使用两个字符来另起新行。一个字符把滑动架移回首位 (称为回车,ASCII码为0D),另一个字符把纸上移一行 (称为换行,ASCII码为0A)。当计算机问世以后,存储器曾经非常昂贵。有些人就认定没必要用两个字符来表示行尾。UNIX 开发者决定他们可以用一个字符来表示行尾, Linux沿袭Unix,也是。Apple 开发者规定了用.开发 MS-DOS以及Windows 的那些家伙则决定沿用老式的.
三种行尾格式如下:
unix : n
dos : rn
mac : r
这意味着,如果你试图把一个文件从一种系统移到另一种系统,那么你就有换行符方面的麻烦。
因为MS-DOS及Windows是回车+换行来表示换行,因此在Linux下用Vim查看在Windows下写的代码,行尾后“^M”符号。 www.2cto.com
在Vim中解决这个问题,很简单,在Vim中利用替换功能就可以将“^M”都删掉,键入如下替换命令行:
:%s/^M//g
注意:
上述命令行中的“^M”符,不是“^”再加上“M”,而是由“Ctrl+v”、“Ctrl+M”键生成的,或者Ctrl+v,再按回车。
或者使用这个命令:
:% s/r//g

(1)问题提出
我们可能会遇到过这样一些困惑:
A, 如何查看一个文件或数据流的二进制格式(以十六进制格式显示)?
B,为什么在 windows下编辑的 shell 脚本在 Unix下不能执行?为什么在 windows下编辑的 C 源文件在有些 gcc 编译器下不能编译?
C,为什么我在 vi 等编辑器下打开一个文本文件会包含 ^M,如何把它去掉?为什么我在 windows 上用记事本打开 unix上的文件,文件都不换行?

(2)分析与方案

A,如何查看一个文件的二进制格式(以十六进制格式显示)?
方法一:在 UtraEdit 使用 Ctrl + H 切换到十六进制编辑模式。** 注意 ** :此方法一有缺陷,它会将行末的单个"换行符"显示成 "回车" + "换行" 两个字符。

方法二:使用文件或流的二进制查看工具 fbin。

B,为什么在 windows下编辑的 shell 脚本在 Unix下不能执行?为什么在 windows下编辑的 C 源文件在有些 gcc 编译器下不能编译?

原因分析:unix 的 shell 脚本不能识别 "回车符" (即:CR,'r'),Windows 文件格式换行时,总是以 "回车" + "换行" ,导致 unix 下的 shell 无法正常解释。解决方法:就是把 windows 格式的中的 "回车" 符删除。

方法一:使用 vi 打开源文件,把 'rn' 替换成 'n' ;** 缺点 ** :不适合大量文件的批量作业。

方法二:使用 UtraEdit 把 Windows 格式的文件转换成 Unix 格式。文件-->转换-->Unix转DOS;** 缺点 ** :不适合大量文件的批量作业。

方法三:Unix 下的 dos2unix 命令,如 $ dos2unix -k xx.c;** 缺点 ** :此方法有一致命缺陷,它会改变原来的文件属性,如一个可执行 shell 脚本的可执行属性及其它属性,转换后都将会丢掉;** 优点 ** :适合大量普通文件本文件的批量作业。

方法四: win2unix (windows,unix 均可使用),功能类似 dos2unix,如 win2unx xx.c;** 优点** :克服了 dos2unix 的所有缺点,它能保留源文件的任何属性。还适合大量文件的批量作业。

C,为什么我在vi 等编器下打开一个文本文件会包含^M,如何把它去掉? 为什么我在windows上用记事本打开unix上的文件,文件都不换行?

原因分析:要解决这个问题,必先弄清 unix 与 windows 文本文件的差异。如下:
1) 磁盘中 Windows 文本文件总是以 "回车" + "换行"的形式进行换行的。
2) 磁盘中 Unix 格式的文本文件,总是以"换行符"(即:LF,'n') 换行,而非 "回车换行符"。(Unix 规定:unix 文本文件保存到磁盘时,总是自动把 "回车换行符" 转换成 "回车符" 保存,输出到终端时由终端自动将将 "回车符" 转换成 "回车换行符" 输出)

** 结论 1 **:这样在 windows 的记事本中打开 Unix 格式的文件时,因为文件中没有 'r',所以无法正常显示换行,结果就会把所有的内容显示在同一行中。

** 结论 2 **:UtraEdit 等工具会自动检测文件中是否包含'r',当检查行末缺少'r'时,一般它会提示要求进行Unix 到Windows 格式的转换(相信都遇到这个提示信息)。

** 结论 3 **:UtraEdit 和 vi 等工具,在保存文件时会自动依照文件原来的格式进行保存。即:如打开的如是 windows 格式它会把文件依然按 windows 格式保存(不进行自动转换);如打开的如是unix 格式它会把文件依然按 unix 格式保存(不进行自动转换)。

Linux编辑器vim中删除行尾的^M有时候,在Linux中使用打开曾在Windows中编辑过的文件时,会在行尾看到^M字符。看起来总是感觉很别扭。删除方法如下:在Vim的命令模式中输入:%s/^M$//g后,回车即会自动删除该文件中的所有^M字符。注意:^M要用Ctrl+v, Ctrl+m来输入,M后面的$代表匹配行尾的内容,最后的g则表示每行中匹配到的内容都要置换。


可以用以下方法快速的解决:

 

方法1:
在命令模式下:输入:%s/^M//g 然后,回车即可替换

注,其中"^M"的输入,分别是“Ctrl+v”、“Ctrl+M”键生成的

 

方法2: 

使用vi打开文本文件
    vi dos.txt
    命令模式下输入
    :set fileformat=unix
    :w

方法3:

使用sed 工具
    sed ’s/^M//’ filename > tmp_filename

方法4:

既然window下的回车符多了‘\r’,那么当然通过删除‘\r’ ,也可以实现:
    tr -d '\r'

方法5:(最常用的方法)

    在终端下敲命令:
    $ dos2unix filename
    直接转换成unix格式,就OK了!~


 

补充:

将Windows中的文本文件传到Linux后,会在每行的末尾多出一个^M符号。当进行Shell编程时,该符号可能会导致正则表达式匹配失败。如果想 去掉这个符号可以使用dos2unix命令。当然如果想恢复为Windows下的模式可以使用unix2dos命令。   当从Windows传来一个文件时,可以使用vim -b 命令来打开该文件,这样就能看到行尾的^M符号了,否则是看不到的。

 


你可能感兴趣的:(ARM/Linux/Unix)