linux下文件比较工具diff|cmp使用小结

1.diff

diff是Unix系统的一个很重要的工具程序。它用来比较两个文本文件的差异,是代码版本管理的基石之一。


2.diff使用格式

(1)比较文件

diff filename_1 filename_2
(2)比较目录

diff dir_1 dir_2
diff命令常用的选项:

-b ——  忽略一行中的空字符的区别(例如“Hello World!!” 与 “Hello        World!!”认为是一样的)

-B —— 忽略空白行

-i —— 忽略大小写的不同

-r —— 如果diff后面接的目录时,会递归比较子目录中的文件不同


3.diff比较输出的内容形式

diff输出内容有三种格式:

(1)正常格式(normal diff)
(2)上下文格式(context diff)
(3)合并格式(unified diff)


下面来举例说明各个格式的形式,假设有两个文件f1和f2:

第一个文件叫做f1,内容是每行一个a,一共7行。

a
a
a
a
a
a
a
第二个文件叫做f2,修改f1而成,第4行变成b,其他不变。

a
a
a
b
a
a
a
(1)正常格式

现在对f1和f2进行比较:

diff f1 f2
这时,diff就会显示正常格式的结果:

  4c4
  < a
  ---
  > b

输出解释:

第一行是一个提示,用来说明变动位置。它分成三个部分:前面的"4",表示f1的第4行有变化;中间的"c"表示变动的模式是内容改变(change),其他模式还有"增加"(a,代表addition)和"删除"(d,代表deletion);后面的"4",表示变动后变成f2的第4行。

第二行分成两个部分。前面的小于号,表示要从f1当中去取该行的内容(也就是第4行),后面的"a"表示该行的内容。

第三行用来分割f1和f2。

第四行,类似于第二行。前面的大于号表示f2去取该行的内容,后面的"b"表示该行的内容。

(2)上下文格式

       上个世纪80年代初,加州大学伯克利分校推出BSD版本的Unix时,觉得diff的显示结果太简单,最好加入上下文,便于了解发生的变动。因此,推出了上下文格式的diff。
它的使用方法是加入c参数(代表context)。

diff -c f1 f2
显示结果如下:

  *** f1	2012-08-29 16:45:41.000000000 +0800
  --- f2	2012-08-29 16:45:51.000000000 +0800
  ***************
  *** 1,7 ****
   a
   a
   a
  !a
   a
   a
   a
  --- 1,7 ----
   a
   a
   a
  !b
   a
   a
   a
输出结果解释:

这个结果分成四个部分:

第一部分的两行,显示两个文件的基本情况:文件名和时间信息。"***"表示变动前的文件,"---"表示变动后的文件。

第二部分是15个星号,将文件的基本情况与变动内容分割开。

第三部分显示变动前的文件,即f1。这时不仅显示发生变化的第4行,还显示第4行的前面三行和后面三行,因此一共显示7行。所以,前面的"*** 1,7 ****"就表示,从第1行开始连续7行。另外,文件内容的每一行最前面,还有一个标记位。如果为空,表示该行无变化;如果是感叹号(!),表示该行有改动;如果是减号(-),表示该行被删除;如果是加号(+),表示该行为新增。

第四部分显示变动后的文件,即f2。除了变动行(第4行)以外,也是上下文各显示三行,总共显示7行。

(3)合并格式

       如果两个文件相似度很高,那么上下文格式的diff,将显示大量重复的内容,很浪费空间。1990年,GNU diff率先推出了"合并格式"的diff,将f1和f2的上下文合并在一起显示。它的使用方法是加入u参数(代表unified)。

diff -u f1 f2
显示的结果如下:

  --- f1	2012-08-29 16:45:41.000000000 +0800
  +++ f2	2012-08-29 16:45:51.000000000 +0800
  @@ -1,7 +1,7 @@
   a
   a
   a
  -a
  +b
   a
   a
   a
输出结果解释:

第一部分,也是文件的基本信息。"---"表示变动前的文件,"+++"表示变动后的文件。

第二部分,变动的位置用两个@作为起首和结束。前面的"-1,7"分成三个部分:减号表示第一个文件(即f1),"1"表示第1行,"7"表示连续7行。合在一起,就表示下面是第一个文件从第1行开始的连续7行。同样的,"+1,7"表示变动后,成为第二个文件从第1行开始的连续7行。

第三部分是变动的具体内容。除了有变动的那些行以外,也是上下文各显示3行。它将两个文件的上下文,合并显示在一起,所以叫做"合并格式"。每一行最前面的标志位,空表示无变动,减号表示第一个文件f1中对应行的内容,加号表示第二个文件f2中对应行的内容。


备注:

(1)在svn和git的版本管理系统中,svn diff及git diff输出的内容类似于diff工具的合并格式。

(2)使用diff工具还可以制作文件新旧版本的patch包,然后补丁包来升级或还原文件版本。使用例子如下:

#步骤一:制作补丁包patch
diff -Naur passwd.old passwd.new > passwd.patch
#步骤二:升级
patch -p0 < passwd.patch
#步骤三:还原
patch -R -p0 < passwd.patch

4.cmp

作用:diff是以行为单位进行文件的比较,cmp是以字节为单位进行文件的比较。

使用格式:

cmp [option] filename_1 filename_2
常用的选项:

-s —— 将所有的不同的字节的地方都显示出来,若没有-s,则cmp会默认输出第一个发现的的不同点。

备注:使用cmp工具可以比较二进制文件的不同


学习资料来源于:

http://www.ruanyifeng.com/blog/2012/08/how_to_read_diff.html

你可能感兴趣的:(linux下文件比较工具diff|cmp使用小结)