sdiff 和diff(文本比较)
功能说明:diff 命令比较文本文件。它能比较单个文件或者目录内容。
备注:diff 命令只有当输入为文本文件时才有效。
如果两个二进制文件相同,diff就什么也不显示,否则只简单报告一下这两个文件是不相同的。
[root@auc-test2 home]# diff ./eccs.bin /usr/bin/zip Binary files ./eccs.bin and /usr/bin/zip differ [root@auc-test2 home]# diff eccs.bin eccs.bin
语 法:diff [-abBcdefHilnNpPqrstTuvwy][-<行数>][-C <行数>][-D <巨集名称>][-I <字符或字符串>][-S <文件>][-W <宽度>][-x <文件或目录>][-X <文件>][--help][--left-column][--suppress-common-line][文件或目录1][文件或目录2]
补充说明:diff以逐行的方式,比较文本文件的异同处。所是指定要比较目录,则diff会比较目录中相同文件名的文件,但不会比较其中子目录。
参 数:
-<行数> 指定要显示多少行的文本。此参数必须与-c或-u参数一并使用。
-a或--text diff预设只会逐行比较文本文件。
-b或--ignore-space-change 不检查空格字符的不同。
-B或--ignore-blank-lines 不检查空白行。
-c 显示全部内文,并标出不同之处。
-C<行数>或--context<行数> 与执行"-c-<行数>"指令相同。
-d或--minimal 使用不同的演算法,以较小的单位来做比较。
-D<巨集名称>或ifdef<巨集名称> 此参数的输出格式可用于前置处理器巨集。
-e或--ed 此参数的输出格式可用于ed的script文件。
-f或-forward-ed 输出的格式类似ed的script文件,但按照原来文件的顺序来显示不同处。
-H或--speed-large-files 比较大文件时,可加快速度。
-l<字符或字符串>或--ignore-matching-lines<字符或字符串> 若两个文件在某几行有所不同,而这几行同时都包含了选项中指定的字符或字符串,则不显示这两个文件的差异。
-i或--ignore-case 不检查大小写的不同。
-l或--paginate 将结果交由pr程序来分页。
-n或--rcs 将比较结果以RCS的格式来显示。
-N或--new-file 在比较目录时,若文件A仅出现在某个目录中,预设会显示:
Only in目录:文件A若使用-N参数,则diff会将文件A与一个空白的文件比较。
-p 若比较的文件为C语言的程序码文件时,显示差异所在的函数名称。
-P或--unidirectional-new-file 与-N类似,但只有当第二个目录包含了一个第一个目录所没有的文件时,才会将这个文件与空白的文件做比较。
-q或--brief 仅显示有无差异,不显示详细的信息。
-r或--recursive 比较子目录中的文件。
-s或--report-identical-files 若没有发现任何差异,仍然显示信息。
-S<文件>或--starting-file<文件> 在比较目录时,从指定的文件开始比较。
-t或--expand-tabs 在输出时,将tab字符展开。
-T或--initial-tab 在每行前面加上tab字符以便对齐。
-u,-U<列数>或--unified=<列数> 以合并的方式来显示文件内容的不同。
-v或--version 显示版本信息。
-w或--ignore-all-space 忽略全部的空格字符。
-W<宽度>或--width<宽度> 在使用-y参数时,指定栏宽。
-x<文件名或目录>或--exclude<文件名或目录> 不比较选项中所指定的文件或目录。
-X<文件>或--exclude-from<文件> 您可以将文件或目录类型存成文本文件,然后在=<文件>中指定此文本文件。
-y或--side-by-side 以并列的方式显示文件的异同之处。
--help 显示帮助。
--left-column 在使用-y参数时,若两个文件某一行内容相同,则仅在左侧的栏位显示该行内容。
--suppress-common-lines 在使用-y参数时,仅显示不同之处。
由于历史原因,diff有三种格式:
正常格式(normal diff)
上下文格式(context diff)
合并格式(unified diff)
a)正常格式(normal diff)
例子1
[root@auc-test2 11]# cat a.bak a b [root@auc-test2 11]# cat b.bak a c [root@auc-test2 11]# diff a.bak b.bak 2c2 < b --- > c
说明:
它分成三个部分:前面的"2",表示a.bak的第2行有变化;中间的"c"表示变动的模式是内容改变(change),其他模式还有"增加"(a,代表addition)和"删除"(d,代表deletion);后面的"2",表示变动后变成b.bak的第4行。
第二行分成两个部分
< a
前面的小于号,表示要从a.bak当中去除该行(也就是第4行),后面的"a"表示该行的内容。
第三行用来分割a.bak和b.bak
---
第四行,类似于第二行
> b
b)上下文格式的diff
上个世纪80年代初,加州大学伯克利分校推出BSD版本的Unix时,觉得diff的显示结果太简单,最好加入上下文,便于了解发生的变动。因此,推出了上下文格式的diff。
[root@auc-test2 11]# diff -c a.bak b.bak *** a.bak 2014-12-17 13:16:23.249068034 +0800 --- b.bak 2014-12-17 13:16:31.339067978 +0800 *************** *** 1,2 **** a ! b --- 1,2 ---- a ! c
第一部分的两行,显示两个文件的基本情况:文件名和时间信息。
*** a.bak 2014-12-17 13:16:23.249068034 +0800
--- b.bak 2014-12-17 13:16:31.339067978 +0800
"***"表示变动前的文件,"---"表示变动后的文件。
第二部分是15个星号,将文件的基本情况与变动内容分割开。
***************
第三部分显示变动前的文件,即a.bak
*** 1,2 ****
a
! b
这时不仅显示发生变化的第2行,还显示第2行的前面一行,因此一共显示2行。所以,前面的"*** 1,2 ****"就表示,从第1行开始连续2行。
另外,文件内容的每一行最前面,还有一个标记位。如果为空,表示该行无变化;如果是感叹号(!),表示该行有改动;如果是减号(-),表示该行被删除;如果是加号(+),表示该行为新增。
第四部分显示变动后的文件,即b.bak
--- 1,2 ----
a
! c
除了变动行(第2行)以外,也是上文各显示一行,总共显示2行。
c)合并格式的diff
如果两个文件相似度很高,那么上下文格式的diff,将显示大量重复的内容,很浪费空间。1990年,GNU diff率先推出了"合并格式"的diff,将linuxeye1和linuxeye2的上下文合并在一起显示。
它的使用方法是加入u参数(代表unified)。
[root@auc-test2 11]# diff -u a.bak b.bak --- a.bak 2014-12-17 13:16:23.249068034 +0800 +++ b.bak 2014-12-17 13:16:31.339067978 +0800 @@ -1,2 +1,2 @@ a -b +c
它的第一部分,也是文件的基本信息
--- a.bak 2014-12-17 13:16:23.249068034 +0800
+++ b.bak 2014-12-17 13:16:31.339067978 +0800
"---"表示变动前的文件,"+++"表示变动后的文件
第二部分,变动的位置用两个@作为起首和结束
@@ -1,2 +1,2 @@
前面的"-1,2"分成三个部分:减号表示第一个文件(即a.bak),"1"表示第1行,"2"表示连续2行。合在一起,就表示下面是第一个文件从第1行开始的连续2行。同样的,"+1,2"表示变动后,成为第二个文件从第1行开始的连续2行。
第三部分是变动的具体内容
a
-b
+c
除了有变动的那些行以外,也是上下文各显示1行。它将两个文件的上下文,合并显示在一起,所以叫做"合并格式"。每一行最前面的标志位,空表示无变动,减号表示第一个文件删除的行,加号表示第二个文件新增的行
版本管理系统git,使用的是合并格式diff的变体.
让我们通过一些实际的例子理解diff命令。
一、文件比较
假设我们有两个文件(file1 和 file2):
$ cat file1 Hi, Hello, How are you? I am fine, Thank you.
$ cat file2 Hello, Hi, How are you? I am fine.
你可以看见两个文件有些小的不同。现在,让我们看看diff命令如何找出两者的不同的。
像这样运行diff命令:
$ diff file1 file2 1d0 < Hi, 2a2 > Hi, 4,5c4 < I am fine, < Thank you. --- > I am fine.
你可以看见diff后面跟了两个文件的名字作为命令行的参数,并且它在输出中生成了差异比较。输出并不容易理解。理由是,这是被计算机使用的而不是为了人类。尽管如此,让我们一步步解码输出:
注意 – 在下面的文本中,file1和file2将被当作旧文件和新文件。
1d0 < Hi,
这里,1d0这一行意味着旧文件的第一行应该被删除(d)以使两个文件的第一行同步。旧文件中需要被删除的行以'<'标记。
2a2 > Hi,
这里,2a2行意味着新文件中的第二行应该加到旧文件的第二行后。要添加的行显示在输出的下一行用'>'标记。
4,5c4 < I am fine, < Thank you. --- > I am fine.
这里,4,5c4这一行意味着在旧文件中的4到5行现在已被改变并且需要用新文件中的第4行代替。
添加和删除的行分别用'>'和'<'表示。
来总结一下:
首先diff命令的第一个参数被视为旧文件而第二个参数被视为新文件。
像1d0、2a2、4,5c4这种表达式可以用语法解码为 [旧文件的行号或者行的范围][行为][新文件的行号或者行的范围]。这里的'行为'可以是追加,删除或者改变替换。
'<'代表删除的行,而'>'代表添加的行。
二、比较两个目录。
这里是'new_dir'目录包含的内容:
[root@auc-test2 huang]# cp -rf 11 22 [root@auc-test2 huang]# ls 11 22 ifup.sh ps.txt tmp [root@auc-test2 huang]# diff 11 22 [root@auc-test2 huang]# cd 11/ [root@auc-test2 11]# ls a.bak a.bak.bak b.bak c.bak cmp.sh [root@auc-test2 11]# rm -rf cmp.sh [root@auc-test2 11]# ls a.bak a.bak.bak b.bak c.bak [root@auc-test2 11]# cd .. [root@auc-test2 huang]# diff 11 22 Only in 22: cmp.sh
你可以看到当diff命令被用来比较这两个目录时,很容易就会显示两个文件中缺失的文件。
下面是一些在命令行下常用的选项:
1. 用 -i 忽略大小写
如果两个文件含有相同的文本但是大小写不同,diff命令仍会默认报告它不同。
比如:
$ cat file1 HI $ cat file2 hi $ diff file1 file2 1c1 < HI --- > hi
你可以看见diff命令在输出中报告了大小写不同。
要去除这个默认行为,使用-i选项。
以下是个例子:
$ diff -i file1 file2 $
这样你可以看到没有生成输出,这是当两个文件相同时的默认行为。
2. 用 -s 选项报告两个文件相同
在例子1的后面,我们看到如果文件相同diff不会生成报告。虽然这个默认行为不错但是它仍可能会造成很大疑惑,特别对于新手而言。因此,如果你像样diff命令明确地报告两个文件不同,那么就使用-s命令选项。
来举个例子:
$ diff -is file1 file2 Files file1 and file2 are identical
你可以看到我加了-s选项在后面的例子中,这次diff命令会明确地报告两个文件是相同的。
3. 使用 -b 忽略空格
另外一个常用的是diff报告文件存在不同数量的空格。
举例说明:
$ cat file1 Hi, how are you? $ cat file2 Hi, how are you?
观察这两个文件唯一的不同是file2中'are'和'you'之间额外的空格。现在,当使用diff命令比较两个文件时,输出如下:
$ diff file1 file2 1c1 < Hi, how are you? --- > Hi, how are you?
因此你可以看到diff命令报告了不同。但是如果你想要忽略这些空格,使用 -b 选项。
$ diff -b file1 file2 $
这样你可以看到由于-b选项,diff命令报告这两个文件是相同的。