linux 中比较文件的几个命令

转自:http://www.oracle.com/technology/global/cn/pub/articles/advanced-linux-commands/part1.html

比较文件

如何判断两个文件(file1 和 file2)是否相同?方法有多种,每种方法都有其自身的优点。

diff。最简单的命令是 diff,用于显示两个文件之间的差别。以下是这两个文件的内容:

# cat file1
In file1 only
In file1 and file2
# cat file2
In file1 and file2
In file2 only

使用 diff 命令能够了解这两个文件之间的差别,如下所示:

# diff file1 file2
1d0
< In file1 only
2a2
> In file2 only
#

在以上输出中,第一列中的“<”表示该行位于上面最先提到的文件(即 file1)中。第一列中的“>”表示该行位于第二个文件 (file2) 中。输出第一行中的字符 1d0 显示为了作用于文件 file1(以使其与 file2 相同)而在 sed 中必须执行的操作。

另一个选项 -y 显示了相同的输出,只不过输出是并排显示的:

# diff -y file1 file2 -W 120
In file1 only                             <
In file1 and file2                                In file1 and file2
                                          >    In file2 only

-W 选项是可选的;它仅指示该命令使用宽度为 120 个字符的屏幕输出,这对于包含长行的文件很有用。

如果只希望了解文件是否不同,而不必知道如何不同,则可以使用 -q 选项。

# diff -q file3 file4
# diff -q file3 file2
Files file3 and file2 differ

由于文件 file3 和 file4 相同,因此没有输出;在另一个示例中,将报告文件存在差别。

如果要编写 shell 脚本,则采用以下方式生成可以分析的输出可能比较有用。-u 选项可以执行该操作:

# diff -u file1 file2        
--- file1       2006-08-04 08:29:37.000000000 -0400
+++ file2       2006-08-04 08:29:42.000000000 -0400
@@ -1,2 +1,2 @@
-In file1 only
In file1 and file2
+In file2 only

以上输出显示了这两个文件的内容,但并未显示重复内容,第一列中的 + 号和 - 号指示文件中的行。第一列中的任何字符均未指示这两个文件中同时存在的内容。

该命令可以识别空格。如果要忽略空格,请使用 -b 选项。使用 -B 选项忽略空白行。最后,使用 -i 忽略大小写。

diff 命令还可以应用于目录。命令

diff dir1 dir2

显示文件文件存在于任一目录中;无论文件是存在于这两个目录中的一个,还是同时存在于这两个目录中。如果它找到同名的子目录,则不会继续查看任何单个文件是否存在差别。示例如下:

# diff DBA102 PROPRD     
Common subdirectories:DBA102/adump and PROPRD/adump
Only in DBA102:afiedt.buf
Only in PROPRD:archive
Only in PROPRD:BACKUP
Only in PROPRD:BACKUP1
Only in PROPRD:BACKUP2
Only in PROPRD:BACKUP3
Only in PROPRD:BACKUP4
Only in PROPRD:BACKUP5
Only in PROPRD:BACKUP6
Only in PROPRD:BACKUP7
Only in PROPRD:BACKUP8
Only in PROPRD:BACKUP9
Common subdirectories:DBA102/bdump and PROPRD/bdump
Common subdirectories:DBA102/cdump and PROPRD/cdump
Only in PROPRD:CreateDBCatalog.log
Only in PROPRD:CreateDBCatalog.sql
Only in PROPRD:CreateDBFiles.log
Only in PROPRD:CreateDBFiles.sql
Only in PROPRD:CreateDB.log
Only in PROPRD:CreateDB.sql
Only in DBA102:dpdump
Only in PROPRD:emRepository.sql
Only in PROPRD:init.ora
Only in PROPRD:JServer.sql
Only in PROPRD:日志
Only in DBA102:oradata
Only in DBA102:pfile
Only in PROPRD:postDBCreation.sql
Only in PROPRD:RMANTEST.sh
Only in PROPRD:RMANTEST.sql
Common subdirectories:DBA102/scripts and PROPRD/scripts
Only in PROPRD:sqlPlusHelp.log
Common subdirectories:DBA102/udump and PROPRD/udump

注意,普通的子目录只按这种方式报告,而不进行比较。如果要进一步深究,并比较这些子目录中的文件,则应使用以下命令:

diff -r dir1 dir2

该命令将采用递归方式进入每个子目录,以比较文件并报告同名文件之间的差别。

适用于 Oracle 用户的技巧

diff 的一种常见用法是区分不同的 init.ora 文件。作为一种最佳实践,我在更改之前通常对文件进行复制并重命名(例如,将 initDBA102.ora 复制并重命名为 initDBA102.080306.ora 以表示 2006 年 8 月 3 日)。文件所有版本之间的一个简单的 diff 就可以快速指出哪些内容发生更改以及更改时间。

这是一个非常强大的用于管理 Oracle 根目录的命令。作为最佳实践,我在应用补丁时从不更新 Oracle 根目录。例如,假设当前的 Oracle 版本为 10.2.0.1。ORACLE_HOME 可能为 /u01/app/oracle/product/10.2/db1。当需要将它更新为 10.2.0.2 时,我不会对此 Oracle 根目录打补丁。相反,我将在 /u01/app/oracle/product/10.2/db2 上启动一个全新的安装,然后对该根目录打补丁。准备就绪后,我使用以下命令:

# sqlplus / as sysdba
SQL> shutdown immediate
SQL> exit
# export ORACLE_HOME=/u01/app/oracle/product/10.2/db2
# export PATH=$ORACLE_HOME/bin:$PATH
# sqlplus / as sysdba
SQL> @$ORACLE_HOME/rdbms/admin/catalog

...

等等。

该方法的目的是不破坏原始的 Oracle 根目录,因此我可以在出现问题时轻松地进行恢复。这还意味着数据库关闭并再次启动,而且瞬间即可完成。如果我将补丁直接安装到 Oracle 根目录上,则必须长时间(补丁应用的整个持续时间)关闭数据库。此外,如果补丁应用由于某种原因出现故障,则不必清理 Oracle 根目录。

既然有多个 Oracle 根目录,那如何查看哪些内容发生了更改?方法其实很简单,我可以使用以下命令:

diff -r /u01/app/oracle/product/10.2/db1 /u01/app/oracle/product/10.2/db2 | 
grep -v Common

该命令显示了两个 Oracle 根目录之间的差别,以及同名文件之间的差别。某些重要的文件(如 tnsnames.ora、listener.ora 以及 sqlnet.ora)不会有太大的差别,但如果差别很大,那么我就需要知道差别的原因。

cmp.命令 cmp 类似于 diff:

# cmp file1 file2   
file1 file2 differ:byte 10, line 1

只要遇到差别就会返回输出。可以使用此输出标识文件在何处可能存在差别。与 diff 一样,cmp 有很多选项,其中最重要的选项是 -s 选项,它只返回一个代码:

  • 如果文件相同,则返回 0
  • 如果文件不同,则返回 1
  • 如果无法进行比较,则返回某个非零数字

示例如下:

# cmp -s file3 file4
# echo $?
0

特殊变量 $? 指示返回代码来自上次执行的命令。在本示例中,该变量为 0,表示文件 file1 和 file2 相同。

# cmp -s file1 file2
# echo $?
1

表示 file1 和 file2 不同。

cmp 的这个属性对于 shell 脚本非常有用,因为在 shell 脚本中您只希望检查两个文件是否存在差别,而不必检查差别是什么。该命令的另一个重要用途是比较二进制文件,而 diff 对于比较二进制文件可能并不可靠。

适用于 Oracle 用户的技巧

回顾一下上一个提示,当您重新链接 Oracle 可执行文件时,旧版本在被覆盖之前将一直保留。因此,在重新链接时,可执行文件 sqlplus 重命名为“sqlplusO”,并且新编译的 sqlplus 置于 $ORACLE_HOME/bin 中。那么,如何确保刚刚创建的 sqlplus 存在差别?只需使用以下命令:

# cmp sqlplus sqlplusO
sqlplus sqlplusO differ:byte 657, line 7

如果检查大小:

# ls -l sqlplus*
-rwxr-x--x    1 oracle   dba          8851 Aug  4 05:15 sqlplus
-rwxr-x--x    1 oracle   dba          8851 Nov  2  2005 sqlplusO

即使这两个示例中的大小完全相同,cmp 也可以证明这两个程序存在差别。

comm.命令 comm 与其他命令相似,只是输出分三列显示,并且列之间由制表符分隔。示例如下:

# comm file1 file2
In file1 and file2
In file1 only
In file1 and file2
In file2 only

如果您想要查看某个文件的内容(另一个文件中不存在这些内容),而不仅仅是差别(SQL 语言中 MINUS 实用程序的排序),则该命令将很有用。-1 选项将不显示在第一个文件中找到的内容:

# comm -1 file1 file2
In file1 and file2
In file2 only

md5sum.该命令将生成文件的 32 位 MD5 散列值:

# md5sum file1
ef929460b3731851259137194fe5ac47  file1

可以将两个具有相同校验和的文件视为相同。而该命令的用途并不仅仅限于比较文件。它还可以提供一种机制来确保文件的完整性。

假设您有两个需要保护的重要文件,file1 和 file2。可以使用 --check 选项检查并确保文件未更改。首先,为这些重要文件创建校验和文件,然后对其进行安全保存:

# md5sum file1 file2 > f1f2 

以后,当您要验证这些文件是否仍保持不变时,可执行如下操作:

# md5sum --check f1f2      
file1:OK
file2:OK

这清楚地表明文件未被修改。现在,更改一个文件并检查 MD5:

# cp file2 file1
# md5sum --check f1f2
file1:FAILED
file2:OK
md5sum:WARNING:1 of 2 computed checksums did NOT match

输出清楚地表明 file1 已被修改。

适用于 Oracle 用户的技巧

md5sum 是一个非常强大的用于安全性实施的命令。您所管理的某些配置文件(如 listener.ora、tnsnames.ora 和 init.ora)对于成功的 Oracle 基础架构非常重要,任何修改都可能会导致停机。这些通常是更改控制过程的一部分。不要相信别人所说的这些文件并未更改,使用 MD5 校验和执行该命令。创建一个校验和文件,并在每次执行计划的更改时重新创建该文件。作为合规性的一部分,使用 md5sum 命令检查该文件。如果某个人无意中更新了这些重要文件中的一个,您就会立即捕获更改。

同样,您还可以为 $ORACLE_HOME/bin 中的所有可执行文件创建 MD5 校验和,并不断比较它们以捕获未授权的修改。

你可能感兴趣的:(linux 中比较文件的几个命令)