awk学习系列-第1/3部分

---本文作者---Daniel Robbins

    Daniel Robbins 居住在新墨西哥州的 Albuquerque。他是 Gentoo Technologies, Inc. 的总裁兼 CEO, Gentoo Linux(用于 PC 的高级 Linux)和 Portage 系统(Linux 的下一代移植系统)的创始人。他还是 Macmillan 书籍 Caldera OpenLinux UnleashedSuSE Linux UnleashedSamba Unleashed 的合作者。Daniel 自二年级起就与计算机某些领域结下不解之缘,那时他首先接触的是 Logo 程序语言,并沉溺于 Pac-Man 游戏中。这也许就是他至今仍担任 SONY Electronic Publishing/Psygnosis 的首席图形设计师的原因所在。Daniel 喜欢与妻子 Mary 和新出生的女儿 Hadassah 一起共度时光。可通过 [email protected] 与 Daniel 联系。

---捍卫 awk

    在这一系列的文章中,我将使您成为精通 awk 的编程人员。我承认,awk 并没有一个非常好听且又非常 “时髦” 的名字。awk 的 GNU 版本(叫作 gawk)听起来非常怪异。那些不熟悉这种语言的人可能听说过 "awk",而且可能认为它是一组落伍且过时的混乱代码。它甚至会使最博学的 UNIX 权威陷于混乱的边缘(使他不断地发出 "kill -9!" 命令,就象使用咖啡机一样)。    

    的确,awk 没有一个动听的名字。但它是一种很棒的语言。awk 适合于文本处理和报表生成,它还有许多精心设计的特性,允许进行多种方式的编程。与某些语言不同,awk 的语法较为常见。它借鉴了某些语言的一些精华部分,如 C 语言、python 和 bash(虽然在技术上,awk 比 python 和 bash 早创建)。awk 是一种一旦学会就会成为您战略代码库的重要部分的语言。

---第一个 Awk

    您应该会看到 /ect/passwd 文件中的内容,本文使用该文件来解释 awk 的工作原理。

    当调用 awk 时,我们指定 /etc/passwd 作为输入文件。Awk 在执行期间对 /etc/passwd 文件中的每一行依次执行 print 命令。所有输出都发送到 stdout,可以得到类似 cat 命令的结果。

    现在解释代码块{ print }。在 Awk 中,花括号{}用于将代码分块,这与 C 语言类似。我们的代码块中只有一条 print 命令。在 Awk 中,当 print 命令单独出现时,将打印当前行的全部内容。

$ awk '{ print $0 }' /etc/passwd
    在 Awk 中,变量$0表示整个当前行,因此print和print $0的作用完全相同。
$ awk '{ print }' /etc/passwd
$ awk '{ print "" }' /etc/passwd
$ awk '{ print " "}' /etc/passwd
    运行下面脚本,屏幕上将显示多行 hiya。
$ awk '{ print "hiya" }' /etc/passwd
--- 多个字段

$ awk -F":" '{ print $1 $3 }' /etc/passwd
$ awk -F":" '{ print $1 " " $3 }' /etc/passwd
$ awk -F":" '{ print "username: " $1 "\t\tuid:" $3 }' /etc/passwd
---外部脚本

BEGIN {
	FS=":"
}
{ print $1 }
    区别在于如何设置字段分隔符。在该脚本中,(通过设置 FS 变量)在代码中指定字段分隔符,而前一示例通过在命令行向 awk 传递 -F":" 选项来设置 FS。一般而言,最好在脚本内部设置字段分隔符,因为这样可以少输入一个命令行参数。本文稍后将深入讲解 FS 变量。

---BEGIN 与 END 代码块   

    通常,awk 会针对每个输入行执行一次每个代码块。但是,在许多编程情形下,可能需要在 awk 开始处理输入文件的文本之前 执行初始化代码。对这种情况,awk 支持定义 BEGIN 代码块。前一示例使用了这种代码块。因为 BEGIN 代码块在 awk 开始处理输入文件之前执行,因此它是初始化 FS(字段分隔符)变量、打印页眉或者初始化在后续程序中将要引用的其他全局变量的绝佳位置。

    另外,awk 还提供了另一种称为 END 的专用代码块。在输入文件的所有行处理完毕之后,awk 执行这个代码块。通常,END 代码块用于进行最终计算或者打印应该在输出流结尾处出现的汇总信息。

---正则表达式与代码块

/foo/ { print }
/[0-9]+\.[0-9]*/ { print }
--- 表达式与代码块

$1 == "fred" { print $3 }
$5 ~ /root/ { print $3 }
--- 条件语句

{ 
	if ( $5 ~ /root/ ) { 
		print $3 
	}
}
    两个脚本的作用相同。第一个示例的布尔表达式位于代码块外,而第二个示例的代码块会针对每个输入行执行一次,本文使用if语句有选择地执行打印命令。两种方法都可以使用,可以选择与脚本的其他部分最匹配的方法。

{
	if ( $1 == "foo" ) {
		if ( $2 == "foo" ) {
			print "uno"
		} else {
			print "one"
		}
	} else if ($1 == "bar" ) {
		print "two"
	} else {
		print "three"
	}
}
! /matchme/ { print $1 $3 $4 }
{ 	
	if ( $0 !~ /matchme/ ) {
		print $1 $3 $4
	}
}
      两个脚本都会只输出 包含matchme字符序列的行。也可以选择最适合您的代码的方法。它们的功能完全相同。

     下示例打印第一个字段等于foo 第二字段等于bar的行。

( $1 == "foo" ) && ( $2 == "bar" ) { print }
---数值变量

    在 BEGIN 代码块中,我们将整型变量x初始化为零。这样,awk 每次遇到空白行时都将执行x=x+1语句,递增x值。在所有行都处理完毕之后,awk 执行 END 代码块,并打印最终的汇总信息,以显示它找到的空白行数。

---字符串化变量

---众多运算符

---字段分隔符

---字段数目

---记录数目

---

    Awk 还提供了一些具有多种用途的其他变量。后续文章中将深入讲解这些变量。

    我们对 awk 的初次探究现在就结束了。随着本系列的延续,我将演示更高级的 awk 功能,我们将用一个真实的 awk 应用程序作为本系列的结尾。






在 Awk 中,变量$0表示整个当前行,因此print和print $0的作用完全相同。


$ awk '{ print $0 }' /etc/passwd

你可能感兴趣的:(awk学习系列-第1/3部分)