第九章 管理真实的程序(三) -文件

文件

绝大多数程序和真实世界交互都是通过读、写文件的方式,而Perl非常擅长处理文本。

输入和输出

文件句柄代表了当前状态下的一个指定的输入或输出通道。每个Perl程序都有3个标准文件句柄可用:STDIN(程序的标准输入)、STDOUT(程序的标准输出);STDERR(程序的错误输出)。默认情况下,函数print和say就是向STDOUT输出内容;而错误和告警信息则会输出到STDERR。根据需要我们可以把标准输出信息和错误信息分别输出到不同的地方---一个输出文件和一个错误日志。

使用内置函数open来得到一个文件句柄。如打开一个文件用来读:

open my $fh, '<', 'filename' or die "Cannot read '$filename': $!\n";

第一个操作数是一个词法变量,操作成功后变量将会包含一个文件句柄;第二个操作数是文件的操作类型,如读、写、追加;最后的操作数就是目标文件。若打开文件失败,die语句会抛出一个异常,失败的原因会包含在$!这个变量里。

文件操作有多种类型,比较重要的文件操作有:

< 读
> 写
>> 追加,若文件不存在则创建一个新文件
+< 读和写
-| 打开一个管道用于读
|- 打开一个管道用于写

你甚至可以为普通的变量创建文件句柄,这样就可以使用句柄的方式读写变量:

open my $read_fh, '<', \$fake_input;
open my $write_fh, '>', \$captured_output;

do_something_awesome( $read_fh, $write_fh );



my $read;
open my $fh,">",\$read;
print $fh "good";
print $read;
#good

perldoc perlopentut查看有关open更多、更奇特的用法。

你还记得autodie吗?
本章节的所有例子都假设已经使用use autodie;这样就能省略错误检查。如果你不使用这个特性,那么请记得检查所有系统调用的返回值。

****Unicode编码,IO层和文件模式****
在文件的操作模式上可以指定IO编码,这样就能在文件输入(输出)时自动进行解码(编码)。例如,如果你准备读取一个UTF-8编码的文件,可以这么做:

open my $in_fh, '<:encoding(UTF-8)', $infile;

向文件写入UTF-8编码的内容:

open my $out_fh, '>:encoding(UTF-8)', $outfile;

****双参数的open****
老代码经常能看到双参数的open(),文件操作模式和文件名会写在一起:

open my $fh, "> $some_file" or die "Cannot write to '$some_file': $!\n";

Perl会从第二个参数中提取出文件的操作模式。这里存在着安全风险,如果这个参数是外部输入的,那情况就会更糟。所以使用更加安全的三参数形式吧。

Perl还有一个全局文件句柄DATA,这个句柄在写简短的自包含数据的程序很有用。有兴趣的使用perldoc perldata来了解更多细节。

****读文件****
对于一个已经打开的用于读的文件句柄,可以使用readline来读取数据,它的行为和钻石操作符<>一样。一个常见的用法就是在while()循环中读取数据:

open my $fh, '<', 'some_file';
while (<$fh>)
{
chomp;
say "Read a line '$_'";
}

在标量语境中,readline读取文件中的一行,并且返回读取的内容;如果是文件结尾就返回undef(内部使用eof来判断是否是结尾)。下一次就迭代到下一行。上面的例子其实是下面这个的简化版:

open my $fh, '<', 'some_file';

while (defined($_ = <$fh>))
{
chomp;
say "Read a line '$_'";
last if eof $fh;
}

为什么是while而不是for
因为for是列表语境,列表语境下readline(或钻石操作符<>)会先读取整个文件的内容,然后再进行后续的处理;而在while中每次读取一行,会更省内存。

读取每一行时都会包含行尾标志,行尾标志根据平台有所不同,可能是\n,或者\r,或者\r\n。可以使用chomp来移除行尾标志。

通常读取文件的代码会类似这样:

open my $fh, '<', $filename;

while (my $line = <$fh>)
{
chomp $line;
...
}

默认情况下,Perl以文本模式操作文件。如果你要操作的是2进制数据(如媒体文件或压缩文件),请在执行任何IO操作前使用,binmode会强制Perl以纯数据方式处理,并且不做任何转换。(例如不会将原始换行符转换为当前平台的形式)

****写文件****
要往一个文件句柄里写内容,使用print或say:

open my $out_fh, '>', 'output_file.txt';

print $out_fh "Here's a line of text\n";
say $out_fh "... and here's another";

****要注意中间没有逗号,句柄和下一个操作数之间没有逗号。****

《Perl最佳实践》中建议:用大括号包围文件句柄可提高可读性。

****关闭文件****
文件使用完后应显式地关闭文件句柄(或者让它超出作用域),这样Perl就会关闭文件。显式的关闭文件句柄有助你检查代码和发现问题。

通常,可以使用autodie来帮助你做异常检查:

use autodie qw( open close );

open my $fh, '>', $file;
...
close $fh;

****特殊的文件句柄变量****
每读取一行,Perl就会增加变量$.的值,所以这个这个变量可以用来计数行数。

readline以变量$/的值作为行尾标志,通常我们不需要改变这个变量。但有时候为了达到一些神奇的效果,就需要改变$/的值。例如,如果一个文件的内容条目是以2个空行作为分割标志的,那么我们可以将$/设置为\n\n,这样就能每次读取一个条目,并且还能使用chomp操作来去除尾部的双空行。

Perl的输出默认会有缓冲行为,只有当数据量超过一定阀值时,才会执行IO。缓冲可以提高IO的性能,然而,有时候你也会需要禁止Perl的缓冲行为。变量$|控制着当前活动的文件句柄的缓冲行为,设置为非零值时,就会禁用缓冲行为。

自动刷新
文件默认是完全缓冲的策略。当STDOUT连接到活动终端而不是另一个程序时,使用的行缓冲策略,就是说Perl在每次遇到换行符时会刷新标准输出。

使用全局变量来控制缓冲行为可能不太合适,因为会影响到你的其他代码,所以更好的方法是,对词法变量句柄使用autoflush()方法:

open my $fh, '>', 'pecan.log';
$fh->autoflush( 1 );

IO::File提供的所有方法都可以在文件句柄上调用。(原因嘛,你知道的。)

目录和路径

目录的操作和文件类似,区别只是你不能写入目录。使用内置函数opendir来打开一个目录句柄:

opendir my $dirh, '/home/monkeytamer/tasks/';

使用readdir来读取目录,行为类似readline,可以每次迭代遍历目录,也可以一次性将所有内容赋值给数组:

# iteration
while (my $file = readdir $dirh)
{
...
}


# flatten into a list, assign to array
my @files = readdir $otherdirh;


#while循环中默认变量是$_
opendir my $dirh, 'tasks/circus/';

while (readdir $dirh)
{
next if /^\./;
say "Found a task $_!";
}

例子中那个正则表达式是用来跳过unix类系统中以点开头的文件和目录。(隐藏文件,当前和上级目录)

readdir返回的名字是相对目录自身来说的。也就是如果tasks/目录下有3个文件,eat、drink、be_monkey,那么readdir返回的就是eat、drink和be_monkey,而不是tasks/eat, tasks/drink和task/be_monkey。

关闭目录句柄,可以使用closedir,或者让它超出作用域。

****操作路径****
Perl提供和解析unix风格的路径,同时也会自动为你的操作系统或文件系统做转换。比如你使用的是windows,你就可以使用路径C:/My Documents/Robots/Bender/,效果和C:/My Documents/Robots/Bender/是一样的。

尽管Perl使用是unix的路径风格,但是也可以很容易通过使用模块来实现跨平台。核心模块File::Spec可以让你安全、可移植性的操作文件路径,而且还有着完善的文档。

CPAN的Path::Class模块有更友好的接口,dir()函数用来创建一个目录对象,file()函数用来创建一个文件对象:

use Path::Class;

my $meals = dir( 'tasks', 'cooking' );
my $file = file( 'tasks', 'health', 'robots.txt' );




my $lunch = $meals->file( 'veggie_calzone' );
my $robots_dir = $robot_list->dir;




my $dir_fh = $dir->open;
my $robots_fh = $robot_list->open( 'r' ) or die "Open failed: $!";

有兴趣的可以看看模块Path::Class和Path::Tiny。

文件操作

除了读、写文件,你还可以进行其他操作。文件测试操作符统称-X操作符,用来检测文件和目录的属性。要测试一个文件是否存在:

say 'Present!' if -e $filename;

-e操作符只有一个操作数,文件名或句柄(文件句柄,目录句柄)。如果文件存在,表达式为真,否则为假。perldoc -f -X会列出所有的测试操作符,常见的有:

-f 若操作数是纯文本文件则返回真
-d 若操作数是目录件则返回真
-r 若操作数文件对应当前用户可读则返回真
-s 若操作数不是一个空文件则返回真

可以查看操作符对应的文档,比如perldoc -f -r。

内置函数rename可以重命名一个文件或移动一个文件,它有2个操作数,文件旧的路径和新路径:

rename 'death_star.txt', 'carbon_sink.txt';

# or if you're stylish:
rename 'death_star.txt' => 'carbon_sink.txt';

Perl没有复制文件的内置函数,但是 File::Copy提供了copy() move()函数。内置函数unlink可以删除一个或多个文件。(注意:内置delete函数是用来删除一个哈希元素的,而不是用在文件系统上)这些函数都会在操作成功返回真值,出现错误时设置$!变量。

Perl会跟踪当前的工作目录,默认的是你启动程序的活动目录。核心模块Cwd模块的cwd()函数会返回当前工作目录。内置函数chdir可以改变当前工作目录。搞清楚当前工作目录是使用相对路径的基础。

你可能感兴趣的:(第九章 管理真实的程序(三) -文件)