TraceBack:http://blog.seety.org/everydaywork/2008/4/9/1012/
撰写 Linux 使用的 Python script
这篇文章写于两年前,主题锁定在以Python 写Linux 的script 。讨论了Python script. 的惯用写法、字符串处理、字符编码、档案与目录处理、呼叫外部程序 ,以及利用内建链接库进行网络 通讯。
1 Linux 、指令稿与Python
对Linux 来说,指令稿(script) 是至为重要的部分。在主要的Linux distribution 中间,从系统的启动到运作,都离不开shell 指令稿撰写。在我的主机上面执行一下:
$ ls /usr/bin/* /bin/* | wc -l
2585
$ file /usr/bin/* /bin/* | grep "shell script" | wc -l
267
看,可以找到267 个shell 指令稿程序,超过/usr/bin 和/usr 目录下所有( 程序) 档案的十分之一。这还只是shell 指令稿的部分而已。
在一个像Linux 这样以档案为操作导向的操作系统 上面,script. 的活跃是理所当然的事情。绝大部分的系统设定都以字符串的形式写在组态文件 里面,而操作系统的执行期信息也存在档案系统之中(/proc) ;直接处理这些字符串就能管理 系统,用指令稿语言来进行自动化是非常合适的。
像Python 这种指令稿语言因为开发 快速的关系,能够很快地制作出我们想要的系统管理功能出来。除了开发快速之外,Python 也具有容易维护的特性。相比之下,Perl 程序虽然可以写得更短,但也更不容易看懂;shell 指令稿则不是完整的开发环境 。Python 是撰写系统管理指令稿的理想工具 。
2 Python 指令稿的格式
Python 指令稿与其它语言的指令稿的基本格式完全一样,本身都是纯文字文件,而在文件头要以#! 指定直译程序的位置:
#!/usr/bin/python
print "Hello, world!"
这是我们上一期写过的hello.py 程序,不要忘记chmod a+x hello.py ,如此便可以在指令行下执行这个指令稿:
$ ./hello.py
Hello, world
我们习惯上会给Python 程序取个扩展名.py ,但Linux 的指令稿并不需要缀上扩展名;把hello.py 改成hello ,程序一样会正常执行。.py 扩展名对Python 仍有特别的意义,但只在撰写Python 模块的时候才有用处。
对于指定Python 直译器标头,我们一般有两种作法。像以上的hello.py 这种写为绝对路径的方式其实并非必要,我们可以改用相对路径的方式来指定:
#!/usr/bin/env python
于是会以/usr/bin/env 程序来叫用python 直译器,处理Python 程序档案。这么作的好处是当系统中安装 有许多个不同的Python 直译器时,会采用路径在最前面的那一个。如此一来,若使用者另外安装了一版Python ( 例如装在自己的家目录) ,又把自己的Python 放到路径设定(PATH 环境变量) 的最前面,即会采用使用者自己安装的Python 。
每一版Python 除了有python 这个执行档之外,还会附有内容完全相同的pythonX.Y 这个执行档,X.Y 是该版Python 的major version 和minor version 。譬如Python 2.3 就会有python 和python2.3 这两个直译器,用起来是完全一样的。如果我们写的指令稿程序必须要使用某一个版本的Python ,可以偷偷在指令稿标头上动手脚来进行限制;以Python 2.3 为例,就把标头写成:
#!/usr/bin/env python2.3
Note
Python 提供了一套正统的方法来检查所使用Python 及所有相关环境的信息。在指令稿标头上动手脚虽然方便,但不是保险的正统作法;只是,若程序本身就没多长( 譬如说二三十行) ,的确不必浪费时间去写一串检查程序。
当指令稿只使用了主流版号的标准链接库时( 这是一般的状况) ,通常就不必指定Python 的版本。
若写成hello.py 里那种绝对路径的标头,就会限定使用安装在某一个位置的Python 。通常我们都会指定在/usr/bin/python 或/usr/bin/pythonX.Y ( 看要指定哪一版) ,即系统所安装的Python ;写成这样的话,使用者就不好改用自己安装的版本了。
Python 直译器还会读取另一组格式为# -*- setting -*- 的标头( 通常接在第一行以后) ,其中常用的是:
# -*- coding: UTF-8 -*-
用途是指定「指令稿档案内纯文字的字符编码( 为UTF-8) 」。如果你想要写中文批注,这就非常重要;Python 自己有一套字符编码转换的机制,实作在codecs 模块里面,但直到Python 2.4 之前,繁体中文常用的Big5 编码并未进入标准的codecs 模块。如果指令稿档案使用了Python 看不懂的字符编码( 就是指华文世界用的Big5 和GB) ,程序虽然仍可执行,但Python 直译器会送出警告。如果想用中文撰写批注,最好把指令稿档案转为UTF-8 Unicode ,并如上指定编码。
上一期已经提过了,Python 也是以# 当作单行批注符号的( 和shell script. 一样) ;所有在这个符号之后的文字都是批注。顺带一提,如果你习惯以VIM 编辑Python 指令稿,可以在文件尾加上VIM 的设定字符串:
# vim:set nu et ts=4 sw=4 cino=>4:
设定显示行号(nu) 、展开跳格键(et ,对Python 程序来说,跳格键Tab 是最要不得的东西) ,指定跳格字符为4 (ts=4) 、偏移字符宽为4 (sw=4) 、C 式缩排为>4 (cino=>4) ;然后再打开语法标示(syntax highlighting ,这个在.vimrc 里设定比较合适) 。使用这样的编辑环境,对撰写Python 程序来说会很方便。
Python 直译器会依出现顺序来执行程序代码档案里的指令。如果我们想撰写比较具组织性的指令稿,可以把平铺直述的:
print "some operations"
改成这样的程序代码结构:
def main():
print "some operations"
if __name__ == '__main__':
main()
亦即自行制作一个「进入点」main() 函式。当指令稿比较长( 超过一百行以上) ,以及将来在扩充指令稿的时候,就会比较方便。
总结来说,一个Python 指令稿的常见格式应为:
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
def main():
print "Hello, world"
if __name__ == '__main__':
main()
# vim:set nu et ts=4 sw=4 cino=>4:
3 字符串处理
在管理Linux 系统时,( 纯文字) 设定档案以及其中的字符串处理是至为核心的部分;让我们来看看Python 如何进行这些工作。因为我们在上一期已经用Python 处理过字符串和档案了,所以在这里,我们应该对字符串处理作深入一点的介绍。
首先我们要知道的是,字符串在Python 里面是一种对象。打开Python 交互式环境( 到shell 去执行python 即可进入) ,执行以下动作:
>>> print type( "" )
>>> if type( "I am a string" ) is str: print True
...
True
>>> if type( "Another string" ) is str(): print True
...
type() 是Python 的内建函式,用来取得变量的型态。我们可以从这三个指令看出来,字符串"", "I am a string" 都是str 类别的对象。查看Python 的在线文件,会发现有两组关于字符串处理的链接库;一组是string 模块里的函式,另一组则是字符串对象专用的方法(String Methods) 。两者虽有一些差别,但功能的重复性相当高;我们讨论的重点在字符串方法。
我们常常会需要分析档案中的字符串:把字符串拆解开来,依照给定的逻辑来判断字符串数据的意义。因此,最常用的字符串方法就是我们上一期有用到的split() 。split() 传回的是列表(list) ,可以用索引值( 以0 起始) 来存取列表中的各个项目。再来示范一下:
>>> tokens = "This is a sample string used to demo split()".split()
>>> len(tokens)
9
>>> print tokens
['This', 'is', 'a', 'sample', 'string', 'used', 'to', 'demo', 'split()']
>>> print tokens[0], tokens[2]
This a
>>> print tokens[-1], tokens[-2]
split() demo
>>> print tokens[2:5]
['a', 'sample', 'string']
第一个指令把我们的字符串切成了9 个字符串,存在tokens 这个列表里。len() 是个内建函式,用来量测像列表这种可以存放其它东西的对象的长度( 传回所包含的项目个数) 。列表只要是整数就可以了,但最大不能到项目个数;可以给入负值,表示从列表尾端开始计算。索引值-1 即为列表的最后一个项目。
有办法切开字符串进行判断了之后,我们常常还需要把分析结果给输出出来,那么就得接合字符串;以字符串的格式化操作(string format operations) 就能完成这件工作。我们可以写出以下的表示式:
>>> "%d %f %s" % (1, 1.2, "string")
'1 1.200000 string'
这就是字符串格式化操作。以带有特别转换字符(conversion character) 的格式化字符串,后接% 运算子,再接一个tuple 作为参数,就能把tuple 里的数据填进格式化字符串里去。常用的%d 代表有号整数、%f 代表浮点数、%s 代表字符串,完整的转换字符表请参考Python 的在线文件。
Note
Python 的tuple 也是一种可以包含其它对象的数据结构,以整数索引存取其中的对象,但其行为与列表不尽相同。在语法上,tuple 用(1, 2, 3) 来宣告,而列表用[1, 2, 3] 来宣告。如果tuple 中只有一个对象,则要写成(1,) ,不要忘记右括号前的逗号。在字符串格式化操作时,若转换字符只有一个,% 操作数后的tuple 也可以用单一变量来代替。
字符串对象另有一个叫作join() 的方法可以用来结合字符串,用法如下:
>>> "".join([ "a", "b", "c" ])
'abc'
>>> "-".join([ "a", "b", "c" ])
'a-b-c'
在处理字符串时,最后要注意的是,Python 的字符串不可变。也就是说,想变更字符串中的某一个字符,不能直接设:
>>> a = "write"
>>> a[2] = "o"
Traceback (most recent call last):
File "
TypeError: object doesn't support item assignment
那是不合法的。那该怎么办呢?可以这样作:
>>> print a[:2]+"o"+a[3:]
wrote
字符串的内容虽然不能变更,但字符串本身可以加起来( 串接) 。a[:2] 表示取出a 字符串到索引2 为止的部分;a[3:] 表示取出a 字符串从索引3 开始到结尾的部分;然后在中间接入"o" 。最后我们还是可以得到wrote 字符串。这种操作索引的技巧 ,也可以用在一般的列表上。
Python 同样具有常规表示式(regular expression) 的操作能力,实作在re 模块里面。用来执行字符串取代是非常方便的。
3.1 转换字符编码
Python 有一套处理字符编码的codecs 模块;我们以之即可自由地将字符转换为各种不同的编码,这是我们在处理多国语言数据时常需处理的问题。然而,字符串对象本身就提供有encode() 与decode() 方法,我们不必汇入codecs 模块就可以使用这两个方法为我们提供的codecs 能力。
此处我们得要注意一个事实,那就是Python 拥有两种字符串对象。其一是我们刚刚一直在处理的str 字符串,而另一种呢,就是对多国语言处理非常重要的unicode 字符串。一般我们用引号或双引号表示的都是普通的字符串(str) ,而用u"string" 表示的呢,就是unicode 字符串。decode() 能把普通字符串译码成unicode 对象,而encode() 则能把unicode 对象编码成各种支持的字符集。
在处理中文编码之前,我们要为Python 2.3 安装相关的外加套件:cjkcodecs 与iconvcodecs ;前者是中日韩专用的codecs 对象,而后者允许Python 直接使用GNU iconv 工具所提供的编码,作为codecs 对象。假设我们得把原本是Big5 的编码重编为UTF-8 ,那么可以这样作:
>>> f = open( "file.big5" )
>>> s = f.read()
>>> f.close()
>>> sp = s.decode('Big5').encode('UTF-8')
你可以在计算机 上找一个内容是Big5 编码的档案,把locale 改成UTF-8 ,然后在Python 交互式环境下执行以上的指令( 该改的地方请改一下) 。最后再用print s, sp 比较一下转换前后的字符串。
4 档案系统与目录
在Linux 系统中复制、搬移、删除档案与目录也是管理时常见的动作。Python 提供的os 模块能处理操作系统所支持的大部分档案系统操作,另外还有shutil 模块,提供更高阶的操作。
4.1 档案系统操作
档案系统与档案内容是不一样的议题。我们在进行档案系统操作时,处理的是搬移( 更名) 、复制与删除,比较没有机会直接新增档案。这些动作在os 与shutil 模块里几乎都有提供;我们应该先汇入这两个模块。
若要复制档案,我们可以这样作:
>>> shutil.copy('data.txt', 'data.new.txt')
删除档案则用os.unlink() :
>>> os.unlink('data.new.txt')
搬移( 更名) 有两种方法:
>>> os.rename('data.txt', 'data.alter.txt')
>>> shutil.move('data.alter.txt', 'data.txt')
第一种方法,若来源档( 第一个参数) 与目的档不在同一个档案系统内( 分割区) ,此动作可能会失效( 不同的Unix 有不同的处理方法) 。第二种方法比较高阶,无论来源档与目的档是否在相同的档案系统内,都可以使用。
4.2 路径的处理
管理系统的时候多半不会只处理当前目录内的档案,所以常要对路径字符串进行处理。os.path 模块提供了处理路径的函式,常用的有:
实际要使用的时候,大概会像是这样子:
>>> os.path.split( "a/b/c" )
('a/b', 'c')
>>> os.path.join( "a", "b", "c" )
'a/b/c'
>>> os.path.splitext( "dir/file.ext" )
('dir/file', '.ext')
你可以在你的目录结构里,用真正的路径来试试看!
5 外部程序呼叫
许多在shell 指令稿中要靠呼叫外部程序才能完成的作业,都能用Python 的内建模块来完成,例如上面提到的字符串处理、档案处理、目录处理等等。而若遇到Python 不足的地方,或是有非常特别的操作,当然也可以呼叫外部的程序。
os 模块有一个system() 函式可以用来呼叫外部程序:
>>> os.system( 'ls' )
weekly20051204.doc
weekly20051211.doc
0
>>>
最后显示出来的0 不是ls 程序的输出,而是其传回值。
os.system() 函式能进行最简单的外部程序呼叫,不能对该程序的输出入数据进一步处理;如果我们只想简单执行程序,os.system() 函式将是最佳的选择 。
5.1 管线
当我们也需要对外部程序的输出入数据进行处理的时候,os.system() 就不够用了。Python 另外有popen2 模块,可以让我们管理外部程序子行程的输出入管线(pipe) 。在popen2 模块里有popen2(), popen3() 和popen4() 三个工具函式,分别会重导向子行程的标准输出入、标准输出入及错误输出、标准输出合并错误输出及标准输入。
简单用范例来说明最常用的popen2() ( 别忘了先import popen2 喔) :
>>> stdout, stdin = popen2.popen2("ls")
>>> str = stdout.read()
>>> print ostr
weekly20051204.doc
weekly20051211.doc
>>>
popen2.popen2() 会传回连结到ls 程序输出入的两个档案对象,我们取名为stdout 与stdin 。呼叫了popen2.popen2() 之后,外部程序马上就会执行,然后我们就能从stdout 档案对象里读出该外部程序的标准输出数据了。如此一来,该程序的执行结果就不会直接显示在终端机上,我们可以在Python 里面先处理过以后,再决定该怎么办。
如果我们想呼叫的程序也会进行错误输出(stderr) ,而我们想要处理的话,就改用popen3() 或popen4() 函式。popen3() 的错误输出会连接至一个独立的档案对象,而popen4() 则会把错误输出一起放到标准输出所连结的档案对象里;你可以视需要使用。
Note
在Python 2.4 里有一个新的subprocess 模块,可以执行所有的外部程序呼叫功能。所以在Python 2.4 里不再需要os 与popen2 模块里的相关函式了;当然,旧模块不会消失,所以在Python 2.4 里还是可以用popen2 ,我们的旧程序不会出问题。
6 因特网通讯
Python 内建的链接库里就具备相当方便的因特网通讯功能,不必呼叫外部程序。
因特网通讯是个大范围,其中最常用到的大概数全球信息网了;我们举Zope 应用 程序服务 器来作例子。Zope 使用ZODB 对象数据库 来储存数据,这个系统会把存取动作纪录下来,当使用者删除其中的数据时,数据不会实际删除,要等到手动压缩(pack) 数据库的时候,才会真正把数据删除。这个压缩功能的动作选项是放在web-based 的ZMI 里面,没有指令行接口;如果我们不想手动连进ZMI 来执行压缩,就得写一个能进行HTTP 操作的指令稿。
我们要写的程序应该具有以下的命令 列接口:
packzope.py -u
这个packzope.py 程序要负责用HTTP 和服务器沟通,把从命令列取得的使用者名称和密码提供给Zope 服务器,并且用GET 方法把要压缩的天数( 舍弃指定天数前的数据) 告诉Zope 服务器。以下是写好的程序:
#!/usr/bin/env python
import sys
import urllib
class parameters:
def __init__(self):
from optparse import OptionParser, OptionGroup
op = OptionParser(
usage = "usage: %prog -u URL -d DAYS -U USERNAME -P PASSWORD",
version = "%prog, " + "%s" % __revision__
)
op.add_option("-u", action="store", type="string", /
dest="url", /
help="URL of site to open"
)
op.add_option("-d", action="store", type="int", /
dest="days", default=1, /
help="erase days before"
)
op.add_option("-U", action="store", type="string", /
dest="username", /
help="username"
)
op.add_option("-P", action="store", type="string", /
dest="password", /
help="password"
)
self.op = op
(self.options, self.args) = self.op.parse_args()
params = parameters()
if not params.options.url or /
not params.options.username or /
not params.options.password :
params.op.print_help()
sys.exit(1)
url = "%s/Control_Panel/Database/manage_pack?days:float=%d" % /
(params.options.url, params.options.days)
def main(): try: f = MyOpener().open(url).read() print "Successfully packed ZODB on host %s" % params.options.url except: print "Cannot open URL %s, aborted" % url raise if __name__ == '__main__': main()
程式前半段在處理命令行參數 (class parameters ),而在 main() 函式裡實際進行連線動作。packzope.py 利用 urllib 模組來連結 Zope 伺服器,並利用 subclassing urllib.FancyURLopener 類別來自訂使用者名稱與密碼的輸入。壓縮完畢之後,程式會輸出以下的字樣:
Successfully packed ZODB on host http://someplace:port
我們可以把 packzope.py 放到 crontab 裡定期執行。這就是一種自動化網路操作。
本文藉由討論以 Python 進行 Linux 操作自動化的技巧,對 Python 的應用作了進一步的介紹。當然,在進行任何種類的 Python 程式開發時,都可以參考 Python 的線上說明文件。Dive into Python 是一本容易上手的自由 Python 書籍,你也可以在網路上找到中文譯本。