第十七章 - 文件操作
冯诺伊曼体系架构
- CPU由运算器和控制器组成
- 运算器,完成各种算数运算、逻辑运算、数据传输等数据加工处理
- 控制器,控制程序的执行
- 存储器,用于记忆程序和数据,例如内存
- 输入设备,将数据或者程序输入到计算机中,例如键盘、鼠标
- 输出设备,将数据或程序的处理结果展示给用户,例如显示器、打印机等
一般说IO操作,指的是文件IO,如果指网络IO,都会直接说网络IO
文件 IO 常用操作
open 打开
read 读取
write 写入
close 关闭
readline 行读取
readlines 多行读取
seek 文件指针操作
tell 指针位置
open 打开操作
open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
打开一个文件,返回一个文件对象(流对象)和文件描述符。打开文件失败,则返回异常。
基本使用:
创建一个文件test,然后打开它,用完关闭。
f = open("test") # file对象,是Text IO对象
# windows <_io.TextIOWrapper name='test' mode='r' encoding='cp936'>
# linux <_io.TextIOWrapper name='test' mode='r' encoding='UTF-8'>
print(f.read()) # 读取文件
f.close() # 关闭文件
文件操作中,最常用的操作就是读和写。
文件访问的模式有两种:文本模式和二进制模式。不同模式下,操作函数不尽相同,表现的结果也不一样。
open的参数
file
打开或者要创建的文件名或是文件描述符。如果不指定路径,默认是当前路径。
mode模式
|描述字符|意义|
|:--|:--|
|r|缺省的,表示只读打开|
|w|只写打开|
|x|创建并写入一个新文件|
|a|写入打开,如果文件存在,则追加|
|b|二进制模式|
|t|缺省的,文本模式|
|+|读写打开一个文件。给原来只读、只写方式打开提供缺失的读或写能力|
在上面的例子中,可以看到默认是文本打开模式,且是只读的。
文本的操作是对字符的操作。
# r模式
f = open('test') # 只读还是只写?
f.read()
f.write('abc')
f.close()
f = open('test', 'r') # 只读
f.write('abc')
f.close()
f = open('test1', 'r') # 只读,文件不存在
# w模式
f = open('test', 'w') # 只写打开
f.write('abc')
f.close()
cat test # 看看内容
f = open('test', mode='w')
f.close()
cat test # 看看内容
f = open('test1', mode='w')
f.write('123')
f.close()
cat test1 # 看看内容
open 默认是只读模式r打开已经存在的文件
r
只读打开文件,如果使用write方法,会抛异常。
如果文件不存在,抛出FileNotFoundError异常。
w
表示只写方式打开,如果读取则抛出异常
如果文件不存在,则直接创建文件
如果文件存在,则清空文件内容
f = open('test2', 'x')
f.read() #
f.write('abcd')
f.close()
f = open('test2', 'x') #
x
文件不存在,创建文件,并只写方式打开
文件存在,抛出FileExistsError异常
f = open('test2', 'a')
f.read() #
f.write('abcde')
f.close()
cat test2
f = open('test2', 'a')
f.write('\n hello')
f.close()
cat test2
f = open('test3', 'a')
f.write('test3')
f.close()
a
文件存在,只写打开,追加内容
文件不存在,则创建后,只写打开,追加内容
所以,一般用a+,而不用w+
r是只读,wxa都是只写。
wxa都可以产生新文件,w不管文件存在与否,都会生成全新内容的文件;a不管文件是否存在,都能在打开的文件尾部追加;x必须要求文件事先不存在,自己造一个新文件
文本模式t (字符流)
字符流,将文件的字节按照某种字符编码理解,并照字符操作。open的默认mode就是rt。
二进制模式b (字节流)
字节流,将文件就按照字节理解,与字符编码无关。二进制模式操作时,字节操作使用bytes类型
f = open("test3",'rb') # 二进制只读
s = f.read()
print(type(s)) # bytes
print(s)
f.close() # 关闭文件
f = open("test3",'wb') # BufferedReader IO对象,小心一用w原来的内容就没了
s = f.write("马哥教育".encode())
print(s) # 是什么
f.close()
思考:windows下,执行下面的代码
f = open("test3",'rw') #
f = open("test3", 'r+')
s = f.read() # 文件指针到末尾
f.write("马哥教育") # 在末尾写入
print(f.read()) # 没有显示,为什么
f.close()
f = open("test3", 'r+')
s = f.write("magedu") # 在开头写入magedu,文件指针移到写入内容之后
print(f.read()) # 读magedu之后的内容出来
f.close()
cat test3
f = open('test3', 'w+') # w 清空文件了
f.read()
f.close()
cat test3
f = open('test3', 'a+')
f.write('mag')
f.read()
f.close()
cat test3
f = open('test3', 'a+')
f.write('edu')
f.close()
cat test3
f = open('test3', 'x+') # 文件存在抛出异常
f = open('test4', 'x+') #
f.write('python')
f.read()
f.close()
cat test4
+
为r、w、a、x提供缺失的读写功能,但是,获取文件对象依旧按照r、w、a、x自己的特征。
+不能单独使用,可以认为它是为前面的模式字符做增强功能的。
文件指针
上面的例子中,已经说明了有一个指针。
文件指针,指向当前字节位置
mode=r, 指针起始在0
mode=a,指针起始在EOF
tell()显示指针当前位置
seek(offset[,whence])
移动文件指针位置。offset偏移多少字节,whence从哪里开始。
文本模式下
whence 0缺省值,表示从头开始,offset只能正整数
whence 1表示从当前位置,offset只接受0
whence 2表示从EOF开始,offset只接受0
# 文本模式
f = open('test4', 'r+')
f.tell() # 起始
f.read()
f.tell() # EOF
f.seek(0) # 起始
f.read()
f.seek(2,0)
f.read()
f.seek(2,0)
f.seek(2,1) # offset必须为0
f.seek(2,2) # offset必须为0
f.close()
# 中文
f = open('test4', 'w+')
f.write('马哥教育')
f.tell()
f.close()
f = open('test4', 'r+')
f.read(3)
f.seek(1)
f.tell()
f.read() # 中文编码如utf-8,不能从一个字符的半截的某个字节开始读
f.seek(2) # f.seek(3)
f.close()
文本模式支持从开头向后偏移的方式。
whence为1表示从当前位置开始偏移,但是只支持偏移0,相当于原地不动,所以没有什么用。
whence为2表示从EOF开始,只支持偏移0,相当于移动文件指针到EOF。
seek是按照字节偏移的。不管那种模式。
二进制模式下
whence 0 缺省值,表示从头开始,offset只能正整数
whence 1 表示从当前位置,offset可正可负
whence 2 表示从EOF开始,offset可正可负
# 二进制模式
f = open('test4', 'rb+')
f.tell() # 起始
f.read()
f.tell() # EOF
f.write(b'abc') # 如果写中文字,最好'啊'.encode()
f.seek(0) # 起始
f.seek(2,1) # 从当前指针开始,向后2
f.read()
f.seek(-2,1) # 从当前指针开始,向前2
f.seek(2,2) # 从EOF开始,向后2
f.seek(0)
f.seek(-2,2) # 从EOF开始,向前2
f.read()
f.seek(-20,2) # OSError
f.close()
二进制模式支持任意起点的偏移,从头、从尾、从中间位置开始。
向后seek可以超界,但是向前seek的时候,不能超界,否则抛异常。
buffering:缓冲区
-1 表示使用缺省大小的buffer。
如果是二进制模式,使用io.DEFAULT_BUFFER_SIZE值,默认是4096或者8192。
如果是文本模式,如果是终端设备,是行缓存方式,如果不是,则使用二进制模式的策略。
- 0 只在二进制模式使用,表示关buffer
- 1 只在文本模式使用,表示使用行缓冲。意思就是见到换行符就flush
- 大于1用于指定buffer的大小
buffer缓冲区
缓冲区一个内存空间,一般来说是一个FIFO队列,到缓冲区满了或者达到阈值,数据才会flush到磁盘。
flush()将缓冲区数据写入磁盘
close()关闭前会调用flush()
io.DEFAULT_BUFFER_SIZE 缺省缓冲区大小,字节
先看二进制模式
import io
f = open('test4','w+b')
print(io.DEFAULT_BUFFER_SIZE)
f.write("magedu.com".encode())
# cat test4 # 是空,是因为文件指针在尾,还是因为没有flush?好像都是
f.seek(0)
# cat test4 # 输出: magedu.com
f.write("www.magedu.com".encode())
f.flush()
f.close()
f = open('test4','w+b',4) # 清空了文件
f.write(b"mag")
# cat test4 # 空
f.write(b'edu')
# cat test4 # 输出:mag
f.close()
文本模式
# buffering=1 使用行缓冲
f = open('test4', 'w+', 1)
f.write("mag") # cat test4 为空
f.write("magedu"*4) # cat test4 为空
f.write('\n') # cat test4
f.write('Hello\nPython') # cat test4,'Python'这几个字符是写入了的,也对啊,不可能搞的更复杂分为2部分,先flush一部分。
f.close()
# buffering>1,使用指定大小的缓冲区
f = open('test4', 'w+', 15)
f.write("mag") # cat test4
f.write('edu') # cat test4
f.write('Hello\n') # cat test4
f.write('\nPython') # cat test4
f.write('a' * (io.DEFAULT_BUFFER_SIZE - 20)) # 设置为大于1没有什么用
f.write('\nwww.magedu.com/python')
f.close()
buffering=0
这是一种特殊的二进制模式,不需要内存的buffer,可以看做是一个FIFO的文件。
f = open('test4','wb+',0)
f.write(b"m") # cat test4
f.write(b"a") # cat test4
f.write(b"g") # cat test4
f.write(b"magedu"*4) # cat test4
f.write(b'\n') # cat test4
f.write(b'Hello\nPython')
f.close()
buffering | 说明 |
---|---|
buffering=-1 | t和b,都是io.DEFAULT_BUFFER_SIZE |
buffering=0 | b关闭缓冲区 t不支持 |
buffering=1 | b就1个字节 t行缓冲,遇到换行符才flush |
buffering>1 | b模式表示行缓冲大小。缓冲区的值可以超过io.DEFAULT_BUFFER_SIZE,直到设定的值超出后才把缓冲区flush t模式,是io.DEFAULT_BUFFER_SIZE,flush完后把当前字符串也写入磁盘 |
似乎看起来很麻烦,一般来说,只需要记得:
- 文本模式,一般都用默认缓冲区大小
- 二进制模式,是一个个字节的操作,可以指定buffer的大小
- 一般来说,默认缓冲区大小是个比较好的选择,除非明确知道,否则不调整它
- 一般编程中,明确知道要写磁盘了,都会手动调用一次flush,而不是等到自动flush或者close的时候
encoding:编码,仅文本模式使用
None 表示使用缺省编码,依赖操作系统。windows、linux下测试如下代码
f = open('test1','w')
f.write('啊')
f.close()
windows下缺省GBK(0xB0A1),Linux下缺省UTF-8(0xE5958A)
其他参数
errors
什么样的编码错误将被捕获
None和strict表示有编码错误将抛出ValueError异常;ignore表示忽略
newline
文本模式中,换行的转换。可以填写为None、"(空串)、'\r'、'\n'、'\r\n'
读时,None表示'\r'、'\n'、'\r\n'都被转换为'\n';"(空串)表示不会自动转换通用换行符;其他合法字符表示换行符就是字符,就会按照指定字符分行
写时,None表示'\n'都会被替换为系统缺省分隔符os.linesep;'\n'或''(空串)表示'\n'不替换;其他合法字符表示'\n'会被替换为指定的字符
f = open('o:/test', 'w')
f.write('python\rwww.python.org\nwww.magedu.com\r\npython3')
f.close()
newlines = [None, '', '\n', '\r\n']
for nl in newlines:
f = open('o:/test', 'r+', newline=nl) # 缺省替换所有换行符
print(f.readlines())
f.close()
closefd
关闭文件描述符,True表示关闭它。False会在文件关闭后保持这个描述符。fileobj.fileno()查看
read
read(size=-1)
size表示读取的多少个字符或字节;负数或者None表示读取到EOF
f = open('o:/test4', 'r+', 0)
f.write("magedu")
f.write('\n')
f.write('马哥教育')
f.seek(0)
f.read(7)
f.close()
# 二进制
f = open('test4','rb+')
f.read(7)
f.read(1)
f.close()
行读取
readline(size=-1)
一行行读取文件内容。size设置一次能读取行内几个字符或字节。
readlines(hint=-1)
读取所有行的列表。指定hint则返回指定行数。
# 按行迭代
f = open('test') # 返回可迭代对象
for line in f:
print(line)
f.close()
write
write(s),把字符串s写入到文件中并返回字符个数
writelines(lines),将字符串列表写入文件,单个字符串也行
f = open('test', 'w+')
lines = ['abc', '123\n', 'magedu'] # 提供换行符
f.writelines(lines)
f.seek(0)
print(f.read())
f.close()
close
flush并关闭文件对象。
文件已经关闭,再次关闭没有任何效果。
其他
seekable()是否可seek
readable()是否可读
writable()是否可写
closed是否已经关闭
上下文管理
问题的引出
在Linux中,执行
# 下面必须这么写
lst = []
for _ in range(2000):
lst.append(open('test')) # OSError: [Errno 24] Too many open files: 'test'
print(len(lst))
lsof 列出打开的文件。没有就# yum install lsof
lsof -p 1427 | grep test | wc -l
lsof -p 进程号
ulimit -a 查看所有限制。其中open files 就是打开文件数的限制,默认1024
for x in lst:
x.close()
将文件一次关闭,然后就可以继续打开了。再看一次lsof。
如何解决?
- 异常处理
当出现异常的时候,拦截异常。但是,因为很多代码都可能出现OSError异常,还不好判断异常就应为资源限制产生的。
f = open('test') # 这里就可能抛出异常
try:
f.write("abc") # 文件只读,写入失败
finally:
f.close() # 这样才行
使用finally可以保证打开的文件可以被关闭。
- 上下文管理
一种特殊的语法,交给解释器去解释文件对象
上下文管理
def f
with open('test') as f:
f.write("abc") # 文件只读,写入失败
# 测试f是否关闭
f.closed # f的作用域
上下文管理
- 使用with ... as 关键字
- 上下文管理的语句块并不会开启新的作用域
- with语句块执行完的时候,会自动关闭文件对象
另一种写法
f1 = open('test')
with f1:
f1.write("abc") # 文件只读,写入失败
# 测试f是否关闭
f1.closed # f1的作用域
对于类似于文件对象的IO对象,一般来说都需要在不使用的时候关闭、注销、以释放资源。
IO被打开的时候,会获得一个文件描述符。计算机资源是有限的,所以操作系统都会做限制。就是为了保护计算机的资源不要被完全耗尽,计算资源是共享的,不是独占的。
一般情况下,除非特别明确的知道资源情况,否则不要提高资源的限制值来解决问题。
练习
指定一个源文件,实现copy到目标目录
例如把/tmp/test.txt 拷贝到 /tmp/test1.txt有一个文件,对其进行单词统计,不区分大小写,并显示单词重复最多的10个单词。
简单处理后,大概的得数如下:
the,136
is,60
a,54
path,52
if,42
and,39
to,34
of,33
on,32
return,30
实际上有效的path很多,作为合法的单词path统计应该有100多个。
对单词做进一步处理后,统计如下:
path,137
the,136
is,60
a,59
os,50
if,43
and,40
to,34
of,33
on,33
最后
本文的另外链接是:https://herodanny.github.io/python-magedu-2018-notes24.html