Python 极简教程(二十五) - IO(文件读写)

这里讲的文件读写,是由 Python 提供的最基础的文件读写,主要是对文本文件和二进制文件的读写。

如果想要操作 excel, csv,ymal,xml,json 等特定格式的文件,需要特定的库进行处理。

文本文件:在 windows 上但凡能用记事本正常打开的文件都是文本文件,比如 .txt,.log,.py 等;
二进制文件:可执行文件,图片文件,视频文件等。

Python 提供了 open()函数用于文件读写。

f = open(文件路径,读写方式)

open() 函数主要参数有两个:

文件路径:包含文件名的路径,如 D:\nemo\io.txt;
读写方式:指定打开文件的模式,比如只读('r'),只写('w'),追加('a')等。

open() 函数会根据读写方式将文件加载到内存中,返回一个文件对象。f 变量就是用来保存这个对象的。所有后续就可以使用 f 变量对该文件进行读写操作。

所有情况下文件操作主要包含如下三个步骤:

  1. 调用 open() 函数打开文件
  2. 进行文件操作,读、写、追加等
  3. 关闭文件

在使用 open() 函数的时候,必须要根据需要使用对应的读写方式:

读写方式 操作 说明
r 只读 以只读方式打开,文件不存在会报错。默认方式,可以不用写。
w 只写 不能读取,只能写入。
文件不存在就创建,文件存在则覆盖(清空原来的内容)。
a 追加 不能读取,只能写入,在文件的末尾追加。
文件不存在就创建,文件存在则在末尾追加
x 新建 文件存在则会报错,文件不存在就新建并支持写入。
比 w 方式安全,w 方式会覆盖原有内容,误操作可能造成数据丢失。
rb 二进制只读 同 r ,只是操作对象为二进制文件,使用 bytes 类型读。
wb 二进制只写 同 w,写入类型必须是 bytes 类型
ab 二进制追加 同 a,写入类型必须是 bytes 类型
+ 可读写 r+,w+,a+,rb+,wb+,ab+,带加号代表既可写也可读

文件操作

我们先准备一个文件:

Python 极简教程(二十五) - IO(文件读写)_第1张图片
文件读写

这个文件放在 D:\data\pythonIO中,文件名为test_read.txt

注意,很多人 windows 没有开启扩展名。看到的文件名没有.txt后缀,那么一定要开启,文件名+后缀名才是完整的文件名。如何开启?点我!

好了,文件已经准备好,接下来就使用 Python 代码进行文件操作了。

文件读取

我们先以只读方式打开,读写方式为r

f = open(r'D:\data\pythonIO\test_read.txt', 'r') 
# 默认是文本只读,所以'r'其实可以不写

data = f.read()   # 读取文件所有内容

f.close() # 文件打开必须要关闭

print(data)
'''
Python教程
0基础入门切忌追求大而全
快速掌握必要基础语法
再进行有一定目的和趣味的练习
才能避免从入门到放弃的悲剧
'''

上例中,我们使用了只读r的方式打开了文件。

Python 中提供的文件读取方法如下:

f.read()

一次性读取文件中所有内容。

read() 方法有一个默认参数 size,用来指定读取的字符数。当文件过大时,一次性读取内存扛不住,就可以使用 read(size) 来循环读取。

还是以上面的例子中的文件为例:

f = open(r'D:\data\pythonIO\test_read.txt', ) 

print(f.read(8))  # 读取5个字符
# Python教程

f.close() 

注意,size 在文本读取时表示字符个数。而以二进制方式打开时,size 表示字节数

f.readline()
一行行读取,遇到 \n 或 \r\n 等换行符时停止。换行符,我们在文件中看不到,一般只要你通过回车换行,就会自动生成一个换行符。

f = open(r'D:\data\pythonIO\test_read.txt', ) 

print(f.readline()) # 读取第一行内容
# Python教程
print(f.readline()) # 再次调用,读取第二行
# 0基础入门切忌追求大而全

f.close() 

f.readlines()
按行读取所有内容,返回一个列表。文件中的每行内容为列表的一个元素。

f = open(r'D:\data\pythonIO\test_read.txt', ) 

print(f.readlines()) # 读取第一行内容
# ['Python教程\n', '0基础入门切忌追求大而全\n', '快速掌握必要基础语法\n', '再进行有一定目的和趣味的练习\n', '才能避免从入门到放弃的悲剧\n']

f.close() 

这种方式读出为列表,所以可以按照列表的方式灵活处理读取的内容。但是同样也要注意的,这种方法会读取整个文件内容,如果文件过大则可能会占用大量的内存。

文件写入

文件写入有三种方式:

w:覆盖写入,当文件存在时会覆盖文件,文件不存在则创建
a:追加写入,当文件存在时在末尾写入,文件不存在则创建
x:新建文件,当文件存在时报错,文件不存在则创建

以上,读写方式不同,导致会产生不同的结果。如果是 w 方式的话 ,一定要注意文件覆盖。

对于文件写入,主要的方法如下:

f.write()

将内容写入文件,并返回写入的字符数。但是要注意,写入过程都是在内存中进行的,并不会马上体现在文件中,直到 f.close() 的时候,才会将内存中的内容实际写入文件。

f = open(r'D:\data\pythonIO\test_read.txt', 'w+')
f.write('极简教程')
# 4
f.close()

你会发现原来的内容被修改了。

文件指针

文件读写过程中,存在文件指针的概念,当你读取一部分内容后,指针位置就会后移,这样就只能读取后面的内容。
如果你想读取已读取过的内容怎么办呢?也不是没有办法,Python 提供了seektell两个方法来处理指针。

f.tell()
获取文件指针当前所在的位置。不过要注意的是,它是从文件开头算起,到当前位置的字节数

f = open(r'D:\data\pythonIO\test_read.txt', 'r')

print(f.read(8)) # 读取8个字符
# Python教程
print(f.tell()) # 打印当前位置
# 10
f.close()

读取了8个字符,但是返回的位置是10。因为我们的文件中有汉字,一个汉字是两个字节。我们读出来的 8 个字符中有两个汉字,所以当前的位置是 10(第 10 个字节)。

f.seek()
通过 f.seek() 方法可以修改指针的位置。这个方法有两个参数,f.seek(target, whence)。target 用于指定修改指针的位置,whence用于指定修改指针位置时从哪里开始计算(0,表示从文件开始,1,表示从当前位置,2,表示从文件末尾。默认为0)

注意,如果文件不是以二进制方式打开,whence 只能取 0,也就是只能从文件开始计算偏移量。

f = open(r'D:\data\pythonIO\test_read.txt', 'r')

f.read(8) # 读取8个字符
# Python教程
f.tell() # 打印当前位置
# 10
f.seek(0)  # 移到文件开头
# 0
f.seek(5)  # 移到从文件开始算第5个字节位置
# 5
f.seek(-3, 1) # 从当前位置向前移动3个字节,会报错
# io.UnsupportedOperation: can't do nonzero end-relative seeks
f.close()

使用rb方式打开,才能使用 whence 参数的另外两个值,也就是从当前位置或者文件末尾计算。因为一个汉字是两个字符,你如果按字节移动的时候就无法正常读取了。

比如某个汉字占了5和6位字节(一个汉字占两个字节),这时候你移到6,那怎么读呢?读这个汉字的一半?

f = open(r'D:\data\pythonIO\test_read.txt', 'rb')

f.read(8) # 读取8个字节
# b'Python\xbd\xcc'
f.tell() # 打印当前位置
# 8
f.seek(-5,1) # 从当前位置向前移动5个字节
# 3
f.seek(-5, 2) # 从文件末尾向前移动5个字节
# 112
f.seek(0, 2)  # 移动到文件末尾
# 117

f.close()

你可能感兴趣的:(Python 极简教程(二十五) - IO(文件读写))