文件读写

读写文件（文件是由字节组成的信息，在磁盘永久保存）是最常见的IO操作。文件分为文本文件和二进制文件。文本文件可以使用任何文本编辑器进行编辑，阅读起来比较容易，但对于程序来说却是困难的，需要相应的分析程序来解读，它通常比二进制的文件大，在网络传输方面是个严重问题。而二进制文件占据空间小，程序读起来比较容易，但人为阅读比较困难，在文本编辑器中打开会显示乱码。

文件对象

Python内置了读写文件的函数，用法和C是兼容的。读写文件前，我们先必须了解一下，在磁盘上读写文件的功能都是由操作系统提供的，现代操作系统不允许普通的程序直接操作磁盘。而是通过“管道”来实现文件在磁盘和程序之间的传递，这个管道就是一个文件对象。所以，读写文件本质就是请求操作系统打开一个文件对象（通常称为文件描述符），然后通过操作系统提供的接口从这个文件对象中读取数据（读文件），或者把数据写入这个文件对象（写文件）。文件对象在建立连接时生成，由于信息在磁盘和程序之间移动，文件对象使用计算机主存来存储数据。

有两种内建函数可以获取文件对象：open和file。他们的用法完全一样。下面以open()为例子讲解。获取一个文件对象（打开文件）的语法如下：

fileObj = open(filename,access_mode='r',buffering=-1)

其中filename要打开文件的路径（可以使用相对路径，相对于当前执行脚本）。access_mode用来标识文件打开的模式，默认为r(只读)。

常用的模式如下表所示：

文件模式解释

r 以只读方式打开

w 以写方式打开，文件不为空时清空文件;文件不存在时新建文件。

a 追加模式，没有则创建

r+,w+,a+ 以读写模式打开，a+:写在文件末尾，w+:写之前先清空文件内容，r+：写到文件任何位置

r、w、a为打开文件的基本模式，对应着只读、只写、追加模式；此外有b、t、+、U四个字符，可与以上的文件打开模式组合使用，分别表示二进制模式，文本模式，读写模式、通用换行符，根据实际情况组合使用。

其中b表示二进制模式访问，但是对于Linux或者unix系统来说这个模式没有任何意义，因为他们把所有文件都看作二进制文件，包括文本文件。第三个参数不经常用到，标识访问文件的缓冲方式，0代表不缓冲，1代表缓冲一行，-1代表使用系统默认缓冲方式。只要使用系统默认就好。

>>>fp=file("/root/filetest.txt",'w')

>>>dir(fp)

['__class__','__delattr__', '__doc__', '__getattribute__', '__hash__', '__init__','__iter__', '__new__', '__reduce__', '__reduce_ex__', '__repr__','__setattr__', '__str__', 'close', 'closed', 'encoding', 'fileno', 'flush','isatty', 'mode', 'name', 'newlines', 'next', 'read', 'readinto', 'readline','readlines', 'seek', 'softspace', 'tell', 'truncate', 'write', 'writelines','xreadlines']

>>> help(fp.write)

Help on built-in function write:

write(...)

write(str) -> None. Writestring str to file.

Note that due to buffering, flush() or close() may be needed before

the file on disk reflects the data written.

如果文件不存在，open()函数就会抛出一个IOError的错误，并且给出错误码和详细的信息告诉你文件不存在。文件使用完毕后必须关闭，因为文件对象会占用操作系统的资源，并且操作系统同一时间能打开的文件数量也是有限的，由于文件读写时都有可能产生IOError，一旦出错，资源很可能得不到释放。如

>>>fp=file('/root/test.txty','r')

Traceback (most recent call last):

File "", line 1, in

IOError: [Errno 2] No such file ordirectory: '/root/test.txty'

>>> fp

所以为了保证无论是否出错都能正确地关闭文件，我们可以使用try ... finally机制调用close()方法正确关闭（销毁）文件对象，但是每次都这么写实在太繁琐，所以，Python引入了with语句来自动帮我们调用close()方法。如

>>> withopen('/root/test.txty','r') as f:

... f

...

Traceback (most recent call last):

File "", line 1, in

IOError: [Errno 2] No such file ordirectory: '/root/test.txty'

>>> f

Traceback (most recent call last):

File "", line 1, in

NameError: name 'f' is not defined

with语句给被使用到的文件创建了一个上下文环境，with控制块结束时，文件会自动关闭。

python中文件对象是一个迭代器（实现了next方法），这是因为Python的Iterator对象表示的是一个数据流。

>>> from collectionsimport Iterable

>>>

fp=open("/root/test.txt",'r')

>>>isinstance(fp,Iterable)

True

>>>

>>>from collections import Iterator

>>>isinstance(fp,Iterator)

True

Python程序和文件之间建立连接后，即创造了所谓的“流”数据。流的一个重要组成部分是缓冲区，它位于主存中。流由操作系统管理，操作系统会确保当迭代需要使用下一行时，改行已经在内存中的缓冲区里，即使用流式传输的操作符每次只（从管道的前一部分）获取它所需要的数据来给出下一条结果。

读方法

python文件对象提供了三个“读”方法read()、readline()和readlines()。每种方法可以接受一个变量以限制每次读取的数据量。如对于一个文件

[root@localhost ~]# cat test.txt

test1 28 apple

test2 23 good

test3 34 bad

test4 26 apple

read() 每次读取整个文件中剩余的内容，它通常用于将读取的文件内容放到一个字符串变量中返回。默认无参数，即不限定返回字节数，如果文件大于可用内存，为了保险起见，可以反复调用read(size)方法，这样每次最多读取size个字节的内容。

>>> withopen('/root/test.txt','r') as fp:

... retstr=fp.read(4)

...

>>> retstr

'test'

>>>

readlines()，调用readlines()一次读取所有内容并按行返回一个list，各行内容作为其元素，该列表可以由Python 的for ... in ... 结构进行处理。

>>> withopen('/root/test.txt','r') as fp:

... retlist=fp.readlines()

...

>>> retlist

['test1 28 apple\n', 'test2 23good\n', 'test3 34 bad\n', 'test4 26 apple\n']

>>>

readline() 每次只读取一行，通常比readlines()慢得多。仅当没有足够内存可以一次读取整个文件时，才应该使用 readline()。

>>> withopen('/root/test.txt','r') as fp:

... retstr=fp.readline()

...

>>> retstr

'test1 28 apple\n'

>>>

因为文件对象是个迭代器，我们可以直接遍历文件对象获取每行，如

>>> fp=open('/root/test.txt','r')

>>> fp.readline()

'test1 28 apple\n'

>>> fp.readline()

'test2 23 good\n'

>>> fp.read()

'test3 34 bad\ntest4 26 apple\n'

>>>

注意：这三种方法是把每行末尾的'\n'也读进来了，它并不会默认的把'\n'去掉，需要我们手动去掉。

如何读取大文件

如何操作大文件，比如10G一个文件，显然不能使用read()和readlines()，就算你的内存够大，这样一个文件都读取到内存里显然不是一个好办法，太浪费了内存了，另外从磁盘加载到内存页需要时间。是不是可以使用readline()，可以一行行读取，不过读的时候虽然是一行，可是不断的读取到内存最终还是会占用很大内存。

有两种方法可以达到节省内存的目的，要么每次控制读入的量，要么每次从文件对象中按行读入一条，内存占用比较稳定。

第一种方法是使用readlines(sizehint) 函数，通过指定读取的大小，大多数情况下，返回的数据的字节数会稍微比sizehint 指定的值大一点（除最后一次调用readlines(sizehint) 函数的时候）。通常情况下，Python会自动将用户指定的sizehint 的值调整成内部缓存大小的整数倍。

第二种方法是利用文件对象是迭代器的特性，每次读取一行到内存，处理后，然后再读取一行，也就是内存只保留一行。

>>>with open(FILE_PATH,encoding="utf-8", mode="r") asFILE_HANDLER:

# 这里并没有调用文件对象的read方法，此时这里这个文件对象是一个迭代器

for line in FILE_HANDLER:

print(line)

Iterator对象可以被next()函数调用，并不断返回下一个数据，直到没有数据时抛出StopIteration错误。可以把这个数据流看做是一个有序序列，但我们却不能提前知道序列的长度，只能不断通过next()函数实现按需计算下一个数据（只能前进，不能后退），所以Iterator的计算是惰性的，只有在需要返回下一个数据时它才会计算。

>>>fp=open('/root/test.txt','r')

>>>next(fp)

'test128 apple\n'

>>>next(fp)

'test223 good\n'

>>>

Iterator甚至可以表示一个无限大的数据流，例如全体自然数。而使用list是永远不可能存储全体自然数的。迭代器就是以时间换取空间，节省了空间，但是取值时间较长。

写文件

python文件对象提供了两个写方法：write() 和writelines()。

其中，write()方法和read()、readline()方法对应，是将字符串写入到文件中。writelines()方法和readlines()方法对应，也是针对列表的操作。它接收一个字符串列表作为参数，将他们写入到文件中，

写入文件时，换行符不会自动的加入，因此，需要显式的加入换行符。如

>>>with open('/root/test.txt','w') as f:

... f.write('hello world'+'\n')

... f.write('my world')

...

>>>f

查看写入文件

[root@localhost~]# cat test.txt

helloworld

myworld[root@localhost ~]#

我们可以反复调用write()来写入文件，可见为了换行，必需显式的加入换行符。

当我们写文件时，操作系统往往不会立刻把数据写入磁盘，而是放到内存缓存起来，空闲的时候再慢慢写入。只有调用close()方法时，操作系统才保证把没有写入的数据全部写入磁盘。忘记调用close()的后果是数据可能只写了一部分到磁盘，剩下的丢失了。如

>>>fw=open('/root/test.txt','w') #新创建一个文件对象

>>>fw.write('hello world'+'\n')

>>>

>>>fr=open('/root/test.txt','r') #读文件对象

>>>fr.readline()

>>>fw.close()

>>>fr.readline()

'helloworld\n'

>>>

文件读写

文件对象

读方法

写文件

你可能感兴趣的:(文件读写)