Windows下读入utf-8格式的txt文档是带“BOM”的,BOM是“Byte Order Mark”的缩写,用于标记文件的编码。并不是所有的文本编辑工具都能识别BOM标记.在用记事本之类的程序将文本文件保存为UTF-8格式时,记事本会 在文件头前面加上几个不可见的字符(EF BB BF 这里指的是utf-8,unicode编码为feff),就是所谓的BOM(Byte Order Mark)。
1. r模式:以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。
注意:当文件不存在时会报错,不会新建文件
2. rb模式:以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。
Windows平台下 :
如果以“文本”方式打开文件,当读取文件的时候,系统会将所有的"/r/n"转换成"/n";当写入文件的时候,系统会将"/n"转换成"/r/n"写入。
如果以"二进制"方式打开文件,则读/写都不会进行这样的转换。
在Unix/Linux平台下: “文本”与“二进制”模式没有区别。
也就是说在Windows下,以'/r/n'表示换行,在linux下以/n表示换行,在mac OS下以/r表示换行
3. r+模式:打开一个文件用于读写。文件指针将会放在文件的开头。
这种模式不能同时用于读写,例先读后写会报错
#!/usr/bin/python
#coding= utf-8
fd = open("chinese_test.txt","r+")
s = fd.readline()
fd.write('你好')
fd.close()
报错如下:IOError: [Errno 0] Error
先写后读会写入乱码
使用r+模式写入文件会默认从文件开头写入,从前向后依次覆盖,例:
#!/usr/bin/python
#coding= utf-8
fd = open("chinese_test.txt","r+")
fd.write('你好'+'\n')
fd.write('世界'+'\n')
fd.write('你好地球')
fd.close()
fd = open("chinese_test.txt","r+")
s = fd.readline()
s1 = fd.readline()
s2 = fd.readline()
print s,
print s1,
print s2
fd.close()
fd = open("chinese_test.txt","r+")
fd.write('问候'+'\n')
fd.close()
fd = open("chinese_test.txt","r+")
s = fd.readline()
s1 = fd.readline()
s2 = fd.readline()
print s,
print s1,
print s2
fd.close()
运行结果为:
你好
世界
你好地球
问候
世界
你好地球
首先向txt中写入三行 “你好” “世界” “你好地球” 然后读出,又重新写入一行“问候”,实际会覆盖txt中的第一行。
注意这和w模式的不同,w模式下会清掉文件的整个内容
要想实现同时进行读和写需要使用seek()函数(先读后写和先写后读都能解决问题),如下:
#!/usr/bin/python
#coding= utf-8
fd = open("chinese_test.txt","r+")
fd.write('你好'+'\n')
fd.write('世界'+'\n')
fd.write('你好地球')
print fd.tell()
fd.seek(0,0)
s = fd.readline()
s1 = fd.readline()
s2 = fd.readline()
print s,
print s1,
print s2
fd.close()
seek()函数实现的功能是移动文件读取指针到指定位置
f.seek(p,0) 移动当文件第p个字节处,绝对位置
f.seek(p,1) 移动到相对于当前位置之后的p个字节
f.seek(p,2) 移动到相对文章尾之后的p个字节
tell()函数可以用来显示当前指针的位置
4. w模式
打开只写文件,如果文件不存在则创建
5. w+模式
打开可读写文件,如果文件不存在则创建,w和w+模式都会把原来的文件内容擦除。如果想要同时读写的话 需要使用seek()函数。
6. a模式
写追加,打开文件不会覆盖,不能读,文件不存在创建
7. a+模式
写追加,可读写,注意用seek()函数,文件不存在创建