持久化操作,要把数据保存下来。
数据库的底层也是一个个文件。
文件操作——IO
1.文本文件和二进制文件
文件分两种。
word不是文本文件
二进制文件用记事本打开时,是乱码。
文本文件储存是字符文本,python默认为unicode字符集,可以用记事本打开。
二进制储存是用字节存储。
2.文件操作相关模块概述
3.创建文件对象open()
b,+是接在上面的3种模式后面。
如果没写b,默认处理文本文件;写了b,是处理二进制文件,处理的基本单元是字节。
4.文本文件的写入
关闭文件 包括了解释器程序的关闭、OS的关闭
.close()
5.常用编码介绍
python 用的是unicode,但解码的时候,有可能是utf-8或者是GBK
window操作系统默认为GBK,而Linux默认为UTF-8。当在window系统下,用open()时,调用的是windows操作系统打开的文件,默认为GBK
也就是说,原来是UTF-8存储的文件,如果是windows下用open()打开,则会是乱码。
6.write()/writelines()写入数据
write(a),writelines(a)
一个是把字符串工写入文件,一个是把字符串列表写入文件中,不添加换行符。
f=open(r'd:\bb.txt','w',encoding='UTF-8')
s=['gaoqi1\n','gqoqi2\n','gaoqi1111\n']
f.writelines(s)
f.close()
write(a):是把字符串的内容全部写进去,原来是怎么样就是怎么样
writelines(a):则是把字符串的列表写进去,列表字符内容 之间没有分隔符,需要自己加分隔符。
注意:这两种方法,写的对象都是字符,其他类型如整数int等不能操作。
close()如果不关,界面也看不见,但在OS中确实分配了资源 。
7.close()关闭文件流
文件打开是两段的,一段是解释器,另一段是OS分配资源 。如果程序异常,关闭解释器资源时,OS段未关闭。所以要设置机制,最终要处理close().
示意:
调用f对象时,并不会直接写入储存区,而是先会写入缓冲 区。所以close()关闭时,会先把缓冲区的数据写入文件,关闭文件后,再释放对象。
try:
f=open(r'c.txt','a',encoding='UTF-8')
str = 'gaoqi'
f.write(str)
except BaseException as a:
print(a)
finally:
f.close()
注意:此处f=open(r'c.txt','a',encoding='UTF-8')的路径为相对路径,这样文件名称会出现在Pycharm的右边文件夹路径中。否则不会出现:
8.with语句(上下文管理器)
s=['gaoqi1\n','gaoqi222\n','lq3\n','ll3']
with open(r'dd.txt','w') as e:
e.writelines(s)
with语句,可以保证无论什么原因跳出with语句,文件都能正确的关闭,自动还原,将打开的资源全部关闭,还原到原来的状态。
9.文本文件的读取
read(size):一个字母是一个字符,一个汉字也是一个字符。参数size为空,则是取全部的文件。
with open(r'D:\bb.txt','r') as f:
print(f.read(4))
with open(r'D:\bb.txt','r') as f:
while True:
fragment=f.readline()
if not fragment: #如果fragment为空的时候,此处就为真,执行break语句
break
else:
print(fragment,end='')
readline()是读取一行,可以用循环语句依次读取。
print()默认时,自带回车。可以用end=""入参,表示 不用强制回车,而是保持原文件的格式。
同上一个例子的结果:
with open(r'D:\bb.txt','r') as f:
for a in f:
print(a, end='')
此处使用迭代器,在文本文件中,每次返回一行
with open(r'ee.txt','r') as f:
lines=f.readlines()
lines=[line.rstrip() + '#'+str(index) +'\n' for index,line in enumerate(lines)]
with open(r'ee.txt','w') as f:
f.writelines(lines)
此例子:
(1)lines=f.readlines()中的readlines()出来的对象是数组,将数组的对象赋给lines。 (2)enumerate()方法是遍历的枚举,出现的形式是序号+内容的一个元组。由于lines是数组对象,所以用这个enumerate()方法后,也是一个包含元组的数组对象。 (3)此程序,先读取出文件,文件放进对象进行缓冲区,再将此对象用writelines()全部写入文件。
10.二进制文件的读取和写入
区别与文本文件的方式是加一个b
示例:拷贝一个gif文件
with open(r'D:\aa.gif','rb') as f:
with open('aa.gif','wb') as w:
for line in f.readlines():
w.write(line)
print('文件拷贝完成!')
说明:打开一个对象后,写入这个对象,就是这个对象的方法。
同样的写法,f.readlines是一个列表,写入列表是w.writelines()
with open(r'D:\aa.gif','rb') as f:
with open('b.gif','wb') as w:
line = f.readlines()
w.writelines(line)
print('文件拷贝完成!')
11.文件对象的常用属性和方法
12.文件任意位置的操作
with open('D:/bb.txt','rb') as f:
print('文件名是:{0}'.format(f.name)) #文件名会包含路径:文件名是:D:/bb.txt
print(f.tell())
print('读取的内容:{0}'.format((str(f.readline()))))
print(f.tell())
f.seek(10,1)
print('读取的内容:{0}'.format((str(f.readline()))))
此处open时,是'rb'而不是例子中的‘r’,否则在f.seek()传参中报错
使用seek()方法报错:“io.UnsupportedOperation: can't do nonzero cur-relative seeks”错误的原因 - 希声lx - 博客园 (cnblogs.com)
13.使用pickle序列化
import pickle a1='gaoqi' a2=234 a3=[10,20,30] with open('data.dat','wb') as f: pickle.dump(a1,f) pickle.dump(a2, f) pickle.dump(a3, f) with open('data.dat','rb') as f: b1=pickle.load(f) b2=pickle.load(f) b3=pickle.load(f) print(b1) print(b2) print(b3) print(id(a1));print(id(b1))
结果:
gaoqi
234
[10, 20, 30]
2321128370288
2321177235184
14.CSV文件操作(读和写)
互联网上的信息大都可以用表格形式,表格可以转为CSV
#读取csv文件
import csv
with open(r'd:/rr.csv','r',encoding='utf-8') as f:
a_csv = csv.reader(f) #是一个list形式,读取csv文件的内容赋给一a_csv变量对象
#print(list(a_csv))#打印之后,指针移到末尾
for row in a_csv:
print(row)
#写入csv文件
with open('rr.csv','w',encoding='utf-8') as w:
b_csv=csv.writer(w) #将写csv文件的对象赋给一b_csv变量对象
b_csv.writerow(['Filename','Run Count','Last Run Date'])
b_csv.writerow(['D:\\Program Files (x86)\\Tencent\\QQ\\19年年终总结\\2019网课更新福利年终总结,工作汇报\\橙色渐变简约商务年终总结PPT模板.pptx', '2', '133042498126660845'])
#csv对象要一行一行写
#写入csv文件的循环形式
with open('rr.csv','w',encoding='utf-8') as w:
b_csv=csv.writer(w)
with open(r'd:/rr.csv', 'r', encoding='utf-8') as f:
a_csv = csv.reader(f)
for row in a_csv:
b_csv.writerow(row)
#原因是csv是一行一行读取出来为一个list,而写入也是一行一行写的,并且写入没有整块一起写的方法,只有一行一行写
15.os和os.path模块
操作系统命令和文件的操作。
os.system可以直接调用系统命令。
import os
# os.system('notepad.exe')#打开系统自己的记事本程序
# os.system('cmd')#打开cmd
# os.startfile("C:\Program Files (x86)\ecloud\eCloud.exe")#打开应用程序
os.system('ping www.baidu.com')
打开系统自己的,用os.system ;打开后面安装进去的文件程序,用os.startfile。
os.system('ping www.baidu.com')ping 出来 为乱码时,从下面路径中设置
os.system('ping www.baidu.com')ping 出来 为乱码时,从下面路径中设置
16.os模块——文件和目录操作
#测试os模块中关于文件和目录的操作。
import os
#########################获取文件和文件夹的相关信息################################
print(os.name) #windows----->nt; linux和unix——>posix
print(os.sep) #windows----->\; linux和unix——>/
print(repr(os.linesep)) #windows----->'\r\n'; linux和unix——>\n\
#os.linesep指的是当前系统的行终止符,repr()是用解释器可以展示的方式展示出来
print(os.stat('file10.py'))
#########################关于工作目录的操作################################
# print(os.getcwd()) #程序重新执行后仍然对应该编辑文件的位置,即file11.py的位置
# #C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io
# os.chdir('d:') #改变当前的工作目录,然后就可以在此目录上操作
# # os.mkdir('书箱')
# print(os.getcwd()) #改为D盘后,该当前目录就是D:
# os.rmdir('书箱') #删除目录,没有路径则是相对目录
# os.rmdir(r'D:\书箱') #删除目录
#
#os.removedirs(r'电影\港台\大本营') #如果目录内不是空的,有文件,则不能删除
#########################创建目录、创建多级目录################################
# os.makedirs(r'..\音乐\港台\刘德华') #..是指上一级目录
# os.removedirs(r'..\音乐\港台\刘德华') #..是指上一级目录
# os.makedirs(r'..\Pycharm项目\音乐\港台\刘德华') #..是指上一级目录,如果是这种写法,就会在Pycharm项目文件夹下再创建一个Pycharm项目文件夹,以及后面的项目
# os.removedirs(r'..\Pycharm项目\音乐\港台\刘德华') #如果目录内不是空的,有文件,则不能删除
# os.rename('movie','电影') #不管文件夹中有没有文件,都可以重命名
dirs=os.listdir('电影') #是一个list对象,只列出一级子目录,而不会往下列出孙目录
print(dirs)
学习建议:建立体系为先,其后的知识用到时再补
17.os.path模块
#列出指定目录下所有以.py结尾的文件
import os.path
path=os.getcwd() #取得目录
file_list=os.listdir(path) #取得目录下的所有文件,是一个list
for filename in file_list: #在这个list下做循环
if filename.endswith('py'): #对文件名结尾的判断
print(filename,end='\t')
print('################################################')
file_list2=[filename for filename in os.listdir(path) if filename.endswith('py')]
#列表推导式,从哪里取数据? os.listdir(path);怎么取数据?for filename in os.listdir(path)循环
#循环时,是一个列表
for f in file_list2:
print(f)
两种方法
18.walk()递归遍历所有文件和目录
#测试os.walk()递归 遍历所有的子目录和文件
import os
all_files=[]
path=os.getcwd()
list_files=os.walk(path)
# print(list(list_files),end='\n')
for dirpath,dirnames,filenames in list_files:
for dir in dirnames:
# print(dir)
# #港台
# print(os.path.join(dirpath,dir))#通过这种方式,将文件夹的路径完全连接
# #C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\电影\港台
all_files.append(os.path.join(dirpath,dir))
for file in filenames:
# print(file)
# #file14.py
# print(os.path.join(dirpath,file))#通过这种方式,将文件和路径完全接起来
# #C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file14.py
all_files.append(os.path.join(dirpath,file))
for file in all_files: #通过这种方式,将list打印出来
print(file)
结果:
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\电影
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\aa.gif
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\b.gif
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\b.txt
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\c.txt
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\data.dat
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\dd.txt
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\ee.txt
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file02_py.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file03_py.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file04.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file05.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file06.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file07.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file08.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file09.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file10.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file11.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file12.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file13.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file14.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\rr.csv
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\电影\港台
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\电影\港台\大本营
可以通过walk()方法返回的三个对象,对文件路径和文件名进行操作。
19.shutil()模块,拷贝和压缩
#测试拷贝和压缩
import shutil
# shutil.copyfile('b.txt','b_copy.txt')#拷贝谁,拷贝后叫什么名字
# shutil.copyfile('b.txt',r'D:\b_copy.txt')
#拷贝谁,拷贝后叫什么名字,没指定路径,就是相对路径;指定路径了,就在相应的路径下
# shutil.copytree(r'电影\港台\大本营','音乐')
#原来的文件都包含在新的文件夹里面
# shutil.copytree(r'电影\港台\大本营',r'D:\音乐')
shutil.copytree(r'电影\港台',r'D:\音乐',ignore=shutil.ignore_patterns('*.html','1.txt'))
#可以忽略一些不需要的文件
关于文件夹压缩和多个文件压缩
import shutil
import zipfile
#将电影/港台文件夹下的所有内容压缩到“音乐2”文件夹下生成movie.zip
# shutil.make_archive('D:/音乐2/movie','zip','电影/港台')
#shutil.make_archive()为压缩方法。
#参数1为要压缩成为的文件名,参数2为压缩的文件格式,参数3为从哪里来
#压缩:将指定的多个文件压缩到一个zip文件
z=zipfile.ZipFile(r'D:\a.zip','w')
#参数一代表写入的文件名,包含路径;参数二代表写入
z.write('c.txt')#添加多个文件
z.write('b.txt')
z.write(r'D:\b_copy.txt')
z.close()#结束时,关闭资源
20.递归
递归就是自己调用自己
条件一:什么时候不调用自己
条件二:什么时候调用自己
#测试递归
def factoria(n):
if n==1:
return 1
else:
return n*factoria(n-1)
a=factoria(10)
print(a)
递归打印所有的文件目录和文件
#使用递归算法,遍历目录下所有的文件
import os
allfile=[]
def getFiles(path,level):
childFiles=os.listdir()#得到的是文件名和文件夹的名字,不包含路径
# print(list[childFiles])
for file in childFiles:
filepath=os.path.join(path,file)#加入路径的信息
if os.path.isdir(filepath):#对是否是目录的判断,如果是目录,则递归
getFiles(filepath,level+1)#level是一个参数
allfile.append('\t'*level+filepath)
getFiles(os.getcwd(),0)
for f in reversed(allfile):#要反转过来
print(f)