Pycharm基础——文件操作(IO)技术

持久化操作,要把数据保存下来。

数据库的底层也是一个个文件。

文件操作——IO

1.文本文件和二进制文件

文件分两种。

word不是文本文件

二进制文件用记事本打开时,是乱码。

文本文件储存是字符文本,python默认为unicode字符集,可以用记事本打开。

二进制储存是用字节存储。

2.文件操作相关模块概述

Pycharm基础——文件操作(IO)技术_第1张图片

3.创建文件对象open()

 Pycharm基础——文件操作(IO)技术_第2张图片

 b,+是接在上面的3种模式后面。

如果没写b,默认处理文本文件;写了b,是处理二进制文件,处理的基本单元是字节。

4.文本文件的写入

Pycharm基础——文件操作(IO)技术_第3张图片

关闭文件 包括了解释器程序的关闭、OS的关闭

.close()

5.常用编码介绍

python 用的是unicode,但解码的时候,有可能是utf-8或者是GBK

window操作系统默认为GBK,而Linux默认为UTF-8。当在window系统下,用open()时,调用的是windows操作系统打开的文件,默认为GBK

也就是说,原来是UTF-8存储的文件,如果是windows下用open()打开,则会是乱码。

Pycharm基础——文件操作(IO)技术_第4张图片

6.write()/writelines()写入数据

write(a),writelines(a)

一个是把字符串工写入文件,一个是把字符串列表写入文件中,不添加换行符。

f=open(r'd:\bb.txt','w',encoding='UTF-8')
s=['gaoqi1\n','gqoqi2\n','gaoqi1111\n']
f.writelines(s)
f.close()

write(a):是把字符串的内容全部写进去,原来是怎么样就是怎么样

writelines(a):则是把字符串的列表写进去,列表字符内容 之间没有分隔符,需要自己加分隔符。

注意:这两种方法,写的对象都是字符,其他类型如整数int等不能操作。

close()如果不关,界面也看不见,但在OS中确实分配了资源 。

7.close()关闭文件流

文件打开是两段的,一段是解释器,另一段是OS分配资源 。如果程序异常,关闭解释器资源时,OS段未关闭。所以要设置机制,最终要处理close().

Pycharm基础——文件操作(IO)技术_第5张图片

Pycharm基础——文件操作(IO)技术_第6张图片

示意:

 Pycharm基础——文件操作(IO)技术_第7张图片

 调用f对象时,并不会直接写入储存区,而是先会写入缓冲 区。所以close()关闭时,会先把缓冲区的数据写入文件,关闭文件后,再释放对象。


try:
    f=open(r'c.txt','a',encoding='UTF-8')
    str = 'gaoqi'
    f.write(str)
except BaseException as a:
    print(a)
finally:
    f.close()

 注意:此处f=open(r'c.txt','a',encoding='UTF-8')的路径为相对路径,这样文件名称会出现在Pycharm的右边文件夹路径中。否则不会出现:

Pycharm基础——文件操作(IO)技术_第8张图片

8.with语句(上下文管理器)

s=['gaoqi1\n','gaoqi222\n','lq3\n','ll3']
with open(r'dd.txt','w') as e:
    e.writelines(s)
    

with语句,可以保证无论什么原因跳出with语句,文件都能正确的关闭,自动还原,将打开的资源全部关闭,还原到原来的状态。

9.文本文件的读取

Pycharm基础——文件操作(IO)技术_第9张图片

 read(size):一个字母是一个字符,一个汉字也是一个字符。参数size为空,则是取全部的文件。

with open(r'D:\bb.txt','r') as f:
    print(f.read(4))

with open(r'D:\bb.txt','r') as f:
    while True:
        fragment=f.readline()
        if not fragment:    #如果fragment为空的时候,此处就为真,执行break语句
            break
        else:
            print(fragment,end='')

readline()是读取一行,可以用循环语句依次读取。

print()默认时,自带回车。可以用end=""入参,表示 不用强制回车,而是保持原文件的格式。

同上一个例子的结果:

with open(r'D:\bb.txt','r') as f:
    for a in f:
        print(a, end='')

此处使用迭代器,在文本文件中,每次返回一行

with open(r'ee.txt','r') as f:
    lines=f.readlines()
    lines=[line.rstrip() + '#'+str(index) +'\n' for index,line in enumerate(lines)]

with open(r'ee.txt','w') as f:
    f.writelines(lines)

此例子:

(1)lines=f.readlines()中的readlines()出来的对象是数组,将数组的对象赋给lines。
(2)enumerate()方法是遍历的枚举,出现的形式是序号+内容的一个元组。由于lines是数组对象,所以用这个enumerate()方法后,也是一个包含元组的数组对象。
(3)此程序,先读取出文件,文件放进对象进行缓冲区,再将此对象用writelines()全部写入文件。

10.二进制文件的读取和写入

区别与文本文件的方式是加一个b

Pycharm基础——文件操作(IO)技术_第10张图片

 示例:拷贝一个gif文件

with open(r'D:\aa.gif','rb') as f:
    with open('aa.gif','wb') as w:
        for line in f.readlines():
            w.write(line)
print('文件拷贝完成!')

说明:打开一个对象后,写入这个对象,就是这个对象的方法。

同样的写法,f.readlines是一个列表,写入列表是w.writelines()

with open(r'D:\aa.gif','rb') as f:
    with open('b.gif','wb') as w:
        line = f.readlines()
        w.writelines(line)
print('文件拷贝完成!')

11.文件对象的常用属性和方法

Pycharm基础——文件操作(IO)技术_第11张图片 

 Pycharm基础——文件操作(IO)技术_第12张图片

Pycharm基础——文件操作(IO)技术_第13张图片 

Pycharm基础——文件操作(IO)技术_第14张图片 

 12.文件任意位置的操作

with open('D:/bb.txt','rb') as f:
    print('文件名是:{0}'.format(f.name))    #文件名会包含路径:文件名是:D:/bb.txt
    print(f.tell())
    print('读取的内容:{0}'.format((str(f.readline()))))
    print(f.tell())
    f.seek(10,1)
    print('读取的内容:{0}'.format((str(f.readline()))))

此处open时,是'rb'而不是例子中的‘r’,否则在f.seek()传参中报错

使用seek()方法报错:“io.UnsupportedOperation: can't do nonzero cur-relative seeks”错误的原因 - 希声lx - 博客园 (cnblogs.com)

13.使用pickle序列化

import  pickle
a1='gaoqi'
a2=234
a3=[10,20,30]

with open('data.dat','wb') as f:
    pickle.dump(a1,f)
    pickle.dump(a2, f)
    pickle.dump(a3, f)

with open('data.dat','rb') as f:
    b1=pickle.load(f)
    b2=pickle.load(f)
    b3=pickle.load(f)
    print(b1)
    print(b2)
    print(b3)

    print(id(a1));print(id(b1))

结果:

gaoqi
234
[10, 20, 30]
2321128370288
2321177235184

14.CSV文件操作(读和写)

互联网上的信息大都可以用表格形式,表格可以转为CSV

#读取csv文件
import csv
with open(r'd:/rr.csv','r',encoding='utf-8') as f:
    a_csv = csv.reader(f)    #是一个list形式,读取csv文件的内容赋给一a_csv变量对象
    #print(list(a_csv))#打印之后,指针移到末尾
    for row in a_csv:
        print(row)

#写入csv文件
with open('rr.csv','w',encoding='utf-8') as w:
    b_csv=csv.writer(w)    #将写csv文件的对象赋给一b_csv变量对象
    b_csv.writerow(['Filename','Run Count','Last Run Date'])
    b_csv.writerow(['D:\\Program Files (x86)\\Tencent\\QQ\\19年年终总结\\2019网课更新福利年终总结,工作汇报\\橙色渐变简约商务年终总结PPT模板.pptx', '2', '133042498126660845'])
#csv对象要一行一行写

#写入csv文件的循环形式

with open('rr.csv','w',encoding='utf-8') as w:
    b_csv=csv.writer(w)
    with open(r'd:/rr.csv', 'r', encoding='utf-8') as f:
        a_csv = csv.reader(f)
        for row in a_csv:
            b_csv.writerow(row)
#原因是csv是一行一行读取出来为一个list,而写入也是一行一行写的,并且写入没有整块一起写的方法,只有一行一行写

15.os和os.path模块

操作系统命令和文件的操作。

os.system可以直接调用系统命令。

import os
# os.system('notepad.exe')#打开系统自己的记事本程序
# os.system('cmd')#打开cmd

# os.startfile("C:\Program Files (x86)\ecloud\eCloud.exe")#打开应用程序

os.system('ping www.baidu.com')

打开系统自己的,用os.system ;打开后面安装进去的文件程序,用os.startfile。

os.system('ping www.baidu.com')ping 出来 为乱码时,从下面路径中设置

os.system('ping www.baidu.com')ping 出来 为乱码时,从下面路径中设置

 16.os模块——文件和目录操作

Pycharm基础——文件操作(IO)技术_第15张图片

 Pycharm基础——文件操作(IO)技术_第16张图片

 

#测试os模块中关于文件和目录的操作。
import os
#########################获取文件和文件夹的相关信息################################
print(os.name)  #windows----->nt;   linux和unix——>posix
print(os.sep)   #windows----->\;   linux和unix——>/
print(repr(os.linesep))  #windows----->'\r\n';   linux和unix——>\n\
#os.linesep指的是当前系统的行终止符,repr()是用解释器可以展示的方式展示出来
print(os.stat('file10.py'))

#########################关于工作目录的操作################################
# print(os.getcwd())  #程序重新执行后仍然对应该编辑文件的位置,即file11.py的位置
# #C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io
# os.chdir('d:') #改变当前的工作目录,然后就可以在此目录上操作
# # os.mkdir('书箱')
# print(os.getcwd())  #改为D盘后,该当前目录就是D:

# os.rmdir('书箱')  #删除目录,没有路径则是相对目录
# os.rmdir(r'D:\书箱')  #删除目录
#
#os.removedirs(r'电影\港台\大本营') #如果目录内不是空的,有文件,则不能删除

#########################创建目录、创建多级目录################################
# os.makedirs(r'..\音乐\港台\刘德华')    #..是指上一级目录
# os.removedirs(r'..\音乐\港台\刘德华')    #..是指上一级目录
# os.makedirs(r'..\Pycharm项目\音乐\港台\刘德华')    #..是指上一级目录,如果是这种写法,就会在Pycharm项目文件夹下再创建一个Pycharm项目文件夹,以及后面的项目
# os.removedirs(r'..\Pycharm项目\音乐\港台\刘德华') #如果目录内不是空的,有文件,则不能删除

# os.rename('movie','电影') #不管文件夹中有没有文件,都可以重命名
dirs=os.listdir('电影')   #是一个list对象,只列出一级子目录,而不会往下列出孙目录
print(dirs)

 Pycharm基础——文件操作(IO)技术_第17张图片

 Pycharm基础——文件操作(IO)技术_第18张图片

 学习建议:建立体系为先,其后的知识用到时再补

17.os.path模块

Pycharm基础——文件操作(IO)技术_第19张图片

 Pycharm基础——文件操作(IO)技术_第20张图片

 

#列出指定目录下所有以.py结尾的文件
import os.path
path=os.getcwd()    #取得目录
file_list=os.listdir(path)  #取得目录下的所有文件,是一个list
for filename in file_list:  #在这个list下做循环
    if filename.endswith('py'): #对文件名结尾的判断
        print(filename,end='\t')

print('################################################')
file_list2=[filename for filename in os.listdir(path) if filename.endswith('py')]
#列表推导式,从哪里取数据? os.listdir(path);怎么取数据?for filename in os.listdir(path)循环
#循环时,是一个列表
for f  in file_list2:
    print(f)


两种方法

18.walk()递归遍历所有文件和目录

Pycharm基础——文件操作(IO)技术_第21张图片

 

#测试os.walk()递归 遍历所有的子目录和文件
import os
all_files=[]
path=os.getcwd()
list_files=os.walk(path)
# print(list(list_files),end='\n')
for dirpath,dirnames,filenames in list_files:
    for dir in dirnames:
        # print(dir)
        # #港台
        # print(os.path.join(dirpath,dir))#通过这种方式,将文件夹的路径完全连接
        # #C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\电影\港台
        all_files.append(os.path.join(dirpath,dir))
    for file in filenames:
        # print(file)
        # #file14.py
        # print(os.path.join(dirpath,file))#通过这种方式,将文件和路径完全接起来
        # #C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file14.py
        all_files.append(os.path.join(dirpath,file))
for file in all_files:  #通过这种方式,将list打印出来
    print(file)

结果:

C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\电影
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\aa.gif
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\b.gif
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\b.txt
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\c.txt
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\data.dat
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\dd.txt
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\ee.txt
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file02_py.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file03_py.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file04.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file05.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file06.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file07.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file08.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file09.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file10.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file11.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file12.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file13.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\file14.py
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\rr.csv
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\电影\港台
C:\Program Files\JetBrains\PyCharm 2021.1.1\jbr\bin\Pycharm项目\mypro_io\电影\港台\大本营

可以通过walk()方法返回的三个对象,对文件路径和文件名进行操作。

19.shutil()模块,拷贝和压缩

 

#测试拷贝和压缩
import shutil
# shutil.copyfile('b.txt','b_copy.txt')#拷贝谁,拷贝后叫什么名字
# shutil.copyfile('b.txt',r'D:\b_copy.txt')
#拷贝谁,拷贝后叫什么名字,没指定路径,就是相对路径;指定路径了,就在相应的路径下
# shutil.copytree(r'电影\港台\大本营','音乐')
#原来的文件都包含在新的文件夹里面
# shutil.copytree(r'电影\港台\大本营',r'D:\音乐')
shutil.copytree(r'电影\港台',r'D:\音乐',ignore=shutil.ignore_patterns('*.html','1.txt'))
#可以忽略一些不需要的文件

关于文件夹压缩和多个文件压缩

import shutil
import  zipfile
#将电影/港台文件夹下的所有内容压缩到“音乐2”文件夹下生成movie.zip
# shutil.make_archive('D:/音乐2/movie','zip','电影/港台')
#shutil.make_archive()为压缩方法。
#参数1为要压缩成为的文件名,参数2为压缩的文件格式,参数3为从哪里来

#压缩:将指定的多个文件压缩到一个zip文件
z=zipfile.ZipFile(r'D:\a.zip','w')
#参数一代表写入的文件名,包含路径;参数二代表写入
z.write('c.txt')#添加多个文件
z.write('b.txt')
z.write(r'D:\b_copy.txt')
z.close()#结束时,关闭资源

20.递归

递归就是自己调用自己

条件一:什么时候不调用自己

Pycharm基础——文件操作(IO)技术_第22张图片

 条件二:什么时候调用自己

 

#测试递归
def factoria(n):
    if n==1:
        return 1
    else:
        return n*factoria(n-1)

a=factoria(10)
print(a)

Pycharm基础——文件操作(IO)技术_第23张图片

 递归打印所有的文件目录和文件

#使用递归算法,遍历目录下所有的文件
import os
allfile=[]

def getFiles(path,level):
    childFiles=os.listdir()#得到的是文件名和文件夹的名字,不包含路径
    # print(list[childFiles])
    for file in childFiles:
        filepath=os.path.join(path,file)#加入路径的信息
        if os.path.isdir(filepath):#对是否是目录的判断,如果是目录,则递归
            getFiles(filepath,level+1)#level是一个参数
        allfile.append('\t'*level+filepath)
getFiles(os.getcwd(),0)
for f in reversed(allfile):#要反转过来
    print(f)

你可能感兴趣的:(python)