T1:文件自动化处理&邮件批量处理

- 文件路径识别、处理、文件夹的操作理论学习

- 文件自动化处理实践

- 邮件自动发送理论学习，使用python发送邮件附带excel附件

1.1文件处理

1.1.1 文件与文件路径

文件的两个属性：“路径”和“文件名”，路径指明文件在计算机上的位置，文件名是指该位置的文件的名称。比如，我的电脑上，有个名字为Datawhale - 开源发展理论研究.pdf的文件，它的路径在D:\Datawhale。在windows中，路径中的D:\部分是“根文件夹”，Datawhale是文件夹名。注：Windows中文件夹名和文件名不区分大小写的。

1.1.2 当前工作目录

每个运行在计算机上的程序，都有一个“当前工作目录”。利用`os.getcwd()`函数，可以取得当前工作路径的字符串，并可以利用`os.chdir()`改变它。

1.1.3 路径操作

1.1.3.1 绝对路径和相对路径

“绝对路径”，总是从根文件夹开始。

“相对路径”，相对于程序的当前工作目录。

相对路径中，单个句点“.”表示当前目录的缩写，两个句点“..”表示父文件夹。

几个常用的绝对路径和相对路径处理函数：

- os.path.abspath(path)：将相对路径转换为绝对路径，将返回参数的绝对路径的字符串。

- os.path.isabs(path)：判断是否是绝对路径，是返回True,不是则返回False

1.1.3.2 路径操作

`os.path.relpath(path,start)`:返回从start路径到path的相对路径的字符串。如果没提供start,就使用当前工作目录作为开始路径。

`os.path.dirname(path)`: 返回当前路径的目录名称。

`os.path.basename(path)`：返回当前路径的文件名称。

如果同时需要一个路径的目录名称和基本名称，可以调用`os.path.split()`，获得者两个字符串的元组。

```python

caFilePath = 'D:\\Datawhale\\python办公自动化\\python课程画图.pptx'

os.path.split(caFilePath) #('D:\\Datawhale\\python办公自动化', 'python课程画图.pptx')

```

我们也可以调用os.path.dirname()和os.path.basename(),将它们的返回值放在一个元组中，从而得到同样的元组。

```python

(os.path.dirname(caFilePath),os.path.basename(caFilePath)) #('D:\\Datawhale\\python办公自动化', 'python课程画图.pptx')

```

如果我们想返回每个文件夹的字符串的列表。用`os.path.split()`无法得到，我们可以用`split()`字符串方法，并根据`os.path.sep` 中的字符串进行分割。`os.path.sep` 变量设置为正确的文件夹分割斜杠。

```python

caFilePath.split(os.path.sep) #['D:', 'Datawhale', 'python办公自动化', 'python课程画图.pptx']

```

1.1.3.3 路径有效性检查

如果提供的路径不存在，很多Python函数就会崩溃并报错。`os.path`模块提供了一些函数，用于检测给定的路径是否存在，以及判定是文件还是文件夹。

`os.path.exists(path)`：如果path参数所指的文件或文件夹存在，则返回True,否则返回False。

`os.path.isfile(path)`：如果path参数存在，并且是一个文件，则返回True,否则返回False。

`os.path.isdir(path)`：如果path参数存在，并且是一个文件夹，则返回True,否则返回False。

```python

os.path.exists('C:\\Windows')

```

```python

os.path.exists('C:\\else')

```

```python

os.path.isfile('D:\\Datawhale\\python办公自动化\\python课程画图.pptx')

```

```python

os.path.isdir('D:\\Datawhale\\python办公自动化\\python课程画图.pptx')

```

1.1.4 文件及文件夹操作

1.1.4.1 用os.makedirs()创建新文件夹

注：`os.makedirs()`可以创建所有必要的中间文件夹。

```python

import os

os.makedirs('D:\\Datawhale\\practice') #查看目录，已创建，若文件夹已存在，不会覆盖，会报错

```

1.1.4.2 查看文件大小和文件夹内容

我们已经可以处理文件路径，这是操作文件及文件夹的基础。接下来，我们可以搜集特定文件和文件夹的信息。`os.path`模块提供了一些函数，用于查看文件的字节数以及给定文件夹中的文件和子文件夹。

`os.path.getsize(path)`：返回path参数中文件的字节数。

`os.listdir(path)`:返回文件名字符串的列表，包含path参数中的每个文件。

```python

"""

注意这里你可以自己按照这个路径新建文件夹，并任意放入一个pptx文件，

并重命名为python课程画图.pptx。否则若不存在该文件将会报错，而非0字节

"""

os.path.getsize('D:\\Datawhale\\python办公自动化\\python课程画图.pptx')

```

```python

os.listdir('D:\\Datawhale\\python办公自动化')

```

如果想知道目录下所有文件的总字节数，可以同时使用`os.path.getsize()`和`os.listdir()`

```python

totalSize = 0

for filename in os.listdir('D:\\Datawhale\\python办公自动化'):

totalSize = totalSize + os.path.getsize(os.path.join('D:\\Datawhale\\python办公自动化',filename))

print(totalSize)

```

1.1.5 文件读写过程

读写文件3个步骤：

1.调用`open()`函数，返回一个File对象。

2.调用File对象的`read()`或`write()`方法。

3.调用File对象的`close()`方法，关闭该文件。

open函数中常见的对象方法及其作用说明：

1.1.5.1 用open()函数打开文件

要用`open()`函数打开一个文件，就要向它传递一个字符串路径，表明希望打开的文件。这既可以是绝对路径，也可以是相对路径。`open()`函数返回一个File对象。

先用TextEdit创建一个文本文件，名为hello.txt。输入Hello World!作为该文本文件的内容，将它保存在你的用户文件夹中。

文件对象可以通过Python内置的open函数得到，完整的语法如下。

open(file,mode=r',buffering=-1,encoding=None,errors=None,newline=None,closefd=True,opener=None)

open函数有8个参数，常用前4个，除了file参数外，其他参数都有默认值。file指定了要打开的文件名称，应包含文件路径，不写路径则表示文件和当前py脚本在同一个文件夹。buffering用于指定打开文件所用的缓冲方式，默认值-1表示使用系统默认的缓冲机制。文件读写要与硬盘交互，设置缓冲区的目的是减少CPU操作磁盘的次数，延长硬盘使用寿命。encoding用于指定文件的编码方式，如GBK、UTF-8等，默认采用UTF-8，有时候打开一个文件全是乱码，这是因为编码参数和创建文件时采用的编码方式不一样。

mode指定了文件的打开模式。打开文件的基本模式包括r、w、a，对应读、写、追加写入。附加模式包括b、t、+，表示二进制模式、文本模式、读写模式，附加模式需要和基本模式组合才能使用，如“rb”表示以二进制只读模式打开文件，“rb+”表示以二进制读写模式打开文件。

要注意的是，凡是带w的模式，操作时都要非常谨慎，它首先会清空原文件，但不会有提示。凡是带r的文件必须先存在，否则会因找不到文件而报错。

```python

helloFile = open('D:\\Datawhale\\python办公自动化\\hello.txt')

print(helloFile)

```

可以看到，调用`open()`函数将会返回一个File对象。当你需要读取或写入该文件，就可以调用helloFile变量中的File对象的方法。

1.1.5.2 读取文件内容

有了File对象，我们就可以开始从它读取内容。

`read()`:读取文件内容。

`readlines()`:按行读取文件中的内容，取得一个字符串列表，列表中每个字符串是文本中的一行且以\n结束。

```python

helloContent = helloFile.read()

helloContent

```

```python

sonnetFile = open('D:\\Datawhale\\python办公自动化\\hello.txt')

sonnetFile.readlines()

```

1.1.5.3 写入文件

需要用“写模式”‘w’和“添加模式”'a'打开一个文件，而不能用读模式打开文件。

“写模式”将覆写原有的文件，从头开始。“添加模式”将在已有文件的末尾添加文本。

```python

baconFile = open('bacon.txt','w')

baconFile.write('Hello world!\n')

```

```python

baconFile.close() #注意，关闭后，才能完成写入，从txt文件中看到写入的内容。

```

```python

baconFile = open('bacon.txt','a')

baconFile.write('Bacon is not a vegetable.')

```

```python

baconFile.close()

```

```python

baconFile = open('bacon.txt')

content = baconFile.read()

baconFile.close()

print(content)

```

注意，`write()`方法不会像print()函数那样，在字符串的末尾自动添加换行字符。必须自己添加该字符。

- 案例：统计字母出现的频率

文件对象有iter、next方法，所以它是一个可迭代对象，可以用for循环遍历。我们可以遍历文件获得每一行字符，再遍历每一行，获得每个字符，将字符放入列表，然后统计每个字符出现的频率。

```python

from collections import Counter

my_list = []

punctuation=',.!?\，。！？、()【】<>《》=：+-*“”...\n'

with open('bacon.txt','r') as f:

for line in f:

for word in line:

if word not in punctuation:

my_list.append(word)

counter = Counter(my_list)

counter

```

1.1.5.4 保存变量

1)、shelve模块

用`shelve`模块，可以将Python中的变量保存到二进制的`shelf`文件中。这样，程序就可以从硬盘中恢复变量的数据。

```python

import shelve

shelfFile = shelve.open('mydata')

cats = ['Zonphie','Pooka','Simon']

shelfFile['cats'] = cats

shelfFile.close()

```

在Windows上运行前面的代码，我们会看到当前工作目录下有3个新文件：mydata.bak、mydata.dat和mydata.dir。在OS X上，只会创建一个mydata.db文件。

重新打开这些文件，取出数据。注意：`shelf`值不必用读模式或写模式打开，因为打开后，既能读又能写。

```python

shelfFile = shelve.open('mydata')

type(shelfFile)

```

```python

shelve.DbfilenameShelf

```

```python

shelfFile['cats']

```

```python

shelfFile.close()

```

就像字典一样，`shelf`值有`keys()`和`values()`方法，返回shelf中键和值的类似列表的值。但是这些方法返回类似列表的值，却不是真正的列表，所以应该将它们传递给`list()`函数，取得列表的形式。

```python

shelfFile = shelve.open('mydata')

list(shelfFile.keys())

```

```python

list(shelfFile.values())

```

```python

shelfFile.close()

```

2)、用`pprint.pformat()`函数保存变量

`pprint.pformat()`函数返回要打印的内容的文本字符串，这个字符串既易于阅读，也是语法上正确的Python代码。

假如，有一个字典，保存在一个变量中，希望保存这个变量和它的内容，以便将来使用。`pprint.pformat()`函数将提供一个字符串，我们可以将它写入.py文件。这个文件可以成为我们自己的模块，如果需要使用存储其中的变量，就可以导入它。

```python

import pprint

cats = [{'name':'Zophie','desc':'chubby'},{'name':'Pooka','desc':'fluffy'}]

pprint.pformat(cats)

```

```python

fileObj = open('myCats.py','w')

fileObj.write('cats = '+pprint.pformat(cats)+'\n')

```

```python

fileObj.close()

```

import语句导入的模块本身就是Python脚本。如果来自pprint.pformat()的字符串保存为一个.py文件，该文件就是一个可以导入的模块。

```python

import myCats

myCats.cats

```

```python

myCats.cats[0]

```

```python

myCats.cats[0]['name']

```

1.1.6 练习

1、如果已有的文件以写模式打开，会发生什么？

提示：

```

以写模式打开

r : 只读模式，文件不存在泽报错，默认模式(文件指针位于文件末尾)

w : 写入模式，文件不存在则自动报错，每次打开会覆盖原文件内容,文件不关闭则可以进行多次写入（只会在打开文件时清空文件内容）

```

2、`read()`和`readlines()`方法之间的区别是什么？

提示：

read():以原格式返回全部文本

readline(): 只返回第一行文本

readlines(): 以列表的格式返回全部文本，文本的第几行对应列表的第几个元素

综合练习：

一、生成随机的测验试卷文件

假如你是一位地理老师，班上有 35 名学生，你希望进行美国各州首府的一个

小测验。不妙的是，班里有几个坏蛋，你无法确信学生不会作弊。你希望随机调整

问题的次序，这样每份试卷都是独一无二的，这让任何人都不能从其他人那里抄袭答案。当然，手工完成这件事又费时又无聊。好在，你懂一些 Python。

下面是程序所做的事：

• 创建 35 份不同的测验试卷。

• 为每份试卷创建 50 个多重选择题，次序随机。

• 为每个问题提供一个正确答案和 3 个随机的错误答案，次序随机。

• 将测验试卷写到 35 个文本文件中。

• 将答案写到 35 个文本文件中。

这意味着代码需要做下面的事：

• 将州和它们的首府保存在一个字典中。

• 针对测验文本文件和答案文本文件，调用 open()、 write()和 close()。

• 利用 random.shuffle()随机调整问题和多重选项的次序。

提示：

https://blog.csdn.net/liying_tt/article/details/117968373

1.1.7 组织文件

在上一节中，已经学习了如何使用Python创建并写入新文件。本节将介绍如何用程序组织硬盘上已经存在的文件。不知你是否经历过查找一个文件夹，里面有几十个、几百个、甚至上千个文件，需要手工进行复制、改名、移动或压缩。比如下列这样的任务：

• 在一个文件夹及其所有子文件夹中，复制所有的 pdf 文件（且只复制 pdf 文件）

• 针对一个文件夹中的所有文件，删除文件名中前导的零，该文件夹中有数百个文件，名为 spam001.txt、 spam002.txt、 spam003.txt 等。

• 将几个文件夹的内容压缩到一个 ZIP 文件中（这可能是一个简单的备份系统）

所有这种无聊的任务，正是在请求用 Python 实现自动化。通过对电脑编程来完成这些任务，你就把它变成了一个快速工作的文件职员，而且从不犯错。

1.1.1.7.1 shutil模块

`shutil`(或称为shell工具)模块中包含一些函数，可以在Python程序中复制、移动、改名和删除文件。要使用`shutil`的函数，首先需要`import shutil`

1.1.1.7.2 复制文件和文件夹

`shutil.copy(source, destination)`：将路径source处的文件复制到路径 destination处的文件夹（source 和 destination 都是字符串），并返回新复制文件绝对路径字符串。

其中destination可以是：

1）、一个文件的名称，则将source文件复制为新名称的destination

2）、一个文件夹，则将source文件复制到destination中

3）、若这个文件夹不存在，则将source目标文件内的内容复制到destination中,若destination文件夹不存在，则自动生成该文件。(慎用，因为会将source文件复制为一个没有扩展名的名字为destination的文件，这往往不是我们希望的)

```python

"""

这里如果路径下没有bacon.txt，可以从当前代码文件路径下找到bacon.txt，

将其移至指定路径学习使用

"""

import shutil

import os

shutil.copy('D:\\Datawhale\\python办公自动化\\bacon.txt', 'D:\\Datawhale\\practice')

```

- shutil.copytree(source, destination):将路径source处的文件夹，包括其包含的文件夹和文件，复制到路径destination处的文件夹,并返回新复制文件夹绝对路径字符串。

注：destination处的文件夹为新创建的文件夹，如已存在，则会报错

```python

import shutil

shutil.copytree('D:\\Datawhale\\python办公自动化','D:\\Datawhale\\practice')

```

```python

import shutil

shutil.copytree('D:\\Datawhale\\python办公自动化','D:\\Datawhale\\practice_unexist')

```

1.1.7.3 文件和文件夹的移动与改名

`shutil.move(source, destination)`：将路径 source 处的文件/文件夹移动到路径destination，并返回新位置的绝对路径的字符串。

1)、如果source和destination是文件夹，且destination已存在，则会将source文件夹下所有内容复制到destination文件夹中。移动。

2）、如果source是文件夹，destination不存在，则会将source文件夹下所有内容复制到destination文件夹中，source原文件夹名称将被替换为destination文件夹名。移动+重命名

3）、如果source和destination是文件，source处的文件将被移动到destination处的位置，并以destination处的文件名进行命名，移动+重命名。

注意：如果destination中有原来已经存在同名文件，移动后，会被覆写，所以应当特别注意。

```python

import shutil

shutil.move('D:\\Datawhale\\practice','D:\\Datawhale\\docu')

```

1.1.7.4 永久删除文件和文件夹

`os.unlink(path)`: 删除path处的文件。

`os.rmdir(path)`: 删除path处的文件夹。该文件夹必须为空，其中没有任何文件和文件夹。

`shutil.rmtree(path)`:删除 path 处的文件夹，它包含的所有文件和文件夹都会被删除。

注意：使用时，需要非常小心，避免删错文件，一般在第一次运行时，注释掉这些程序，并加上`print()`函数来帮助查看是否是想要删除的文件。

```python

#建议先指定操作的文件夹，并查看

os.chdir('D:\\Datawhale\\docue')

os.getcwd()

```

```python

import os

for filename in os.listdir():

print(filename)

os.unlink(filename)

# 可以看到bacon.txt已经被删除

for filename in os.listdir():

print(filename)

```

1.1.7.5 用send2trash模块安全地删除

`shutil.rmtree(path)`会不可恢复的删除文件和文件夹，用起来会有危险。因此使用第三方的`send2trash`模块，可以将文件或文件夹发送到计算机的垃圾箱或回收站，而不是永久删除。因程序缺陷而用send2trash 删除的某些你不想删除的东西，稍后可以从垃圾箱恢复。

注意：使用时，需要非常小心，避免删错文件，一般在第一次运行时，注释掉这些程序，并加上`print()`函数来帮助查看是否是想要删除的文件。

```python

!pip install send2trash #安装send2trash模块

```

```python

import send2trash

send2trash.send2trash('bacon.txt')

```

1.1.8 遍历目录树

`os.walk(path)`:传入一个文件夹的路径，在for循环语句中使用`os.walk()`函数，遍历目录树，和range()函数遍历一个范围的数字类似。不同的是，`os.walk()`在循环的每次迭代中，返回三个值：

1）、当前文件夹称的字符串。

2）、当前文件夹中子文件夹的字符串的列表。

3）、当前文件夹中文件的字符串的列表。

注：当前文件夹，是指for循环当前迭代的文件夹。程序的当前工作目录，不会因为`os.walk()`而改变。

![2](.\png\2.png)

按照下图目录树，创建相应的文件。

```python

import os

for folderName, subFolders,fileNames in os.walk('D:\\animals'):

print('The current folder is ' + folderName)

for subFolder in subFolders:

print('Subfolder of ' + folderName+':'+subFolder)

for filename in fileNames:

print('File Inside ' + folderName+':'+filename)

print('')

```

1.1.9 用zipfile模块压缩文件

为方便传输，常常将文件打包成.zip格式文件。利用zipfile模块中的函数，Python程序可以创建和打开（或解压）zip文件。

1.1.9.1 创建和添加到zip文件

将上述章节中animals文件夹进行压缩。创建一个example.zip的zip文件，并向其中添加文件。

`zipfile.ZipFile('filename.zip', 'w')` ：以写模式创建一个压缩文件

`ZipFile` 对象的 `write('filename','compress_type=zipfile.ZIP_DEFLATED')`方法：如果向`write()`方法中传入一个路径，Python 就会压缩该路径所指的文件，将它加到 ZIP 文件中。如果向`write()`方法中传入一个字符串，代表要添加的文件名。第二个参数是“压缩类型”参数，告诉计算机用怎样的算法来压缩文件。可以总是将这个值设置为 `zipfile.ZIP_DEFLATED`（这指定了 deflate 压缩算法，它对各种类型的数据都很有效）。

注意：写模式会擦除zip文件中所有原有的内容。如果只希望将文件添加到原有的zip文件中，就要向`zipfile.ZipFile()`传入'a'作为第二个参数，以添加模式打开 ZIP 文件。

```python

## 1 创建一个new.zip压缩文件，并向其中添加文件

import zipfile

newZip = zipfile.ZipFile('new.zip','w')

newZip.write('Miki.txt',compress_type=zipfile.ZIP_DEFLATED)

newZip.close()

```

```python

newZip = zipfile.ZipFile('new.zip','w')

newZip.write('D:\\animals\\dogs\\Taidi.txt',compress_type=zipfile.ZIP_DEFLATED)

newZip.close()

```

```python

## 2 创建一个example.zip的压缩文件，将animals文件夹下所有文件进行压缩。

import zipfile

import os

newZip = zipfile.ZipFile('example.zip','w')

for folderName, subFolders,fileNames in os.walk('D:\\animals'):

for filename in fileNames:

newZip.write(os.path.join(folderName,filename),compress_type=zipfile.ZIP_DEFLATED)

newZip.close()

```

1.1.9.2 读取zip文件

调用`zipfile.ZipFile(filename)`函数创建一个`ZipFile`对象（注意大写字母Z和F）,filename是要读取zip文件的文件名。

`ZipFile`对象中的两个常用方法：

`namelis()`方法，返回zip文件中包含的所有文件和文件夹的字符串列表。

`getinfo()`方法，返回一个关于特定文件的`ZipInfo`对象。

`ZipInfo`对象的两个属性：`file_size`和`compress_size`，分别表示原来文件大小和压缩后文件大小。1.2.3.2 读取zip文件

```

import zipfile,os

exampleZip = zipfile.ZipFile('example.zip')

exampleZip.namelist()

```

catInfo = exampleZip.getinfo('animals/Miki.txt')

```

catInfo.file_size

```

catInfo.compress_size

```

print('Compressed file is %s x smaller!' %(round(catInfo.file_size/catInfo.compress_size,2)))

```

exampleZip.close()

```

1.1.9.3 从zip文件中解压缩

`ZipFile` 对象的 `extractall()`方法：从zip文件中解压缩所有文件和文件夹，放到当前工作目录中。也可以向`extractall()`传递的一个文件夹名称，它将文件解压缩到那个文件夹，而不是当前工作目录。如果传递的文件夹名称不存在，就会被创建。

`ZipFile` 对象的 `extract()`方法:从zip文件中解压单个文件。也可以向 extract()传递第二个参数，将文件解压缩到指定的文件夹，而不是当前工作目录。如果第二个参数指定的文件夹不存在， Python 就会创建它。extract()的返回值是被压缩后文件的绝对路径。

```python

import zipfile, os

exampleZip = zipfile.ZipFile('example.zip')

exampleZip.extractall('.\zip')

exampleZip.close()

```

```python

exampleZip = zipfile.ZipFile('example.zip')

exampleZip.extract('animals/Miki.txt')

exampleZip.extract('animals/Miki.txt', 'D:\\animals\\folders')

exampleZip.close()

```

1.1.10 文件查找

对于文件操作，最需要熟练掌握的就是查找文件。前面介绍了使用os.listdir、os.walk方法可以批量列出当前工作目录的全部文件，下面介绍常用于查找特定文件的模块。

1.1.10.1 glob

glob是Python自带的一个文件操作相关模块，用它可以查找符合条件的文件。例如，我们要找到当前目录下全部的.txt文档，可以用下面的代码。

```python

import glob

glob.glob('*.txt')

```

这里主要是写匹配条件，“*”匹配任意个字符，“?”匹配单个字符，也可以用“[]”匹配指定范围内的字符，如[0-9]匹配数字。

- glob.glob('*[0-9]*.*')可以匹配当前目录下文件名中带有数字的文件。

- glob.glob(r'G:\*')可以获取G盘下的所有文件和文件夹，但是它不会进一步列明文件夹下的文件。也就是说，其返回的文件名只包括当前目录里的文件名，不包括子文件夹里的文件

1.1.10.2 fnmatch模块

fnmatch也是Python自带的库，是专门用来进行文件名匹配的模块，使用它可以完成更为复杂的文件名匹配。它有4个函数，分别是fnmatch、fnmatchcase、filter和translate，其中最常用的是fnmatch函数，其语法如下。

- fnmatch.fnmatch(filename,pattern)

pattern表示匹配条件，测试文件名filename是否符合匹配条件。

下面找出目标文件夹里所有结尾带数字的文件

```python

import os,fnmatch

path = os.getcwd() # 获取当前代码文件所在目录

for foldname, subfolders,filenames in os.walk(path):

for filename in filenames:

if fnmatch.fnmatch(filename,'*[0-9].*'):

print(filename)

```

fnmatchcase和fnmatch函数类似，只是fnmatchcase函数强制区分字母大小写。

以上两个函数都返回True或者False，filter函数则返回匹配的文件名列表，其语法如下:

- fnmatch.filter(filelist,pattern)

1.1.10.3 hashlib模块

随着计算机中文件越来越多，我们需要找出重复文件。重复文件可能有不同的文件名，不能简单用文件名和文件大小来判断。从科学角度，最简单的办法就是通过MD5来确定两个文件是不是一样的。

Python自带的hashlib库里提供了获取文件MD5值的方法。

```python

import hashlib

m = hashlib.md5()

f = open('bacon.txt','rb')

m.update(f.read())

f.close()

md5_value = m.hexdigest()

print(md5_value)

```

电子文件容易被篡改或者伪造，在出现纠纷时，怎么提供有力的证据来证明文件的真实性？一个可行的办法就是制作文件后对整个文件生成MD5值。一旦MD5值生成之后，文件发生过任何修改，MD5值都将改变，通过此方法可以确定文件是否被篡改过。

1.1.11 练习

1）、编写一个程序，遍历一个目录树，查找特定扩展名的文件（诸如.pdf 或.jpg）。不论这些文件的位置在哪里，将它们拷贝到一个新的文件夹中。

2）、一些不需要的、巨大的文件或文件夹占据了硬盘的空间，这并不少见。如果你试图释放计算机上的空间，那么删除不想要的巨大文件效果最好。但首先你必须找到它们。编写一个程序，遍历一个目录树，查找特别大的文件或文件夹，比方说，超过100MB 的文件（回忆一下，要获得文件的大小，可以使用 os 模块的 `os.path.getsize()`）。将这些文件的绝对路径打印到屏幕上。

3）、编写一个程序，在一个文件夹中，找到所有带指定前缀的文件，诸如 spam001.txt,spam002.txt 等，并定位缺失的编号（例如存在 spam001.txt 和 spam003.txt，但不存在 spam002.txt）。让该程序对所有后面的文件改名，消除缺失的编号。作为附加的挑战，编写另一个程序，在一些连续编号的文件中，空出一些编号，以便加入新的文件。

1.3 自动发送电子邮件

使用Python实现自动化邮件发送，可以让你摆脱繁琐的重复性业务，节省非常多的时间。

Python有两个内置库：`smtplib`和`email`，能够实现邮件功能，`smtplib`库负责发送邮件，`email`库负责构造邮件格式和内容。

邮件发送需要遵守**SMTP**协议，Python内置对SMTP的支持，可以发送纯文本邮件、HTML邮件以及带附件的邮件。

```python

#1 先导入相关的库和方法

import smtplib #导入库

from smtplib import SMTP_SSL #加密邮件内容，防止中途被截获

from email.mime.text import MIMEText #构造邮件的正文

from email.mime.image import MIMEImage #构造邮件的图片

from email.mime.multipart import MIMEMultipart #把邮件的各个部分装在一起，邮件的主体

from email.header import Header #邮件的文件头，标题，收件人

```

```python

#2 设置邮箱域名、发件人邮箱、邮箱授权码、收件人邮箱

host_server = 'smtp.163.com' #sina 邮箱smtp服务器 #smtp 服务器的地址

sender_163 = '[email protected]' #sender_163为发件人的邮箱

pwd = 'DYEPOGLZDZYLOMRI' #pwd为邮箱的授权码'DYEPOGLZDZYLOMRI'

#也可以自己注册个邮箱，邮箱授权码'DYEPOGLZDZYLOMRI' 获取方式可参考#http://help.163.com/14/0923/22/A6S1FMJD00754KNP.html

# 设置接受邮箱，换成自己的邮箱即可

receiver = '[email protected]'

```

```python

#3 构建MIMEMultipart对象代表邮件本身，可以往里面添加文本、图片、附件等

msg = MIMEMultipart() #邮件主体

```

```python

#4 设置邮件头部内容

mail_title = 'python办公自动化邮件' # 邮件标题

msg["Subject"] = Header(mail_title,'utf-8') #装入主体

msg["From"] = sender_163 #寄件人

msg["To"] = Header("测试邮箱",'utf-8') #标题

```

```python

#5 添加正文文本

mail_content = "您好，这是使用python登录163邮箱发送邮件的测试" #邮件的正文内容

message_text = MIMEText(mail_content,'plain','utf-8') #构造文本,参数1：正文内容，参数2：文本格式，参数3：编码方式

msg.attach(message_text) # 向MIMEMultipart对象中添加文本对象

```

```python

#6 添加图片

image_data = open('D:\\animals\\cats\\zophie.jpg','rb') # 二进制读取图片

message_image = MIMEImage(image_data.read()) # 设置读取获取的二进制数据

image_data.close() # 关闭刚才打开的文件

msg.attach(message_image) # 添加图片文件到邮件信息当中去

```

```python

# 7 添加附件(excel表格)

atta = MIMEText(open('D:\\animals\\cats\\cat.xlsx', 'rb').read(), 'base64', 'utf-8') # 构造附件

atta["Content-Disposition"] = 'attachment; filename="cat.xlsx"' # 设置附件信息

msg.attach(atta) ## 添加附件到邮件信息当中去

```

```python

#8 发送邮件

smtp = SMTP_SSL(host_server) #SSL登录创建SMTP对象

smtp.login(sender_163,pwd) ## 登录邮箱，传递参数1：邮箱地址，参数2：邮箱授权码

smtp.sendmail(sender_163,receiver,msg.as_string()) # 发送邮件，传递参数1：发件人邮箱地址，参数2：收件人邮箱地址，参数3：把邮件内容格式改为str

print("邮件发送成功")

smtp.quit # 关闭SMTP对象

```

T2：Python Excel 自动化之 OpenPyXL

2.0 包的安装

打开 CMD/Terminal 进入到自己环境后，执行下面语句安装`openpyxl`模块。

```bash

pip3 install openpyxl

```

注：openpyxl可以读/写 .xlsx /.xlsm /.xltx /.xltm 的格式文件，但是不支持去读 /.xls 格式；读取 xls 格式，可以安装 **xlrd** 模块，`pip3 install xlrd`，本章节以 /.xlsx 格式为主。

2.1 Excel读取

- 2003年版本的是 xls 格式，2007和2007年之后的版本是 xlsx 格式。

- xlsx 格式通过 `openpyxl` 模块打开； xls 格式通过 `xlwt` 模块写，`xlrd` 模块读取。

- 本文以 xlsx 模式为例

2.1.1 读取Excel中的工作表

**关于路径：**

文件应在当前工作目录才可直接用相对路径引用，可导入`os`，使用函数`os.getcwd()`弄清楚当前工作目录是什么，可使用`os.chdir()`改变当前工作目录，具体可参考第一章节。（此处显现为相对路径）

```python

# 获取当前工作目录

import os

print(os.getcwd())

import warnings

warnings.filterwarnings('ignore')

root_path = './OpenPyXL_test/'

```

2.1.1.1. 读取Excel文件 `用户行为偏好.xlsx ` ，查看返回值属性

```python

# 导入模块，查看属性

import openpyxl

wb = openpyxl.load_workbook(root_path+'用户行为偏好.xlsx')

type(wb)

```

openpyxl.workbook.workbook.Workbook

【代码解释】

这里我们使用 openpyxl 中的 load_workbook 函数来加载指定的 xlsx 文件，。

- openpyxl.load_workbook(

filename,

read_only=False,

keep_vba=False,

data_only=False,

keep_links=True,

)

load_workbook 函数有五个参数，除 filename 外，其他参数都有默认值，各参数含义如下：

- `filename`: str 类型，表示要打开的文件的相对/绝对路径；

- `read_only`: bool 类型，是否以只读模式打开文件，默认值为 False，可读写；

- `keep_vba`: bool 类型，是否保留文件中的 vba 内容（即使保留了也不一定在代码中能使用），默认值为 False，不保留；

- `data_only`: bool 类型，如果单元格中是 excel 公式，是以公式计算后的值的形式显示还是以公式内容形式显示，默认值为 False，以公式内容形式展示；

- `keep_links`: bool 类型，是否保留单元格中的外链，默认值为 True，保留外链；

- 返回值类型: `openpyxl.workbook.Workbook`

如无特殊要求，我们只需要指定`filename`参数即可。

【小知识】

**import * 和from...import...**

`import *`和`from...import...`的区别

- `import`导入一个模块，相当于导入的是一个文件夹，相对路径。

- `from...import...`导入了一个模块中的一个函数，相当于文件夹中的文件，绝对路径。

2.1.1.2. 查看对应工作簿包含的 sheet(工作表) 的名称，读取活动表

```python

# 导入模块中的函数，查询对应表的名称

print(wb.sheetnames)

```

['订单时长分布', 'Sheet3']

【代码解释】

这里我们使用 `openpyxl.workbook.Workbook` 类对象的 `sheetnames` 属性来获取读取的工作簿中包含的 sheet(工作表) 的名称。

通过上述代码输出内容，我们可以知道 `用户行为偏好.xlsx` 中包含两个 sheet(工作表)，分别是：订单时长分布、 Sheet3。

```python

# 读取工作簿的活动表

# 活动表是工作簿在 Excel 中打开时出现的工作表，在取得 Worksheet 对象后，可通过 title 属性取得它的名称。

active_sheet = wb.active

print(f'active_sheet对象: {active_sheet}')

print(f'active_sheet 名称: {active_sheet.title}')

```

active_sheet对象:

active_sheet 名称: 订单时长分布

【小知识】

活动表是可以修改的，在我们正常打开excel，完成修改后，保存excel，在关闭 excel 前显示的 sheet 就是活动表。

2.1.1.3. 查看指定sheet信息

```python

# 通过传递表名字符串读取表、类型和名称、内容占据的大小

sheet = wb.get_sheet_by_name('Sheet3')

print(f'sheet: {sheet}')

print(f'type(sheet): {type(sheet)}')

print(f'sheet.title: {sheet.title}')

print(f'sheet.dimensions: {sheet.dimensions}')

```

sheet:

type(sheet):

sheet.title: Sheet3

sheet.dimensions: A1:I17

【代码解释】

这里我们使用 `openpyxl.workbook.Workbook` 类对象的 `get_sheet_by_name` 方法，通过指定 sheetname 的方式来获取读取的工作簿中指定的 sheet(工作表) 对象。

并使用 `openpyxl.worksheet.worksheet.Worksheet` 类对象的一些属性来获取 sheet 的基本信息，比如 `Worksheet.title`获取 sheet 名称，`Worksheet.dimensions` 获取 sheet 中值的范围。

Workbook.get_sheet_by_name(name) 函数只有一个参数，就是：sheetname(工作表名称)，功能是：通过 sheetname 获取到 Worksheet 对象，除了通过函数的方式获取到 Worksheet 对象，你还可以提过索引的方式，如：

```python

wb['Sheet3']

```

2.1.2 读取工作表中的单元格

**Cell(Excel单元格)**

- Cell 对象有一个 value 属性，包含这个单元格中保存的值。

- Cell 对象也有 row 、column 和 coordinate 属性，提供该单元格的位置信息。

- Excel 用字母指定列，在Z列之后，列开始使用两个字母：AA、AB等，所以在调用的 cell() 方法时，可传入整数作为 row 和 column 关键字参数，也可以得到一个单元格。

- 注：第一行或第一列的整数取1，而不是0.

```python

# 从表中取得单元格在 2.1.1 中我们已经读取过工作簿了返回结果存储变量为 wb

## 获取表格名称

print(f'sheetnames: {wb.sheetnames}')

```

sheetnames: ['订单时长分布', 'Sheet3']

```python

# 获取指定sheet

sheet = wb.get_sheet_by_name('订单时长分布')

# 通过单元格位置获取单元格对象，如：B1

a = sheet['B1']

print(f"sheet[B1']: {a}")

# 获取并打印 B1 单元格的文本内容

print(f"sheet[B1'].value: {a.value}")

# 获取并打印 B1 单元格所在行、列和数值

print(f'Row: {a.row}, Column: {a.column}')

# 获取并打印 B1 单元格坐标和值

print(f'Cell {a.coordinate} is {a.value}')

```

sheet[B1']:

sheet[B1'].value: 日期

Row: 1, Column: 2

Cell B1 is 日期

```python

# 获取并打印出 B列前8行的奇数行单元格的值

for i in range(1,8,2):

print(i, sheet.cell(row=i,column=2).value)

```

1 日期

3 2020-07-24 00:00:00

5 2020-07-24 00:00:00

7 2020-07-24 00:00:00

```python

# 确定表格的最大行数和最大列数，即表的大小

print(f'sheet.max_row: {sheet.max_row}')

print(f'sheet.max_column: {sheet.max_column}')

```

sheet.max_row: 14

sheet.max_column: 4

2.1.3 读取多个单元格的值

```python

# 方法一：直接通过sheet索引，A1到C8区域的值

cells = sheet['A1:C8']

print(f'type(cells): {type(cells)} \n')

# 遍历元组 print每一个cell值

for rows in cells:

for cell in rows:

print(cell.value, end=" |")

print("\n")

```

type(cells):

编号 |日期 |行为时长 |

71401.30952380953 |2020-07-24 00:00:00 |a |

71401.30952380953 |2020-07-24 00:00:00 |b |

71401.30952380953 |2020-07-24 00:00:00 |c |

71401.30952380953 |2020-07-24 00:00:00 |d |

71401.30952380953 |2020-07-24 00:00:00 |e |

71401.30952380953 |2020-07-24 00:00:00 |f |

71401.30952380953 |2020-07-24 00:00:00 |g |

```python

# 方法二：sheet.iter_rows函数按行获取数据

rows = sheet.iter_rows(min_row=1, max_row=8, min_col=1, max_col=3)

# 遍历元组 print每一个cell值

for row in rows:

for cell in row:

print(cell.value, end=" |")

print("\n")

```

编号 |日期 |行为时长 |

71401.30952380953 |2020-07-24 00:00:00 |a |

71401.30952380953 |2020-07-24 00:00:00 |b |

71401.30952380953 |2020-07-24 00:00:00 |c |

71401.30952380953 |2020-07-24 00:00:00 |d |

71401.30952380953 |2020-07-24 00:00:00 |e |

71401.30952380953 |2020-07-24 00:00:00 |f |

71401.30952380953 |2020-07-24 00:00:00 |g |

```python

# 方法三：sheet.iter_cols函数按列获取数据

cols = sheet.iter_cols(min_row=1, max_row=4, min_col=1, max_col=3)

# 遍历元组 print每一个cell值

for col in cols:

for cell in col:

print(cell.value, end=" |")

print("\n")

```

编号 |71401.30952380953 |71401.30952380953 |71401.30952380953 |

日期 |2020-07-24 00:00:00 |2020-07-24 00:00:00 |2020-07-24 00:00:00 |

行为时长 |a |b |c |

2.1.4 练习题

找出`用户行为偏好.xlsx`中 Sheet3 表中空着的格子，并输出这些格子的坐标

```python

from openpyxl import load_workbook

exl = load_workbook(root_path+'用户行为偏好.xlsx')

sheet3 = exl.get_sheet_by_name('Sheet3')

```

```python

sheet3.dimensions

```

'A1:I17'

```python

# 直接通过sheet索引，sheet3.dimensions获取sheet数据区域

cells = sheet3[sheet3.dimensions]

# 遍历元组判断每一个cell值是否为空

for rows in cells:

for cell in rows:

if not cell.value:

print(f'{cell.coordinate} is None \n')

```

D3 is None

D8 is None

G10 is None

2.2 Excel写入

2.2.1 写入数据并保存

2.2.1.1. 原有工作簿中修改数据并保存

```python

# 1) 导入 openpyxl 中的 load_workbook 函数

from openpyxl import load_workbook

# 2) 获取指定 excel文件对象 Workbook

exl = load_workbook(filename=root_path+'用户行为偏好.xlsx')

# 3) 通过指定 sheetname 从 Workbook 中获取 sheet 对象 Worksheet

sheet = exl.get_sheet_by_name('Sheet3')

# 4) 通过索引方式获取指定 cell 值，并重新赋值

print(f"修改前 sheet['A1']: {sheet['A1'].value}")

sheet['A1'].value = 'hello world'

print(f"修改后 sheet['A1']: {sheet['A1'].value}")

# 5) 保存修改后的内容

# 如果 filename 和原文件同名，则是直接在原文件中修改；

# 否则会新建一个 excel 文件，并保存内容

exl.save(filename=root_path+'用户行为偏好_1.xlsx') # 保存到一个新文件中新文件名称为：用户行为偏好_1.xlsx

```

修改前 sheet['A1']: 1

修改后 sheet['A1']: hello world

```python

# 验证保存修改内容是否成功

exl_1 = load_workbook(filename=root_path+'用户行为偏好_1.xlsx')

# 我们将原表中 Sheet3 中的 A1 值改为了 'hello world'

# 所以读取保存文件，查看对应值是否为 'hello world' 即可

a1 = exl_1['Sheet3']['A1'].value

if a1 == 'hello world':

print(f"修改保存成功啦～，exl_1['Sheet3']['A1'].value = {a1}")

else:

print(f"修改保存有问题，现在exl_1['Sheet3']['A1'].value = {a1}")

```

修改保存成功啦～，exl_1['Sheet3']['A1'].value = hello world

【代码解释】

从这里我们可以看到，我们只需要获取到 sheet 中的 cell 对象后，就可以通过改变 cell.value 的值来改变对应单元格中的值，然后使用 Workbook 对象的 save 函数可以将修改后的工作簿内容保存起来。

#### 2. 创建新的表格写入数据并保存

```python

# 1) 导入 openpyxl 中的 Workbook 类

from openpyxl import Workbook

# 2) 初始化一个 Workbook 对象

wb = Workbook()

print(f'默认sheet：{wb.sheetnames}')

# 3) 通过 Workbook 对象的 create_sheet 函数创建一个 sheet

# title sheet 名称

# index sheet 位置，默认从0开始

sheet = wb.create_sheet(title='mysheet', index=0)

print(f'添加后sheet：{wb.sheetnames}')

# 4) 在新建的 sheet 中写入数据

# 比如在 A1 单元格中写入 'this is test'

sheet['A1'].value = 'this is test'

print(f"sheet['A1'].value = {sheet['A1'].value}")

# 保存

wb.save(root_path+'creat_sheet_test.xlsx')

```

默认sheet：['Sheet']

添加后sheet：['mysheet', 'Sheet']

sheet['A1'].value = this is test

2.2.2 将公式写入单元格保存

```python

# 1) 导入 openpyxl 中的 load_workbook 函数

from openpyxl import load_workbook

# 2) 获取指定 excel文件对象 Workbook

exl_1 = load_workbook(filename=root_path+'用户行为偏好_1.xlsx')

# 3) 通过指定 sheetname 从 Workbook 中获取 sheet 对象 Worksheet

sheet = exl_1['订单时长分布']

print(f'订单时长分布值范围: {sheet.dimensions}') #先查看原有表格的单元格范围，防止替代原有数据

```

订单时长分布值范围: A1:D14

```python

# 单元格 A15 中写入合计

sheet['A15'].value = '合计'

```

```python

# 单元格 D15 中写入求和公式：SUM(D2:D14)

sheet['D15'] = '=SUM(D2:D14)'

exl_1.save(filename='用户行为偏好_1.xlsx')

```

```python

# 使用 xlwings 打开 excel 文件然后保存使写入的公式生效

import xlwings as xw

# 打开工作簿

app = xw.App(visible=False, add_book=False)

wb = app.books.open('用户行为偏好_1.xlsx')

wb.save()

# 关闭工作簿

wb.close()

app.quit()

```

```python

# 验证写入是否成功

# 1) 获取指定 excel文件对象 Workbook，

# 并设置 data_only=True，表示读取的时候如果单元格内是公式的话，以公式计算后的值的形式显示

exl_2 = load_workbook(filename = '用户行为偏好_1.xlsx', data_only=True)

# 2) 打印相关信息

sheet = exl_2['订单时长分布']

print(f"sheet['A15']={sheet['A15'].value}，sheet['D15']={sheet['D15'].value}")

print(f"{sheet['D1'].value} 求和值为SUM(D2:D14)={sheet['D15'].value}")

```

sheet['A15']=合计，sheet['D15']=4004.7261561561563

次数求和值为SUM(D2:D14)=4004.7261561561563

【注意】

即使设置了 data_only=True，也不能立即获取到刚刚添加的公式计算后的结果，需要自己手动/添加代码打开下对应excel表格，然后 ctrl s保存下，再运行上面代码才能获取到对应公式计算后的值。

你可以使用下面代码自动打开指定 excel 文件然后保存使写入的公式生效，使用前你需要安装 xlwings，输入`pip3 install xlwings`即可，再后面我们也会学习这个模块。

```python

# 使用 xlwings 打开 excel 文件然后保存使写入的公式生效

import xlwings as xw

# 打开工作簿

app = xw.App(visible=False, add_book=False)

wb = app.books.open('用户行为偏好_1.xlsx')

wb.save()

# 关闭工作簿

wb.close()

app.quit()

```

2.2.3 插入空列/行

```python

# 获取指定 sheet

sheet = exl_1['Sheet3']

# 插入列数据 insert_cols(idx,amount=1)

# idx是插入位置，amount是插入列数，默认是1

# idx=2第2列，第2列前插入一列

sheet.insert_cols(idx=2)

# 第2列前插入5

# sheet.insert_cols(idx=2, amount=5)

# 插入行数据 insert_rows(idx,amount=1)

# idx是插入位置，amount是插入行数，默认是1

# 在第二行前插入一行

sheet.insert_rows(idx=2)

# 第2行前插入5行

# sheet.insert_rows(idx=2, amount=5)

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.2.4 删除

```python

# 删除多列

sheet.delete_cols(idx=5, amount=2)

# 删除多行

sheet.delete_rows(idx=2, amount=5)

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.2.5 移动

当数字为正即向下或向右，为负即为向上或向左

```python

# 移动

# 当数字为正即向下或向右，为负即为向上或向左

sheet.move_range('B3:E16',rows=1,cols=-1)

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3 Excel 样式

2.3.1设置字体样式

2.3.1.1. 设置单个 cell(单元格) 字体样式

`Font(name字体名称,size大小,bold粗体,italic斜体,color颜色)`

```python

# 1) 导入 openpyxl 中的 load_workbook 函数

# 导入 openpyxl 中的 styles 模块中的 Font 类

from openpyxl import load_workbook

from openpyxl.styles import Font

# 2) 获取指定 excel文件对象 Workbook

exl_1 = load_workbook(filename=root_path+'用户行为偏好_1.xlsx')

# 3) 通过指定 sheetname 从 Workbook 中获取 sheet 对象 Worksheet

sheet = exl_1['订单时长分布']

```

```python

# 4) 获取到指定 cell 后，查看cell字体属性

cell = sheet['A1']

cell.font

```

Parameters:

name='宋体', charset=134, family=3.0, b=True, i=False, strike=None, outline=None, shadow=None, condense=None, color=

Parameters:

rgb=None, indexed=None, auto=None, theme=1, tint=0.0, type='theme', extend=None, sz=11.0, u=None, vertAlign=None, scheme='minor'

```python

# 5) 实例化一个 Font 对象，设置字体样式

# 字体改为：黑体大小改为：20 设置为：加粗斜体红色

font = Font(name='黑体', size=20, bold=True, italic=True, color='FF0000')

cell.font = font

# 6) 保存修改

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3.1.2. 设置多个 cell 的字体样式

```python

# 上面我们已经获取到了 '用户行为偏好_1.xlsx' 中的订单时长分布工作表

# 我们处理了单元格 A1 的字体样式，我们也可以通过遍历的形式，批量设置单元格字体样式

# 1) 获取要处理的单元格

# 通过 sheet 索引获取第二行 cell

# 获取列可以用字母索引，如 sheet['A'] 获取第一列 cell

cells = sheet[2]

# 2) 实例化一个 Font 对象，设置字体样式

# 字体改为：黑体大小改为：10 设置为：加粗斜体红色

font = Font(name='黑体', size=10, bold=True, italic=True, color='FF0000')

# 3) 遍历给每一个 cell 都设置上对应字体样式

for cell in cells:

cell.font = font

# 4) 保存修改

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3.2 设置边框样式

2.3.2.1. 设置单元格边框样式

`Side`：边线样式设置类，边线颜色等

Side(style=None, color=None, border_style=None)

- style：边线的样式，有以下值可选：double, mediumDashDotDot, slantDashDot, dashDotDot, dotted, hair, mediumDashed, dashed, dashDot, thin, mediumDashDot, medium, thick

- color：边线颜色

- border_style：style 的别名，必须设置，一般直接设置 border_style 就行，不用设置 style

`Border`：边框定位类，左右上下边线

Border常用参数解释：

- top bottom left right diagonal：上下左右和对角线的边线样式，为 Side 对象

- diagonalDown：对角线从左上角向右下角方向，默认为 False

- diagonalUp：对角线从右上角向左下角方向，默认为 False

```python

# 上面我们已经获取到了 '用户行为偏好_1.xlsx' 中的订单时长分布工作表 sheet

# 1) 导入 openpyxl 中的 styles 模块中的 Side, Border 类

from openpyxl.styles import Side, Border

# 2) 首先初始化一个边线对象（也可以设置多个）

side = Side(border_style='double', color='FF000000')

# 3) 通过 Border 去设置整个单元格边框样式

border = Border(left=side, right=side, top=side, bottom=side, diagonal=side, diagonalDown=True, diagonalUp=True)

```

```python

# 4) 查看目前单元格边框样式

# 获取第一行 cells

cells = sheet[1]

# 取出一个 cell 看边框样式

cells[0].border

```

Parameters:

outline=True, diagonalUp=False, diagonalDown=False, start=None, end=None, left=

Parameters:

style=None, color=None, right=

Parameters:

style=None, color=None, top=

Parameters:

style=None, color=None, bottom=

Parameters:

style=None, color=None, diagonal=

Parameters:

style=None, color=None, vertical=None, horizontal=None

```python

# 5) 修改边框样式，并保存修改

for cell in cells:

cell.border = border

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3.3 设置单元格其他样式

2.3.3.1. 设置单元格背景色

```python

# 上面我们已经获取到了 '用户行为偏好_1.xlsx' 中的订单时长分布工作表 sheet

# 1) 从 openpyxl.styles 中导入背景颜色设置类 PatternFill, GradientFill

from openpyxl.styles import PatternFill, GradientFill

# 2) 实例化 PatternFill 对象，fill_type 参数必须指定

pattern_fill = PatternFill(fill_type='solid',fgColor="DDDDDD")

# 3) 实例化 GradientFill 对象，填充类型 type 默认为 linear

gradient_fill = GradientFill(stop=('FFFFFF', '99ccff','000000'))

```

```python

# 4) 获取指定 cells 遍历填充

# 对第三行 PatternFill 模式设置背景色

cells = sheet[3]

for cell in cells:

cell.fill = pattern_fill

# 对第四行 GradientFill 模式设置背景色

cells = sheet[4]

for cell in cells:

cell.fill = gradient_fill

# 5) 保存修改

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3.3.2.设置水平居中

openpyxl.styles 中的 Alignment 类常用参数介绍：

- horizontal：水平对齐，常见值 `distributed, justify, center, left, fill, centerContinuous, right, general`

- vertical：垂直对齐，常见值 `bottom, distributed, justify, center, top`

- textRotation：文字旋转角度，数值：0-180

- wrapText：是否自动换行，bool值，默认 False

```python

# 上面我们已经获取到了 '用户行为偏好_1.xlsx' 中的订单时长分布工作表 sheet

# 1) 从 openpyxl.styles 中导入对齐方式设置类 Alignment

from openpyxl.styles import Alignment

# 2) 实例化一个 Alignment 对象，设置水平、垂直居中

alignment = Alignment(horizontal='center', vertical='center')

# 3) 获取指定 cells 遍历填充

# 对第五行数据设置上面的对齐方式

cells = sheet[5]

for cell in cells:

cell.alignment = alignment

# 4) 保存修改

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3.3.3. 设置行高与列宽

```python

# 1) 设置行高，通过 row_dimensions 和 column_dimensions 来获取行和列对象

# 2) 设置第1行行高为 30

sheet.row_dimensions[1].height = 30

# 3) 设置第3列列款为 24

sheet.column_dimensions['C'].width = 24

# 4) 保存修改

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3.4 合并、取消合并单元格

```python

# 注意：合并后的单元格只会显示合并区域中最右上角的单元格的值，会导致其他单元格内容丢失

# 上面我们已经获取到了 '用户行为偏好_1.xlsx' 对象 exl_1，我们可以通过 exl_1 来索引获取自己想要的 sheet

# 1) 获取 Sheet3 这个工作表

sheet = exl_1['Sheet3']

# 合并指定区域单元格

sheet.merge_cells('A1:B2')

# sheet.merge_cells(start_row=1, start_column=3,

# end_row=2, end_column=4)

# 保存修改

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

```python

# 解除合并

sheet.unmerge_cells('A1:B2')

# sheet.unmerge_cells(start_row=1, start_column=3,

# end_row=2, end_column=4)

# 保存修改

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3.5 练习题

打开 test.xlsx 文件，找出文件中购买数量 `buy_mount` 超过5的单元格，并对其标红、加粗、加上红色边框。

```python

# 1) 导入 openpyxl 相关函数和类

from openpyxl import load_workbook

from openpyxl.styles import Font, Side, Border

# 2) 读取 test.xlsx 文件，并筛选出 buy_mount 这一列

workbook = load_workbook(root_path+'test.xlsx')

sheet = workbook.active

buy_mount = sheet['B']

```

```python

# 3) 设置边框文字样式

side = Side(style='thin', color='FF0000')

border = Border(left=side, right=side, top=side, bottom=side)

font = Font(bold=True, color='FF0000')

```

```python

# 4) 遍历判断 cell 值是否满足筛选条件

for cell in buy_mount:

if isinstance(cell.value, float) and cell.value > 5:

cell.font = font

cell.border = border

# 5) 修改内容另存为 new_test.xlsx

workbook.save(root_path+'new_test.xlsx')

```

2.4 综合练习

2.4.1 将业务联系表.xlsx 拆分成以下两个 excel：

- 客户信息表：客户名称客户地址客户方负责人性别联系电话对接业务经理编号

- 业务经理信息表：业务经理编号所在分区所在区域业务经理姓名

```python

# 1) 导入 openpyxl 相关函数和类

from openpyxl import load_workbook, Workbook

# 2) 读取原表数据

wb = load_workbook(root_path+'业务联系表.xlsx')

# 3) 获取工作表

sheet = wb.active

```

```python

# 草稿纸

# 我们知道我们表格的实际列名在第二行

# 获取每列第二行的坐标和值

for i in sheet[2]:

print(i.coordinate, i.value)

```

A2 业务经理编号

B2 分区

C2 区域

D2 业务经理

E2 客户名称

F2 客户地址

G2 客户方负责人

H2 性别

I2 联系电话

J2 备注

```python

sheet.max_column, sheet.max_row

```

(10, 57)

```python

# 4) 筛选出需要的列

# 4.1) 客户信息表：客户名称客户地址客户方负责人性别联系电话备注对接业务经理编号

cust_info = {'业务经理编号': 'A', '客户名称': 'B', '客户地址': 'C', '客户方负责人': 'D', '性别': 'E', '联系电话': 'F', '备注': 'G'}

# 4.2) 新建一个工作簿，并将默认sheet名称改成客户信息

cust_info_excel = Workbook()

cust_info_sh = cust_info_excel.active

cust_info_sh.title = '客户信息'

```

```python

# 4.3) 遍历筛选，如果是需要的表头，就将该列的值复制到新的工作簿中的客户信息工作表中

for i in sheet[2]:

if i.value in cust_info:

# 遍历将这一列中除了第一个cell外的所有cell值复制到新表

for cell in sheet[i.coordinate[0]]:

if cell.row == 1:

continue

cust_info_sh[f'{cust_info[i.value]}{cell.row-1}'].value = cell.value

```

```python

# 5) 筛选出需要的列

# 5.1) 业务经理信息表：业务经理编号所在分区所在区域业务经理姓名

manager_info = {'业务经理编号': 'A', '分区': 'B', '区域': 'C', '业务经理': 'D'}

# 5.2) 新建一个工作簿，并将默认sheet名称改成客户信息

manager_info_excel = Workbook()

manager_info_sh = manager_info_excel.active

manager_info_sh.title = '业务经理信息'

```

```python

# 5.3) 遍历筛选，如果是需要的表头，就将该列的值复制到新的工作簿中的业务经理信息工作表中

for i in sheet[2]:

if i.value in manager_info:

# 遍历将这一列中除了第一个cell外的所有cell值复制到新表

for cell in sheet[i.coordinate[0]]:

if cell.row == 1:

continue

manager_info_sh[f'{manager_info[i.value]}{cell.row-1}'].value = cell.value

```

```python

# 6.1 ) 保存客户信息表工作簿内容

cust_info_excel.save(root_path+'客户信息表_xl.xlsx')

# 6.2) 保存业务经理信息表工作簿内容

manager_info_excel.save(root_path+'业务经理信息表_xl.xlsx')

```

以上，虽然完成了数据拆分，但是对于进一步数据处理，继续使用 openpyxl 并不是很便捷，比如数据去重，筛选等，接下来我将给大家介绍如何使用 pandas 更便捷的处理 excel 数据。

```python

import pandas as pd

# 1) 读取数据

data = pd.read_excel(root_path+'业务联系表.xlsx', header=1)

```

```python

# 2) 数据筛选处理

# 2.1) 客户信息表

# 筛选出客户信息表需要的列

cust_info_pd = data[['业务经理编号', '客户名称', '客户地址', '客户方负责人', '性别', '联系电话', '备注']]

# 去除重复行

cust_info_pd.drop_duplicates(inplace=True)

# 打印出前三行

cust_info_pd.head(3)

```

	业务经理编号	客户名称	客户地址	客户方负责人	性别	联系电话	备注
0	1	尹承望	***-*-**	孙康适	男	*--*	NaN
1	1	何茂材	***-*-**	孙康适	男	*--*	NaN
2	1	徐新霁	***-*-**	孙康适	男	*--*	NaN

```python

# 2.2) 业务经理信息表

# 筛选出业务经理信息表需要的列，并打印出前三行

manager_info_pd = data[['业务经理编号', '分区', '区域', '业务经理']]

# 去除重复行

manager_info_pd.drop_duplicates(inplace=True)

# 打印出前三行

manager_info_pd.head(3)

```

	业务经理编号	分区	区域	业务经理
0	1	南区	贵州	占亮
5	2	南区	贵州	李朝华
11	3	北区	河北	王一磊

```python

# 3) 数据保存

cust_info_pd.to_excel(root_path+'客户信息表_pd.xlsx', index=None)

manager_info_pd.to_excel(root_path+'业务经理信息表_pd.xlsx', index=None)

```

2.4.2 将客户信息表.xlsx 和客户关系表.xlsx 合并成一个excel

```python

# 接上面的，将客户信息表.xlsx 和客户关系表.xlsx 合并成一个excel

# 这里我们依然用 pandas 来处理

business_contact = pd.merge(manager_info_pd, cust_info_pd, on='业务经理编号')

# 查看合并后数据基本信息

business_contact.info()

```

Int64Index: 55 entries, 0 to 54

Data columns (total 10 columns):

# Column Non-Null Count Dtype

--- ------ -------------- -----

0 业务经理编号 55 non-null int64

1 分区 55 non-null object

2 区域 55 non-null object

3 业务经理 55 non-null object

4 客户名称 55 non-null object

5 客户地址 55 non-null object

6 客户方负责人 55 non-null object

7 性别 55 non-null object

8 联系电话 55 non-null object

9 备注 0 non-null float64

dtypes: float64(1), int64(1), object(8)

memory usage: 4.7+ KB

```python

# 查看前10条数据

business_contact.head(10)

```

	业务经理编号	分区	区域	业务经理	客户名称	客户地址	客户方负责人	性别	联系电话	备注
0	1	南区	贵州	占亮	尹承望	***-*-**	孙康适	男	*--*	NaN
1	1	南区	贵州	占亮	何茂材	***-*-**	孙康适	男	*--*	NaN
2	1	南区	贵州	占亮	徐新霁	***-*-**	孙康适	男	*--*	NaN
3	1	南区	贵州	占亮	郭承悦	***-*-**	邓翰翮	男	*--*	NaN
4	1	南区	贵州	占亮	梁浩思	***-*-**	邓翰翮	男	*--*	NaN
5	2	南区	贵州	李朝华	毛英朗	***-*-**	邓翰翮	男	*--*	NaN
6	2	南区	贵州	李朝华	侯俊美	***-*-**	任敏智	女	*--*	NaN
7	2	南区	贵州	李朝华	许高轩	***-*-**	任敏智	女	*--*	NaN
8	2	南区	贵州	李朝华	段英豪	***-*-**	任敏智	女	*--*	NaN
9	2	南区	贵州	李朝华	汤承福	***-*-**	任敏智	女	*--*	NaN

```python

# 数据保存

manager_info_pd.to_excel(root_path+'业务联系表_pd.xlsx', index=None)

```

Python办公自动化

T1:文件自动化处理&邮件批量处理

1.1文件处理

1.1.1 文件与文件路径

1.1.2 当前工作目录

1.1.3 路径操作

1.1.3.1 绝对路径和相对路径

1.1.3.2 路径操作

1.1.3.3 路径有效性检查

1.1.4 文件及文件夹操作

1.1.4.1 用os.makedirs()创建新文件夹

1.1.4.2 查看文件大小和文件夹内容

1.1.5 文件读写过程

1.1.5.1 用open()函数打开文件

1.1.5.2 读取文件内容

1.1.5.3 写入文件

1.1.5.4 保存变量

1.1.6 练习

1.1.7 组织文件

1.1.1.7.1 shutil模块

1.1.1.7.2 复制文件和文件夹

1.1.7.3 文件和文件夹的移动与改名

1.1.7.4 永久删除文件和文件夹

1.1.7.5 用send2trash模块安全地删除

1.1.8 遍历目录树

1.1.9 用zipfile模块压缩文件

1.1.9.1 创建和添加到zip文件

1.1.9.2 读取zip文件

1.1.9.3 从zip文件中解压缩

1.1.10 文件查找

1.1.10.1 glob

1.1.10.2 fnmatch模块

1.1.10.3 hashlib模块

1.1.11 练习

1.3 自动发送电子邮件

T2：Python Excel 自动化之 OpenPyXL

2.0 包的安装

2.1 Excel读取

2.1.1 读取Excel中的工作表

2.1.1.1. 读取Excel文件 `用户行为偏好.xlsx ` ，查看返回值属性

2.1.1.2. 查看对应工作簿包含的 sheet(工作表) 的名称，读取活动表

2.1.2 读取工作表中的单元格

2.1.3 读取多个单元格的值

2.1.4 练习题

2.2 Excel写入

2.2.1 写入数据并保存

2.2.1.1. 原有工作簿中修改数据并保存

2.2.2 将公式写入单元格保存

2.2.3 插入空列/行

2.2.4 删除

2.2.5 移动

2.3 Excel 样式

2.3.1设置字体样式

2.3.1.1. 设置单个 cell(单元格) 字体样式

2.3.1.2. 设置多个 cell 的字体样式

2.3.2 设置边框样式

2.3.2.1. 设置单元格边框样式

2.3.3 设置单元格其他样式

2.3.3.1. 设置单元格背景色

2.3.3.2.设置水平居中

2.3.3.3. 设置行高与列宽

2.3.4 合并、取消合并单元格

2.3.5 练习题

2.4 综合练习

2.4.1 将 业务联系表.xlsx 拆分成以下两个 excel：

2.4.2 将 客户信息表.xlsx 和 客户关系表.xlsx 合并成一个excel

你可能感兴趣的:(Python办公自动化)

2.4.1 将业务联系表.xlsx 拆分成以下两个 excel：

2.4.2 将客户信息表.xlsx 和客户关系表.xlsx 合并成一个excel