Python办公自动化

T1:文件自动化处理&邮件批量处理

- 文件路径识别、处理、文件夹的操作理论学习

- 文件自动化处理实践

- 邮件自动发送理论学习,使用python发送邮件附带excel附件


1.1文件处理

1.1.1  文件与文件路径

文件的两个属性:“路径”和“文件名”,路径指明文件在计算机上的位置,文件名是指该位置的文件的名称。比如,我的电脑上,有个名字为Datawhale - 开源发展理论研究.pdf的文件,它的路径在D:\Datawhale。在windows中,路径中的D:\部分是“根文件夹”,Datawhale是文件夹名。注:Windows中文件夹名和文件名不区分大小写的。

1.1.2 当前工作目录

每个运行在计算机上的程序,都有一个“当前工作目录”。利用`os.getcwd()`函数,可以取得当前工作路径的字符串,并可以利用`os.chdir()`改变它。

1.1.3 路径操作

1.1.3.1 绝对路径和相对路径

“绝对路径”,总是从根文件夹开始。

“相对路径”,相对于程序的当前工作目录。

相对路径中,单个句点“.”表示当前目录的缩写,两个句点“..”表示父文件夹。

几个常用的绝对路径和相对路径处理函数:

- os.path.abspath(path):将相对路径转换为绝对路径,将返回参数的绝对路径的字符串。

- os.path.isabs(path):判断是否是绝对路径,是返回True,不是则返回False

1.1.3.2 路径操作

`os.path.relpath(path,start)`:返回从start路径到path的相对路径的字符串。如果没提供start,就使用当前工作目录作为开始路径。

`os.path.dirname(path)`: 返回当前路径的目录名称。

`os.path.basename(path)`:返回当前路径的文件名称。

如果同时需要一个路径的目录名称和基本名称,可以调用`os.path.split()`,获得者两个字符串的元组。

```python

caFilePath = 'D:\\Datawhale\\python办公自动化\\python课程画图.pptx'

os.path.split(caFilePath)  #('D:\\Datawhale\\python办公自动化', 'python课程画图.pptx')

```

我们也可以调用os.path.dirname()和os.path.basename(),将它们的返回值放在一个元组中,从而得到同样的元组。

```python

(os.path.dirname(caFilePath),os.path.basename(caFilePath))  #('D:\\Datawhale\\python办公自动化', 'python课程画图.pptx')

```

如果我们想返回每个文件夹的字符串的列表。用`os.path.split()`无法得到,我们可以用`split()`字符串方法,并根据`os.path.sep` 中的字符串进行分割。`os.path.sep` 变量设置为正确的文件夹分割斜杠。

```python

caFilePath.split(os.path.sep)  #['D:', 'Datawhale', 'python办公自动化', 'python课程画图.pptx']

```

1.1.3.3 路径有效性检查

如果提供的路径不存在,很多Python函数就会崩溃并报错。`os.path`模块提供了一些函数,用于检测给定的路径是否存在,以及判定是文件还是文件夹。

`os.path.exists(path)`:如果path参数所指的文件或文件夹存在,则返回True,否则返回False。

`os.path.isfile(path)`:如果path参数存在,并且是一个文件,则返回True,否则返回False。

`os.path.isdir(path)`:如果path参数存在,并且是一个文件夹,则返回True,否则返回False。

```python

os.path.exists('C:\\Windows')

```

```python

os.path.exists('C:\\else')

```

```python

os.path.isfile('D:\\Datawhale\\python办公自动化\\python课程画图.pptx')

```

```python

os.path.isdir('D:\\Datawhale\\python办公自动化\\python课程画图.pptx')

```

1.1.4  文件及文件夹操作

1.1.4.1 用os.makedirs()创建新文件夹

注:`os.makedirs()`可以创建所有必要的中间文件夹。

```python

import os

os.makedirs('D:\\Datawhale\\practice')  #查看目录,已创建,若文件夹已存在,不会覆盖,会报错

```

1.1.4.2 查看文件大小和文件夹内容

我们已经可以处理文件路径,这是操作文件及文件夹的基础。接下来,我们可以搜集特定文件和文件夹的信息。`os.path`模块提供了一些函数,用于查看文件的字节数以及给定文件夹中的文件和子文件夹。

`os.path.getsize(path)`:返回path参数中文件的字节数。

`os.listdir(path)`:返回文件名字符串的列表,包含path参数中的每个文件。

```python

"""

注意这里你可以自己按照这个路径新建文件夹,并任意放入一个pptx文件,

并重命名为python课程画图.pptx。否则若不存在该文件将会报错,而非0字节

"""

os.path.getsize('D:\\Datawhale\\python办公自动化\\python课程画图.pptx')

```

```python

os.listdir('D:\\Datawhale\\python办公自动化')

```

如果想知道目录下所有文件的总字节数,可以同时使用`os.path.getsize()`和`os.listdir()`

```python

totalSize = 0

for filename in os.listdir('D:\\Datawhale\\python办公自动化'):

    totalSize = totalSize + os.path.getsize(os.path.join('D:\\Datawhale\\python办公自动化',filename))

print(totalSize)

```

1.1.5 文件读写过程

读写文件3个步骤:

1.调用`open()`函数,返回一个File对象。

2.调用File对象的`read()`或`write()`方法。

3.调用File对象的`close()`方法,关闭该文件。

open函数中 常见的对象方法及其作用说明:

1.1.5.1 用open()函数打开文件

要用`open()`函数打开一个文件,就要向它传递一个字符串路径,表明希望打开的文件。这既可以是绝对路径,也可以是相对路径。`open()`函数返回一个File对象。

先用TextEdit创建一个文本文件,名为hello.txt。输入Hello World!作为该文本文件的内容,将它保存在你的用户文件夹中。

文件对象可以通过Python内置的open函数得到,完整的语法如下。

open(file,mode=r',buffering=-1,encoding=None,errors=None,newline=None,closefd=True,opener=None)

open函数有8个参数,常用前4个,除了file参数外,其他参数都有默认值。file指定了要打开的文件名称,应包含文件路径,不写路径则表示文件和当前py脚本在同一个文件夹。buffering用于指定打开文件所用的缓冲方式,默认值-1表示使用系统默认的缓冲机制。文件读写要与硬盘交互,设置缓冲区的目的是减少CPU操作磁盘的次数,延长硬盘使用寿命。encoding用于指定文件的编码方式,如GBK、UTF-8等,默认采用UTF-8,有时候打开一个文件全是乱码,这是因为编码参数和创建文件时采用的编码方式不一样。

mode指定了文件的打开模式。打开文件的基本模式包括r、w、a,对应读、写、追加写入。附加模式包括b、t、+,表示二进制模式、文本模式、读写模式,附加模式需要和基本模式组合才能使用,如“rb”表示以二进制只读模式打开文件,“rb+”表示以二进制读写模式打开文件。

要注意的是,凡是带w的模式,操作时都要非常谨慎,它首先会清空原文件,但不会有提示。凡是带r的文件必须先存在,否则会因找不到文件而报错。

```python

helloFile = open('D:\\Datawhale\\python办公自动化\\hello.txt')

print(helloFile)

```

可以看到,调用`open()`函数将会返回一个File对象。当你需要读取或写入该文件,就可以调用helloFile变量中的File对象的方法。

1.1.5.2 读取文件内容

有了File对象,我们就可以开始从它读取内容。

`read()`:读取文件内容。

`readlines()`:按行读取文件中的内容,取得一个字符串列表,列表中每个字符串是文本中的一行且以\n结束。

```python

helloContent = helloFile.read()

helloContent

```

```python

sonnetFile = open('D:\\Datawhale\\python办公自动化\\hello.txt')

sonnetFile.readlines()

```

1.1.5.3 写入文件

需要用“写模式”‘w’和“添加模式”'a'打开一个文件,而不能用读模式打开文件。

“写模式”将覆写原有的文件,从头开始。“添加模式”将在已有文件的末尾添加文本。

```python

baconFile = open('bacon.txt','w')

baconFile.write('Hello world!\n')

```

```python

baconFile.close()  #注意,关闭后,才能完成写入,从txt文件中看到写入的内容。

```

```python

baconFile = open('bacon.txt','a')

baconFile.write('Bacon is not a vegetable.')

```

```python

baconFile.close()

```

```python

baconFile = open('bacon.txt')

content = baconFile.read()

baconFile.close()

print(content)

```

注意,`write()`方法不会像print()函数那样,在字符串的末尾自动添加换行字符。必须自己添加该字符。

- 案例:统计字母出现的频率

文件对象有iter、next方法,所以它是一个可迭代对象,可以用for循环遍历。我们可以遍历文件获得每一行字符,再遍历每一行,获得每个字符,将字符放入列表,然后统计每个字符出现的频率。

```python

from collections import Counter

my_list = []

punctuation=',.!?\,。!?、()【】<>《》=:+-*“”...\n'

with open('bacon.txt','r') as f:

    for line in f:

        for word in line:

            if word not in punctuation:

                my_list.append(word)

counter = Counter(my_list)

counter

```

1.1.5.4 保存变量

1)、shelve模块

用`shelve`模块,可以将Python中的变量保存到二进制的`shelf`文件中。这样,程序就可以从硬盘中恢复变量的数据。

```python

import shelve

shelfFile = shelve.open('mydata')

cats = ['Zonphie','Pooka','Simon']

shelfFile['cats'] = cats

shelfFile.close()

```

在Windows上运行前面的代码,我们会看到当前工作目录下有3个新文件:mydata.bak、mydata.dat和mydata.dir。在OS X上,只会创建一个mydata.db文件。

重新打开这些文件,取出数据。注意:`shelf`值不必用读模式或写模式打开,因为打开后,既能读又能写。

```python

shelfFile = shelve.open('mydata')

type(shelfFile)

```

```python

shelve.DbfilenameShelf

```

```python

shelfFile['cats']

```

```python

shelfFile.close()

```

就像字典一样,`shelf`值有`keys()`和`values()`方法,返回shelf中键和值的类似列表的值。但是这些方法返回类似列表的值,却不是真正的列表,所以应该将它们传递给`list()`函数,取得列表的形式。

```python

shelfFile = shelve.open('mydata')

list(shelfFile.keys())

```

```python

list(shelfFile.values())

```

```python

shelfFile.close()

```

2)、用`pprint.pformat()`函数保存变量

`pprint.pformat()`函数返回要打印的内容的文本字符串,这个字符串既易于阅读,也是语法上正确的Python代码。

假如,有一个字典,保存在一个变量中,希望保存这个变量和它的内容,以便将来使用。`pprint.pformat()`函数将提供一个字符串,我们可以将它写入.py文件。这个文件可以成为我们自己的模块,如果需要使用存储其中的变量,就可以导入它。

```python

import  pprint

cats = [{'name':'Zophie','desc':'chubby'},{'name':'Pooka','desc':'fluffy'}]

pprint.pformat(cats)

```

```python

fileObj = open('myCats.py','w')

fileObj.write('cats = '+pprint.pformat(cats)+'\n')

```

```python

fileObj.close()

```

import语句导入的模块本身就是Python脚本。如果来自pprint.pformat()的字符串保存为一个.py文件,该文件就是一个可以导入的模块。

```python

import myCats

myCats.cats

```

```python

myCats.cats[0]

```

```python

myCats.cats[0]['name']

```

1.1.6 练习

1、如果已有的文件以写模式打开,会发生什么?

提示:

```

以写模式打开

r : 只读模式,文件不存在泽报错,默认模式(文件指针位于文件末尾)

w : 写入模式,文件不存在则自动报错,每次打开会覆盖原文件内容,文件不关闭则可以进行多次写入(只会在打开文件时清空文件内容)

```

2、`read()`和`readlines()`方法之间的区别是什么?

提示:

    read():以原格式返回全部文本


    readline():  只返回第一行文本


    readlines():  以列表的格式返回全部文本,文本的第几行对应列表的第几个元素

综合练习:

一、生成随机的测验试卷文件

假如你是一位地理老师, 班上有 35 名学生, 你希望进行美国各州首府的一个

小测验。不妙的是,班里有几个坏蛋, 你无法确信学生不会作弊。你希望随机调整

问题的次序, 这样每份试卷都是独一无二的, 这让任何人都不能从其他人那里抄袭答案。当然,手工完成这件事又费时又无聊。 好在, 你懂一些 Python。

下面是程序所做的事:

• 创建 35 份不同的测验试卷。

• 为每份试卷创建 50 个多重选择题,次序随机。

• 为每个问题提供一个正确答案和 3 个随机的错误答案,次序随机。

• 将测验试卷写到 35 个文本文件中。

• 将答案写到 35 个文本文件中。

这意味着代码需要做下面的事:

• 将州和它们的首府保存在一个字典中。

• 针对测验文本文件和答案文本文件,调用 open()、 write()和 close()。

• 利用 random.shuffle()随机调整问题和多重选项的次序。

提示:

https://blog.csdn.net/liying_tt/article/details/117968373

1.1.7  组织文件

在上一节中,已经学习了如何使用Python创建并写入新文件。本节将介绍如何用程序组织硬盘上已经存在的文件。不知你是否经历过查找一个文件夹,里面有几十个、几百个、甚至上千个文件,需要手工进行复制、改名、移动或压缩。比如下列这样的任务:

• 在一个文件夹及其所有子文件夹中,复制所有的 pdf 文件(且只复制 pdf 文件)

• 针对一个文件夹中的所有文件,删除文件名中前导的零,该文件夹中有数百个文件,名为 spam001.txt、 spam002.txt、 spam003.txt 等。

• 将几个文件夹的内容压缩到一个 ZIP 文件中(这可能是一个简单的备份系统)

所有这种无聊的任务,正是在请求用 Python 实现自动化。通过对电脑编程来完成这些任务,你就把它变成了一个快速工作的文件职员,而且从不犯错。

1.1.1.7.1 shutil模块

`shutil`(或称为shell工具)模块中包含一些函数,可以在Python程序中复制、移动、改名和删除文件。要使用`shutil`的函数,首先需要`import shutil`

1.1.1.7.2 复制文件和文件夹

`shutil.copy(source, destination)`:将路径source处的文件复制到路径 destination处的文件夹(source 和 destination 都是字符串),并返回新复制文件绝对路径字符串。

其中destination可以是:

1)、一个文件的名称,则将source文件复制为新名称的destination

2)、一个文件夹,则将source文件复制到destination中

3)、若这个文件夹不存在,则将source目标文件内的内容复制到destination中,若destination文件夹不存在,则自动生成该文件。(慎用,因为会将source文件复制为一个没有扩展名的名字为destination的文件,这往往不是我们希望的)

```python

"""

这里如果路径下没有bacon.txt,可以从当前代码文件路径下找到bacon.txt,

将其移至指定路径学习使用

"""

import shutil

import os

shutil.copy('D:\\Datawhale\\python办公自动化\\bacon.txt', 'D:\\Datawhale\\practice')

```

- shutil.copytree(source, destination):将路径source处的文件夹,包括其包含的文件夹和文件,复制到路径destination处的文件夹,并返回新复制文件夹绝对路径字符串。

注:destination处的文件夹为新创建的文件夹,如已存在,则会报错

```python

import shutil

shutil.copytree('D:\\Datawhale\\python办公自动化','D:\\Datawhale\\practice')

```

```python

import shutil

shutil.copytree('D:\\Datawhale\\python办公自动化','D:\\Datawhale\\practice_unexist')

```

1.1.7.3 文件和文件夹的移动与改名

`shutil.move(source, destination)`:将路径 source 处的文件/文件夹移动到路径destination,并返回新位置的绝对路径的字符串。

1)、如果source和destination是文件夹,且destination已存在,则会将source文件夹下所有内容复制到destination文件夹中。移动。

2)、如果source是文件夹,destination不存在,则会将source文件夹下所有内容复制到destination文件夹中,source原文件夹名称将被替换为destination文件夹名。  移动+重命名

3)、如果source和destination是文件,source处的文件将被移动到destination处的位置,并以destination处的文件名进行命名,移动+重命名。

注意:如果destination中有原来已经存在同名文件,移动后,会被覆写,所以应当特别注意。

```python

import shutil

shutil.move('D:\\Datawhale\\practice','D:\\Datawhale\\docu')

```

1.1.7.4 永久删除文件和文件夹

`os.unlink(path)`: 删除path处的文件。

`os.rmdir(path)`: 删除path处的文件夹。该文件夹必须为空,其中没有任何文件和文件夹。

`shutil.rmtree(path)`:删除 path 处的文件夹,它包含的所有文件和文件夹都会被删除。

注意:使用时,需要非常小心,避免删错文件,一般在第一次运行时,注释掉这些程序,并加上`print()`函数来帮助查看是否是想要删除的文件。

```python

#建议先指定操作的文件夹,并查看

os.chdir('D:\\Datawhale\\docue')

os.getcwd()

```

```python

import os

for filename in os.listdir():

    print(filename)

    os.unlink(filename)

# 可以看到bacon.txt已经被删除

for filename in os.listdir():

    print(filename)

```

1.1.7.5 用send2trash模块安全地删除

`shutil.rmtree(path)`会不可恢复的删除文件和文件夹,用起来会有危险。因此使用第三方的`send2trash`模块,可以将文件或文件夹发送到计算机的垃圾箱或回收站,而不是永久删除。因程序缺陷而用send2trash 删除的某些你不想删除的东西,稍后可以从垃圾箱恢复。

注意:使用时,需要非常小心,避免删错文件,一般在第一次运行时,注释掉这些程序,并加上`print()`函数来帮助查看是否是想要删除的文件。

```python

!pip install send2trash      #安装send2trash模块

```

```python

import send2trash

send2trash.send2trash('bacon.txt')

```

1.1.8 遍历目录树

`os.walk(path)`:传入一个文件夹的路径,在for循环语句中使用`os.walk()`函数,遍历目录树,和range()函数遍历一个范围的数字类似。不同的是,`os.walk()`在循环的每次迭代中,返回三个值:

1)、当前文件夹称的字符串。

2)、当前文件夹中子文件夹的字符串的列表。

3)、当前文件夹中文件的字符串的列表。

注:当前文件夹,是指for循环当前迭代的文件夹。程序的当前工作目录,不会因为`os.walk()`而改变。

![2](.\png\2.png)

按照下图目录树,创建相应的文件。

```python

import os

for folderName, subFolders,fileNames in os.walk('D:\\animals'):

    print('The current folder is ' + folderName)

    for subFolder in subFolders:

        print('Subfolder of '  + folderName+':'+subFolder)

    for filename in fileNames:

        print('File Inside '  + folderName+':'+filename)

    print('') 

```

1.1.9 用zipfile模块压缩文件

为方便传输,常常将文件打包成.zip格式文件。利用zipfile模块中的函数,Python程序可以创建和打开(或解压)zip文件。

1.1.9.1 创建和添加到zip文件

将上述章节中animals文件夹进行压缩。创建一个example.zip的zip文件,并向其中添加文件。

`zipfile.ZipFile('filename.zip', 'w')` :以写模式创建一个压缩文件

`ZipFile` 对象的 `write('filename','compress_type=zipfile.ZIP_DEFLATED')`方法:如果向`write()`方法中传入一个路径,Python 就会压缩该路径所指的文件, 将它加到 ZIP 文件中。 如果向`write()`方法中传入一个字符串,代表要添加的文件名。第二个参数是“压缩类型”参数,告诉计算机用怎样的算法来压缩文件。可以总是将这个值设置为 `zipfile.ZIP_DEFLATED`(这指定了 deflate 压缩算法,它对各种类型的数据都很有效)。

注意:写模式会擦除zip文件中所有原有的内容。如果只希望将文件添加到原有的zip文件中,就要向`zipfile.ZipFile()`传入'a'作为第二个参数,以添加模式打开 ZIP 文件。

```python

## 1 创建一个new.zip压缩文件,并向其中添加文件

import zipfile

newZip = zipfile.ZipFile('new.zip','w')

newZip.write('Miki.txt',compress_type=zipfile.ZIP_DEFLATED)

newZip.close()

```

```python

newZip = zipfile.ZipFile('new.zip','w')

newZip.write('D:\\animals\\dogs\\Taidi.txt',compress_type=zipfile.ZIP_DEFLATED)

newZip.close()

```

```python

## 2 创建一个example.zip的压缩文件,将animals文件夹下所有文件进行压缩。

import zipfile

import os

newZip = zipfile.ZipFile('example.zip','w')

for folderName, subFolders,fileNames in os.walk('D:\\animals'):

    for filename in fileNames:

        newZip.write(os.path.join(folderName,filename),compress_type=zipfile.ZIP_DEFLATED)

newZip.close()

```

1.1.9.2 读取zip文件

调用`zipfile.ZipFile(filename)`函数创建一个`ZipFile`对象(注意大写字母Z和F),filename是要读取zip文件的文件名。

`ZipFile`对象中的两个常用方法:

`namelis()`方法,返回zip文件中包含的所有文件和文件夹的字符串列表。

`getinfo()`方法,返回一个关于特定文件的`ZipInfo`对象。

`ZipInfo`对象的两个属性:`file_size`和`compress_size`,分别表示原来文件大小和压缩后文件大小。1.2.3.2 读取zip文件

```

import zipfile,os

exampleZip = zipfile.ZipFile('example.zip')

exampleZip.namelist()

```

```

catInfo = exampleZip.getinfo('animals/Miki.txt')

```

```

catInfo.file_size

```

```

catInfo.compress_size

```

```

print('Compressed file is %s x smaller!' %(round(catInfo.file_size/catInfo.compress_size,2)))

```

```

exampleZip.close()

```

1.1.9.3 从zip文件中解压缩

`ZipFile` 对象的 `extractall()`方法:从zip文件中解压缩所有文件和文件夹,放到当前工作目录中。也可以向`extractall()`传递的一个文件夹名称,它将文件解压缩到那个文件夹, 而不是当前工作目录。如果传递的文件夹名称不存在,就会被创建。

`ZipFile` 对象的 `extract()`方法:从zip文件中解压单个文件。也可以向 extract()传递第二个参数, 将文件解压缩到指定的文件夹, 而不是当前工作目录。如果第二个参数指定的文件夹不存在, Python 就会创建它。extract()的返回值是被压缩后文件的绝对路径。

```python

import zipfile, os

exampleZip = zipfile.ZipFile('example.zip')

exampleZip.extractall('.\zip')

exampleZip.close()

```

```python

exampleZip = zipfile.ZipFile('example.zip')

exampleZip.extract('animals/Miki.txt')

exampleZip.extract('animals/Miki.txt', 'D:\\animals\\folders')

exampleZip.close()

```

1.1.10 文件查找

对于文件操作,最需要熟练掌握的就是查找文件。前面介绍了使用os.listdir、os.walk方法可以批量列出当前工作目录的全部文件,下面介绍常用于查找特定文件的模块。

1.1.10.1 glob

glob是Python自带的一个文件操作相关模块,用它可以查找符合条件的文件。例如,我们要找到当前目录下全部的.txt文档,可以用下面的代码。

```python

import glob

glob.glob('*.txt')

```

这里主要是写匹配条件,“*”匹配任意个字符,“?”匹配单个字符,也可以用“[]”匹配指定范围内的字符,如[0-9]匹配数字。

- glob.glob('*[0-9]*.*')可以匹配当前目录下文件名中带有数字的文件。

- glob.glob(r'G:\*')可以获取G盘下的所有文件和文件夹,但是它不会进一步列明文件夹下的文件。也就是说,其返回的文件名只包括当前目录里的文件名,不包括子文件夹里的文件

1.1.10.2 fnmatch模块

fnmatch也是Python自带的库,是专门用来进行文件名匹配的模块,使用它可以完成更为复杂的文件名匹配。它有4个函数,分别是fnmatch、fnmatchcase、filter和translate,其中最常用的是fnmatch函数,其语法如下。

- fnmatch.fnmatch(filename,pattern)

pattern表示匹配条件,测试文件名filename是否符合匹配条件。

下面找出目标文件夹里所有结尾带数字的文件

```python

import os,fnmatch

path = os.getcwd() # 获取当前代码文件所在目录

for foldname, subfolders,filenames in os.walk(path):

    for filename in filenames:

        if fnmatch.fnmatch(filename,'*[0-9].*'):

            print(filename)

```

fnmatchcase和fnmatch函数类似,只是fnmatchcase函数强制区分字母大小写。

以上两个函数都返回True或者False,filter函数则返回匹配的文件名列表,其语法如下:

- fnmatch.filter(filelist,pattern)

1.1.10.3 hashlib模块

随着计算机中文件越来越多,我们需要找出重复文件。重复文件可能有不同的文件名,不能简单用文件名和文件大小来判断。从科学角度,最简单的办法就是通过MD5来确定两个文件是不是一样的。

Python自带的hashlib库里提供了获取文件MD5值的方法。

```python

import hashlib

m = hashlib.md5()

f = open('bacon.txt','rb')

m.update(f.read())

f.close()

md5_value = m.hexdigest()

print(md5_value)

```

电子文件容易被篡改或者伪造,在出现纠纷时,怎么提供有力的证据来证明文件的真实性?一个可行的办法就是制作文件后对整个文件生成MD5值。一旦MD5值生成之后,文件发生过任何修改,MD5值都将改变,通过此方法可以确定文件是否被篡改过。

1.1.11 练习

1)、编写一个程序,遍历一个目录树,查找特定扩展名的文件(诸如.pdf 或.jpg)。不论这些文件的位置在哪里, 将它们拷贝到一个新的文件夹中。

2) 、一些不需要的、 巨大的文件或文件夹占据了硬盘的空间, 这并不少见。如果你试图释放计算机上的空间, 那么删除不想要的巨大文件效果最好。但首先你必须找到它们。编写一个程序, 遍历一个目录树, 查找特别大的文件或文件夹, 比方说, 超过100MB 的文件(回忆一下,要获得文件的大小,可以使用 os 模块的 `os.path.getsize()`)。将这些文件的绝对路径打印到屏幕上。

3)、编写一个程序, 在一个文件夹中, 找到所有带指定前缀的文件, 诸如 spam001.txt,spam002.txt 等,并定位缺失的编号(例如存在 spam001.txt 和 spam003.txt, 但不存在 spam002.txt)。让该程序对所有后面的文件改名, 消除缺失的编号。作为附加的挑战,编写另一个程序,在一些连续编号的文件中,空出一些编号,以便加入新的文件。

1.3 自动发送电子邮件

使用Python实现自动化邮件发送,可以让你摆脱繁琐的重复性业务,节省非常多的时间。

Python有两个内置库:`smtplib`和`email`,能够实现邮件功能,`smtplib`库负责发送邮件,`email`库负责构造邮件格式和内容。

邮件发送需要遵守**SMTP**协议,Python内置对SMTP的支持,可以发送纯文本邮件、HTML邮件以及带附件的邮件。

```python

#1 先导入相关的库和方法

import smtplib  #导入库

from smtplib import SMTP_SSL  #加密邮件内容,防止中途被截获

from email.mime.text import  MIMEText  #构造邮件的正文

from email.mime.image import MIMEImage  #构造邮件的图片

from email.mime.multipart import MIMEMultipart  #把邮件的各个部分装在一起,邮件的主体

from email.header import Header  #邮件的文件头,标题,收件人

```

```python

#2 设置邮箱域名、发件人邮箱、邮箱授权码、收件人邮箱

host_server = 'smtp.163.com' #sina 邮箱smtp服务器                #smtp 服务器的地址

sender_163 = '[email protected]'                  #sender_163为发件人的邮箱

pwd = 'DYEPOGLZDZYLOMRI'                    #pwd为邮箱的授权码'DYEPOGLZDZYLOMRI'

#也可以自己注册个邮箱,邮箱授权码'DYEPOGLZDZYLOMRI' 获取方式可参考#http://help.163.com/14/0923/22/A6S1FMJD00754KNP.html

# 设置接受邮箱,换成自己的邮箱即可

receiver = '[email protected]'     

```

```python

#3 构建MIMEMultipart对象代表邮件本身,可以往里面添加文本、图片、附件等

msg = MIMEMultipart()    #邮件主体

```

```python

#4 设置邮件头部内容

mail_title = 'python办公自动化邮件'  # 邮件标题

msg["Subject"] = Header(mail_title,'utf-8')  #装入主体

msg["From"] = sender_163          #寄件人

msg["To"] = Header("测试邮箱",'utf-8') #标题

```

```python

#5 添加正文文本

mail_content = "您好,这是使用python登录163邮箱发送邮件的测试"  #邮件的正文内容

message_text = MIMEText(mail_content,'plain','utf-8')  #构造文本,参数1:正文内容,参数2:文本格式,参数3:编码方式

msg.attach(message_text)    # 向MIMEMultipart对象中添加文本对象

```

```python

#6 添加图片

image_data = open('D:\\animals\\cats\\zophie.jpg','rb')  # 二进制读取图片

message_image = MIMEImage(image_data.read())  # 设置读取获取的二进制数据

image_data.close()      # 关闭刚才打开的文件

msg.attach(message_image)  # 添加图片文件到邮件信息当中去

```

```python

# 7 添加附件(excel表格)

atta = MIMEText(open('D:\\animals\\cats\\cat.xlsx', 'rb').read(), 'base64', 'utf-8')  # 构造附件

atta["Content-Disposition"] = 'attachment; filename="cat.xlsx"'  # 设置附件信息

msg.attach(atta)      ## 添加附件到邮件信息当中去

```

```python

#8 发送邮件

smtp = SMTP_SSL(host_server)      #SSL登录  创建SMTP对象

smtp.login(sender_163,pwd)        ## 登录邮箱,传递参数1:邮箱地址,参数2:邮箱授权码

smtp.sendmail(sender_163,receiver,msg.as_string()) # 发送邮件,传递参数1:发件人邮箱地址,参数2:收件人邮箱地址,参数3:把邮件内容格式改为str

print("邮件发送成功")

smtp.quit        # 关闭SMTP对象

```


T2:Python Excel 自动化之 OpenPyXL


2.0 包的安装

打开 CMD/Terminal 进入到自己环境后,执行下面语句安装`openpyxl`模块。

```bash

pip3 install openpyxl

```

注:openpyxl可以读/写 .xlsx /.xlsm /.xltx /.xltm 的格式文件,但是不支持去读 /.xls 格式;读取 xls 格式,可以安装 **xlrd** 模块,`pip3 install xlrd`,本章节以 /.xlsx 格式为主。

2.1 Excel读取

- 2003年版本的是 xls 格式,2007和2007年之后的版本是 xlsx 格式。

- xlsx 格式通过 `openpyxl` 模块打开; xls 格式通过 `xlwt` 模块写,`xlrd` 模块读取。

- 本文以 xlsx 模式为例

2.1.1 读取Excel中的工作表

**关于路径:**

文件应在当前工作目录才可直接用相对路径引用,可导入`os`,使用函数`os.getcwd()`弄清楚当前工作目录是什么,可使用`os.chdir()`改变当前工作目录,具体可参考第一章节。(此处显现为相对路径)

```python

# 获取当前工作目录

import os

print(os.getcwd())

import warnings

warnings.filterwarnings('ignore')

root_path = './OpenPyXL_test/'

```

2.1.1.1. 读取Excel文件 `用户行为偏好.xlsx ` ,查看返回值属性

```python

# 导入模块,查看属性

import openpyxl

wb = openpyxl.load_workbook(root_path+'用户行为偏好.xlsx')

type(wb)

```

    openpyxl.workbook.workbook.Workbook

【代码解释】

这里我们使用 openpyxl 中的 load_workbook 函数来加载指定的 xlsx 文件,。

- openpyxl.load_workbook(

    filename,

    read_only=False,

    keep_vba=False,

    data_only=False,

    keep_links=True,

    )

load_workbook 函数有五个参数,除 filename 外,其他参数都有默认值,各参数含义如下:

- `filename`: str 类型,表示要打开的文件的相对/绝对路径;

- `read_only`: bool 类型,是否以只读模式打开文件,默认值为 False,可读写;

- `keep_vba`: bool 类型,是否保留文件中的 vba 内容(即使保留了也不一定在代码中能使用),默认值为 False,不保留;

- `data_only`: bool 类型,如果单元格中是 excel 公式,是以公式计算后的值的形式显示还是以公式内容形式显示,默认值为 False,以公式内容形式展示;

- `keep_links`: bool 类型,是否保留单元格中的外链,默认值为 True,保留外链;

- 返回值类型: `openpyxl.workbook.Workbook`

如无特殊要求,我们只需要指定`filename`参数即可。

【小知识】

**import * 和from...import...**

`import *`和`from...import...`的区别

- `import`导入一个模块,相当于导入的是一个文件夹,相对路径。

- `from...import...`导入了一个模块中的一个函数,相当于文件夹中的文件,绝对路径。

2.1.1.2. 查看对应工作簿包含的 sheet(工作表) 的名称,读取活动表

```python

# 导入模块中的函数,查询对应表的名称

print(wb.sheetnames)

```

    ['订单时长分布', 'Sheet3']

【代码解释】

这里我们使用 `openpyxl.workbook.Workbook` 类对象的 `sheetnames` 属性来获取读取的工作簿中包含的 sheet(工作表) 的名称。

通过上述代码输出内容,我们可以知道 `用户行为偏好.xlsx` 中包含两个 sheet(工作表),分别是:订单时长分布、 Sheet3。

```python

# 读取工作簿的活动表

# 活动表是工作簿在 Excel 中打开时出现的工作表,在取得 Worksheet 对象后,可通过 title 属性取得它的名称。

active_sheet = wb.active

print(f'active_sheet对象: {active_sheet}')

print(f'active_sheet 名称: {active_sheet.title}')

```

    active_sheet对象:

    active_sheet 名称: 订单时长分布

【小知识】

活动表是可以修改的,在我们正常打开excel,完成修改后,保存excel,在关闭 excel 前显示的 sheet 就是活动表。

2.1.1.3. 查看指定sheet信息

```python

# 通过传递表名字符串读取表、类型和名称、内容占据的大小

sheet = wb.get_sheet_by_name('Sheet3')

print(f'sheet: {sheet}')

print(f'type(sheet): {type(sheet)}')

print(f'sheet.title: {sheet.title}')

print(f'sheet.dimensions: {sheet.dimensions}')

```

    sheet:

    type(sheet):

    sheet.title: Sheet3

    sheet.dimensions: A1:I17

【代码解释】

这里我们使用 `openpyxl.workbook.Workbook` 类对象的 `get_sheet_by_name` 方法,通过指定 sheetname 的方式来获取读取的工作簿中指定的 sheet(工作表) 对象。

并使用 `openpyxl.worksheet.worksheet.Worksheet` 类对象的一些属性来获取 sheet 的基本信息,比如 `Worksheet.title`获取 sheet 名称,`Worksheet.dimensions` 获取 sheet 中值的范围。

Workbook.get_sheet_by_name(name) 函数只有一个参数,就是:sheetname(工作表名称),功能是:通过 sheetname 获取到 Worksheet 对象,除了通过函数的方式获取到 Worksheet 对象,你还可以提过索引的方式,如:

```python

wb['Sheet3']

```

2.1.2 读取工作表中的单元格

**Cell(Excel单元格)**

- Cell 对象有一个 value 属性,包含这个单元格中保存的值。

- Cell 对象也有 row 、column 和 coordinate 属性,提供该单元格的位置信息。

- Excel 用字母指定列,在Z列之后,列开始使用两个字母:AA、AB等,所以在调用的 cell() 方法时,可传入整数作为 row 和 column 关键字参数,也可以得到一个单元格。

- 注:第一行或第一列的整数取1,而不是0.

```python

# 从表中取得单元格 在 2.1.1 中我们已经读取过工作簿了 返回结果存储变量为 wb

## 获取表格名称

print(f'sheetnames: {wb.sheetnames}')

```

    sheetnames: ['订单时长分布', 'Sheet3']

```python

# 获取指定sheet

sheet = wb.get_sheet_by_name('订单时长分布')

# 通过单元格位置获取单元格对象,如:B1

a = sheet['B1']

print(f"sheet[B1']: {a}")

# 获取并打印 B1 单元格的文本内容

print(f"sheet[B1'].value: {a.value}")

# 获取并打印 B1 单元格所在行、列和数值

print(f'Row: {a.row}, Column: {a.column}')

# 获取并打印 B1 单元格坐标 和 值

print(f'Cell {a.coordinate} is {a.value}')

```

    sheet[B1']:

    sheet[B1'].value: 日期

    Row: 1, Column: 2

    Cell B1 is 日期

```python

# 获取并打印出 B列 前8行的奇数行单元格的值

for i in range(1,8,2):

    print(i, sheet.cell(row=i,column=2).value)

```

    1 日期

    3 2020-07-24 00:00:00

    5 2020-07-24 00:00:00

    7 2020-07-24 00:00:00

```python

# 确定表格的最大行数和最大列数,即表的大小

print(f'sheet.max_row: {sheet.max_row}')

print(f'sheet.max_column: {sheet.max_column}')

```

    sheet.max_row: 14

    sheet.max_column: 4

2.1.3 读取多个单元格的值

```python

# 方法一:直接通过sheet索引,A1到C8区域的值

cells = sheet['A1:C8']

print(f'type(cells): {type(cells)} \n')

# 遍历元组 print每一个cell值

for rows in cells:

    for cell in rows:

        print(cell.value, end=" |")

    print("\n")

```

    type(cells):


    编号 |日期 |行为时长 |


    71401.30952380953 |2020-07-24 00:00:00 |a |


    71401.30952380953 |2020-07-24 00:00:00 |b |


    71401.30952380953 |2020-07-24 00:00:00 |c |


    71401.30952380953 |2020-07-24 00:00:00 |d |


    71401.30952380953 |2020-07-24 00:00:00 |e |


    71401.30952380953 |2020-07-24 00:00:00 |f |


    71401.30952380953 |2020-07-24 00:00:00 |g |

```python

# 方法二:sheet.iter_rows函数 按行获取数据

rows = sheet.iter_rows(min_row=1, max_row=8, min_col=1, max_col=3)

# 遍历元组 print每一个cell值

for row in rows:

    for cell in row:

        print(cell.value, end=" |")

    print("\n")

```

    编号 |日期 |行为时长 |


    71401.30952380953 |2020-07-24 00:00:00 |a |


    71401.30952380953 |2020-07-24 00:00:00 |b |


    71401.30952380953 |2020-07-24 00:00:00 |c |


    71401.30952380953 |2020-07-24 00:00:00 |d |


    71401.30952380953 |2020-07-24 00:00:00 |e |


    71401.30952380953 |2020-07-24 00:00:00 |f |


    71401.30952380953 |2020-07-24 00:00:00 |g |

```python

# 方法三:sheet.iter_cols函数 按列获取数据

cols = sheet.iter_cols(min_row=1, max_row=4, min_col=1, max_col=3)

# 遍历元组 print每一个cell值

for col in cols:

    for cell in col:

        print(cell.value, end=" |")

    print("\n")

```

    编号 |71401.30952380953 |71401.30952380953 |71401.30952380953 |


    日期 |2020-07-24 00:00:00 |2020-07-24 00:00:00 |2020-07-24 00:00:00 |


    行为时长 |a |b |c |

2.1.4 练习题

找出`用户行为偏好.xlsx`中 Sheet3 表中空着的格子,并输出这些格子的坐标

```python

from openpyxl import load_workbook

exl = load_workbook(root_path+'用户行为偏好.xlsx')

sheet3 = exl.get_sheet_by_name('Sheet3')

```

```python

sheet3.dimensions

```

    'A1:I17'

```python

# 直接通过sheet索引,sheet3.dimensions获取sheet数据区域

cells = sheet3[sheet3.dimensions]

# 遍历元组 判断每一个cell值是否为空

for rows in cells:

    for cell in rows:

        if not cell.value:

            print(f'{cell.coordinate} is None \n')

```

    D3 is None


    D8 is None


    G10 is None

2.2 Excel写入

2.2.1 写入数据并保存

2.2.1.1. 原有工作簿中修改数据并保存

```python

# 1) 导入 openpyxl 中的 load_workbook 函数

from openpyxl import load_workbook

# 2) 获取指定 excel文件对象 Workbook

exl = load_workbook(filename=root_path+'用户行为偏好.xlsx')

# 3) 通过指定 sheetname 从 Workbook 中获取 sheet 对象 Worksheet

sheet = exl.get_sheet_by_name('Sheet3')

# 4) 通过索引方式获取指定 cell 值,并重新赋值

print(f"修改前 sheet['A1']: {sheet['A1'].value}")

sheet['A1'].value = 'hello world'

print(f"修改后 sheet['A1']: {sheet['A1'].value}")

# 5) 保存修改后的内容

# 如果 filename 和原文件同名,则是直接在原文件中修改;

# 否则会新建一个 excel 文件,并保存内容

exl.save(filename=root_path+'用户行为偏好_1.xlsx')  # 保存到一个新文件中 新文件名称为:用户行为偏好_1.xlsx

```

    修改前 sheet['A1']: 1

    修改后 sheet['A1']: hello world

```python

# 验证保存修改内容是否成功

exl_1 = load_workbook(filename=root_path+'用户行为偏好_1.xlsx')

# 我们将原表中 Sheet3 中的 A1 值改为了 'hello world'

# 所以读取保存文件,查看对应值是否为 'hello world' 即可

a1 = exl_1['Sheet3']['A1'].value

if a1 == 'hello world':

    print(f"修改保存成功啦~,exl_1['Sheet3']['A1'].value = {a1}")

else:

    print(f"修改保存有问题,现在exl_1['Sheet3']['A1'].value = {a1}")

```

    修改保存成功啦~,exl_1['Sheet3']['A1'].value = hello world

【代码解释】

从这里我们可以看到,我们只需要获取到 sheet 中的 cell 对象后,就可以通过改变 cell.value 的值来改变 对应单元格中的值,然后使用 Workbook 对象的 save 函数可以将修改后的工作簿内容保存起来。

#### 2. 创建新的表格写入数据并保存

```python

# 1) 导入 openpyxl 中的 Workbook 类

from openpyxl import Workbook

# 2) 初始化一个 Workbook 对象

wb = Workbook()

print(f'默认sheet:{wb.sheetnames}')

# 3) 通过 Workbook 对象的 create_sheet 函数创建一个 sheet

# title sheet 名称

# index sheet 位置,默认从0开始

sheet = wb.create_sheet(title='mysheet', index=0)

print(f'添加后sheet:{wb.sheetnames}')

# 4) 在新建的 sheet 中写入数据

# 比如 在 A1 单元格中写入 'this is test'

sheet['A1'].value = 'this is test'

print(f"sheet['A1'].value = {sheet['A1'].value}")

# 保存

wb.save(root_path+'creat_sheet_test.xlsx')

```

    默认sheet:['Sheet']

    添加后sheet:['mysheet', 'Sheet']

    sheet['A1'].value = this is test

2.2.2 将公式写入单元格保存

```python

# 1) 导入 openpyxl 中的 load_workbook 函数

from openpyxl import load_workbook

# 2) 获取指定 excel文件对象 Workbook

exl_1 = load_workbook(filename=root_path+'用户行为偏好_1.xlsx')

# 3) 通过指定 sheetname 从 Workbook 中获取 sheet 对象 Worksheet

sheet = exl_1['订单时长分布']

print(f'订单时长分布 值范围: {sheet.dimensions}')      #先查看原有表格的单元格范围,防止替代原有数据

```

    订单时长分布 值范围: A1:D14

```python

# 单元格 A15 中写入 合计

sheet['A15'].value = '合计'

```

```python

# 单元格 D15 中写入求和公式:SUM(D2:D14)

sheet['D15'] = '=SUM(D2:D14)'

exl_1.save(filename='用户行为偏好_1.xlsx')

```

```python

# 使用 xlwings 打开 excel 文件然后保存 使写入的 公式生效

import xlwings as xw

# 打开工作簿

app = xw.App(visible=False, add_book=False)

wb = app.books.open('用户行为偏好_1.xlsx') 

wb.save()

# 关闭工作簿

wb.close()

app.quit()

```

```python

# 验证写入是否成功

# 1) 获取指定 excel文件对象 Workbook,

#    并设置 data_only=True,表示读取的时候如果单元格内是公式的话,以公式计算后的值的形式显示

exl_2 = load_workbook(filename = '用户行为偏好_1.xlsx', data_only=True)

# 2) 打印相关信息

sheet = exl_2['订单时长分布']

print(f"sheet['A15']={sheet['A15'].value},sheet['D15']={sheet['D15'].value}")

print(f"{sheet['D1'].value} 求和值为SUM(D2:D14)={sheet['D15'].value}")

```

    sheet['A15']=合计,sheet['D15']=4004.7261561561563

    次数 求和值为SUM(D2:D14)=4004.7261561561563

【注意】

即使设置了 data_only=True,也不能立即获取到刚刚添加的公式计算后的结果,需要自己 手动/添加代码 打开下 对应excel表格,然后 ctrl s保存下,再运行上面代码才能获取到对应公式计算后的值。

你可以使用下面代码自动打开指定 excel 文件然后保存使写入的公式生效,使用前你需要安装 xlwings,输入`pip3 install xlwings`即可,再后面我们也会学习这个模块。

```python

# 使用 xlwings 打开 excel 文件然后保存 使写入的 公式生效

import xlwings as xw

# 打开工作簿

app = xw.App(visible=False, add_book=False)

wb = app.books.open('用户行为偏好_1.xlsx') 

wb.save()

# 关闭工作簿

wb.close()

app.quit()

```

2.2.3 插入空列/行

```python

# 获取指定 sheet

sheet = exl_1['Sheet3']

# 插入列数据 insert_cols(idx,amount=1)

# idx是插入位置,amount是插入列数,默认是1

# idx=2第2列,第2列前插入一列

sheet.insert_cols(idx=2)

# 第2列前插入5

# sheet.insert_cols(idx=2, amount=5)

# 插入行数据 insert_rows(idx,amount=1)

# idx是插入位置,amount是插入行数,默认是1

# 在第二行前插入一行

sheet.insert_rows(idx=2)

# 第2行前插入5行

# sheet.insert_rows(idx=2, amount=5)

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.2.4 删除

```python

# 删除多列

sheet.delete_cols(idx=5, amount=2)

# 删除多行

sheet.delete_rows(idx=2, amount=5)

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.2.5 移动

当数字为正即向下或向右,为负即为向上或向左

```python

# 移动

# 当数字为正即向下或向右,为负即为向上或向左

sheet.move_range('B3:E16',rows=1,cols=-1)

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3 Excel 样式

2.3.1设置字体样式

2.3.1.1. 设置单个 cell(单元格) 字体样式

  `Font(name字体名称,size大小,bold粗体,italic斜体,color颜色)`

```python

# 1) 导入 openpyxl 中的 load_workbook 函数

#    导入 openpyxl 中的  styles 模块中的 Font 类

from openpyxl import load_workbook

from openpyxl.styles import Font

# 2) 获取指定 excel文件对象 Workbook

exl_1 = load_workbook(filename=root_path+'用户行为偏好_1.xlsx')

# 3) 通过指定 sheetname 从 Workbook 中获取 sheet 对象 Worksheet

sheet = exl_1['订单时长分布']

```

```python

# 4) 获取到指定 cell 后,查看cell字体属性

cell = sheet['A1']

cell.font

```

   

    Parameters:

    name='宋体', charset=134, family=3.0, b=True, i=False, strike=None, outline=None, shadow=None, condense=None, color=

    Parameters:

    rgb=None, indexed=None, auto=None, theme=1, tint=0.0, type='theme', extend=None, sz=11.0, u=None, vertAlign=None, scheme='minor'

```python

# 5) 实例化一个 Font 对象,设置字体样式

#    字体改为:黑体  大小改为:20  设置为:加粗 斜体 红色

font = Font(name='黑体', size=20, bold=True, italic=True, color='FF0000')

cell.font = font

# 6) 保存修改

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3.1.2. 设置多个 cell 的字体样式

```python

# 上面我们已经获取到了 '用户行为偏好_1.xlsx' 中的 订单时长分布 工作表

# 我们处理了 单元格 A1 的字体样式,我们也可以通过遍历的形式,批量设置单元格字体样式

# 1) 获取要处理的单元格

#    通过 sheet 索引获取第二行 cell

#    获取列可以用 字母索引,如 sheet['A'] 获取第一列 cell

cells = sheet[2]

# 2) 实例化一个 Font 对象,设置字体样式

#    字体改为:黑体  大小改为:10  设置为:加粗 斜体 红色

font = Font(name='黑体', size=10, bold=True, italic=True, color='FF0000')

# 3) 遍历给每一个 cell 都设置上对应字体样式

for cell in cells:

    cell.font = font

# 4) 保存修改

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3.2 设置边框样式

2.3.2.1. 设置单元格边框样式

`Side`:边线样式设置类,边线颜色等

Side(style=None, color=None, border_style=None)

- style:边线的样式,有以下值可选:double, mediumDashDotDot, slantDashDot, dashDotDot, dotted, hair, mediumDashed, dashed, dashDot, thin, mediumDashDot, medium, thick

- color:边线颜色

- border_style:style 的别名,必须设置,一般直接设置 border_style 就行,不用设置 style

`Border`:边框定位类,左右上下边线

Border常用参数解释:

- top bottom left right diagonal:上下左右和对角线的边线样式,为 Side 对象

- diagonalDown:对角线从左上角向右下角方向,默认为 False

- diagonalUp:对角线从右上角向左下角方向,默认为 False

```python

# 上面我们已经获取到了 '用户行为偏好_1.xlsx' 中的 订单时长分布 工作表 sheet

# 1) 导入 openpyxl 中的  styles 模块中的 Side, Border 类

from openpyxl.styles import Side, Border

# 2) 首先初始化一个边线对象(也可以设置多个)

side = Side(border_style='double', color='FF000000')

# 3) 通过 Border 去设置 整个单元格边框样式

border = Border(left=side, right=side, top=side, bottom=side, diagonal=side, diagonalDown=True, diagonalUp=True)

```

```python

# 4) 查看目前单元格边框样式

# 获取第一行 cells

cells = sheet[1]

# 取出一个 cell 看边框样式

cells[0].border

```

   

    Parameters:

    outline=True, diagonalUp=False, diagonalDown=False, start=None, end=None, left=

    Parameters:

    style=None, color=None, right=

    Parameters:

    style=None, color=None, top=

    Parameters:

    style=None, color=None, bottom=

    Parameters:

    style=None, color=None, diagonal=

    Parameters:

    style=None, color=None, vertical=None, horizontal=None

```python

# 5) 修改边框样式,并保存修改

for cell in cells:

    cell.border = border

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3.3 设置单元格其他样式

2.3.3.1. 设置单元格背景色

```python

# 上面我们已经获取到了 '用户行为偏好_1.xlsx' 中的 订单时长分布 工作表 sheet

# 1) 从 openpyxl.styles 中导入 背景颜色设置类 PatternFill, GradientFill

from openpyxl.styles import PatternFill, GradientFill

# 2) 实例化 PatternFill 对象,fill_type 参数必须指定

pattern_fill = PatternFill(fill_type='solid',fgColor="DDDDDD")

# 3) 实例化 GradientFill 对象,填充类型 type 默认为 linear

gradient_fill = GradientFill(stop=('FFFFFF', '99ccff','000000'))

```

```python

# 4) 获取指定 cells 遍历填充

# 对第三行 PatternFill 模式设置背景色

cells = sheet[3]

for cell in cells:

    cell.fill = pattern_fill

# 对第四行 GradientFill 模式设置背景色

cells = sheet[4]

for cell in cells:

    cell.fill = gradient_fill

# 5) 保存修改

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3.3.2.设置水平居中

openpyxl.styles 中的 Alignment 类常用参数介绍:

- horizontal:水平对齐,常见值 `distributed, justify, center, left, fill, centerContinuous, right, general`

- vertical:垂直对齐,常见值 `bottom, distributed, justify, center, top`

- textRotation:文字旋转角度,数值:0-180

- wrapText:是否自动换行,bool值,默认 False

```python

# 上面我们已经获取到了 '用户行为偏好_1.xlsx' 中的 订单时长分布 工作表 sheet

# 1) 从 openpyxl.styles 中导入 对齐方式设置类 Alignment

from openpyxl.styles import Alignment

# 2) 实例化一个 Alignment 对象,设置水平、垂直居中

alignment = Alignment(horizontal='center', vertical='center')

# 3) 获取指定 cells 遍历填充

# 对第五行数据设置上面的对齐方式

cells = sheet[5]

for cell in cells:

    cell.alignment = alignment

# 4) 保存修改

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3.3.3. 设置行高与列宽

```python

# 1) 设置行高,通过 row_dimensions 和 column_dimensions 来获取行和列对象

# 2) 设置第1行行高为 30

sheet.row_dimensions[1].height = 30

# 3) 设置第3列列款为 24

sheet.column_dimensions['C'].width = 24

# 4) 保存修改

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3.4 合并、取消合并单元格

```python

# 注意:合并后的单元格只会显示合并区域中最右上角的单元格的值,会导致其他单元格内容丢失

# 上面我们已经获取到了 '用户行为偏好_1.xlsx' 对象 exl_1,我们可以通过 exl_1 来索引获取自己想要的 sheet

# 1) 获取 Sheet3 这个工作表

sheet = exl_1['Sheet3']

# 合并指定区域单元格

sheet.merge_cells('A1:B2')

# sheet.merge_cells(start_row=1, start_column=3,

#                  end_row=2, end_column=4)

# 保存修改

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

```python

# 解除合并

sheet.unmerge_cells('A1:B2')

# sheet.unmerge_cells(start_row=1, start_column=3,

#                    end_row=2, end_column=4)

# 保存修改

exl_1.save(filename=root_path+'用户行为偏好_1.xlsx')

```

2.3.5 练习题

打开 test.xlsx 文件,找出文件中购买数量 `buy_mount` 超过5的单元格,并对其标红、加粗、加上红色边框。

```python

# 1) 导入 openpyxl 相关函数和类

from openpyxl import load_workbook

from openpyxl.styles import Font, Side, Border

# 2) 读取 test.xlsx 文件,并筛选出 buy_mount 这一列

workbook = load_workbook(root_path+'test.xlsx')

sheet = workbook.active

buy_mount = sheet['B']

```

```python

# 3) 设置边框 文字样式

side = Side(style='thin', color='FF0000')

border = Border(left=side, right=side, top=side, bottom=side)

font = Font(bold=True, color='FF0000')

```

```python

# 4) 遍历判断 cell 值是否满足筛选条件

for cell in buy_mount:

    if isinstance(cell.value, float) and cell.value > 5:

        cell.font = font

        cell.border = border

# 5) 修改内容另存为 new_test.xlsx

workbook.save(root_path+'new_test.xlsx')

```

2.4 综合练习

2.4.1 将 业务联系表.xlsx 拆分成以下两个 excel:

- 客户信息表:客户名称 客户地址 客户方负责人 性别 联系电话 对接业务经理编号

- 业务经理信息表:业务经理编号 所在分区 所在区域 业务经理姓名

```python

# 1) 导入 openpyxl 相关函数和类

from openpyxl import load_workbook, Workbook

# 2) 读取原表数据

wb = load_workbook(root_path+'业务联系表.xlsx')

# 3) 获取工作表

sheet = wb.active

```

```python

# 草稿纸

# 我们知道我们表格的实际列名在第二行

# 获取每列第二行的坐标和值

for i in sheet[2]:

    print(i.coordinate, i.value)

```

    A2 业务经理编号

    B2 分区

    C2 区域

    D2 业务经理

    E2 客户名称

    F2 客户地址

    G2 客户方负责人

    H2 性别

    I2 联系电话

    J2 备注

```python

sheet.max_column, sheet.max_row

```

    (10, 57)

```python

# 4) 筛选出需要的列

# 4.1) 客户信息表:客户名称 客户地址 客户方负责人 性别 联系电话 备注 对接业务经理编号

cust_info = {'业务经理编号': 'A', '客户名称': 'B', '客户地址': 'C', '客户方负责人': 'D', '性别': 'E', '联系电话': 'F', '备注': 'G'}

# 4.2) 新建一个工作簿,并将默认sheet名称改成 客户信息

cust_info_excel = Workbook()

cust_info_sh = cust_info_excel.active

cust_info_sh.title = '客户信息'

```

```python

# 4.3) 遍历筛选,如果是需要的表头,就将该列的值复制到新的工作簿中的 客户信息 工作表中

for i in sheet[2]:

    if i.value in cust_info:

        # 遍历将这一列中除了第一个cell外的所有cell值复制到新表

        for cell in sheet[i.coordinate[0]]:

            if cell.row == 1:

                continue

            cust_info_sh[f'{cust_info[i.value]}{cell.row-1}'].value = cell.value

```

```python

# 5) 筛选出需要的列

# 5.1) 业务经理信息表:业务经理编号 所在分区 所在区域 业务经理姓名

manager_info = {'业务经理编号': 'A', '分区': 'B', '区域': 'C', '业务经理': 'D'}

# 5.2) 新建一个工作簿,并将默认sheet名称改成 客户信息

manager_info_excel = Workbook()

manager_info_sh = manager_info_excel.active

manager_info_sh.title = '业务经理信息'

```

```python

# 5.3) 遍历筛选,如果是需要的表头,就将该列的值复制到新的工作簿中的 业务经理信息 工作表中

for i in sheet[2]:

    if i.value in manager_info:

        # 遍历将这一列中除了第一个cell外的所有cell值复制到新表

        for cell in sheet[i.coordinate[0]]:

            if cell.row == 1:

                continue

            manager_info_sh[f'{manager_info[i.value]}{cell.row-1}'].value = cell.value

```

```python

# 6.1 ) 保存 客户信息表 工作簿内容

cust_info_excel.save(root_path+'客户信息表_xl.xlsx')

# 6.2) 保存 业务经理信息表 工作簿内容

manager_info_excel.save(root_path+'业务经理信息表_xl.xlsx')

```

以上,虽然完成了数据拆分,但是对于进一步数据处理,继续使用 openpyxl 并不是很便捷,比如数据去重,筛选等,接下来我将给大家介绍如何使用 pandas 更便捷的处理 excel 数据。

```python

import pandas as pd

# 1) 读取数据

data = pd.read_excel(root_path+'业务联系表.xlsx', header=1)

```

```python

# 2) 数据筛选处理

# 2.1) 客户信息表

# 筛选出 客户信息表 需要的列

cust_info_pd = data[['业务经理编号', '客户名称', '客户地址', '客户方负责人', '性别', '联系电话', '备注']]

# 去除重复行

cust_info_pd.drop_duplicates(inplace=True)

# 打印出前三行

cust_info_pd.head(3)

```

 

   

     

     

     

     

     

     

     

     

   

 

 

   

     

     

     

     

     

     

     

     

   

   

     

     

     

     

     

     

     

     

   

   

     

     

     

     

     

     

     

     

   

 

业务经理编号 客户名称 客户地址 客户方负责人 性别 联系电话 备注
0 1 尹承望 *****-*****-**** 孙康适 ***-****-*** NaN
1 1 何茂材 *****-*****-**** 孙康适 ***-****-*** NaN
2 1 徐新霁 *****-*****-**** 孙康适 ***-****-*** NaN

```python

# 2.2) 业务经理信息表

# 筛选出 业务经理信息表 需要的列,并打印出前三行

manager_info_pd = data[['业务经理编号', '分区', '区域', '业务经理']]

# 去除重复行

manager_info_pd.drop_duplicates(inplace=True)

# 打印出前三行

manager_info_pd.head(3)

```

 

   

     

     

     

     

     

   

 

 

   

     

     

     

     

     

   

   

     

     

     

     

     

   

   

     

     

     

     

     

   

 

业务经理编号 分区 区域 业务经理
0 1 南区 贵州 占亮
5 2 南区 贵州 李朝华
11 3 北区 河北 王一磊

```python

# 3) 数据保存

cust_info_pd.to_excel(root_path+'客户信息表_pd.xlsx', index=None)

manager_info_pd.to_excel(root_path+'业务经理信息表_pd.xlsx', index=None)

```

2.4.2 将 客户信息表.xlsx 和 客户关系表.xlsx 合并成一个excel

```python

# 接上面的,将 客户信息表.xlsx 和 客户关系表.xlsx 合并成一个excel

# 这里我们依然用 pandas 来处理

business_contact = pd.merge(manager_info_pd, cust_info_pd, on='业务经理编号')

# 查看合并后数据基本信息

business_contact.info()

```

   

    Int64Index: 55 entries, 0 to 54

    Data columns (total 10 columns):

    #  Column  Non-Null Count  Dtype 

    ---  ------  --------------  ----- 

    0  业务经理编号  55 non-null    int64 

    1  分区      55 non-null    object

    2  区域      55 non-null    object

    3  业务经理    55 non-null    object

    4  客户名称    55 non-null    object

    5  客户地址    55 non-null    object

    6  客户方负责人  55 non-null    object

    7  性别      55 non-null    object

    8  联系电话    55 non-null    object

    9  备注      0 non-null      float64

    dtypes: float64(1), int64(1), object(8)

    memory usage: 4.7+ KB

```python

# 查看前10条数据

business_contact.head(10)

```

 

   

     

     

     

     

     

     

     

     

     

     

     

   

 

 

   

     

     

     

     

     

     

     

     

     

     

     

   

   

     

     

     

     

     

     

     

     

     

     

     

   

   

     

     

     

     

     

     

     

     

     

     

     

   

   

     

     

     

     

     

     

     

     

     

     

     

   

   

     

     

     

     

     

     

     

     

     

     

     

   

   

     

     

     

     

     

     

     

     

     

     

     

   

   

     

     

     

     

     

     

     

     

     

     

     

   

   

     

     

     

     

     

     

     

     

     

     

     

   

   

     

     

     

     

     

     

     

     

     

     

     

   

   

     

     

     

     

     

     

     

     

     

     

     

   

 

业务经理编号 分区 区域 业务经理 客户名称 客户地址 客户方负责人 性别 联系电话 备注
0 1 南区 贵州 占亮 尹承望 *****-*****-**** 孙康适 ***-****-*** NaN
1 1 南区 贵州 占亮 何茂材 *****-*****-**** 孙康适 ***-****-*** NaN
2 1 南区 贵州 占亮 徐新霁 *****-*****-**** 孙康适 ***-****-*** NaN
3 1 南区 贵州 占亮 郭承悦 *****-*****-**** 邓翰翮 ***-****-*** NaN
4 1 南区 贵州 占亮 梁浩思 *****-*****-**** 邓翰翮 ***-****-*** NaN
5 2 南区 贵州 李朝华 毛英朗 *****-*****-**** 邓翰翮 ***-****-*** NaN
6 2 南区 贵州 李朝华 侯俊美 *****-*****-**** 任敏智 ***-****-*** NaN
7 2 南区 贵州 李朝华 许高轩 *****-*****-**** 任敏智 ***-****-*** NaN
8 2 南区 贵州 李朝华 段英豪 *****-*****-**** 任敏智 ***-****-*** NaN
9 2 南区 贵州 李朝华 汤承福 *****-*****-**** 任敏智 ***-****-*** NaN

```python

# 数据保存

manager_info_pd.to_excel(root_path+'业务联系表_pd.xlsx', index=None)

```

你可能感兴趣的:(Python办公自动化)