按列将一个excel表格拆分成多个

1.引言


昨天家人给我发消息,问我有没有办法用excel根据部门的名称将一个表拆分成若干个表,我首先就想到用excel自带的宏来实现,结果发现自己并不会,哈哈,只好放弃,转而用python去实现,实现的功能很简单,但是因为没有接触过python自动化办公方面,所以花了点时间去搜索,去找方法。
我刚开始的想法是先将整张表读到数据库里,然后用group by去分类提取到数组,然后根据名称去数据库匹配,最后输出到excel表。但是这个方法貌似有点蠢了。
经过了解,我把目光聚集到pandas这个库上,实现上简单方便。

2.pandas简介


  • Pandas是Python的一个数据分析包,该工具为解决数据分析任务而创建。它纳入大量库和标准数据模型,不仅提供高效的操作数据集所需的工具,还提供大量能使我们快速便捷地处理数据的函数和方法。
  • Pandas是字典形式,基于NumPy创建,让NumPy为中心的应用变得更加简单。

具体的方法在这里不介绍(网上都可以查到),主要介绍一下我的方法和思路

3.实现思路


  • 因为用pandas实现所以必须首先导入
import pandas as pd
  • 考虑到读取excel表需要具体路径,所以为了适用性,选择用python自带的os模块
import os
data_path = os.path.join(os.getcwd(),"原表.xlsx")   # 获取以‘原表.xlsx’为名字的文件路径
  • 接着读取excel表
data = pd.read_excel(data_path)
rows = data.shape[0]   #获取行数 
                       #shape[1]获取列数
department_list = []  #创建个空列表用来存放分类标准,即部门名称
  • 使用循环将部门名称添加到空列表
for i in range(rows):
    temp = data["部门名称"][i]
    if temp not in department_list:
        department_list.append(temp)   #将部门的分类存在一个列表中
  • 接着再使用循环获取每一行的数据,并且进行用部门名称列表匹配原表,提取数据
for department in department_list:
    new_df = pd.DataFrame()
    for i in range (0, rows):
        if data["部门名称"][i] == department:
            new_df = pd.concat([new_df, data.iloc[[i],:]], axis = 0, ignore_index = True)
  • 最后将每个部门存成一个新的表格
new_df.to_excel(str(department)+".xlsx", sheet_name=str(department), index = False)  

4.注意:

有几点bug:

(1)要处理的表必须以“原表.xlsx”为名字和格式。(当然这个可以自行修改)
(2)需要分类的标准应该以“部门名称”为名字的那一列。(也可以修改)
(3)拆分完的表格命名为各部门名称。

ps:因为家人电脑里并没有python环境,所以我选择用pyinstaller将脚本打包成exe文件,所以产生上述bug,自家使用,随用随改,哈哈哈

你可能感兴趣的:(按列将一个excel表格拆分成多个)