本教程旨在帮助零编程基础,但是又有“批量化处理Excel表”这种需求的大家。
在进入教程时,请确保你具有以下资质:
1、 并非工作压到头上了,急需解决一批表所以想过来速成,而是愿意耐心花上几个小时学习来获得一项长久性的技能。
2、 能熟练使用搜索引擎,明白绝大部分你产生的问题和出现的错误都可以在百度上找得到。
对于“用Python批量化处理Excel表”这件事,你应当具有如下认识:
Excel本身也是可编程的,当你点击一个单元格,写下一个函数,定义它是SUM,然后依次点击几个单元格,Excel自动给你求和时,你就完成了一次编程。这个过程对于不会使用计算机的人来说可能匪夷所思,但是对于常年和office打交道的我们来说其实很简单易懂。完成一次这样的简单编程,我们并不用去了解Excel到底s是怎么实现这个函数的,我们只用选择一个函数,比如SUM,然后选择几个我们要计算的单元格即可得到我们想要的结果。Python也是这样的,它已经有了非常强大和完备的函数库,我们只需要调用函数,然后修改参数,就可以用Python来处理我们自己的表格,它与Excel的区别无非就是没有可视化图形界面而已,你选不中单元格,没有各种菜单选项给你点,你只能手动敲击文本,但当你学习明白函数、参数、返回值、变量等概念,你就能像使用excel那样使用命令行来进行python编程,并惊叹于其强大。
对于这个教程本身,你当有这样的觉悟:
教程并非介绍完了预备知识才开始实践,而是一鼓作气的实践到最后,这个过程中,你将会因为欠缺预备知识而感到不适,但也会因此快速的具备对python处理excel这件事的直观印象和理解,你将在配置好开发环境并且动手实践过后,再来补充学习自己所需的基础知识。所以本教程鼓励你对不了解的名词和概念都百度一下(比如先了解一下到底什么是python),但不要受限于此。
而学完本教程将使你做到:
1、 安装好Python
2、 安装好Python下用于处理Excel表的相关工具
3、 进行一次“Python批量化处理Excel表”实践
4、 自行练习和实践后,拥有“遇到特定问题后百度相关函数即可自行写出相应程序”的能力
Here we go!
首先百度python,进入官网
在Download下点最新版的python
在下载页面拉到最后,可以选取下载哪个安装包。
X86-64是AMD的CPU,x86是inter的CPU,因为AMD是兼容inter的,所以大家下X86-64即可。而executable installer的意思指下载下来的安装包是个exe文件。
于是就得到了python的安装包
双击打开进行安装,这里记得勾选把python添加进环境变量,这是个很重要的选项,如果这里不勾选,安装结束后我们还要手段添加环境变量。之后我们Install Now自动安装即可。
安装结束,我们搜索python,能看到刚才安装好的python的idle。
Idle的意思是集成开发环境。也就是说这个东西把编程过程中的编辑、编译、运行等过程全部集中起来了。我们只要打开这个像是文本编辑器一样的东西,输入命令,然后点击运行,就能完成整个编程过程。
点击idle打开是这个样子的。
我们试一试:输入 print(‘HellowWorld’),敲下回车,屏幕上会打印出HelloWorld。
现在我们拥有了python,相当于拥有了锤子、扳手、斧头等等所有的基础生产工具了,理论上我们可以创造万事万物了!但是,想用这些东西去修房子也太乏力了,而python的强大之处在于,别人基于这些基础的生产工具二次开发出来的高级生产工具,我们也可以直接拿来用。意思是,我们可以用python导入别人写好的库/包,来进行更为方便的生产开发,这意味着只要你想,你就可以获得推土机、起重机、脚手架等工具来修房子。
而python下导入库(别人写好的工具包),需两个步骤,一个是安装,一个是编程时导入。接下来我们就安装python下一个很好用的excel处理包,叫pandas。现在高版本的Python都自带了pip(python自动化安装工具),所以安装包将会变得非常简单。
我们需要徽标键(就是Ctrl和Alt中间那个)+R,然后输入cmd,点击回车,打开命令行程序。
在cmd里,输入pip install pandas,意思就是用pip(python自带的安装包的工具)来安装(install)名字叫做pandas的包。敲击回车后,就可以在命令行界面看到安装开始了。
当你看到successful,意味着pandas包就已经装好了。
这个时候我们打开idle试试当我们import(导入)一个未安装的包时,会报错,但是当我们import刚才已经安装好的包时,没有提示信息,说明导入成功了。
当然,为了使用pandas包,我们还需要pip安装一些别的包,不过这里按下不表,在下一节遇到错误时,我们再回头安装。
至此,开发环境我们就已经配置好了。为了能使python脚本可以不添加路径就读取到表格文件,我们配置一个理想的实验环境,新建一个文件夹,把Excel表和Python脚本放在一起。
创建python文件,可以在idle下Ctrl+N新建一个文件,然后在file菜单下面选择save as另存为进你想要的文件夹。而对于一个py脚本,双击是直接运行,你想要编辑它的话,需要右键然后点击Edit with IDLE。
接着打开表和py脚本。我们通过编辑脚本并运行,来将这个表筛选一下,把居住地不是贵州的人员给删掉。
这样写:
并敲击F5运行
报错了,说要装xlrd,那我们接着用cmd上pip install xlrd
成功后再回来运行脚本
又说要openpyxl包,接着装呗~
成功后再去运行脚本
没报错,说明成功了(这是因为pandas包相当于是基于诸如openpyxl这些包再二次开发出来的工具,所以我们用到相关函数时,需要先装好这些基础包。正是因为这些工具包的不断迭代,python才变得异常强大)。
打开文件夹多出了个新表,打开
的确是我们想要的数据(把居住地不是贵州的人员给删掉了)。
下面解释一下代码
现在,你改改参数。
比如这样
你会发现文件夹多了我们想要的表
这里你可以思考一下,你改了什么参数,达到了什么目的呢?
接下来我们再试一试批量化操作。
此时的文件夹
改出一个新的脚本:
运行后发现所有表里的姓名为毛豆的行都被删掉了。
解释一下代码
(你试试修改参数复刻一下这个操作?)
如果你没有编程基础但还是跟着操作了一遍到这里,我相信这过程中你肯定会遇到许多未知错误和困难,但如果你运用搜索引擎或者自己相关的储备知识搞定了,我认为你足以证明自己接下来将会通过短暂又迅速的学习,快速上手一些简单的批量化表格处理工作。
为此,你需要补充的知识是:
学习python,起码知道什么是变量、什么是参数、什么是返回值、什么叫字符串等等基础知识。这个过程不会花费很多时间,但是足以让你能够成功抄到代码。不然就算你搜到了实现某个功能用什么函数,你也无法正确的修改参数得以应用。
Python3 基础语法 | 菜鸟教程www.runoob.com
学习pandas,起码知道python读取一个excel表是以怎样的一个结构存储和操作的,这将使你能够拥有组合各项操作命令来实现自己特定目标的能力。
十分钟入门 Pandas | Pandas 中文www.pypandas.cn
熟练使用搜索引擎,把自己想要完成的某个任务划分为更为具体的目标,对于每个目标,都去百度搜如何使用python使用pandas实现,把别人的代码copy下来,修改参数应用在自己的脚本里面,依次完成这些小目标,从而攻克自己要完成的大任务。
比如你这样搜:
就会有大把简单易行的方案:
练习和实践,找一个实际问题,自己尝试去解决它,在这个过程中,把任务分而治之,克服困难,耐心去学习自己欠缺的知识。只要完成两个简单的小项目,你的能力就已经迭代起来了,并会从这个过程中感到爽快和满足,接下来就真正拥有了“遇到特定问题后百度相关函数即可自行写出相应程序”的能力。