Pandas简明教程:一、Pandas简介与安装

文章目录

          • 1、Pandas简介
          • 2、为何要用Pandas?
          • 3、知识、技能与环境的准备
          • 4、Pandas的安装与相关辅助资料
          • 本系列教程教程完整目录:

1、Pandas简介

关于Pandas的介绍在百度上随便就能搜出一大堆,所以就不多扯些大家都扯的事情。

从项目作者的书的目录其实很容易就能看明白它主要能用于做些什么。但我们这里要着重提一句的是:**其实Pandas能办到的事情,用Excel全能办到,而且许多Pandas办不到的Excel也能办到。**所以不愿意编程的人建议直接学EXCEL。完!~

2、为何要用Pandas?

如果非要说用Pandas和Excel之间有什么区别,那么其实就是一个老生常谈的问题:GUI与指令操作的区别

GUI工具最大的好处就在于容易上手、几乎无门槛。对于EXCEL而言,其实还有一点很重要的是它通常是从最基本的情况开始,在用EXCEL完成任务时每个环节的细节在自己面前展露无疑,非常有利于自己对整个业务流程的把握

那么对应的,用指令操作第一大难点就是它有一定的门槛,最起码要熟悉一门基本的程序语言。整个流程相对而言就不那么透明,在对业务掌握不够清楚的情况下,要检查出自己的错误相对就比较困难。反之,一旦跨过这个门槛,指令操作的优势就体现出来了,其中个人认为最重要的两点就是:灵活可重用度高

不过也要注意,这两点通常其实是相辅相成的。单纯说灵活性其实也不见得,比如我想求某一块数据的和、计数等,用Excel一拖几秒钟手起刀落搞定,但即使熟悉指令的情况下也要去仔细看一眼这块数据的起、止位置在哪里,结果等看清楚了这些细节还没敲代码呢别人都已经算完了。

但是,如果我们已经保存了模板,那么优势就来了。还是上面的例子,如果是EXCEL,要求和的数据不是一块而是很多块,并且还不在一个表里,同时老板还告诉你这种情况还会经常发生变化,那么可能就还需要不停地用筛选数据等功能来辅助自己准确找到想要的区域。而这种情况下如果筛选的规则是固定的某种模式,那么用指令的优势就体现出来了。只要这种模式不发生巨大变化的情况下,你所有的工作就只需要做一次。

这里就不禁想起一个小故事。我有个师兄有一次在某国企出差做项目(当时应该在读研),当时正值年底,有位高工和他闲聊时就吐槽说他最近又在忙他每年一度的一件事情,任务大概是把各种表格里的数据这样那样处理(其实不外乎就各部门的各种基础表格,然后他这里汇总、平均等等一系列操作),然后要汇总成一张大表(当然也有若干小表),最后放在他的工作报告里。听毕,师兄会心一笑,起手给他弄个小程序。大概演示一翻高工大呼内行,前后又帮他磨合了几天过后基本无BUG。然后那位高工就一直指着他这小程序用了10几年。

上面这种情况,其实就是最简单且典型的一个办公自动化的应用场景。

当然,除此之外,还有一些事情是非指令工具难以办到的了。比如我们要做一些复杂的操作,把数据拿来建立复杂的机器学习模型,那么除非是特别硬核的老铁直接上VBA实现程序来干,绝大多数凡人还是只能老实将数据导入程序来算。

谈到这里,也就回到了这个系列的初衷:面向竞赛、研究以及办公自动化。希望通过这一个简单的教程能够让有意愿掌握这门技术的人少走弯路,尽快熟悉和理解这个框架和许多操作的本质,为进一步进行高级的操作打下基础。

3、知识、技能与环境的准备
  • 知识:Python基础知识,面向对象的基本知识,对表格(最好是关系数据库)有一定的理解
  • 技能:Python编程,面向对象编程。这里再说一次是为了强调,这两个东西。如果还不会就赶紧再去补一补。具备阅读通俗的英语文档的能力(可以借助工具,如GOOGLE翻译等)。
  • 环境
    • Python的基本环境(建议直接用Anaconda,简单直接方便,懒得折腾)
    • IDE。直接看这里:Python入门IDE选择, Python轻量级IDE推荐 – Jupyter QTConosle
4、Pandas的安装与相关辅助资料
  • 安装方法:
pip install pandas
  • 官方文档:推荐稳定版主页
本系列教程教程完整目录:

一、Pandas简介与安装

二、Pandas基本数据结构-DataFrame与Series

三、Pandas文件读写

四、Pandas数据索引方式

五、Pandas简单统计操作及通用方式

六、Pandas条件查询

七、Pandas缺失数据的处理(数据清洗基础)

八、Pandas数据透视表

九、表的合并、连接、拼接(数据聚合基础)

你可能感兴趣的:(研究以及办公自动化,python,大数据,数据分析,数据挖掘)