数据科学家之路 chapter2 --- pandas(part1)

这个部分将会介绍python中处理数据最重要的工具之一---------pandas,主要涉及是其中一些操作。

因为自己之前没有了解到这些功能,导致花了很多时间去自己实现,这里做一个总结,为了提高之后的效率。

一.Series

1.先创建一个Series:

数据科学家之路 chapter2 --- pandas(part1)_第1张图片  数据科学家之路 chapter2 --- pandas(part1)_第2张图片

2.通过索引方式去选取值:

数据科学家之路 chapter2 --- pandas(part1)_第3张图片

3.再利用下numpy就能更方便的处理数据:

数据科学家之路 chapter2 --- pandas(part1)_第4张图片

4.Series的一个重要作用是:在算数运算中自动对齐不同索引的数据(有点像merge的效果)

数据科学家之路 chapter2 --- pandas(part1)_第5张图片

这里有相同的它就加上去,没有就不处理,赋空值。

二.DataFrame

1.创建DataFrame的方法就很多,这里举出典型的几种:

数据科学家之路 chapter2 --- pandas(part1)_第6张图片

2.DataFrame的一些基本操作:

数据科学家之路 chapter2 --- pandas(part1)_第7张图片

数据科学家之路 chapter2 --- pandas(part1)_第8张图片

三.接下来是一些tricks

1.改变colunmns

数据科学家之路 chapter2 --- pandas(part1)_第9张图片

2.关于删除

数据科学家之路 chapter2 --- pandas(part1)_第10张图片

3.排序

数据科学家之路 chapter2 --- pandas(part1)_第11张图片

数据科学家之路 chapter2 --- pandas(part1)_第12张图片

4.条件选择

数据科学家之路 chapter2 --- pandas(part1)_第13张图片

5.pandas两种基本类型的迭代

数据科学家之路 chapter2 --- pandas(part1)_第14张图片

6.对类型进行操作,这里要注意我们可以利用类型转换去节省内存

数据科学家之路 chapter2 --- pandas(part1)_第15张图片

上面实现的功能是只把数值型的数据找出来。

7.关于axis

数据科学家之路 chapter2 --- pandas(part1)_第16张图片

数据科学家之路 chapter2 --- pandas(part1)_第17张图片

8.字符串操作(其实pandas也支持字符串的某些函数)

数据科学家之路 chapter2 --- pandas(part1)_第18张图片

数据科学家之路 chapter2 --- pandas(part1)_第19张图片

9.改变数据类型

数据科学家之路 chapter2 --- pandas(part1)_第20张图片

那么能不能在读取数据之前就规定数据类型呢,我们要知道这是省内存的一个好方法:

数据科学家之路 chapter2 --- pandas(part1)_第21张图片

10.groupby(非常有用的操作)

数据科学家之路 chapter2 --- pandas(part1)_第22张图片

数据科学家之路 chapter2 --- pandas(part1)_第23张图片

最后我们来尝试一波可视化

数据科学家之路 chapter2 --- pandas(part1)_第24张图片

 

11.如何处理一个Series

数据科学家之路 chapter2 --- pandas(part1)_第25张图片

数据科学家之路 chapter2 --- pandas(part1)_第26张图片

数据科学家之路 chapter2 --- pandas(part1)_第27张图片

数据科学家之路 chapter2 --- pandas(part1)_第28张图片

12.处理缺失值

数据科学家之路 chapter2 --- pandas(part1)_第29张图片

数据科学家之路 chapter2 --- pandas(part1)_第30张图片

数据科学家之路 chapter2 --- pandas(part1)_第31张图片

13.关于index

数据科学家之路 chapter2 --- pandas(part1)_第32张图片

数据科学家之路 chapter2 --- pandas(part1)_第33张图片

14.关于loc 和 iloc 这两个磨人小妖精(因为我一直没搞清楚这个......)
首先是loc

数据科学家之路 chapter2 --- pandas(part1)_第34张图片

数据科学家之路 chapter2 --- pandas(part1)_第35张图片

数据科学家之路 chapter2 --- pandas(part1)_第36张图片

再来看iloc

数据科学家之路 chapter2 --- pandas(part1)_第37张图片

接下来是重点!!!它们的区别!!!

数据科学家之路 chapter2 --- pandas(part1)_第38张图片

15.如何省内存

首先看一下数据的信息

数据科学家之路 chapter2 --- pandas(part1)_第39张图片

数据科学家之路 chapter2 --- pandas(part1)_第40张图片

数据科学家之路 chapter2 --- pandas(part1)_第41张图片

数据科学家之路 chapter2 --- pandas(part1)_第42张图片

数据科学家之路 chapter2 --- pandas(part1)_第43张图片

数据科学家之路 chapter2 --- pandas(part1)_第44张图片

一个很重要的东西:category可以给数据添加逻辑规律

数据科学家之路 chapter2 --- pandas(part1)_第45张图片

数据科学家之路 chapter2 --- pandas(part1)_第46张图片

数据科学家之路 chapter2 --- pandas(part1)_第47张图片

16.对类别型变量进行编码

数据科学家之路 chapter2 --- pandas(part1)_第48张图片

数据科学家之路 chapter2 --- pandas(part1)_第49张图片

数据科学家之路 chapter2 --- pandas(part1)_第50张图片

17.读取时的一些操作(面对大数据集的应对措施)

数据科学家之路 chapter2 --- pandas(part1)_第51张图片

to be continued...

你可能感兴趣的:(数据科学)