pythonpandas入门_超全干货:Pandas入门教程!

pandas是基于NumPy的一种数据分析工具,在机器学习任务中,我们首先需要对数据进行清洗和编辑等工作,pandas库大大简化了我们的工作量,熟练并掌握pandas常规用法是正确构建机器学习模型的第一步。

目录

1. 如何安装pandas

2. 如何导入pandas库和查询相应的版本信息

3. pandas数据类型

4. series教程

5. dataframe教程

6. 小结

01 如何安装Pandas

最常用的方法是通过Anaconda安装,在终端或命令符输入如下命令安装:

2a116db71ba73f5fcef879ceb1026423.png

若未安装Anaconda,使用Python自带的包管理工具pip来安装:

519f3ac63fe00e54212ea8dd6e3be090.png

02 如何导入pandas库和查询相应的版本信息

pythonpandas入门_超全干货:Pandas入门教程!_第1张图片

03 pandas数据类型

pandas包含两种数据类型:series和dataframe。

series是一种一维数据结构,每一个元素都带有一个索引,与一维数组的含义相似,其中索引可以为数字或字符串。series结构名称:

pythonpandas入门_超全干货:Pandas入门教程!_第2张图片

dataframe是一种二维数据结构,数据以表格形式(与excel类似)存储,有对应的行和列。dataframe结构名称:

pythonpandas入门_超全干货:Pandas入门教程!_第3张图片

04 series教程

1. 如何从列表,数组,字典构建series

pythonpandas入门_超全干货:Pandas入门教程!_第4张图片

2. 如何使series的索引列转化为dataframe的列

pythonpandas入门_超全干货:Pandas入门教程!_第5张图片

3. 如何结合多个series组成dataframe

pythonpandas入门_超全干货:Pandas入门教程!_第6张图片

4. 如何命名列索引的名称

pythonpandas入门_超全干货:Pandas入门教程!_第7张图片

5. 如何获得series对象A中不包含series对象B的元素

pythonpandas入门_超全干货:Pandas入门教程!_第8张图片

6. 如何获得seriesA和seriesB不相同的项

pythonpandas入门_超全干货:Pandas入门教程!_第9张图片

7. 如何获得数值series的四分位值

pythonpandas入门_超全干货:Pandas入门教程!_第10张图片

8. 如何获得series中单一项的频率计数

pythonpandas入门_超全干货:Pandas入门教程!_第11张图片

9. 如何保留series中前两个频次最多的项,其他项替换为‘other’

pythonpandas入门_超全干货:Pandas入门教程!_第12张图片

10. 如何对数值series分成10个相同数目的组

换个角度理解,对数值series离散化成10个类别(categorical)值

pythonpandas入门_超全干货:Pandas入门教程!_第13张图片

11. 如何使numpy数组转化为给定形状的dataframe

pythonpandas入门_超全干货:Pandas入门教程!_第14张图片

12. 如何找到series的值是3的倍数的位置

pythonpandas入门_超全干货:Pandas入门教程!_第15张图片

13. 获取series中给定索引的元素(items)

pythonpandas入门_超全干货:Pandas入门教程!_第16张图片

14. 如何垂直和水平的拼接series

pythonpandas入门_超全干货:Pandas入门教程!_第17张图片

15.如何获取series对象A中包含series对象B元素的位置

pythonpandas入门_超全干货:Pandas入门教程!_第18张图片

16.如何计算series之间的均方差

pythonpandas入门_超全干货:Pandas入门教程!_第19张图片

17.如何使series中每个元素的首字母为大写

pythonpandas入门_超全干货:Pandas入门教程!_第20张图片

18.如何计算series中每个元素的字符串长度

pythonpandas入门_超全干货:Pandas入门教程!_第21张图片

19.如何计算series的一阶导和二阶导

pythonpandas入门_超全干货:Pandas入门教程!_第22张图片

20.如何将一系列日期字符串转换为timeseries

pythonpandas入门_超全干货:Pandas入门教程!_第23张图片

21. 如何从一个series中获取至少包含两个元音的元素

pythonpandas入门_超全干货:Pandas入门教程!_第24张图片

22. 如何计算根据另一个series分组后的series均值

pythonpandas入门_超全干货:Pandas入门教程!_第25张图片

23. 如何计算两个series之间的欧氏距离

pythonpandas入门_超全干货:Pandas入门教程!_第26张图片

24. 如何在数值series中找局部最大值

局部最大值对应二阶导局部最小值

pythonpandas入门_超全干货:Pandas入门教程!_第27张图片

25. 如何用最少出现的字符替换空格符

pythonpandas入门_超全干货:Pandas入门教程!_第28张图片

26. 如何计算数值series的自相关系数

pythonpandas入门_超全干货:Pandas入门教程!_第29张图片

27. 如何对series进行算术运算操作

pythonpandas入门_超全干货:Pandas入门教程!_第30张图片

series是基于索引进行算数运算操作的,pandas会根据索引对数据进行运算,若series之间有不同的索引,对应的值就为Nan。结果如下:

pythonpandas入门_超全干货:Pandas入门教程!_第31张图片

05 dataframe教程

1. 如何从csv文件只读取前几行的数据

pythonpandas入门_超全干货:Pandas入门教程!_第32张图片

2. 如何从csv文件中每隔n行来创建dataframe

pythonpandas入门_超全干货:Pandas入门教程!_第33张图片

3. 如何改变导入csv文件的列值

改变列名‘medv’的值,当列值≤25时,赋值为‘Low’;列值>25时,赋值为‘High’.

pythonpandas入门_超全干货:Pandas入门教程!_第34张图片

4. 如何从csv文件导入指定的列

pythonpandas入门_超全干货:Pandas入门教程!_第35张图片

5. 如何得到dataframe的行,列,每一列的类型和相应的描述统计信息

pythonpandas入门_超全干货:Pandas入门教程!_第36张图片

6. 如何获取给定条件的行和列

pythonpandas入门_超全干货:Pandas入门教程!_第37张图片

7. 如何重命名dataframe的特定列

pythonpandas入门_超全干货:Pandas入门教程!_第38张图片

8. 如何检查dataframe中是否有缺失值

pythonpandas入门_超全干货:Pandas入门教程!_第39张图片

9. 如何统计dataframe的每列中缺失值的个数

pythonpandas入门_超全干货:Pandas入门教程!_第40张图片

10. 如何用平均值替换相应列的缺失值

pythonpandas入门_超全干货:Pandas入门教程!_第41张图片

11. 如何用全局变量作为apply函数的附加参数处理指定的列

pythonpandas入门_超全干货:Pandas入门教程!_第42张图片

12. 如何以dataframe的形式选择特定的列

pythonpandas入门_超全干货:Pandas入门教程!_第43张图片

13. 如何改变dataframe中的列顺序

pythonpandas入门_超全干货:Pandas入门教程!_第44张图片

14. 如何格式化dataframe的值

pythonpandas入门_超全干货:Pandas入门教程!_第45张图片

15. 如何将dataframe中的所有值以百分数的格式表示

pythonpandas入门_超全干货:Pandas入门教程!_第46张图片

16.如何从dataframe中每隔n行构建dataframe

pythonpandas入门_超全干货:Pandas入门教程!_第47张图片

17. 如何得到列中前n个最大值对应的索引

pythonpandas入门_超全干货:Pandas入门教程!_第48张图片

18. 如何获得dataframe行的和大于100的最末n行索引

pythonpandas入门_超全干货:Pandas入门教程!_第49张图片

19. 如何从series中查找异常值并赋值

pythonpandas入门_超全干货:Pandas入门教程!_第50张图片

20. 如何交换dataframe的两行

pythonpandas入门_超全干货:Pandas入门教程!_第51张图片

06 小结

pandas库在机器学习项目中的应用主要有两个步骤:(1)读取文件,(2)数据清洗和编辑工作,该步骤中,我们常常需要借组numpy数组来处理数据。希望这篇文章能够让你很好的入门pandas库,多多练习才是王道 。

End.

翻译:石头

参考:https://blog.csdn.net/qq_42156420/article/details/82813482

你可能感兴趣的:(pythonpandas入门)