python系列(2)---pandas库基础知识

pandas是数据清洗常用包,知识点包括数据的创建、数据的操作、数据的计算、数据的索引。

脑图如下。

python系列(2)---pandas库基础知识_第1张图片

一、数据创建:Series,DataFrame

1.Series创建的两种方式 :一维数组    或者  字典

python系列(2)---pandas库基础知识_第2张图片

 

2.Series运算

python系列(2)---pandas库基础知识_第3张图片python系列(2)---pandas库基础知识_第4张图片

 

3.dataframe创建的两种方式:数组    或者  字典

python系列(2)---pandas库基础知识_第5张图片

python系列(2)---pandas库基础知识_第6张图片

二、数据的常用操作

1.读取文件pd.read_csv('文件路径',sep='\t')一般读取txt文件

python系列(2)---pandas库基础知识_第7张图片

2.读完了之后获取某列df[列名],某行数据df.ix(行名)

python系列(2)---pandas库基础知识_第8张图片

3.数据太多了只看某些符合条件数据,过滤获取数据

python系列(2)---pandas库基础知识_第9张图片

4.数据的重命名rename(),替换replace(),排序sort()

python系列(2)---pandas库基础知识_第10张图片

 

4.数据的选取,删除、添加

python系列(2)---pandas库基础知识_第11张图片

 

 

5.数据的单层索引:

  • loc.基于label名字索引。df.loc[:5]输出前5行,包括第5行(df.head(5)就是不包括第5行的)。df.loc[:5,['player','height']]前面是行索引,后面是列,用逗号分隔,行列名称必须都是表中有的字段才能索引到。
  • iloc.基于位置索引。df.iloc[[1,3,5]]输出第1,3,5行。df.iloc[:5,[1,3,5]]输出前5行,第1,3,5列。是这个位置的就行。

6.数据的过滤

df.loc[df['height']>180,'flag']='high',把身高大于180的数据判断为高,并输出到一个名为 flag的新列里面。

数据的索引http://www.zhimengzhe.com/shujuku/other/267646.html

7.多重索引(层次化索引)

python系列(2)---pandas库基础知识_第12张图片

 

三、数据的清洗

 

1.缺失值处理方法

python系列(2)---pandas库基础知识_第13张图片

2.缺失值填充fillna()

python系列(2)---pandas库基础知识_第14张图片

3.缺失值的丢弃

python系列(2)---pandas库基础知识_第15张图片

 

四、对数据常用的数学统计方法

1.跟excel操作差不多的统计函数

 

python系列(2)---pandas库基础知识_第16张图片

python系列(2)---pandas库基础知识_第17张图片

 

2.查看数据的统计特征df.describe()#包括平均数、方差、百分位数。

 

python系列(2)---pandas库基础知识_第18张图片

 

3,求相关系数df.corr(),协方差df.cov()

python系列(2)---pandas库基础知识_第19张图片

 

4.分组计算

 

 

参考文章:http://www.cnblogs.com/stream886/p/6021743.html

你可能感兴趣的:(python数据分析,数据清洗,pandas,pythoon)