Pandas库学习笔记(数据分析处理库)

主要用作:数据预处理

 

一.数据读取

pandas.read_csv()

pandas格式:DataFrame格式数据流(最核心)#此后用DF来表示

DF.head(几行) 看前几行数据      #默认为前五行

DF.tail(几行)   看后几行

DF.columns  返回列的名字

DF.shape  返回几行几列

DF.loc[index]  定位数据

可以切片DF.loc[n:m]

index 不能越界 

DF["列名"]  返回列

.tolist 转换成列表

.endwith()  检查以什么结尾

-----------

二. 数据预处理

DF.sort_values(“列名”,inplace = True)  以哪一列为基准进行排序,inplace :是否替换(生成新的列),ascending =False(降序)

 pd.isnull(列) 判断是否有缺失值

------

三.常用函数

DF["列名"].mean() 直接过滤缺失值,求均值

DF.pivot_table(index = 以哪个指标为基准,value = 统计的数据,aggfunc = 统计方式 ) # 默认方法为计算均值

DF.dropna(axis = 1, subset = 列名)     drop掉缺失值

DF.loc[第几号样本,列名]      定位

DF.reset_index()    更新索引值

DF.apply(自定义函数)     使用自定义函数

 

--------

四.series 结构

相当于DataFrame 的子集,可当作numpy当中的ndarray

你可能感兴趣的:(Pandas库学习笔记(数据分析处理库))