数据处理三剑客之panda

panda的dataframe类:

DataFrame有四个重要的属性:
index:行索引。
columns:列索引。
values:值的二维数组。
name:名字。


数据操作:

维度查看
df.shape

获得数据表基本信息(维度,列名,数据类型,占用空间等)
df.info()

得到数据的均值、方差、最值等
df[‘a’].describe()

获取每一列的数据格式
df.dtypes

获得某一列的数据格式
df[“A”].dtypes

读取头几条数据
df.head(1)

读取后几条数据
df.tail(1)

查看空值
df.isnull()

查看唯一值
df.unique()

查看数据表的值
df.values
统计每个值的数量
df.value_counts()

获取行的索引
df.index

数据表合并
df_inner=pd.merge(df,df1,how=‘inner’)
df_left=pd.merge(df,df1,how=‘left’)
df_right=pd.merge(df,df1,how=‘right’)
df_outer=pd.merge(df,df1,how=‘outer’)

使用某一列的均值填充nan
df[‘A’].fillna(df[‘A’].mean())

更改数据格式
df.atype(‘int’)

更改列名称
df.rename(columns={‘a’: ‘A’})

数据替换
df.replace(‘A’,‘B’)

数据提取
loc函数按标签值进行提取,iloc按位置进行提取,ix可以同时按标签和位置进行提取。

计算两个列的相关度
df.[‘A’].corr(df.[‘B’])

皮尔逊(pearson)相关系数
df.corr()
Kendall Tau相关系数
df.corr(‘kendall’)
spearman秩相关
df.corr(‘spearman’)

统计某一列中各个元素出现的次数
df.[‘A’].value_counts()

删除列
del df.[‘A’]

删除有空值列
df[‘A’].dropna()

找出有空值的列
miss = df.columns[df.isnull().any()].tolist()

统计列的空值数
df[miss].isnull.sum()

计算偏度
df.skew()

计算中位数
df.median()

计算众数
df.mode()

计算均值
df.mean()

计算峰度
df.kurt()

计算四分值:
df.quantile(q=0.25,interpolation=‘linear’)

获取指定的时间和日期
pd.to_datetime

生成随机时间
pd.data_range(start=“20200101”,end=“20201031”,periods=10,freq=“D”)

你可能感兴趣的:(数据处理三剑客之panda)