Pandas数据统计函数

  1. 汇总类统计
  2. 唯一去重和按值计数
  3. 相关系数和协方差
1、汇总类统计
import pandas as pd
df = pd.read_csv(r"D:\node\nd\Pandas_study\pandas_test\beijing_tianqi_2018.csv")
df.set_index("ymd",inplace=True)
df.loc[:,"bWendu"] =df["bWendu"].str.replace("℃","").astype("int32")
df.loc[:,"yWendu"] =df["yWendu"].str.replace("℃","").astype("int32")

#一下子提取所有数字列统计结果
coun = df.describe()
print(coun)
提取数字列统计结果

查看单个series的数据

#查看单个series的数据
a = df["bWendu"].mean()
print("平均温度是:",a)

b = df["bWendu"].max()
print("最大值是:",b)

c = b = df["bWendu"].min()
print("最小值是:",c)
单个series运行结果
2、唯一去重和按值计数

2.1唯一去重
一般不用于数值列,而是枚举、分类列

d = df["fengxiang"].unique()
print(d)
e = df["tianqi"].unique()
print(e)
f = df["fengli"].unique()
print(f)

唯一去重运行结果

2.2按值计数

d = df["fengxiang"].value_counts()
print(d)
image.png
e = df["tianqi"].value_counts()
print(e)
image.png
f = df["fengli"].value_counts()
print(f)
image.png
3、相关系数和协方差
  1. 协方差:衡量同向反向程度,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高。
  2. 相关系数:衡量相似度程度,当他们的相关系数为1时,说明两个变量变化时的正向相似度最大,当相关系数为-1时,说明两个变量变化的反向相似度最大
#协方差矩阵
g = df.cov()
print(g)
image.png
#相关系数矩阵
g = df.corr()
print(g)
image.png
# 单独查看空气质量和最高温度的相关系数
h = df["aqi"].corr(df["bWendu"])
print(h)
#单独查看空气质量和最低温度的相关系数
k = df["aqi"].corr(df["yWendu"])
print(k)
# 空气质量和温差的相关系数
w = df["aqi"].corr(df["bWendu"]-df["yWendu"])
print(w)
image.png

你可能感兴趣的:(Pandas数据统计函数)