pandas数据统计函数

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、视频链接
  • 二、使用步骤
    • 0.数据处理
    • 1.df.describe()针对所有数据列
    • 2.针对非数字类型的列(唯一去重和按值计数)
    • 3.相关系数和协方差
  • 总结


前言

提示:这里可以添加本文要记录的大概内容:

数据统计有三种方式:1、汇总类统计。2、唯一去重和按值计数。3、相关系数和协方差


提示:以下是本篇文章正文内容,下面案例可供参考

一、视频链接

https://www.bilibili.com/video/BV1UJ411A7Fs?p=6

二、使用步骤

0.数据处理

代码如下(示例):

import pandas as pd
import numpy as np
df=pd.read_excel(r"C:\Users\lenovo\Desktop\b.xls")
df.loc[:,"bwendu"]=df["bwendu"].str.replace("℃","").astype('int32')
df.loc[:,"ywendu"]=df["ywendu"].str.replace("℃","").astype('int32')

1.df.describe()针对所有数据列

对连续值来说:
count:每一列非空值的数量
mean: 每一列的平均值
std:每一列的标准差
min:最小值
25%:25%分位数,排序之后排在25%位置的数
50%:50%分位数
75%:75%分位数
max:最大值
对离散值来说特有的:
unique:不重复的离散值数目,去重之后的个数
top: 出现次数最多的离散值
freq: 上述的top出现的次数
————————————————
版权声明:本文为CSDN博主「_qz」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/m0_45210226/article/details/108942526:

#提取dataframe中所有数据列的汇总统计信息
df.describe()
df["bwendu"].mean()#查看bwendu的平均值
df["bwendu"].max()#查看bwendu的最大值
df["bwendu"].min()#查看bwendu的最小值

2.针对非数字类型的列(唯一去重和按值计数)

2.1唯一性去重df.unique()
一般不用于数值列,用于枚举、分类列
在这里插入图片描述
2.2按值计数

df["姓名"].value_counts()

pandas数据统计函数_第1张图片

3.相关系数和协方差

用途:比如:两只股票是同涨同跌?程度多大?正相关还是负相关?
产品销量的波动,跟哪些因素正相关、负相关、程度有多大?

对于两个变量x、y:
1、协方差:衡量同向反向程度,如果协方差为正,说明x、y同向变化,协方差越大说明同向程度越高。如果协方差为负数,说明x、y反向运动,协方差越小说明反向程度越大
2、相关系数:衡量相似程度。当相关系数为1时,说明两个变量变化时的正向相似程度最大;当相关系数为-1时,说明两个变量变化的反向相似程度最大

df.cov()#协方差矩阵
df.corr()#相关系数矩阵
#单独查看空气质量和最高温度的相关系数
df["aqi"].corr(df["bwendu"])
#!!这就是特征工程对于机器学习重要性的一个例子

总结

提示:这里对文章进行总结:
协方差和相关系数的数学基础不是很清楚

你可能感兴趣的:(python,python,数据分析,开发语言)